JP2005202335A - Method, device, and program for speech processing - Google Patents
Method, device, and program for speech processing Download PDFInfo
- Publication number
- JP2005202335A JP2005202335A JP2004011111A JP2004011111A JP2005202335A JP 2005202335 A JP2005202335 A JP 2005202335A JP 2004011111 A JP2004011111 A JP 2004011111A JP 2004011111 A JP2004011111 A JP 2004011111A JP 2005202335 A JP2005202335 A JP 2005202335A
- Authority
- JP
- Japan
- Prior art keywords
- processing
- audio signal
- calculating
- coefficient
- mean square
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、室内で拡声される音声の明瞭度を改善するための処理を行う音声処理方法と装置及びプログラムに関する。 The present invention relates to an audio processing method, apparatus, and program for performing processing for improving the intelligibility of audio that is loudened indoors.
講演会場、多目的ホール、教室、教会などの室内で、講演・講義などを行う場合、話者が発生した音声はマイクロフォンによって検出され、増幅などの電気的処理がなされた後、会場に設置されたスピーカから音響として室内に放射され、最終的に聴衆の耳に到達する。 When lectures, lectures, etc. are performed in lecture halls, multipurpose halls, classrooms, churches, etc., the voice generated by the speaker is detected by a microphone, and after electrical processing such as amplification, it is installed in the venue The sound is emitted from the speaker as sound and finally reaches the audience's ear.
このような状況では通常、室内の残響の影響でスピーカから放射される音声の明瞭度が低下する。特に、老人性難聴や聴覚障害の人にとって、このような影響の弊害が大きく、非常に聞き取りにくい音声となってしまう。また、聴取者の母語以外の言語を使った音声コミュニケーションにおいても、残響は好ましくない。例えば、語学の聞き取り実験で、同じ音声が違う残響環境で再生されれば、受験者にとって不利益が生じることにもなりかねない。 In such a situation, the intelligibility of the sound radiated from the speaker is usually lowered due to the effect of reverberation in the room. In particular, for people with senile deafness or hearing impairment, the effects of such effects are great and the sound becomes very difficult to hear. Reverberation is also undesirable in voice communication using a language other than the listener's native language. For example, in a language listening experiment, if the same voice is played in a different reverberant environment, it may be disadvantageous for the examinee.
このような問題に対し、マイクロフォンで検出された音声信号に対してスピーカに出力される前に特定の前処理を施すことによって、スピーカから放射されて聴衆の耳に到達する音声の明瞭度を向上させる試みが従来から種々なされている。その一つとして、発明者らは、荒井隆行,木下慶介,程島奈緒,楠本亜希子,喜田村朋子,“音声の定常部抑圧処理の残響に対する効果”,日本音響学会(秋期研究発表会)講演論文集,vol. 1, 449-450, 2001年10月(非特許文献1)において、入力される音声信号に対して残響によるオーバラップマスキング(overlap-masking)を減らすことを目的とする「定常部抑圧処理」を施すことを提案し、ある雑音環境下では残響による明瞭度の低下を避けることができることを確認している。 For this problem, the sound signal detected by the microphone is subjected to specific preprocessing before it is output to the speaker, thereby improving the clarity of the sound emitted from the speaker and reaching the audience's ear. Various attempts have been made in the past. As one of them, the inventors are Takayuki Arai, Keisuke Kinoshita, Nao Hojima, Akiko Enomoto, Kyoko Kitamura, “Effects of speech suppression on reverberation”, Acoustical Society of Japan (Autumn Conference) Vol. 1, 449-450, October 2001 (Non-Patent Document 1), “Standing part” is intended to reduce overlap-masking due to reverberation to an input audio signal. It has been proposed to perform "suppression processing", and it has been confirmed that a reduction in intelligibility due to reverberation can be avoided under a certain noise environment.
すなわち、残響によって音声の明瞭度を下げる要因の一つとして、オーバラップマスキングの影響が考えられている。オーバラップマスキングとは、先行する音素に伴う残響が後続する音素をマスクする効果であり、特に先行する音素のエネルギーが大きく、後続する音素のエネルギが小さい場合に、その効果が大きくなると考えられている。このようなオーバラップマスキングを減らすためには、適当に原音声のサンプルを間引くことが考えられるが、単に機械的に間引きを行ったのでは逆に音声情報が失われてしまい。結果として逆に明瞭度の低下を招く。 That is, the influence of overlap masking is considered as one of the factors that lower the intelligibility of speech due to reverberation. Overlap masking is the effect of masking the phoneme that is followed by the reverberation associated with the preceding phoneme, especially when the energy of the preceding phoneme is large and the energy of the following phoneme is small. Yes. In order to reduce such overlap masking, it is conceivable to thin out the original voice samples appropriately. However, if the thinning is simply performed, voice information is lost. As a result, the clarity is lowered.
そこで、非特許文献1では音声信号のうち定常部のみを間引く処理を行う。音声信号の定常部は、典型的には母音部の中央(音節核)であり、そのエネルギは大きいものの音声としての情報量は少ない。一方、音声信号の遷移部は音声情報の知覚に関して非常に重要な役割を果たしていることが分かっている(例えば、S.Furui, “On the role of spectral transition for speech perception,”J. Acoust. Soc. Am.,80(4):1016-1025, 1986:非特許文献2)。非特許文献2によると、音節の初期部分と最終部分を様々な位置で削除した刺激を用いて聴取実験を行った結果、音声の遷移部は音声知覚に関して非常に重要な役割を果たしており、母音の定常部は母音、または音節の認識においては必要ではないと報告されている。
Therefore, in
音声信号の定常部の中でも母音の定常部は一般にエネルギが大きいことが多いので、それに後続する遷移部やエネルギーの小さい子音はオーバラップの影響をまともに受けやすい。このため、定常部抑圧処理を施すと、音声情報の損失を最小限に抑えつつ、オーバラップマスキングによる遷移部へのマスキング量を減らすことが可能となる。 Since the steady portion of the vowel is generally large in energy among the steady portions of the audio signal, the transition portion and the consonant with low energy that follow it are easily susceptible to overlap. For this reason, when the steady part suppression process is performed, it is possible to reduce the masking amount to the transition part by overlap masking while minimizing the loss of voice information.
非特許文献1では、具体的に次のような信号処理を行う。まず、FIRフィルタなどによるフィルタバンクを用いて音声信号を1/3-octで帯域分割し、各帯域において時間包絡を抽出する。次に、各帯域の時間包絡を100Hzにダウンサンプリングし、その対数軌跡から前後2点、計5点に対する回帰係数をサンプル毎に計算する。全ての帯域に渡って、回帰係数の2乗平均(以下では、D値とする)を求める。ここで、D値は非特許文献2にならって音声信号のスペクトル遷移を示すパラメータを表すものとする。次に、元のサンプリング周波数に戻した後、D値がある閾値より小さい箇所を定常部とみなし、定常部について元の波形の振幅を抑圧する。このようにして音声信号に定常部抑圧処理を行うことにより、残響によるオーバラップマスキングの影響を軽減して音声の明瞭度の低下を防ぐことができる。
非特許文献1に開示された定常部抑圧処理は、残響によるオーバラップマスキングを減らして、残響による明瞭度の低下を回避する上で効果的であるが、特に帯域分割のためのフィルタバンクでの処理遅延が大きいため、実時間処理には必ずしも適さない。話者が発生した音声をマイクロフォンによって検出し、スピーカによって放射する場合に音声信号に対する前処理により音声の明瞭度を向上させるという当初の目的を考慮すると、処理の実時間性がない場合、話者の口の動きや動作とスピーカから発する音声とが一致しないことになる。従って、明瞭度向上のための定常部抑圧処理の実時間性は非常に重要である。
The steady-state suppression processing disclosed in Non-Patent
本発明は、マイクロフォンで検出された音声信号に対してスピーカに出力される前に明瞭度向上のための定常部抑圧処理を実時間処理により行うことを容易にする音声処理方法と装置及びプログラムを提供することを目的とする。 The present invention provides an audio processing method, apparatus, and program for facilitating real-time processing of steady-state suppression processing for improving intelligibility before an audio signal detected by a microphone is output to a speaker. The purpose is to provide.
上記の課題を解決するため、本発明は入力された音声信号に対してスピーカに出力される前に処理を施す音声処理方法であって、音声信号に対して窓掛け処理を行って該音声信号を複数のフレームに分割するステップと、分割された各フレームの音声信号について対数スペクトルを計算するステップと、対数スペクトルからケプストラム係数を計算するステップと、ケプストラム係数を時間方向に見た場合の回帰係数を計算するステップと、回帰係数の2乗平均を求めるステップと、2乗平均について閾値処理を行うことにより音声信号の定常部を求めるステップと、定常部について音声信号の振幅を抑圧するステップとを具備することを特徴とする。 In order to solve the above-described problems, the present invention is an audio processing method for performing processing on an input audio signal before being output to a speaker. A plurality of frames, a step of calculating a logarithmic spectrum for the audio signal of each divided frame, a step of calculating a cepstrum coefficient from the logarithmic spectrum, and a regression coefficient when the cepstrum coefficient is viewed in the time direction Calculating a root mean square of the regression coefficient, obtaining a stationary part of the speech signal by performing threshold processing on the mean square, and suppressing the amplitude of the speech signal for the steady part. It is characterized by comprising.
また、本発明は入力された音声信号に対してスピーカに出力される前に処理を施す音声処理装置であって、音声信号に対して窓掛け処理を行って該音声信号を複数のフレームに分割する窓掛け処理部と、窓掛け処理部により分割された各フレームの音声信号にフーリエ変換を施すフーリエ変換部と、フーリエ変換部からの出力信号に基づき対数スペクトルを計算する対数スペクトル計算部と、対数スペクトルに対して逆フーリエ変換を施すことによりケプストラム係数を生成するケプストラム係数計算部と、ケプストラム係数を時間方向に見た場合の回帰係数を計算する回帰係数計算部と、回帰係数の2乗平均を求める2乗平均部と、2乗平均について閾値処理を行うことにより音声信号の定常部を求める閾値処理部と、定常部について音声信号の振幅を抑圧する抑圧処理部とを具備することを特徴とする。 The present invention is also an audio processing apparatus that performs processing on an input audio signal before being output to a speaker, and performs a windowing process on the audio signal to divide the audio signal into a plurality of frames. A windowing processing unit, a Fourier transform unit that performs a Fourier transform on the audio signal of each frame divided by the windowing processing unit, a logarithmic spectrum calculation unit that calculates a logarithmic spectrum based on an output signal from the Fourier transform unit, A cepstrum coefficient calculation unit that generates a cepstrum coefficient by performing an inverse Fourier transform on a logarithmic spectrum, a regression coefficient calculation unit that calculates a regression coefficient when the cepstrum coefficient is viewed in the time direction, and a mean square of the regression coefficient A mean square unit for obtaining the threshold value, a threshold value processing unit for obtaining a stationary part of the audio signal by performing threshold processing for the mean square, and a voice for the stationary part Characterized by comprising a suppression unit for suppressing the amplitude of No..
さらに、本発明によると、入力された音声信号に対してスピーカに出力される前に処理を施す音声処理をコンピュータに行わせるプログラムであって、前記音声信号に対して窓掛け処理を行って該音声信号を複数のフレームに分割する処理と、分割された各フレームの音声信号について対数スペクトルを計算する処理と、前記対数スペクトルからケプストラム係数を計算する処理と、前記ケプストラム係数を時間方向に見た場合の回帰係数を計算する処理と、前記回帰係数の2乗平均を求める処理と、前記2乗平均について閾値処理を行うことにより前記音声信号の定常部を求める処理と、前記定常部について前記音声信号の振幅を抑圧する処理とを前記コンピュータに行わせる音声処理プログラムを提供することもできる。 Furthermore, according to the present invention, there is provided a program for causing a computer to perform audio processing for performing processing on an input audio signal before being output to a speaker, and performing a windowing process on the audio signal. A process of dividing the audio signal into a plurality of frames, a process of calculating a logarithmic spectrum for the audio signal of each divided frame, a process of calculating a cepstrum coefficient from the logarithmic spectrum, and the cepstrum coefficient viewed in the time direction A process for calculating a regression coefficient in the case, a process for obtaining a root mean square of the regression coefficient, a process for obtaining a stationary part of the speech signal by performing threshold processing on the mean square, and the speech for the steady part It is also possible to provide an audio processing program that causes the computer to perform processing for suppressing the amplitude of a signal.
マイクロフォンなどで検出された音声信号に対して、定常部の抑圧処理を行うことにより、スピーカから放射される音声の明瞭度を聴覚障害者や高齢者に対しても効果的に向上させることができ、また実時間処理も容易に実現可能となる。 It is possible to effectively improve the intelligibility of the sound radiated from the speaker for the hearing impaired and the elderly by performing the steady-state suppression processing on the sound signal detected by a microphone or the like. In addition, real-time processing can be easily realized.
以下、図面を参照して本発明の実施の形態を説明する。図1に、本発明の一実施形態に基づく音声処理装置を適用した音声拡声システムの例を示す。講演会場、多目的ホール、教室、教会などの室内1において、講演・講義などを行う話者2が発生した音声はマイクロフォン3によって検出される。マイクロフォン3から電気信号として出力される音声信号は、前置増幅器4により増幅された後、本発明の一実施形態に基づく音声処理装置5に入力される。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 shows an example of a voice enhancement system to which a voice processing device according to an embodiment of the present invention is applied. In the
音声処理装置5では、入力される音声信号に対して音声の明瞭度を向上させるための信号処理、すなわち後に詳しく述べるように、残響によるオーバーラップマスキングの影響を減らすために音声信号の定常部の振幅を抑圧する処理が行われる。音声処理装置5で処理された音声信号は、電力増幅器6により増幅された後、室内1に設置されたスピーカ7に供給され、このスピーカ7から音響として放射されることによって、最終的に聴衆8の耳に到達する。
The
図2に、残響によるオーバラップマスキングの様子を示す。音声としては、筑波大学多言語音声コーパスから「October」(話者:EngM2、男性)を用いた。図2(a)は原音声波形であり、図2(a)の最下行は上5行のセグメンテーションにより/o/, /k/, /t/, /o/, /b/, /er/に分割した音声波形を足し合わせた波形である。図2(b)は図2(a)の音声波形に残響時間1.1秒のインパルス応答を畳み込んだ音声波形であり、/k/, /t/, /b/のようなエネルギの弱い子音が、直前の母音に付加された残響によってマスクされている様子が分かる。つまり先行音が母音のようなエネルギの強い音素の場合、後続の音素は残響の尾による影響を大きく受けるのである。 FIG. 2 shows the state of overlap masking due to reverberation. As speech, “October” (speaker: EngM2, male) from the University of Tsukuba Multilingual Speech Corpus was used. FIG. 2A shows the original speech waveform, and the bottom line of FIG. 2A is / o /, / k /, / t /, / o /, / b /, / er / by segmentation of the top 5 lines. This is a waveform obtained by adding the voice waveforms divided into two. Fig. 2 (b) is a speech waveform obtained by convolving an impulse response with a reverberation time of 1.1 seconds into the speech waveform of Fig. 2 (a). Consonants with weak energy such as / k /, / t /, / b / It can be seen that it is masked by the reverberation added to the immediately preceding vowel. That is, when the preceding sound is a strong energy phoneme such as a vowel, the subsequent phoneme is greatly affected by the tail of the reverberation.
そこで、音声処理装置5ではエネルギは比較的大きいが音声認識にはそれほど重要ではないとされる音声信号の定常部をあらかじめ抑圧することで、残響によるオーバラップマスキングの影響を軽減させて明瞭度の改善を達成する。以下、図3を用いて音声処理装置5について具体的に説明する。
Therefore, in the
図3において、入力端子10には図1に示した前置増幅器4によって増幅された音声信号が入力される。この入力音声信号は、A/D変換器11により例えばサンプリング周波数16kHzでサンプリングされ、16ビット程度のディジタル信号に変換される。A/D変換器11から出力されるディジタル化された音声信号は、まず窓掛け処理部12に入力され、例えば20msのハニング窓あるいはハミング窓による窓掛け処理が行われる。
In FIG. 3, the audio signal amplified by the
すなわち、窓掛け処理部12では後述するケプストラム係数を用いて母音の定常部が検出されるように、ディジタル化された音声信号が例えば10ms(50%)の時間長だけ互いにオーバラップした20msの時間長の複数のフレームに切り出され、この後同じ20msの幅を持つハニング窓あるいはハミング窓による窓掛け処理が行われる。
That is, the
窓掛け処理部12から出力される各フレームの音声信号は高速フーリエ変換(FFT)部13に入力され、FFTが施される。高速フーリエ変換部13の出力信号から、対数スペクトル計算部14によって各フレームの音声信号の対数スペクトルが計算される。対数スペクトル計算部14では、具体的には高速フーリエ変換部13の出力信号について、パワースペクトルを得るために絶対値をとってから2乗計算を行い、この後10*log10を計算してdB(デシベル)に単位を変換して、出力の対数スペクトルとする。
The audio signal of each frame output from the
次に、対数スペクトル計算部14によって計算された対数スペクトルに対して、逆フーリエ変換(IFFT)部15によってIFFTが施されることにより、ケプストラム係数が生成される。生成されたケプストラム係数のうち、低い次元の係数が音声信号のスペクトル包絡を表す。そこで、ケプストラム係数に対しリフタリングを施すことにより、スペクトル包絡を表す例えば30次までのケプストラム係数を残して出力する。図4に、入力端子10に入力される音声信号の原波形に対する対数スペクトル41(実線)と、30次までのケプストラム係数であるスペクトル包絡42(破線)を示す。
Next, the log spectrum calculated by the logarithmic
次に、逆フーリエ変換部15により生成されリフタリングされた例えば30次までの各ケプストラム係数を回帰係数計算部16−1〜16−n(この場合、n=30とする)に入力し、各ケプストラム係数の時間軌跡に対して例えば前後2点、計5点の回帰係数をサンプル毎に最小二乗法により計算する。他の例として、各ケプストラム係数の時間軌跡に対し前後3点、計7点の回帰係数をサンプル毎に計算してもよい。
Next, each cepstrum coefficient up to, for example, the 30th order generated and lifted by the inverse
図5に、実線で時間軌跡5点のケプストラム係数を示し、破線で回帰直線を示す。回帰直線の傾きが回帰係数(デルタ係数)となる。この場合、30次までのケプストラム係数を用いているので、1フレーム当たり30個のデルタ係数が求まる。 In FIG. 5, the cepstrum coefficient of the five time trajectories is indicated by a solid line, and the regression line is indicated by a broken line. The slope of the regression line is the regression coefficient (delta coefficient). In this case, since 30th-order cepstrum coefficients are used, 30 delta coefficients are obtained per frame.
次に、回帰係数計算部16−1〜16−nにより計算された回帰係数である30個のデルタ係数の2乗平均を2乗平均部17により計算し、これを一つのフレームの代表的なD値とする。D値は、非特許文献2に従って定義される、音声信号のスペクトル遷移を示すパラメータであり、フレーム毎に一つずつ得られる。
Next, the mean square of the 30 delta coefficients, which are the regression coefficients calculated by the regression coefficient calculators 16-1 to 16-n, is calculated by the mean
図6に、音声信号の母音部分の原波形61(塗りつぶされた部分)と2乗平均部17により得られる2乗平均であるD値62(線で描かれた部分)の例を示す。D値の小さい箇所は、母音の定常部に相当する。そこで、D値を閾値処理部18に入力して、予め定められた閾値と比較し、D値が閾値より小さい箇所を母音の定常部とする。閾値処理部18の出力は、例えば母音の定常部でα(0≦α<1)、それ以外の部分で1をとるような二値信号からなる定常部検出信号である。この例ではα=0.4とするが、0≦α<1の値であれば何でもよい。この定常部検出信号は乗算器19に入力され、A/D変換器11から出力されるディジタル化された音声信号に乗じられることにより、定常部について音声信号の振幅が抑圧される。
FIG. 6 shows an example of an original waveform 61 (filled portion) of the vowel part of the audio signal and a D value 62 (portion drawn with a line) that is a mean square obtained by the mean
図7に、音声信号の原波形71(薄く塗りつぶされた部分及び濃く塗りつぶされた部分)と定常部が抑圧された後の波形72(濃く塗りつぶされた部分)を示す。乗算器19からの定常部抑圧処理後の音声信号は、出力端子21から出力される。出力端子21から出力される音声信号は、例えば図1の電力増幅器6に入力され、スピーカ7から音響として放射される。
FIG. 7 shows an original waveform 71 (lightly painted portion and darkly painted portion) of the audio signal and a waveform 72 (darkly painted portion) after the steady portion is suppressed. The audio signal after the stationary part suppression processing from the
このように本実施形態の音声処理装置によると、入力される音声信号の定常部の振幅を抑圧する処理を行うことができるので、処理後の音声信号を図1に示したように電力増幅器6を介して室内1に設置されたスピーカ7に供給することによって、明瞭度の高い音声を発することができる。
As described above, according to the sound processing apparatus of the present embodiment, the process of suppressing the amplitude of the stationary part of the input sound signal can be performed, so that the processed sound signal is converted into the
また、本実施形態の音声処理装置では、入力される音声信号のフレーム単位で残響によるオーバラップマスキングの影響を軽減させる明瞭度の改善処理を行うため、音声信号をフィルタバンクにより帯域分割してから同様の処理を行う非特許文献1に比較して処理遅延が非常に短く、実時間処理が容易となる。
In addition, in the speech processing apparatus of the present embodiment, in order to perform the intelligibility improvement processing to reduce the influence of overlap masking due to reverberation in units of frames of the input speech signal, the speech signal is divided into bands by a filter bank. Compared to
図3に示した音声処理装置は、A/D変換器11の出力からD/A変換器20までの処理をDSP(Digital Signal Processor)あるいは汎用のCPU(Central Processing Unit)を用いてソフトウェア処理により実現することもできる。また、図3に示した音声処理装置を専用のハードウェアを用いて実現することも可能である。
The audio processing apparatus shown in FIG. 3 performs processing from the output of the A /
次に、本発明の実施形態の効果を確認するために行った聴取実験の結果について説明する。まず、実験室環境における聴取実験の結果について述べる。
残響環境は、コンピュータ上で音声信号と残響のインパルス応答を畳み込むことによって実現した。使用したインパルス応答は、東大和市大ホール(反射板無し)で測定されたインパルス応答を基に、それらを人工的に加工することによって残響時間0.4秒から1.3秒までの範囲に変化させたものである。
Next, the result of a listening experiment conducted to confirm the effect of the embodiment of the present invention will be described. First, the results of listening experiments in a laboratory environment will be described.
The reverberation environment was realized by convolving the speech signal and the reverberant impulse response on a computer. The impulse response used was based on the impulse response measured at the Higashiyamato City Dai Hall (without reflector) and was artificially processed to change the reverberation time from 0.4 seconds to 1.3 seconds. It is.
刺激は、日本語の単音節CV(子音−母音)をターゲットとし、日本語のキャリアセンス「題目としては_といいます」に挿入した。Vとして/a/, /i/を用い、Cとして/p/, /t/, /k/, /b/, /d/, /g/, /s/, /∫/, /h/, /t∫/, /dz/, /d3/, /m/, /n/の14子音を用いた。結局、実験では24種類のCVを使用した。各刺激は、ATR研究用日本語音声データベース(話者:MAU、40歳 男性)を用いた。刺激音は、原音声信号に残響を畳み込んだ刺激セット(処理なし)と、本発明の実施形態に基づく定常部抑圧処理を行った後に残響を畳み込んだ刺激セット(処理あり)の二種類を用意した。被験者は、日本語を母語とする健聴者44名(残響時間が短いセットに対して22名、長いセットに対して22名)とした。
The stimulus was targeted to Japanese monosyllable CV (consonant-vowel) and inserted into the Japanese career sense "I'll call it _". / A /, / i / as V and / p /, / t /, / k /, / b /, / d /, / g /, / s /, / ∫ /, / h /, as
実験の指示は、防音室内のコンピュータ画面上で行った。刺激音の指示はヘッドフォン(STAX SR-303)を用い、被験者毎に適した音圧レベルに調整した。各試行において、まず刺激音を一度だけ提示し、提示終了後、画面上に実験で使用した24種類のCVを選択肢としてカナで表示した。被験者には、画面上の選択肢を強制的に一つマウスでクリックさせて、回答してもらった。選択が終わると、次の刺激が自動的に提示されるようにした。各被験者に対して、計240刺激(残響5種類×24単音節×処理2種類)をランダムに並べて提示した。 The instruction of the experiment was performed on the computer screen in the soundproof room. The instruction of the stimulation sound was adjusted to a sound pressure level suitable for each subject using headphones (STAX SR-303). In each trial, first, the stimulus sound was presented only once, and after the presentation, 24 types of CV used in the experiment were displayed on the screen as options as kana. The subject was forced to click one of the choices on the screen with a mouse and responded. When the selection is over, the next stimulus is automatically presented. A total of 240 stimuli (5 types of reverberation × 24 single syllables × 2 types of treatment) were randomly presented to each subject.
以上のような条件で行った実験室環境における単音節明瞭度試験の結果として、各残響条件、処理条件における子音の正解率の平均値を表1(残響時間の短いセット)及び表2(残響時間の長いセット)に示す。
ただし、母音の正解率は、いずれの条件においても100%であった。処理による主効果は、いずれも有意(p<.001)であった。処理条件間でのt検定の結果、表1では残響時間が0.8, 0.9, 1.0秒において「処理あり」の方が、また表2では残響時間が0.9, 1.0, 1.1 ,1.2秒において「処理あり」の方が、それぞれ有意に正解率が高かった。 However, the accuracy rate of vowels was 100% under all conditions. The main effects of treatment were all significant (p <.001). As a result of t-test between processing conditions, in Table 1, “with processing” is shown when reverberation time is 0.8, 0.9, 1.0 seconds, and in table 2, “processing is done” when reverberation time is 0.9, 1.0, 1.1, 1.2 seconds. “” Was significantly higher in accuracy.
これらの実験結果から、全ての残響条件において「処理あり」の方が正解率は高く、さらに残響時間が0.8〜1.2秒では処理の効果が確認された。 From these experimental results, the accuracy rate was higher for “with treatment” under all reverberation conditions, and the effect of the treatment was confirmed when the reverberation time was 0.8 to 1.2 seconds.
次に、上述した実験室環境で効果を示した定常部抑圧処理を実際の残響環境下においてもその効果を確認するために大学の講堂にて実験を行った結果を示す。実験は、単音節明瞭度試験と文の書き取り試験を行った。 Next, a result of an experiment conducted in the university auditorium in order to confirm the effect of the steady-state suppression processing, which has been effective in the laboratory environment described above, even in an actual reverberant environment is shown. In the experiment, a single syllable intelligibility test and a sentence writing test were performed.
単音節明瞭度試験では前述した刺激のうち、母音が/a/のもの(14単音節、キャリア文付き、処理あり/なし)を用いた。文了解度試験では、NTT-AT音素バランス1000文から20文を用いた。被験者は、日本語を母語とする健聴者24名とした。 In the single syllable intelligibility test, among the stimuli described above, those having a vowel of / a / (14 single syllables, with carrier sentence, with / without processing) were used. In the sentence comprehension test, NTT-AT phoneme balance 1000 sentences to 20 sentences were used. The subjects were 24 normal hearing listeners whose native language was Japanese.
実験は、上智大学構内で一番大きな収容人数(822名)を持つ10号館講堂で行った。壇上にスピーカを設置し、PCから予め準備された刺激音を再生した。被験者は、講堂正面の後方のブロックに配置した。始めに被験者に指示を与えた後、テスト用の刺激文を用いて被験者全員が問題なく聞き取れる程度の音量に出力を調整した。 The experiment was conducted in the Hall No. 10 auditorium, which has the largest capacity (822 people) on the campus of Sophia University. A speaker was installed on the platform, and the stimulation sound prepared in advance from the PC was reproduced. The subject was placed in the rear block in front of the auditorium. First, after giving instructions to the subjects, the output was adjusted to a level that all the subjects could hear without any problems using test stimulus sentences.
単音節明瞭度試験では、28刺激(14単音節のそれぞれについて処理あり/処理なし)を2回の計56刺激をランダムに並べ替えて提示した。各試行において刺激音を一度だけ提示し、回答を14単音節のリストから1つ強制的に選んで用紙に書いてもらった。次の刺激提示までの時間は、5秒とした。 In the single syllable intelligibility test, 28 stimuli (with or without treatment for each of the 14 single syllables) were presented in a total of 56 stimuli randomly arranged twice. In each trial, the stimulating sound was presented only once, and one answer was forcibly selected from the list of 14 single syllables and written on the form. The time until the next stimulus presentation was 5 seconds.
文了解度試験では、24名の被験者をグループA(13名)とグループB(11名)に分け、各グループ毎に実験を行った。各グループでは、異なる20文、すなわち「処理あり」の10文と「処理なし」の10文をランダムに並べ替えて提示した。また、グループAで「処理あり」であった10文は、グループBで「処理なし」となり、逆にグループAで「処理なし」であった10文は、グループBで「処理あり」となるように組み合わせることによって、バランスをとった。各試行において刺激音は20秒間隔をあけて2度にわたって提示し、回答をカナで用紙に書いてもらった。 In the sentence intelligibility test, 24 subjects were divided into group A (13 people) and group B (11 people), and experiments were conducted for each group. Each group presented 20 different sentences, that is, 10 sentences with “processing” and 10 sentences without “processing” at random. Also, 10 sentences that were “processed” in group A become “no process” in group B, and conversely, 10 sentences that were “no process” in group A became “processed” in group B. Balanced by combining so. In each trial, the stimulating sound was presented twice at 20-second intervals, and the responses were written on a paper in kana.
単音節明瞭度試験では子音の正解率を比較した結果、「処理あり」(69.3%)の方が「処理なし」(62.7%)よりも正解率が高くなった。文了解度試験では、書き取られた文を処理ありと処理なしで比較した。その結果、「処理あり」と「処理なし」では共にモーラ毎の正解率が95%以上と高く、その差はほとんど観測されなかった。 In the single syllable intelligibility test, the correct answer rate of consonants was compared, and “corrected” (69.3%) was higher than “not processed” (62.7%). In the sentence comprehension test, the written sentences were compared with and without processing. As a result, the accuracy rate for each mora was high at 95% or more for both “with processing” and “without processing”, and almost no difference was observed.
単音節明瞭度試験では実験室環境のdiotic受聴の場合と同じ刺激を用いたが、両耳(dichotic)環境においてもその効果を確認できた。文の書き取りでは文脈情報を利用できることから、多少の聞き取りづらさが存在しても特に健聴者の場合には問題ない。今回用いた刺激文は、比較的平易で、訓練を受けたアナウンサがゆっくりと明瞭に発話したもので、また残響時間もそれほど長くない環境で、かつ直接音のエネルギも強かったことが、そもそもの了解度が高かった要因として考えられる。しかし、より劣悪な残響環境下で、親密度の低い語が存在したり、自然発話音声にみられるように話速が速かったり不明瞭な音声になると、本発明の実施形態による処理の効果が顕著に現れるものと予想される。このことは、お年寄りや聴覚障害者に対してはなおさらのことであろう。 In the monosyllable intelligibility test, the same stimulus was used as in the case of diotic listening in the laboratory environment, but the effect was also confirmed in the dichotic environment. Since context information can be used in writing a sentence, even if there is some difficulty in hearing, there is no problem in the case of a normal hearing person. The stimulus sentence used this time was relatively simple, was spoken by a well-trained announcer slowly and clearly, had a reverberation time that was not so long, and had strong direct sound energy. This is considered to be the reason why the intelligibility was high. However, in a worse reverberant environment, if there are words with low intimacy, or if the speech speed is fast or unclear as seen in spontaneous speech, the processing effect according to the embodiment of the present invention is effective. It is expected to appear prominently. This is especially true for the elderly and the hearing impaired.
10…入力端子
11…A/D変換器
12…窓掛け処理部
13…高速フーリエ変換器
14…対数スペクトル計算部
15…逆高速フーリエ変換器
16−1〜16−n…回帰係数計算部
17…2乗平均計算部
18…閾値処理部
19…乗算器
20…D/A変換器
21…出力端子
DESCRIPTION OF
Claims (3)
前記音声信号に対して窓掛け処理を行って該音声信号を複数のフレームに分割するステップと、
分割された各フレームの音声信号について対数スペクトルを計算するステップと、
前記対数スペクトルからケプストラム係数を計算するステップと、
前記ケプストラム係数を時間方向に見た場合の回帰係数を計算するステップと、
前記回帰係数の2乗平均を求めるステップと、
前記2乗平均について閾値処理を行うことにより前記音声信号の定常部を求めるステップと、
前記定常部について前記音声信号の振幅を抑圧するステップとを具備することを特徴とする音声処理方法。 An audio processing method for performing processing on an input audio signal before being output to a speaker,
Performing a windowing process on the audio signal to divide the audio signal into a plurality of frames;
Calculating a logarithmic spectrum for the audio signal of each divided frame;
Calculating a cepstrum coefficient from the logarithmic spectrum;
Calculating a regression coefficient when the cepstrum coefficient is viewed in the time direction;
Obtaining a root mean square of the regression coefficients;
Obtaining a stationary part of the audio signal by performing threshold processing on the mean square;
A voice processing method comprising: suppressing the amplitude of the voice signal for the stationary part.
前記音声信号に対して窓掛け処理を行って該音声信号を複数のフレームに分割する窓掛け処理部と、
前記窓掛け処理部により分割された各フレームの音声信号にフーリエ変換を施すフーリエ変換部と、
前記フーリエ変換部からの出力信号に基づき対数スペクトルを計算する対数スペクトル計算部と、
前記対数スペクトルに対して逆フーリエ変換を施すことによりケプストラム係数を生成するケプストラム係数計算部と、
前記ケプストラム係数を時間方向に見た場合の回帰係数を計算する回帰係数計算部と、
前記回帰係数の2乗平均を求める2乗平均部と、
前記2乗平均について閾値処理を行うことにより前記音声信号の定常部を求める閾値処理部と、
前記定常部について前記音声信号の振幅を抑圧する抑圧処理部とを具備することを特徴とする音声処理装置。 An audio processing device that performs processing on an input audio signal before being output to a speaker,
A windowing processing unit that performs windowing on the audio signal and divides the audio signal into a plurality of frames;
A Fourier transform unit that performs Fourier transform on the audio signal of each frame divided by the windowing processing unit;
A logarithmic spectrum calculation unit for calculating a logarithmic spectrum based on an output signal from the Fourier transform unit;
A cepstrum coefficient calculation unit that generates a cepstrum coefficient by performing an inverse Fourier transform on the logarithmic spectrum;
A regression coefficient calculation unit for calculating a regression coefficient when the cepstrum coefficient is viewed in the time direction;
A mean square part for obtaining a mean square of the regression coefficient;
A threshold processing unit that obtains a stationary part of the audio signal by performing threshold processing on the mean square;
An audio processing apparatus comprising: a suppression processing unit that suppresses an amplitude of the audio signal for the stationary unit.
前記音声信号に対して窓掛け処理を行って該音声信号を複数のフレームに分割する処理と、
分割された各フレームの音声信号について対数スペクトルを計算する処理と、
前記対数スペクトルからケプストラム係数を計算する処理と、
前記ケプストラム係数を時間方向に見た場合の回帰係数を計算する処理と、
前記回帰係数の2乗平均を求める処理と、
前記2乗平均について閾値処理を行うことにより前記音声信号の定常部を求める処理と、
前記定常部について前記音声信号の振幅を抑圧する処理とを前記コンピュータに行わせる音声処理プログラム。 A program for causing a computer to perform audio processing for performing processing on an input audio signal before being output to a speaker,
Performing a windowing process on the audio signal to divide the audio signal into a plurality of frames;
A process of calculating a logarithmic spectrum for the audio signal of each divided frame;
Calculating cepstrum coefficients from the logarithmic spectrum;
A process of calculating a regression coefficient when the cepstrum coefficient is viewed in the time direction;
A process for obtaining a mean square of the regression coefficients;
Processing for obtaining a stationary part of the audio signal by performing threshold processing on the mean square;
An audio processing program for causing the computer to perform processing for suppressing the amplitude of the audio signal for the stationary part.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004011111A JP2005202335A (en) | 2004-01-19 | 2004-01-19 | Method, device, and program for speech processing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004011111A JP2005202335A (en) | 2004-01-19 | 2004-01-19 | Method, device, and program for speech processing |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005202335A true JP2005202335A (en) | 2005-07-28 |
JP2005202335A5 JP2005202335A5 (en) | 2007-02-22 |
Family
ID=34823634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004011111A Pending JP2005202335A (en) | 2004-01-19 | 2004-01-19 | Method, device, and program for speech processing |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005202335A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007065285A (en) * | 2005-08-31 | 2007-03-15 | Takayuki Arai | Speech signal processing method, device, and program |
JP2008245159A (en) * | 2007-03-28 | 2008-10-09 | Toshiba Corp | Acoustic signal generating apparatus and method |
KR100876794B1 (en) | 2007-04-03 | 2009-01-09 | 삼성전자주식회사 | Apparatus and method for enhancing intelligibility of speech in mobile terminal |
US8675882B2 (en) | 2008-01-21 | 2014-03-18 | Panasonic Corporation | Sound signal processing device and method |
WO2021031942A1 (en) * | 2019-08-16 | 2021-02-25 | 阿里巴巴集团控股有限公司 | Method and apparatus for processing target frequency spectrum matrix |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001083978A (en) * | 1999-07-15 | 2001-03-30 | Matsushita Electric Ind Co Ltd | Speech recognition device |
JP2001100763A (en) * | 1999-09-29 | 2001-04-13 | Yamaha Corp | Method for waveform analysis |
-
2004
- 2004-01-19 JP JP2004011111A patent/JP2005202335A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001083978A (en) * | 1999-07-15 | 2001-03-30 | Matsushita Electric Ind Co Ltd | Speech recognition device |
JP2001100763A (en) * | 1999-09-29 | 2001-04-13 | Yamaha Corp | Method for waveform analysis |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007065285A (en) * | 2005-08-31 | 2007-03-15 | Takayuki Arai | Speech signal processing method, device, and program |
JP2008245159A (en) * | 2007-03-28 | 2008-10-09 | Toshiba Corp | Acoustic signal generating apparatus and method |
KR100876794B1 (en) | 2007-04-03 | 2009-01-09 | 삼성전자주식회사 | Apparatus and method for enhancing intelligibility of speech in mobile terminal |
US8019603B2 (en) | 2007-04-03 | 2011-09-13 | Samsung Electronics Co., Ltd | Apparatus and method for enhancing speech intelligibility in a mobile terminal |
US8675882B2 (en) | 2008-01-21 | 2014-03-18 | Panasonic Corporation | Sound signal processing device and method |
WO2021031942A1 (en) * | 2019-08-16 | 2021-02-25 | 阿里巴巴集团控股有限公司 | Method and apparatus for processing target frequency spectrum matrix |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110473567B (en) | Audio processing method and device based on deep neural network and storage medium | |
Kokkinakis et al. | A channel-selection criterion for suppressing reverberation in cochlear implants | |
Hu et al. | Effects of early and late reflections on intelligibility of reverberated speech by cochlear implant listeners | |
Roman et al. | Intelligibility of reverberant noisy speech with ideal binary masking | |
JP2002014689A (en) | Method and device for improving understandability of digitally compressed speech | |
Gordon-Salant et al. | Recognition of time-compressed speech does not predict recognition of natural fast-rate speech by older listeners | |
EP3113183B1 (en) | Speech intelligibility improving apparatus and computer program therefor | |
Hummersone | A psychoacoustic engineering approach to machine sound source separation in reverberant environments | |
Huang et al. | Lombard speech model for automatic enhancement of speech intelligibility over telephone channel | |
Cao et al. | Improvement of intelligibility of ideal binary-masked noisy speech by adding background noise | |
Kusumoto et al. | Modulation enhancement of speech by a pre-processing algorithm for improving intelligibility in reverberant environments | |
Wang et al. | Improving the intelligibility of speech for simulated electric and acoustic stimulation using fully convolutional neural networks | |
US20160365099A1 (en) | Method and system for consonant-vowel ratio modification for improving speech perception | |
Kleczkowski et al. | Lombard effect in Polish speech and its comparison in English speech | |
Jayan et al. | Automated modification of consonant–vowel ratio of stops for improving speech intelligibility | |
Schoenmaker et al. | The multiple contributions of interaural differences to improved speech intelligibility in multitalker scenarios | |
JP4774255B2 (en) | Audio signal processing method, apparatus and program | |
JP4876245B2 (en) | Consonant processing device, voice information transmission device, and consonant processing method | |
Arai et al. | Using steady-state suppression to improve speech intelligibility in reverberant environments for elderly listeners | |
Bhattacharya et al. | Combined spectral and temporal enhancement to improve cochlear-implant speech perception | |
Ngo et al. | Increasing speech intelligibility and naturalness in noise based on concepts of modulation spectrum and modulation transfer function | |
JP2005202335A (en) | Method, device, and program for speech processing | |
Villegas et al. | Effects of task and language nativeness on the Lombard effect and on its onset and offset timing | |
JP2006333396A (en) | Audio signal loudspeaker | |
JP2008102551A (en) | Apparatus for processing voice signal and processing method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070109 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090817 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090825 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091026 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100420 |