JP2012163682A - Voice processor and voice processing method - Google Patents
Voice processor and voice processing method Download PDFInfo
- Publication number
- JP2012163682A JP2012163682A JP2011022715A JP2011022715A JP2012163682A JP 2012163682 A JP2012163682 A JP 2012163682A JP 2011022715 A JP2011022715 A JP 2011022715A JP 2011022715 A JP2011022715 A JP 2011022715A JP 2012163682 A JP2012163682 A JP 2012163682A
- Authority
- JP
- Japan
- Prior art keywords
- frequency band
- background noise
- voice
- gain
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Telephone Function (AREA)
Abstract
Description
本発明は背景騒音に応じて音声信号を補正するための音声処理装置及び方法に関する。 The present invention relates to an audio processing apparatus and method for correcting an audio signal according to background noise.
例えば、携帯電話機は、屋外等で使用することが多いため、周囲の交通騒音や広告騒音等の背景騒音により受話音声が聞き難くなることがしばしば起こる。これは背景騒音によって受話音声の一部の周波数成分がマスキングされることで、受話音声の明瞭度が低下することによる。そのため、騒音下でも受話音声が聞き取り易いように、背景騒音に応じて音声信号(受話音声)を補正する様々な技術が提案されている。 For example, since a mobile phone is often used outdoors or the like, it is often difficult to hear a received voice due to background noise such as ambient traffic noise and advertisement noise. This is because the intelligibility of the received voice is lowered by masking a part of the frequency components of the received voice by the background noise. Therefore, various techniques have been proposed for correcting a voice signal (received voice) according to background noise so that the received voice can be easily heard even under noise.
例えば、特許文献1では、受話音声の音声スペクトルを目標スペクトル(例えば子音等の比較的信号レベルが小さい周波数成分を大きくするような音声スペクトル)へ整形することで、受話音声の明瞭度を向上させる技術が記載されている。さらに、特許文献1では、使用者本人の発話による送話音声を背景騒音と判定して受話音声を極端に増幅するのを防止するため、マイクから入力された音声信号の音声スペクトルを解析して該音声信号が使用者本人の送話音声であるか否かを判定し、使用者本人の送話音声であると判定した場合に以下の(1)〜(3)で示す3種類の処理を実行することが記載されている。
(1)使用者本人の送話音声と判定した期間において、上記受話音声の音声スペクトルを目標スペクトルに整形するためのフィルタ部のフィルタ係数を初期値(例えば、受話音声をそのまま出力させるための値)に設定する(以下、第1背景処理と称す)。
(2)使用者本人の送話音声と判定した期間において、上記フィルタ係数を予め設定した最大値以下に抑制する(以下、第2背景処理と称す)。
(3)使用者本人の送話音声と判定した期間では上記フィルタ係数の更新を停止する。すなわち、使用者本人の送話音声と判定する直前のフィルタ係数を用いる(以下、第3背景処理と称す)。
For example, in Patent Document 1, the clarity of received speech is improved by shaping the speech spectrum of the received speech into a target spectrum (for example, a speech spectrum in which a frequency component having a relatively low signal level such as a consonant is increased). The technology is described. Furthermore, in Patent Document 1, in order to prevent the transmitted voice due to the user's own utterance as background noise and prevent the received voice from being extremely amplified, the voice spectrum of the voice signal input from the microphone is analyzed. It is determined whether or not the voice signal is the user's own transmission voice, and when it is determined that the voice signal is the user's own transmission voice, the following three types of processing (1) to (3) are performed. It is described to be executed.
(1) In the period determined to be the user's own transmitted voice, the filter coefficient of the filter unit for shaping the voice spectrum of the received voice into the target spectrum is an initial value (for example, a value for outputting the received voice as it is) ) (Hereinafter referred to as first background processing).
(2) The filter coefficient is suppressed to a preset maximum value or less during a period determined as the user's own transmitted voice (hereinafter referred to as second background processing).
(3) The update of the filter coefficient is stopped in a period when it is determined that the user's own voice is transmitted. That is, the filter coefficient immediately before the determination as the user's own transmitted voice is used (hereinafter referred to as third background processing).
上述した特許文献1に記載された技術では、使用者本人が発話中であるときに受話音声の明瞭度を向上させることができない問題がある。 The technique described in Patent Document 1 described above has a problem that the intelligibility of the received voice cannot be improved when the user is speaking.
例えば、第1背景処理では、使用者本人が発話中は、上記フィルタ係数を、例えば初期値で固定することで、受話音声が補正されないことになる。そのため、使用者本人が発話中は受話音声の明瞭度を向上させることができない。 For example, in the first background processing, while the user himself / herself is speaking, the received voice is not corrected by fixing the filter coefficient with, for example, an initial value. Therefore, the clarity of the received voice cannot be improved while the user himself is speaking.
第2背景処理では、使用者本人が発話中であっても受話音声が補正されるが、上記フィルタ係数が最大値以下に制限されることで、受話音声を必ずしも目標スペクトルに整形できるとは限らない。そのため、使用者本人が発話中は受話音声の明瞭度を向上させることができない場合がある。 In the second background processing, the received voice is corrected even when the user is speaking, but the received voice is not necessarily shaped into the target spectrum by limiting the filter coefficient to the maximum value or less. Absent. Therefore, the clarity of the received voice may not be improved while the user himself is speaking.
また、第3背景処理では、使用者本人の送話音声と判定される直前の状態(上記フィルタ係数の値)を維持するため、使用者本人が発話中は背景騒音の変化に追従して受話音声を補正することができない。そのため、第2背景処理と同様に、使用者本人が発話中は受話音声の明瞭度を向上させることができない場合がある。 Further, in the third background processing, in order to maintain the state immediately before it is determined as the user's own transmitted voice (the value of the filter coefficient), the user's own voice follows the change in the background noise during the utterance. The sound cannot be corrected. Therefore, as in the second background process, the clarity of the received voice may not be improved while the user himself / herself is speaking.
本発明は上述したような背景技術が有する問題点を解決するためになされたものであり、使用者本人の送話中であっても、受話音声の明瞭度を向上させることができる音声処理装置及び方法を提供することを目的とする。 The present invention has been made in order to solve the problems of the background art as described above, and is a speech processing apparatus capable of improving the intelligibility of received speech even during the transmission of the user himself / herself. And to provide a method.
上記目的を達成するため本発明の音声処理装置は、マイクから入力された音声信号を所定の周波数帯域の複数の第1音声信号に分割する第1周波数分析部と、
前記第1周波数分析部で分割された周波数帯域毎の第1音声信号に対して信号対雑音比に応じた重みづけを行い、前記音声信号に含まれる前記周波数帯域毎の背景騒音量を推定する背景騒音推定部と、
受話音声信号を所定の周波数帯域毎の複数の第2音声信号に分割する第2周波数分析部と、
前記背景騒音推定部で推定された前記周波数帯域毎の背景騒音量に基づいて、前記背景騒音量が大きいほど前記第2周波数分析部から出力された第2音声信号が大きくなるように、前記周波数帯域毎の第2音声信号に適用するゲインを設定し、該ゲインを対応する前記周波数帯域の第2音声信号に乗算することで前記受話音声信号を補正する特性補正部と、
前記特性補正部から出力された補正後の前記周波数帯域毎の第2音声信号を周波数合成し、補正後の前記受話音声信号を再生する周波数合成部を備えた受話音声補正部と、
を有する。
In order to achieve the above object, an audio processing device of the present invention includes a first frequency analysis unit that divides an audio signal input from a microphone into a plurality of first audio signals in a predetermined frequency band;
The first audio signal for each frequency band divided by the first frequency analysis unit is weighted according to the signal-to-noise ratio, and the background noise amount for each frequency band included in the audio signal is estimated. A background noise estimation unit;
A second frequency analyzer that divides the received voice signal into a plurality of second voice signals for each predetermined frequency band;
Based on the background noise amount for each frequency band estimated by the background noise estimation unit, the frequency is set so that the second sound signal output from the second frequency analysis unit increases as the background noise amount increases. Setting a gain to be applied to the second audio signal for each band, and multiplying the corresponding second audio signal of the frequency band by the gain to correct the received audio signal;
A reception voice correction unit including a frequency synthesis unit that synthesizes the frequency of the corrected second voice signal for each frequency band output from the characteristic correction unit, and reproduces the corrected reception voice signal;
Have
一方、本発明の音声処理方法は、マイクから入力された音声信号を所定の周波数帯域の複数の第1音声信号に分割し、前記周波数帯域毎の第1音声信号に対して信号対雑音比に応じた重みづけを行い、前記音声信号に含まれる前記分割された周波数帯域毎の背景騒音量を推定し、
受話音声信号を所定の周波数帯域毎の複数の第2音声信号に分割し、前記推定された前記周波数帯域毎の背景騒音量に基づいて、前記背景騒音量が大きいほど対応する第2音声信号が大きくなるように、前記周波数帯域毎の第2音声信号に適用するゲインを設定し、
該ゲインを対応する前記周波数帯域の第2音声信号に乗算することで前記受話音声信号を補正し、
該補正後の前記周波数帯域毎の第2音声信号を周波数合成し、補正後の受話音声信号を再生する方法である。
On the other hand, the audio processing method of the present invention divides an audio signal input from a microphone into a plurality of first audio signals in a predetermined frequency band, and has a signal-to-noise ratio with respect to the first audio signal for each frequency band. Performing a corresponding weighting, estimating a background noise amount for each of the divided frequency bands included in the audio signal,
The received voice signal is divided into a plurality of second voice signals for each predetermined frequency band, and based on the estimated background noise quantity for each frequency band, the larger the background noise quantity, the corresponding second voice signal becomes. Set a gain to be applied to the second audio signal for each frequency band so as to increase,
The received audio signal is corrected by multiplying the corresponding second audio signal of the frequency band by the gain,
This is a method of frequency-synthesizing the second audio signal for each frequency band after the correction and reproducing the corrected received voice signal.
本発明によれば、使用者本人の送話中であっても、受話音声の明瞭度を向上させることができる。 According to the present invention, it is possible to improve the intelligibility of received voice even during the transmission of the user himself / herself.
次に本発明について図面を用いて説明する。
(第1の実施の形態)
図1は、第1の実施の形態の音声処理装置の一構成例を示すブロック図である。
Next, the present invention will be described with reference to the drawings.
(First embodiment)
FIG. 1 is a block diagram illustrating a configuration example of the speech processing apparatus according to the first embodiment.
図1に示すように、第1の実施の形態の音声処理装置は、送話音声分析部1と受話音声補正部2とを有する構成である。 As shown in FIG. 1, the speech processing apparatus according to the first embodiment is configured to include a transmitted speech analysis unit 1 and a received speech correction unit 2.
送話音声分析部1は、第1周波数分析部10及び背景騒音推定部11を備えている。受話音声補正部2は、第2周波数分析部12、特性補正部13及び周波数合成部14を備えている。
The transmitted voice analysis unit 1 includes a first
図1に示す音声処理装置は、例えば、マイクから入力された音声信号(アナログ信号)をデジタル信号に変換するA/D変換器、受話音声補正部2から出力される音声信号(デジタル信号)をアナログ信号に変換するD/A変換器、プログラムにしたがって音声信号に対する処理を実行するCPU、演算処理を実行するDSP、プログラムや処理に必要な各種データが格納されるメモリ、各種の論理回路等を含む、周知の信号処理回路で実現できる。 The audio processing device shown in FIG. 1 is, for example, an A / D converter that converts an audio signal (analog signal) input from a microphone into a digital signal, and an audio signal (digital signal) output from the received audio correction unit 2. D / A converter for converting to analog signal, CPU for processing audio signal according to program, DSP for executing arithmetic processing, memory for storing various data necessary for program and processing, various logic circuits, etc. Including a known signal processing circuit.
第1周波数分析部10は、DFT(Discrete Fourier Transform:離散フーリエ変換)等の処理によりマイクから入力された音声信号を複数の周波数帯域の音声信号(第1音声信号)に分割する。第1周波数分析部10は、IIR(Infinite Impulse Response:無限インパルス応答)フィルタ等の帯域分割フィルタで実現してもよい。また、第1周波数分析部10は、マイクから入力された音声信号を一定の帯域幅で分割してもよく、人の聴覚特性を考慮して、例えば高い周波数ほど帯域幅が広くなるように分割してもよい。
The first
背景騒音推定部11は、マイクから入力された音声信号に含まれる、第1周波数分析部10で分割された周波数帯域毎の背景騒音量を推定する。このとき、音声信号に使用者本人の送話音声の信号(以下、送話音声信号と称す)が含まれている場合は、該送話音声信号をできるだけ除いた残りの背景騒音量を算出する。
The background noise estimation unit 11 estimates the amount of background noise for each frequency band divided by the first
図2は、図1に示した背景騒音推定部の一構成例を示すブロック図である。 FIG. 2 is a block diagram illustrating a configuration example of the background noise estimation unit illustrated in FIG.
図2に示すように、背景騒音推定部11は重みつき音声計算部100及び推定雑音計算部101を備えている。
As shown in FIG. 2, the background noise estimation unit 11 includes a weighted
重みつき音声計算部100は、背景騒音や使用者本人の送話音声を含むマイクから入力された周波数帯域毎の音声信号と推定雑音計算部101で推定された周波数帯域毎の背景騒音量とを用いて周波数帯域毎のSNR(Signal-to-Noise Ratio:信号対雑音比)を算出し、マイクから入力された周波数帯域毎の音声信号に対して該SNRに応じた重みづけを行う。
The weighted
推定雑音計算部101は、マイクから入力された周波数帯域毎の音声信号及び重みつき音声計算部100から出力された周波数帯域毎の重みつき音声信号から周波数帯域毎の背景騒音量を推定する。推定雑音計算部101は、重みつき音声計算部100から出力された周波数帯域毎の重みつき音声信号に基づき、背景騒音と推定された所定数のフレームの音声信号から周波数帯域毎の背景騒音量を算出しつつ、その値を更新する。
The estimated noise calculation unit 101 estimates the background noise amount for each frequency band from the audio signal for each frequency band input from the microphone and the weighted audio signal for each frequency band output from the weighted
図2に示す背景騒音推定部11による背景騒音量の具体的な算出方法は、例えば特開2008‐216721号公報に記載されている。 A specific method of calculating the background noise amount by the background noise estimation unit 11 shown in FIG. 2 is described in, for example, Japanese Patent Application Laid-Open No. 2008-216721.
このように、推定された背景騒音量の更新に用いる、マイクから入力された周波数帯域毎の音声信号に対してSNRに応じた重みづけを行い、背景騒音量を推定することで、マイクから入力された音声信号に含まれる使用者本人の送話音声の影響を低減できるため、背景騒音量をより精度よく推定できる。 In this way, the audio signal for each frequency band input from the microphone used for updating the estimated background noise amount is weighted according to the SNR, and the background noise amount is estimated, so that the input from the microphone is performed. Since the influence of the user's own transmission voice included in the received voice signal can be reduced, the background noise amount can be estimated more accurately.
第2周波数分析部12は、DFT等の処理により受話音声の信号(以下、受話音声信号と称す)を、第1周波数分析部10と同様に複数の周波数帯域の音声信号(第2音声信号)に分割する。
The second
特性補正部13は、例えば図3に示す構成で実現できる。
The
図3は、第1の実施の形態の特性補正部の一構成例を示すブロック図である。 FIG. 3 is a block diagram illustrating a configuration example of the characteristic correction unit according to the first embodiment.
図3に示すように、特性補正部13は、平滑化部200、ゲイン生成部201、ゲインMatrix部202及び補正部203を備えている。
As illustrated in FIG. 3, the
平滑化部200は、背景騒音推定部11で推定された周波数帯域毎の背景雑音量を時間軸方向または周波数軸方向で平滑化する。平滑化部200は、各周波数帯域の背景雑音量を時間軸方向と周波数軸方向の両方でそれぞれ平滑化してもよい。例えば音声処理装置が所定のフレーム単位で音声信号に対する処理を実行する場合、時間軸方向に隣接する複数のフレーム毎の背景雑音量を平滑化すればよい。または、周波数軸方向に隣接する複数のフレーム毎に背景雑音量を平滑化すればよい。あるいは、時間軸方向及び周波数軸方向に隣接する複数のフレーム毎の背景雑音量を平滑化すればよい。平滑化部200を備えることで、背景騒音量が急激に変化した場合でも、受話音声が不自然に変化するのを抑制できる。
The smoothing
ゲイン生成部201は、平滑化部200で平滑化された各周波数帯域の背景騒音量から周波数帯域毎の受話音声信号に適用する増幅率(ゲイン)をそれぞれ算出する。ゲイン生成部201は、例えば背景雑音量が大きいほどゲインが大きくなるように、周波数帯域毎の受話音声信号のゲインをそれぞれ設定すればよい。ゲイン生成部201は、周波数帯域毎の受話音声信号のゲインを、例えば、背景雑音量の一次式で求めてもよく、二次以上の高次の方程式で求めてもよい。
The
ゲインMatrix部202は、例えば下記式(1)を用いて、ゲイン生成部201で算出された各周波数帯域のゲインを混合して平滑化する。式(1)は、受話音声信号をN(Nは正数)個の周波数帯域(周波数が低い方からf1,f2,…,fN)に分割したときのゲインMatrix部202による計算式例を示している。式(1)の左辺がゲインMatrix部202による処理後の周波数帯域(f1,f2,…,fN)毎のゲインとなる。
The
ゲインMatrix部202は、ゲイン生成部201で算出された周波数帯域毎のゲインを周波数軸方向に平滑化する。混合係数は、基本的に隣接する周波数帯域ほど値が大きくなるように設定する。各混合係数は、予め設定しておいてもよく、ゲイン生成部201で算出された各ゲインの分布状況から動的に決定してもよい。例えば、各ゲインの分散が大きい場合は、より多くの周波数帯域のゲインを用いて平滑化すればよい。このようなゲインMatrix部202による処理を行うことで、周波数合成部14による周波数合成後の受話音声が不自然になるのを抑制できる。なお、混合係数は、全ての値を設定する必要はなく、一部の混合係数を「0」とすることも可能である。その場合、「0」に設定した混合係数が多いほど、演算量を低減することが可能であり、混合係数を保持するメモリを節約できる。但し、混合係数は、ゲインMatrix部202による処理後の各周波数帯域のゲインが「0」とならないように設定する必要がある。例えば、各周波数帯域に対応する混合係数を「1」とし、他の混合係数を「0」とすることで、ゲイン生成部201で算出された各周波数帯域のゲインをそのまま処理後のゲインとして出力させることが考えられる。
The
補正部203は、ゲインMatrix部202から出力された処理後の周波数帯域毎のゲインを、対応する周波数帯域の音声信号に乗算して出力する。
The
周波数合成部14は、第2周波数分析部12による処理(DFT等)の逆変換を実行することで、特性補正部13から出力された周波数帯域毎の音声信号を周波数合成し、受話音声信号(補正後)を再生する。
The
第1の実施の形態の音声処理装置によれば、マイクから入力された音声信号に対して周波数帯域毎のSNRに応じた重みづけを行い、背景騒音量を推定することで、マイクから入力された音声信号に含まれる使用者本人の送話音声の影響を低減できるため、背景騒音量をより精度よく推定できる。そのため、推定される背景騒音量では、使用者本人の送話音声の影響が低減されているため、該背景騒音量に基づいて受話音声を補正すれば、使用者本人による送話中であっても受話音声を補正することが可能であり、受話音声の明瞭度を向上させることができる。
(第2の実施の形態)
図4は、第2の実施の形態の音声処理装置の一構成例を示すブロック図であり、図5は、第2の実施の形態の特性補正部の一構成例を示すブロック図である。
According to the audio processing apparatus of the first embodiment, the audio signal input from the microphone is weighted according to the SNR for each frequency band, and the background noise amount is estimated, so that the audio signal is input from the microphone. Since the influence of the user's own transmitted voice included in the voice signal can be reduced, the background noise amount can be estimated more accurately. Therefore, in the estimated background noise amount, the influence of the user's own transmitted voice is reduced. Therefore, if the received voice is corrected based on the background noise amount, the user's own speech is being transmitted. Also, the received voice can be corrected, and the clarity of the received voice can be improved.
(Second Embodiment)
FIG. 4 is a block diagram illustrating a configuration example of the speech processing apparatus according to the second embodiment, and FIG. 5 is a block diagram illustrating a configuration example of the characteristic correction unit according to the second embodiment.
図4に示すように、第2の実施の形態の音声処理装置は、第1の実施の形態で示した特性補正部13に代えて特性補正部15を備えた構成である。図5に示すように、第2の実施の形態の特性補正部15は、第1の実施の形態で示した特性補正部13にゲインリミッタ部204を追加した構成である。音声処理装置のその他の構成及び動作は、第1の実施の形態の音声処理装置と同様であるため、その説明は省略する。
As shown in FIG. 4, the speech processing apparatus according to the second embodiment has a configuration including a
第1の実施の形態で示した特性補正部13では、ゲイン生成部201で算出されたゲインをそのまま用いているため、周波数合成部14による周波数合成後の受話音声信号でデジタルクリップが発生する可能性がある。ゲインリミッタ部204は、ゲイン生成部201で算出された周波数帯域毎のゲインを抑制し、周波数合成後の受話音声信号でデジタルクリップが発生するのを抑制する。
In the
図6は、図5に示したゲインリミッタ部の処理例を示す模式図である。図6の横軸は時間軸(フレーム)を示し、縦軸はゲインリミッタ部204で設定する周波数帯域毎のゲインの上限値(ゲインリミット値)を示している。
FIG. 6 is a schematic diagram illustrating a processing example of the gain limiter unit illustrated in FIG. The horizontal axis in FIG. 6 represents the time axis (frame), and the vertical axis represents the upper limit value (gain limit value) of the gain for each frequency band set by the
ゲインリミッタ部204は、まず受話音声信号の振幅(デジタル値)から、音声信号を処理するフレーム毎に、許容される最大ゲインの値(実線)を算出する。最大ゲインの値は、デジタル信号処理で扱える最大値を、フレーム内の受話音声信号の最大値(絶対値)で除算することで求める。最大ゲインの値は、受話音声信号の振幅が小さいほど大きくなり、受話音声信号の振幅が大きいほど小さくなる。
First, the
ゲインリミッタ部204は、ゲインリミッタ値(点線)を算出した最大ゲインの値以下となるように設定する。また、ゲインリミッタ部204は、最大ゲインの値が急激に上昇した場合、予め設定されたフレーム数(Holdフレーム数)の期間はゲインリミッタ値を変更しない。例えば、図6に示す時点T1以降では、最大ゲインの値が上昇するため、周波数帯域毎のゲインも大きくできる。しかしながら、ゲインリミッタ部204は、上記Holdフレーム数の期間はゲインリミッタ値を上昇させない。これは、ゲインリミッタ値を急激に上昇させて周波数帯域毎のゲインも急激に大きくすると、周波数合成後の受話音声の音量が不自然に大きくなるため、そのような不自然な音量増大を防止するためである。
The
ゲインリミッタ部204は、上記Holdフレーム数の期間が経過した後(図6の時点T2)、徐々にゲインリミッタ値を上昇させる。このとき、ゲインリミッタ部204は、ゲインリミッタ値を予め設定した割合で上昇させてもよく、背景雑音量や最大ゲインの値に応じて上昇割合を変化させてもよい。
The
ゲインリミッタ部204は、上昇させたゲインリミッタ値が最大ゲインの値と等しくなった場合(図6の時点T3)、その後、最大ゲインの値が上昇する場合は、上述したT1以降と同様の処理を実行する。また、最大ゲインの値が下降する場合は、ゲインリミッタ値を最大ゲインの値に合わせて下降させる。
When the increased gain limiter value becomes equal to the value of the maximum gain (time point T3 in FIG. 6), and when the maximum gain value increases thereafter, the
第2の実施の形態の音声処理装置によれば、ゲインリミッタ部204により受話音声信号の振幅に応じて受話音声の各周波数帯域のゲインを上限値以下に制限するため、補正後の受話音声信号がデジタル信号処理で扱える最大値を越えることがない。そのため、第1の実施の形態の音声処理装置と比べて、音質の劣化を招くことなく、受話音声を明瞭化できる。
(第3の実施の形態)
図7は、第3の実施の形態の特性補正部の一構成例を示すブロック図である。
According to the speech processing apparatus of the second embodiment, the
(Third embodiment)
FIG. 7 is a block diagram illustrating a configuration example of the characteristic correction unit according to the third embodiment.
図7に示すように、第3の実施の形態の音声処理装置は、第1の実施の形態で示した特性補正部13に、背景雑音量マスキング算出部205及び受話音声マスキング算出部206を追加した構成である。音声処理装置のその他の構成及び動作は、第1の実施の形態の音声処理装置と同様であるため、その説明は省略する。
As shown in FIG. 7, the speech processing apparatus according to the third embodiment adds a background noise amount masking
本実施形態の特性補正部は、背景騒音推定部11で推定された背景雑音量から背景雑音によってマスキングされる受話音声信号の周波数帯域のゲインのみを増大させる。 The characteristic correcting unit of the present embodiment increases only the gain in the frequency band of the received voice signal masked by the background noise from the background noise amount estimated by the background noise estimating unit 11.
背景雑音量マスキング算出部205は、平滑化部200で平滑化された背景雑音量から分割した周波数帯域毎に周知のマスキング閾値を算出し、該マスキング閾値を用いて人が聴取可能な周波数帯域毎の背景雑音量を算出する。
The background noise amount masking
受話音声マスキング算出部206は、受話音声信号から分割した周波数帯域毎に周知のマスキング閾値を算出し、該マスキング閾値を用いて人が聴取可能な周波数帯域毎の受話音声量を算出する。
The received voice masking
マスキング閾値は、ある所望音を聞き取る際、それをマスキングする他の音がある場合に、該所望音が聞き取れる限界の音圧レベルを指す。通常、受話音声や背景騒音には様々な周波数成分を含んでいるため、受話音声であっても、該受話音声のある周波数成分が受話音声の他の周波数成分をマスキングすることがある。背景雑音量マスキング算出部205は、周波数帯域毎にマスキング閾値と背景雑音量とを比較し、背景雑音内の他の周波数成分でマスキングされない、人が聴取可能な周波数帯域毎の背景雑音量を算出する。同様に、受話音声マスキング算出部206は、周波数帯域毎にマスキング閾値と受話音声量とを比較し、受話音声量内の他の周波数成分でマスキングされない、人が聴取可能な周波数帯域毎の受話音声量を算出する。なお、マスキング閾値の算出方法やマスキング閾値を用いた音声信号の補正方法等については、例えば特開2009−175420に開示されている。
The masking threshold refers to a sound pressure level at which a desired sound can be heard when there is another sound that masks the desired sound. Usually, since the received voice and background noise contain various frequency components, a certain frequency component of the received voice may mask other frequency components of the received voice even in the received voice. The background noise amount masking
ゲイン生成部207は、背景雑音量マスキング算出部205から出力された背景雑音量と、受話音声マスキング算出部206から出力された受話音声量とを周波数帯域毎に比較し、受話音声量よりも背景雑音量が大きい場合に、対応する周波数帯域の音声信号(第2音声信号)のゲインを「1」以上に設定する。
The
ここで、受話音声量よりも背景雑音量が大きい周波数帯域のゲインを背景雑音量/受話音声量に設定すれば、該周波数帯域における背景雑音量と補正処理後の受話音声量とは同等となる。 Here, if the gain of the frequency band in which the background noise amount is larger than the received voice amount is set to the background noise amount / received voice amount, the background noise amount in the frequency band and the received voice amount after the correction processing are equivalent. .
受話音声量よりも背景雑音量が大きい周波数帯域において、補正処理後の受話音声量を背景雑音量よりも常に大きくしたい場合、ゲイン生成部207は、該周波数帯域の音声信号(受話音声)のゲインを、(背景雑音量/受話音声量)以上の値に設定すればよい。例えば、対応する周波数帯域の音声信号(受話音声)のゲインを、(背景雑音量/受話音声量)×α(α>1.0)、あるいは(背景雑音量/受話音声量)+α(α>0.0)に設定すればよい。
In the frequency band where the background noise amount is larger than the received voice amount, when it is desired to always increase the received voice amount after the correction processing above the background noise amount, the
ゲイン生成部207は、背景雑音量よりも受話音声量が大きい場合、対応する周波数帯域の音声信号(受話音声)のゲインを「1」に設定し、増幅させないようにする。
When the received voice volume is larger than the background noise level, the
第3の実施の形態の音声処理装置によれば、受話音声量よりも背景雑音量が大きい周波数帯域でのみ受話音声信号が増幅されるため、受話音声が不必要に増大することがない。そのため、第1の実施の形態の音声処理装置よりも高品質な受話音声が再生される。なお、図7に示した背景雑音量マスキング算出部205及び受話音声マスキング算出部206は、第2の実施の形態の特性補正部15に備えることも可能である。
According to the speech processing apparatus of the third embodiment, the received speech signal is amplified only in the frequency band in which the background noise amount is larger than the received speech amount, so that the received speech does not increase unnecessarily. Therefore, the received voice having higher quality than that of the voice processing apparatus according to the first embodiment is reproduced. Note that the background noise amount masking
1 送話音声分析部
2 受話音声補正部
10 第1周波数分析部
11 背景騒音推定部
12 第2周波数分析部
13、15 特性補正部
14 周波数合成部
100 重みつき音声計算部
101 推定雑音計算部
200 平滑化部
201 ゲイン生成部
202 ゲインMatrix部
203 補正部
204 ゲインリミッタ部
205 背景雑音量マスキング算出部
206 受話音声マスキング算出部
DESCRIPTION OF SYMBOLS 1 Transmission voice analysis part 2 Received voice correction |
Claims (6)
前記第1周波数分析部で分割された周波数帯域毎の第1音声信号に対して信号対雑音比に応じた重みづけを行い、前記音声信号に含まれる前記周波数帯域毎の背景騒音量を推定する背景騒音推定部と、
受話音声信号を所定の周波数帯域毎の複数の第2音声信号に分割する第2周波数分析部と、
前記背景騒音推定部で推定された前記周波数帯域毎の背景騒音量に基づいて、前記背景騒音量が大きいほど前記第2周波数分析部から出力された第2音声信号が大きくなるように、前記周波数帯域毎の第2音声信号に適用するゲインを設定し、該ゲインを対応する前記周波数帯域の第2音声信号に乗算することで前記受話音声信号を補正する特性補正部と、
前記特性補正部から出力された補正後の前記周波数帯域毎の第2音声信号を周波数合成し、補正後の前記受話音声信号を再生する周波数合成部を備えた受話音声補正部と、
を有する音声処理装置。 A first frequency analysis unit that divides an audio signal input from a microphone into a plurality of first audio signals in a predetermined frequency band;
The first audio signal for each frequency band divided by the first frequency analysis unit is weighted according to the signal-to-noise ratio, and the background noise amount for each frequency band included in the audio signal is estimated. A background noise estimation unit;
A second frequency analyzer that divides the received voice signal into a plurality of second voice signals for each predetermined frequency band;
Based on the background noise amount for each frequency band estimated by the background noise estimation unit, the frequency is set so that the second sound signal output from the second frequency analysis unit increases as the background noise amount increases. Setting a gain to be applied to the second audio signal for each band, and multiplying the corresponding second audio signal of the frequency band by the gain to correct the received audio signal;
A reception voice correction unit including a frequency synthesis unit that synthesizes the frequency of the corrected second voice signal for each frequency band output from the characteristic correction unit, and reproduces the corrected reception voice signal;
A speech processing apparatus.
前記周波数帯域毎のゲインを所定の上限値以下に制限するゲインリミッタ部を有する請求項1記載の音声処理装置。 The characteristic correction unit includes:
The audio processing apparatus according to claim 1, further comprising a gain limiter unit that limits a gain for each frequency band to a predetermined upper limit value or less.
背景雑音内の他の周波数成分でマスキングされない、人が聴取可能な周波数帯域毎の背景雑音量を算出する背景雑音量マスキング算出部と、
受話音声内の他の周波数成分でマスキングされない、人が聴取可能な周波数帯域毎の受話音声量を算出する受話音声マスキング算出部と、
を有し、
前記ゲイン生成部は、
前記背景雑音量マスキング算出部から出力された背景雑音量と、前記受話音声マスキング算出部から出力された受話音声量とを周波数帯域毎に比較し、前記受話音声量よりも前記背景雑音量が大きい場合に、対応する周波数帯域の前記第2音声信号に適用するゲインを1以上に設定する請求項1または2記載の音声処理装置。 The characteristic correction unit includes:
A background noise amount masking calculation unit that calculates a background noise amount for each frequency band that can be heard by a person, which is not masked by other frequency components in the background noise,
A received voice masking calculating unit that calculates a received voice amount for each frequency band that can be heard by a person, which is not masked by other frequency components in the received voice;
Have
The gain generation unit
The background noise amount output from the background noise amount masking calculation unit and the received voice amount output from the received voice masking calculation unit are compared for each frequency band, and the background noise amount is larger than the received voice amount. The audio processing apparatus according to claim 1 or 2, wherein a gain applied to the second audio signal in a corresponding frequency band is set to 1 or more.
受話音声信号を所定の周波数帯域毎の複数の第2音声信号に分割し、前記推定された前記周波数帯域毎の背景騒音量に基づいて、前記背景騒音量が大きいほど対応する第2音声信号が大きくなるように、前記周波数帯域毎の第2音声信号に適用するゲインを設定し、
該ゲインを対応する前記周波数帯域の第2音声信号に乗算することで前記受話音声信号を補正し、
該補正後の前記周波数帯域毎の第2音声信号を周波数合成し、補正後の受話音声信号を再生する音声処理方法。 The audio signal input from the microphone is divided into a plurality of first audio signals in a predetermined frequency band, the first audio signal for each frequency band is weighted according to a signal-to-noise ratio, and the audio signal Estimating a background noise amount for each of the divided frequency bands included in
The received voice signal is divided into a plurality of second voice signals for each predetermined frequency band, and based on the estimated background noise quantity for each frequency band, the larger the background noise quantity, the corresponding second voice signal becomes. Set a gain to be applied to the second audio signal for each frequency band so as to increase,
The received audio signal is corrected by multiplying the corresponding second audio signal of the frequency band by the gain,
A speech processing method for synthesizing the frequency of the corrected second speech signal for each frequency band and reproducing the corrected received speech signal.
受話音声内の他の周波数成分でマスキングされない、人が聴取可能な周波数帯域毎の受話音声量を算出し、
該背景雑音量と該受話音声量とを周波数帯域毎に比較し、該受話音声量よりも該背景雑音量が大きい場合に、対応する周波数帯域の第2音声信号に適用するゲインを1以上に設定する請求項4または5記載の音声処理方法。 Calculate the amount of background noise for each frequency band that can be heard by humans, not masked by other frequency components in the background noise,
Calculate the amount of received voice for each frequency band that can be heard by humans that is not masked by other frequency components in the received voice,
The background noise amount and the received voice amount are compared for each frequency band, and when the background noise amount is larger than the received voice amount, the gain applied to the second voice signal in the corresponding frequency band is set to 1 or more. The voice processing method according to claim 4 or 5, wherein the voice processing method is set.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011022715A JP2012163682A (en) | 2011-02-04 | 2011-02-04 | Voice processor and voice processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011022715A JP2012163682A (en) | 2011-02-04 | 2011-02-04 | Voice processor and voice processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012163682A true JP2012163682A (en) | 2012-08-30 |
Family
ID=46843137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011022715A Withdrawn JP2012163682A (en) | 2011-02-04 | 2011-02-04 | Voice processor and voice processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012163682A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105282656A (en) * | 2014-07-02 | 2016-01-27 | Gn奈康有限公司 | Method for attenuating undesired content in an audio signal and signal conditioning apparatus |
CN111370017A (en) * | 2020-03-18 | 2020-07-03 | 苏宁云计算有限公司 | Voice enhancement method, device and system |
CN112397085A (en) * | 2019-08-16 | 2021-02-23 | 骅讯电子企业股份有限公司 | System and method for processing voice and information |
US11037581B2 (en) | 2016-06-24 | 2021-06-15 | Samsung Electronics Co., Ltd. | Signal processing method and device adaptive to noise environment and terminal device employing same |
-
2011
- 2011-02-04 JP JP2011022715A patent/JP2012163682A/en not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105282656A (en) * | 2014-07-02 | 2016-01-27 | Gn奈康有限公司 | Method for attenuating undesired content in an audio signal and signal conditioning apparatus |
CN105282656B (en) * | 2014-07-02 | 2019-10-01 | Gn奈康有限公司 | For making the method and digital regulating device that void content is decayed in audio signal |
US11037581B2 (en) | 2016-06-24 | 2021-06-15 | Samsung Electronics Co., Ltd. | Signal processing method and device adaptive to noise environment and terminal device employing same |
CN112397085A (en) * | 2019-08-16 | 2021-02-23 | 骅讯电子企业股份有限公司 | System and method for processing voice and information |
CN112397085B (en) * | 2019-08-16 | 2024-03-01 | 骅讯电子企业股份有限公司 | Sound message processing system and method |
CN111370017A (en) * | 2020-03-18 | 2020-07-03 | 苏宁云计算有限公司 | Voice enhancement method, device and system |
CN111370017B (en) * | 2020-03-18 | 2023-04-14 | 苏宁云计算有限公司 | Voice enhancement method, device and system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI463817B (en) | System and method for adaptive intelligent noise suppression | |
JP5718251B2 (en) | System and method for reconstruction of decomposed audio signals | |
JP5762956B2 (en) | System and method for providing noise suppression utilizing nulling denoising | |
JP6351538B2 (en) | Multiband signal processor for digital acoustic signals. | |
EP2265039B1 (en) | Hearing aid | |
JP4957810B2 (en) | Sound processing apparatus, sound processing method, and sound processing program | |
JP5834088B2 (en) | Dynamic microphone signal mixer | |
JP6135106B2 (en) | Speech enhancement device, speech enhancement method, and computer program for speech enhancement | |
JP2001134287A (en) | Noise suppressing device | |
JP2008065090A (en) | Noise suppressing apparatus | |
JP5626366B2 (en) | Voice control device, voice control method, and voice control program | |
JP2010109624A (en) | Sound processing circuit, sound processor, and sound processing method | |
JP4843691B2 (en) | Signal characteristic change device | |
JP2007243709A (en) | Gain control method and gain control apparatus | |
JP2020028016A (en) | Reverberation suppressing device and hearing aid | |
JP2012163682A (en) | Voice processor and voice processing method | |
JPWO2012070670A1 (en) | Signal processing apparatus, signal processing method, and signal processing program | |
JP2009296298A (en) | Sound signal processing device and method | |
JP2008309955A (en) | Noise suppresser | |
JP2006324786A (en) | Acoustic signal processing apparatus and method | |
WO2020044377A1 (en) | Personal communication device as a hearing aid with real-time interactive user interface | |
JP2006113515A (en) | Noise suppressor, noise suppressing method, and mobile communication terminal device | |
JP3619461B2 (en) | Multi-channel noise suppression device, method thereof, program thereof and recording medium thereof | |
JP2003044087A (en) | Device and method for suppressing noise, voice identifying device, communication equipment and hearing aid | |
US11902747B1 (en) | Hearing loss amplification that amplifies speech and noise subsignals differently |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20140513 |