JP6970422B2 - Acoustic signal processing device, acoustic signal processing method, and acoustic signal processing program - Google Patents
Acoustic signal processing device, acoustic signal processing method, and acoustic signal processing program Download PDFInfo
- Publication number
- JP6970422B2 JP6970422B2 JP2017108148A JP2017108148A JP6970422B2 JP 6970422 B2 JP6970422 B2 JP 6970422B2 JP 2017108148 A JP2017108148 A JP 2017108148A JP 2017108148 A JP2017108148 A JP 2017108148A JP 6970422 B2 JP6970422 B2 JP 6970422B2
- Authority
- JP
- Japan
- Prior art keywords
- echo
- voice
- unit
- spectral data
- signal processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephone Function (AREA)
Description
本発明は、音響的なエコーを除去する装置、方法及びプログラムに関する。
する。
The present invention relates to devices, methods and programs for removing acoustic echoes.
do.
利用者の音声をマイクロホンで受音し、かつ所定のシステム音声をスピーカから拡声出力する装置においては、スピーカから拡声出力されたシステム音声が空気などを伝播してマイクロホンに拾われる現象がしばしば発生する。このとき、マイクロホンに拾われるシステム音声由来の音はシステム音声のエコーと呼ばれる。 In a device that receives a user's sound with a microphone and outputs a predetermined system sound from a speaker in a loudspeaker, a phenomenon that the system sound output from the speaker propagates through air or the like and is picked up by the microphone often occurs. .. At this time, the sound derived from the system voice picked up by the microphone is called the echo of the system voice.
例えば、利用者の音声を認識してサービスを提供するロボットでは、ロボットの発したシステム音声がエコーとなって自身のマイクロホンに拾われてしまい、利用者が発話していないにも関わらず、このエコーを利用者の音声であると誤ってロボットが認識し、何らかの応答を開始してしまう問題が発生する。 For example, in a robot that recognizes a user's voice and provides a service, the system voice emitted by the robot becomes an echo and is picked up by its own microphone, even though the user is not speaking. There is a problem that the robot mistakenly recognizes the echo as the user's voice and starts some kind of response.
したがって、このような誤応答が起こらないよう、マイクロホン入力に混入したシステム音声のエコーを除去する必要がある。このとき、スピーカから拡声出力されるロボットのシステム音声がどのような音声であるかは既知であるから、一般にエコー消去器と呼ばれる機能によってマイクロホン入力からシステム音声のエコーを消去することが可能である。 Therefore, it is necessary to remove the echo of the system voice mixed in the microphone input so that such an erroneous response does not occur. At this time, since it is known what kind of voice the robot's system voice is output from the speaker, it is possible to erase the echo of the system voice from the microphone input by a function generally called an echo eraser. ..
エコー消去器は、学習同定法(Normalized Least Mean Square アルゴリズム)などを用いてシステム音声の伝播経路(以下、エコーパスと呼ぶ)の伝達関数を適応フィルタに学習させ、このフィルタ係数にシステム音声を掛けることでエコーを模擬した音声(以下、エコーレプリカと呼ぶ)を生成し、このエコーレプリカをマイクロホン入力から差し引くことによって、エコーを消去した出力音声(以下、誤差出力と呼ぶ)を生成する。このような適応フィルタの学習がうまく進めば、出力音声にはエコーを含まない音声が残るはずである。 The echo eraser trains an adaptive filter to learn the transfer function of the system voice propagation path (hereinafter referred to as echo path) using a learning identification method (Normalized Rest Mean Square algorithm), etc., and multiplies this filter coefficient by the system voice. By generating an echo-simulated sound (hereinafter referred to as an echo replica) and subtracting this echo replica from the microphone input, an output sound in which the echo is erased (hereinafter referred to as an error output) is generated. If the learning of such an adaptive filter is successful, the output audio should remain without echo.
しかしながら、エコーとともに非エコー音声(利用者の音声や環境雑音など)がマイクロホンから入力されている状況(非エコー音声有りの状態)では適応フィルタの学習がうまく進まず、エコーの消え残りや利用者音声の歪みをもたらすことがある。これを回避するために、非エコー音声有りの状態を検出する検出器を設け、非エコー音声有りの状態が検出されると適応フィルタの学習を止めたり遅らせたりする制御を加える。 However, in the situation where non-echo voice (user's voice, environmental noise, etc.) is input from the microphone together with echo (with non-echo voice), learning of the adaptive filter does not proceed well, and the echo remains and the user May cause audio distortion. In order to avoid this, a detector is provided to detect the state with non-echo voice, and control is added to stop or delay the learning of the adaptive filter when the state with non-echo voice is detected.
特許文献1には、拡声出力された音声とエコーレプリカとマイクロホン入力のレベルや相関から通話状態(非エコー音声の有無など)を判定する通話判定装置が開示されている。この通話判定装置では、通話を行うそれぞれの局で独立して通話状態を判定すると誤る可能性があるため、両局でそれぞれ行った判定結果を突き合わせて通話状態を判定する必要がある。
また、特許文献2では、信号適応処理装置及びエコー抑圧装置における、学習同定法などによる適応フィルタの学習に際して、エコー消去後の出力音声パワーに従って適応フィルタの学習をON/OFF制御する技術が開示されている。この技術は、マイクロホン入力からエコー成分を消去した後の音声レベルが所定閾値を超えるなら、マイクロホン入力にはエコー以外の音声が含まれているとして非エコー音声有りの状態を検出するものである。 Further, Patent Document 2 discloses a technique for ON / OFF control of learning of an adaptive filter according to the output voice power after echo elimination when learning an adaptive filter by a learning identification method or the like in a signal adaptation processing device and an echo suppression device. ing. In this technique, if the voice level after erasing the echo component from the microphone input exceeds a predetermined threshold value, it is assumed that the microphone input contains voice other than echo, and the state with non-echo voice is detected.
この技術の場合、エコー消去後の出力音声に依存して適応フィルタの学習がON/OFFされるため、適応フィルタの正しい学習がある程度進んだ段階では正しいON/OFF制御が可能である。 In the case of this technique, since the learning of the adaptive filter is turned ON / OFF depending on the output voice after echo erasing, the correct ON / OFF control is possible when the correct learning of the adaptive filter is advanced to some extent.
しかしながら、フィルタが十分に適応していない学習の初期段階では、このON/OFF制御に誤りが生じ、その結果として誤ったフィルタが学習されるなど、学習が遅くなる可能性がある。これは非エコー音声検出と適応フィルタ学習が鶏と卵のように相互に依存し合っているためである。 However, in the initial stage of learning in which the filter is not sufficiently adapted, an error occurs in this ON / OFF control, and as a result, the incorrect filter is learned, and learning may be delayed. This is because non-echo speech detection and adaptive filter learning are interdependent like chickens and eggs.
本発明は、このような課題に着目して鋭意研究され完成されたものであり、その目的は、非エコー音声検出と適応フィルタ学習の相互依存性を排除しつつ、エコーを含まない(あるいはエコーを弱められた)音声に基づいて、マイク入力にエコー以外の音声(利用者の音声等)が含まれているか否かを速やかに正しく判定することにある。 The present invention has been enthusiastically researched and completed focusing on such problems, and its purpose is to eliminate the interdependence between non-echo speech detection and adaptive filter learning, but to eliminate echo (or echo). Based on the voice (weakened), it is necessary to promptly and correctly determine whether or not the microphone input contains voice other than echo (user's voice, etc.).
上記課題を解決するために、本発明は、スピーカから出力される前の音声信号を第1のスペクトルデータに変換する第1の変換部と、マイクから入力された音声信号を第2のスペクトルデータに変換する第2の変換部と、前記第1のスペクトルデータ及び前記第2のスペクトルデータに基づいて非エコー音声の有無を判定する判定部と、前記第1のスペクトルデータ及び前記第2のスペクトルデータを入力し、適応フィルタを用いてエコーを消去するエコー消去部と、を備え、前記エコー消去部は、前記非エコー音声が有る場合、前記適応フィルタの学習の強さを示す係数を、前記非エコー音声が無い場合に比べ、低くする音響信号処理装置である。 In order to solve the above problems, the present invention has a first conversion unit that converts an audio signal before being output from a speaker into first spectral data, and a second spectral data that converts an audio signal input from a microphone into second spectral data. A second conversion unit that converts to, a determination unit that determines the presence or absence of non-echo voice based on the first spectrum data and the second spectrum data, the first spectrum data, and the second spectrum. The echo erasing unit includes an echo erasing unit that inputs data and erases echoes using an adaptive filter, and the echo erasing unit, in the presence of the non-echo voice, obtains a coefficient indicating the learning strength of the adaptive filter. It is an acoustic signal processing device that lowers the value compared to the case where there is no non-echo voice.
本発明によれば、マイク入力にエコー以外の音声(利用者の音声等)が含まれているか否かを速やかに正しく判定することができる。 According to the present invention, it is possible to quickly and correctly determine whether or not the microphone input contains voice other than echo (user's voice, etc.).
図面を参照しながら本発明の実施の形態を説明する。なお、各図において共通する部分には同一の符号を付し、重複した説明は省略する。 Embodiments of the present invention will be described with reference to the drawings. In addition, the same reference numerals are given to common parts in each figure, and duplicate description is omitted.
図1は、本発明の実施例1に係る音響信号処理装置の機能ブロック図である。この実施例では、利用者の音声を認識してサービスを提供するロボットに適用される音響信号処理装置について説明する。ここでの、システム音声とは、ロボットが発した音声をいう。 FIG. 1 is a functional block diagram of the acoustic signal processing device according to the first embodiment of the present invention. In this embodiment, an acoustic signal processing device applied to a robot that recognizes a user's voice and provides a service will be described. Here, the system voice means the voice emitted by the robot.
(構成)
スピーカ1は、システム音声の信号x(t)を拡声出力する。マイク2は、利用者の音声などを音声信号m(t)として入力するためのマイクロホンである。エコー3は、スピーカ1から拡声出力されたシステム音声のエコーを示す。
(composition)
The
エコーの伝搬経路Hは、システム音声のエコー3がマイク2に届く伝搬経路(エコーパス)を示す。ここで、tは音声信号のサンプリング周期における時刻を表すインデックスである。 The echo propagation path H indicates a propagation path (echo path) in which the echo 3 of the system voice reaches the microphone 2. Here, t is an index representing the time in the sampling cycle of the audio signal.
第1の周波数分解部4は、システム音声の時間領域の音声信号x(t)をFFT(Fast Fourier Transform)処理によって、周波数領域のスペクトルデータx(ω,f)に変換する。すなわち、周波数分解部4は、スピーカ1から出力される前の音声信号x(t)を第1のスペクトルデータx(ω,f)に変換する第1の変換部といえる。
The first frequency decomposition unit 4 converts the voice signal x (t) in the time domain of the system voice into the spectral data x (ω, f) in the frequency domain by FFT (Fast Fourier Transform) processing. That is, it can be said that the frequency decomposition unit 4 is a first conversion unit that converts the audio signal x (t) before being output from the
ここで、ωはFFT出力の周波数ビン番号を表すインデックスである。FFT処理では、所定サンプル数(フレーム長FL)の解析窓を所定サンプル数(フレームシフト量FS)ずつずらしながら、解析窓内の時間領域信号を周波数領域のスペクトルデータに変換する。これがFFTの処理単位(フレーム)である。fはFFTの処理単位で数えた時刻(フレーム番号)を表すインデックスである。時刻fに複素数として得られた第1のスペクトルデータx(ω,f)は実部のスカラ値と虚部のスカラ値から成る2次元のベクトルデータである。そのベクトルの長さと向きがωで表される周波数成分の振幅と位相を表している。 Here, ω is an index representing the frequency bin number of the FFT output. In the FFT process, the time domain signal in the analysis window is converted into frequency domain spectral data while shifting the analysis window of a predetermined number of samples (frame length FL) by a predetermined number of samples (frame shift amount FS). This is the FFT processing unit (frame). f is an index representing the time (frame number) counted in the processing unit of the FFT. The first spectral data x (ω, f) obtained as a complex number at time f is two-dimensional vector data composed of the scalar value of the real part and the scalar value of the imaginary part. The length and direction of the vector represent the amplitude and phase of the frequency component represented by ω.
同様に、マイク2から入力された音声信号m(t)も、第2の周波数分解部5によって周波数領域のスペクトルデータm(ω,f)に変換される。すなわち、周波数分解部5は、マイク2から入力された音声信号m(t)を第2のスペクトルデータm(ω,f)に変換する第2の変換部といえる。 Similarly, the audio signal m (t) input from the microphone 2 is also converted into the spectrum data m (ω, f) in the frequency domain by the second frequency decomposition unit 5. That is, it can be said that the frequency decomposition unit 5 is a second conversion unit that converts the audio signal m (t) input from the microphone 2 into the second spectral data m (ω, f).
図2は、本発明の実施例1に係るエコー消去部6の機能ブロック図である。エコー消去部6は、適応フィルタ11と減算器12とからなり、マイク入力である第2のスペクトルデータm(ω,f)と、システム音声である第1のスペクトルデータx(ω,f)とを入力とし、誤差出力e(ω,f)を式(1)から計算することによって、第2のスペクトルデータm(ω,f)からエコー成分を消去する機能ブロックである。ここで、y(ω,f)はエコーレプリカであり、第1のスペクトルデータx(ω,f)にフィルタ係数w(ω,f)を掛けることで計算される。
式(1)のフィルタ係数w(ω,f)は、式(2)に示す学習同定法(Normalized Least Mean Squaresアルゴリズム)によりエコーパスHの伝達特性を学習する。ここで、*(アスタリスク)は複素共役を表し、μは学習速度を制御するステップサイズである。
学習同定法(NLMSアルゴリズム)は平均二乗誤差最小化規範の確率勾配アルゴリズムであるため、これを用いたフィルタ係数w(ω,f)の学習は、常に誤差出力e(ω,f)に含まれる第1のスペクトルデータx(ω,f)と相関のある成分のパワーを最小化するフィルタ係数w(ω,f)を求めるように進行する。そのため、第2のスペクトルデータm(ω,f)が利用者音声などのエコー以外の成分を含んでいると、その利用者音声の一部(第1のスペクトルデータx(ω,f)に含まれる周波数成分)までも消し去るようにフィルタを学習させてしまう。 Since the learning identification method (NLMS algorithm) is a probability gradient algorithm of the mean square error minimization norm, learning of the filter coefficient w (ω, f) using this is always included in the error output e (ω, f). The process proceeds so as to obtain a filter coefficient w (ω, f) that minimizes the power of the component correlated with the first spectral data x (ω, f). Therefore, if the second spectrum data m (ω, f) contains components other than echo such as user voice, it is included in a part of the user voice (first spectrum data x (ω, f)). The filter is trained so that even the frequency component) is erased.
しかしながら、このようにして学習される適応フィルタ11は決して正しい値ではないため、エコーの消え残りや利用者音声の歪みの原因となる。それゆえ、第2のスペクトルデータm(ω,f)がエコー以外の音声を含んでいる状況(非エコー音声有り状態)を検出して適応フィルタ11の学習を止めたり弱めたりする制御が必要になる。
However, since the
これを実現するため、エコー消去部6は、ステップサイズμの値を後述するDT(f)が0(非エコー音声無し状態)か1(非エコー音声有り状態)かに応じて制御する。すなわち、μは非エコー音声有り状態には非エコー音声無し状態よりも減じられ、その結果、適応フィルタ11の学習の強さ(学習速度とも言う)はこの間低く抑えられる。つまり、ステップサイズμは、適応フィルタ11の学習の強さを示す係数である。
In order to realize this, the echo erasing unit 6 controls the value of the step size μ according to whether the DT (f) described later is 0 (state without non-echo sound) or 1 (state with non-echo sound). That is, μ is reduced in the state with non-echo voice as compared with the state without non-echo voice, and as a result, the learning intensity (also referred to as learning speed) of the
非エコー音声有無判定部9は、エコー消去部6が適応フィルタ11の学習を止めたり弱めたりする制御を行うために、マイク入力にエコー以外の音声(利用者の音声等)が含まれているか否かを判定する機能ブロックである。詳細については後述するが、この判定をより速やかに正しく行うことで、エコー消去部6の性能が向上するという効果を有する。
In the non-echo voice presence / absence determination unit 9, whether the microphone input includes voice other than echo (user voice, etc.) in order to control the echo erasing unit 6 to stop or weaken the learning of the
しかしながら、このようなエコー消去部6を用いても、残留エコーが残る場合がある。残留エコーは、例えばエコー消去後の音声を認識する場合に、その精度に悪影響を及ぼす可能性がある。そこで、本実施例では、エコー消去部6の後段に残留エコー抑圧部7を設けることにする。ただし、残留エコーの影響は音声認識処理などの後段処理の要求によって変わるため、残留エコー抑圧部7は本実施例に必須の構成ではない点に留意していただきたい。 However, even if such an echo erasing unit 6 is used, residual echo may remain. The residual echo may adversely affect the accuracy, for example, when recognizing the voice after echo elimination. Therefore, in this embodiment, the residual echo suppression unit 7 is provided after the echo erasing unit 6. However, it should be noted that the residual echo suppression unit 7 is not an indispensable configuration for this embodiment because the influence of the residual echo changes depending on the request of the post-stage processing such as the voice recognition processing.
図1に示す残留エコー抑圧部7は、誤差出力e(ω,f)と第1のスペクトルデータx(ω,f)を入力とし、式(3)に従って誤差出力e(ω,f)に残留するエコー成分を抑圧した音声o2(ω,f)を生成する。
式(4)に示すように、o1(ω,f)はe(ω,f)の振幅をG倍した音声である。このGは誤差出力e(ω,f)に含まれる残留エコーの大きさの比率を近似した係数である。Gの数値は実験的に求めておく。また、DS(ω,f)は抑圧係数の瞬時値であり、gain(ω,f)は忘却係数により近似的に計算されるDS(ω,f)の移動平均値である。また、gsは抑圧の強さを与えるための係数である。
図1に示す波形生成部8は、残留エコー抑圧部7による音声o2(ω,f)を逆FFT処理することで時間領域の波形信号O(t)を生成する。このO(t)が本実施例での最終的な出力音声信号である。 The waveform generation unit 8 shown in FIG. 1 generates a waveform signal O (t) in the time domain by performing inverse FFT processing on the voice o2 (ω, f) by the residual echo suppression unit 7. This O (t) is the final output audio signal in this embodiment.
次に、図1に示す非エコー音声有無判定部9について説明する。図3は、本発明の実施例1に係る非エコー音声有無判定部9の機能ブロック図である。非エコー音声有無判定部9は、エコー抑圧部21と、波形生成部22と、判定部23とを備える。
Next, the non-echo voice presence / absence determination unit 9 shown in FIG. 1 will be described. FIG. 3 is a functional block diagram of the non-echo voice presence / absence determination unit 9 according to the first embodiment of the present invention. The non-echo voice presence / absence determination unit 9 includes an
エコー抑圧部21は、第2のスペクトルデータm(ω,f)と第1のスペクトルデータx(ω,f)を入力とし、式(5)に従って第2のスペクトルデータm(ω,f)に含まれるエコー成分を抑圧した音声s(ω,f)を求める。
ここで、式(5)のgain(ω,f)は下記の式(6)で計算される抑圧係数である。
式(6)のMR(ω,f)はスピーカ1からマイク2までの利得の移動平均値を表し、EL(ω,f)はMR(ω,f)から推定したエコーの大きさである。NL(ω,f)はEL(ω,f)から計算した現在の非エコー音声の大きさであり、gsは抑圧の強さを与えるための係数である。FL(ω,f)はNL(ω,f)の下限値を与える量であり、第2のスペクトルデータm(ω,f)から決定される。以上の結果、現在の非エコー音声の大きさとしてNL(ω,f)をFL(ω,f)でフロアリングしたXX(ω,f)が算出される。そして、gain(ω,f)が第2のスペクトルデータm(ω,f)に対する非エコー音声の大きさXX(ω,f)の比として計算される。
The MR (ω, f) in the equation (6) represents the moving average value of the gain from the
式(5)により計算されたs(ω,f)は次段の波形生成部22により時間領域の音声信号s(t)に変換される。 The s (ω, f) calculated by the equation (5) is converted into an audio signal s (t) in the time domain by the waveform generation unit 22 in the next stage.
続く判定部23では、式(7)に示すように、最新のフレームシフト量分のs(t)の中で振幅絶対値|s(t)|が閾値th2以上となるサンプルの個数Sが計算される。この計算結果Sが閾値th1以上となったとき、当該フレームfは非エコー音声有り状態であると判断され、DT(f)=1が出力される。また、それ以外の場合には、非エコー音声無し状態であるとして、DT(f)=0が出力される。
このように、第2のスペクトルデータm(ω,f)にエコー抑圧処理を掛けることで、s(ω,f)に含まれるエコーを適応フィルタ11で除去するよりも速く抑圧することができる。
In this way, by applying the echo suppression process to the second spectral data m (ω, f), the echo contained in the s (ω, f) can be suppressed faster than the echo suppressed by the
また、s(ω,f)を一度時間領域の波形s(t)に変換し、その波形中で閾値th2以上となる振幅値を数えて閾値処理することによって、振幅が大きくても長続きしない抑圧初期のエコーや突発的なエコー以外の雑音に対して頑健にすることができる。 Further, by converting s (ω, f) once into a waveform s (t) in the time domain, counting the amplitude values having a threshold value th2 or more in the waveform and performing threshold processing, suppression that does not last long even if the amplitude is large. It can be robust against noise other than early echoes and sudden echoes.
このように、非エコー音声有無判定部9内のエコー抑圧部21がエコーを速く抑圧できるのは、式(5)のgain(ω,f)が速やかに求められることによる。gain(ω,f)は実数であるから、エコー抑圧部21は第2のスペクトルデータm(ω,f)の位相を変えずに振幅だけを変える。これは精度的に十分ではないが、非エコー音声の有無を振幅に基づいて判定するには十分である。要するに、エコー抑圧部21は、精度よりも速さに重点を置いて第2のスペクトルデータm(ω,f)に含まれるエコーを抑圧する。これに対し、エコー消去部6は精度に重点を置いて第2のスペクトルデータm(ω,f)に含まれるエコーを消去する手段である。式(1)のy(ω,f)も、w(ω,f)も複素数であるから、エコー消去部6は第2のスペクトルデータm(ω,f)の振幅と位相を制御して高精度のエコー消去を行う。しかしながら、エコーの消えるw(ω,f)が求まるまでには式(2)の計算を数多く繰り返さなければならないので時間を要する。
As described above, the
図4は、本発明の実施例1に係る音響信号処理装置の処理の流れを示すフローチャートである。本実施例の音響信号処理装置を起動すると、まず初期化処理ステップS1が実行される。この処理で時刻インデックスtとフレーム番号fが0に初期化される。 FIG. 4 is a flowchart showing a processing flow of the acoustic signal processing apparatus according to the first embodiment of the present invention. When the acoustic signal processing device of this embodiment is started, the initialization processing step S1 is first executed. In this process, the time index t and the frame number f are initialized to 0.
続くFSサンプル入力処理ステップS2では、m(t)、x(t)の各音声信号がフレームシフト量FSサンプル分だけ入力される。 In the subsequent FS sample input processing step S2, each audio signal of m (t) and x (t) is input by the frame shift amount FS sample.
次にFLサンプル蓄積判定処理ステップS3では、これまでに入力されたm(t)、x(t)の各音声信号のサンプル数がFFT解析窓の長さであるフレーム長FL以上か否かを判定する。もし、これまでに入力されたm(t)、x(t)の各音声信号のサンプル数がフレーム長FLに満たない場合は以降のFFT処理を行えないので、図中左(No)に分岐してダミー出力生成処理ステップS9を実行する。一方、そうでない場合は図中下(Yes)に分岐して周波数分解処理ステップS4を実行する。 Next, in the FL sample accumulation determination processing step S3, it is determined whether or not the number of samples of the m (t) and x (t) audio signals input so far is equal to or greater than the frame length FL, which is the length of the FFT analysis window. judge. If the number of m (t) and x (t) audio signal samples input so far is less than the frame length FL, the subsequent FFT processing cannot be performed, so branch to the left (No) in the figure. Then, the dummy output generation processing step S9 is executed. On the other hand, if this is not the case, the frequency decomposition process step S4 is executed by branching to the lower part (Yes) in the figure.
ダミー出力生成処理ステップS9では、例えば出力音声信号O(t)=m(t)として、マイク入力信号をそのまま出力するか、または無音を出力する。 In the dummy output generation processing step S9, for example, as the output audio signal O (t) = m (t), the microphone input signal is output as it is, or silence is output.
周波数分解処理ステップS4は第1の周波数分解部4と第2の周波数分解部5に対応した処理ステップであり、入力されたx(t)、m(t)の各音声信号を第1のスペクトルデータx(ω,f)、第2のスペクトルデータm(ω,f)に変換する。 The frequency decomposition processing step S4 is a processing step corresponding to the first frequency decomposition unit 4 and the second frequency decomposition unit 5, and the input x (t) and m (t) audio signals are converted into the first spectrum. It is converted into data x (ω, f) and second spectral data m (ω, f).
非エコー音声検出処理ステップS5は、非エコー音声有無判定部9に対応した処理ステップであり、式(5)、式(6)、及び、式(7)の計算により、第2のスペクトルデータm(ω,f)と第1のスペクトルデータx(ω,f)からDT(f)の値を決定する。 The non-echo voice detection processing step S5 is a processing step corresponding to the non-echo voice presence / absence determination unit 9, and is the second spectrum data m by the calculation of the formula (5), the formula (6), and the formula (7). The value of DT (f) is determined from (ω, f) and the first spectral data x (ω, f).
エコー消去処理ステップS6はエコー消去部6に対応した処理ステップであり、式(1)及び式(2)の計算により、e(ω,f)を計算するとともに、DT(f)に基づくステップサイズμの制御によりフィルタ係数w(ω,f)を更新する。 The echo erasing process step S6 is a processing step corresponding to the echo erasing unit 6, and e (ω, f) is calculated by the calculation of the equations (1) and (2), and the step size based on the DT (f) is calculated. The filter coefficient w (ω, f) is updated by controlling μ.
残留エコー抑圧処理ステップS7は、残留エコー抑圧部7に対応した処理ステップであり、式(3)及び式(4)の計算により、e(ω,f)から残留エコーを抑圧した音声o2(ω,f)を計算する。 The residual echo suppression processing step S7 is a processing step corresponding to the residual echo suppression unit 7, and the voice o2 (ω) in which the residual echo is suppressed from e (ω, f) by the calculation of the equations (3) and (4). , F) is calculated.
出力生成処理ステップS8は、波形生成部8に対応した処理ステップであり、o2(ω,f)から逆FFT処理により出力音声信号O(t)を計算する。なお、ダミー出力生成処理ステップS9と出力生成処理ステップS8を実行すると、処理はFSサンプル入力処理ステップS2に戻る。その際、時刻インデックスtはFSだけ増加され、フレーム番号fは1だけ増加される。 The output generation processing step S8 is a processing step corresponding to the waveform generation unit 8, and calculates the output audio signal O (t) from o2 (ω, f) by reverse FFT processing. When the dummy output generation processing step S9 and the output generation processing step S8 are executed, the processing returns to the FS sample input processing step S2. At that time, the time index t is increased by FS, and the frame number f is increased by 1.
図5は、本発明の実施例1に係る音響信号処理装置のハードウェア構成図である。本実施例は、図1から図3の機能ブロックによって示される音響信号処理装置や、図4のフローチャートによって示される音響信号処理方法に限定されない。例えば、コンピュータを図1の音響信号処理装置として機能させたり、図4の音響信号処理方法の処理手順を実行させるプログラムとして実施したりすることも可能である。 FIG. 5 is a hardware configuration diagram of the acoustic signal processing device according to the first embodiment of the present invention. The present embodiment is not limited to the acoustic signal processing apparatus shown by the functional blocks of FIGS. 1 to 3 and the acoustic signal processing method shown by the flowchart of FIG. For example, the computer may function as the acoustic signal processing device of FIG. 1 or may be implemented as a program for executing the processing procedure of the acoustic signal processing method of FIG.
具体的には、本実施例は図5に示すようにコンピュータを使って実施することが可能である。CPU(Central Processing Unit)103には、RAM(Random Access Memory)104、ROM(Read Only Memory)105、HDD(Hard Disk Drive)106、LAN(Local Area Network)107、マウス/キーボード108及びディスプレイ109が接続される。これらはコンピュータを構成する一般的な要素である。 Specifically, this embodiment can be carried out using a computer as shown in FIG. The CPU (Central Processing Unit) 103 includes a RAM (Random Access Memory) 104, a ROM (Read Only Memory) 105, an HDD (Hard Disk Drive) 106, a LAN (Local Area Network) 107, and a mouse / keyboard. Be connected. These are the general elements that make up a computer.
その他ストレージ110は、外部から記憶メディアを介してプログラムやデータをコンピュータに供給するためのドライブ類、具体的には光学ディスクドライブ、磁気ディスクドライブ、CF(Compact Flash)/SD(Secure Digital)カードスロットやUSB(Universal Serial Bus)メモリなどである。 The storage 110 includes drives for supplying programs and data to a computer from the outside via a storage medium, specifically, an optical disk drive, a magnetic disk drive, and a CF (Compact Flash) / SD (Secure Digital) card slot. And USB (Universal Serial Bus) memory.
マイクロホン101及びスピーカ112は、図1に示したマイク2及びスピーカ1に対応している。また、マイクロホン113は、後述の実施例2で説明する雑音入力用のマイクに対応している。
The
マイクロホン101及びマイクロホン113によって音波が電気的な信号に変換され、A/D変換器102及びA/D変換器114によってデジタルデータに変換される。A/D変換器102及びA/D変換器114からのデジタルデータは、プログラム命令を実行する過程でCPU103によって処理される。
The sound waves are converted into electrical signals by the
図5に示すコンピュータ装置では、図4に示した処理ステップを実行する音響信号処理プログラムをHDD106に記憶し、これをRAM104に読み出してCPU103で実行する。その際、利用者音声を含む音声信号m(t)の入力にマイクロホン101とA/D変換器102を使い、システム音声x(t)の拡声出力にD/A変換器111とスピーカ112を使い、さらに、後述の実施例2で説明する雑音信号n(t)の入力にマイクロホン113とA/D変換器114を使う。そして、これらm(t)とx(t)、あるいはm(t)とx(t)とn(t)をCPU103で処理することで出力音声O(t)を生成して出力する。
In the computer device shown in FIG. 5, an acoustic signal processing program for executing the processing step shown in FIG. 4 is stored in the
この結果、図5に示すコンピュータ装置は本実施例に係る音響信号処理装置として機能する。また、このコンピュータ装置は、その他ストレージ110に挿入される記録媒体やLAN107を介して接続される他の装置から音響信号処理プログラムの供給を受けるようにすることが可能である。 As a result, the computer device shown in FIG. 5 functions as the acoustic signal processing device according to the present embodiment. Further, the computer device can be supplied with an acoustic signal processing program from a recording medium inserted in the storage 110 or another device connected via the LAN 107.
なお、このコンピュータ装置は、マウス/キーボード108やディスプレイ109を介して、利用者の操作入力を受け付けたり、利用者への情報呈示を行ったりすることも可能である。また、このコンピュータ装置が、音響信号処理装置だけでなく、利用者の音声を認識してサービスを提供するロボットにも適用される場合、マウス/キーボード108など、サービス提供時に不要な要素はコンピュータ装置から取り外し可能である。
It should be noted that this computer device can also accept user's operation input and present information to the user via the mouse /
図6は、本発明の実施例1に係る音響信号処理装置による処理の結果を示す図である。図中(a)のマイク入力信号m(t)は、第2の周波数分解部5により第2のスペクトルデータm(ω,f)に変換される。 FIG. 6 is a diagram showing the result of processing by the acoustic signal processing apparatus according to the first embodiment of the present invention. The microphone input signal m (t) in the figure (a) is converted into the second spectral data m (ω, f) by the second frequency decomposition unit 5.
このマイク入力信号m(t)には利用者音声とシステム音声エコーとが混ざりこんでいる。システム音声x(t)も第1の周波数分解部4により第1のスペクトルデータx(ω,f)に変換される。FFT及び逆FFTにはCooley−Tukey DFT Algorithmを使い、フレーム長FLを512サンプル、フレームシフト量FSを160サンプル、窓掛けにハニング窓を使用して、FFT及び逆FFT実行している。 The user voice and the system voice echo are mixed in the microphone input signal m (t). The system voice x (t) is also converted into the first spectral data x (ω, f) by the first frequency decomposition unit 4. Cooley-Tukey DFT Algorithm is used for FFT and reverse FFT, frame length FL is 512 samples, frame shift amount FS is 160 samples, and FFT and reverse FFT are executed using a Hanning window for window hanging.
図中(b)は出力音声信号O(t)である。エコー消去部6と残留エコー抑圧部7を経て得られた出力o2(ω,f)は、波形生成部8により時間領域信号O(t)となって出力される。これが本実施例の音響信号処理装置の出力音声である。 In the figure, (b) is an output audio signal O (t). The output o2 (ω, f) obtained through the echo erasing unit 6 and the residual echo suppressing unit 7 is output as a time domain signal O (t) by the waveform generation unit 8. This is the output voice of the acoustic signal processing device of this embodiment.
出力音声O(t)には利用者音声のみが強く残る。このとき、図中(c)に示す非エコー音声有無判定部9の出力DT(f)のグラフも利用者音声の存在する期間で立ち上がっている。 Only the user voice remains strongly in the output voice O (t). At this time, the graph of the output DT (f) of the non-echo voice presence / absence determination unit 9 shown in the figure (c) also stands up during the period in which the user voice exists.
図中(d)に示すm(t)/O(t)はERLE(Echo Return Loss Enhancement)と呼ばれる評価量を表している。ERLEは下記の式(8)で定義される量であり、入力パワーに対して出力パワーがどれくらい小さくなったかをdB値で表し、値が大きいほど消去性能が高いことを表す。式中のE[*]はnサンプル毎に平均値を計算することを表す。
エコー消去性能を求めたい場合、ERLEはシステム音声エコーだけが存在する期間で計算されなければならない。そこで、そのような期間をグラフより3か所選抜して図中のR1、R2、R3とする。これらの期間は全てシステム音声エコーだけが存在する期間である。よって、DT(f)は立ち上がっていない(非エコー音声無し状態を示す)のが正解であり、図中(c)からその通りになっていることがわかる。学習の初期(R1)、中期(R2)、終期(R3)のそれぞれでERLEの平均値を拾い出すと、67.7dB、85.9dB、102.6dBと高い値であることがわかる。 If the echo erasing performance is to be determined, the ERLE must be calculated over the period in which only the system voice echo is present. Therefore, three such periods are selected from the graph and designated as R1, R2, and R3 in the figure. All of these periods are periods in which only system audio echoes are present. Therefore, the correct answer is that DT (f) does not stand up (indicating a state without non-echo voice), and it can be seen from (c) in the figure that this is the case. When the average value of ERLE is picked up at each of the early stage (R1), the middle stage (R2), and the final stage (R3) of learning, it can be seen that the values are as high as 67.7 dB, 85.9 dB, and 102.6 dB.
(効果)
本実施例によれば、非エコー音声有無判定部9は第2のスペクトルデータm(ω,f)がエコー以外の音声を含んでいる状況(非エコー音声有り状態)を検出して適応フィルタ11の学習を止めたり弱めたりする制御を行うため、マイク入力にエコー以外の音声(利用者の音声等)が含まれているか否かを速やかに正しく判定することができるという効果を有する。
(effect)
According to this embodiment, the non-echo voice presence / absence determination unit 9 detects a situation (state with non-echo voice) in which the second spectral data m (ω, f) contains voice other than echo, and the
非エコー音声有無判定部9内のエコー抑圧部21が、エコー消去部6よりも速くエコー抑圧量を上げられるエコー抑圧処理を実行することによって、適応フィルタ11をその学習初期から速く正しく学習させることができるという高速化、高精度化の効果を有する。これは、特に移動することでエコーの状態が頻繁に変わる移動ロボットに好適である。
The
また、本実施例を利用者と音声で対話するシステムに適用した場合、システムが自分の声を誤って認識してしまうことがなくなるので、無駄な音声認識処理を減らすことができるという省CPU化、クラウドサーバ上の音声認識を使う場合には通信量削減の効果を有する。 In addition, when this embodiment is applied to a system that interacts with a user by voice, the system does not mistakenly recognize one's own voice, so that unnecessary voice recognition processing can be reduced, which saves CPU. , When using voice recognition on a cloud server, it has the effect of reducing the amount of communication.
また、声の小さな利用者のためにマイク感度を上げるなど、システムのスピーカ音量とマイク感度の許容範囲を広げることができるというシステム運用条件拡大の効果を有する。 In addition, it has the effect of expanding the system operating conditions by expanding the allowable range of the speaker volume and microphone sensitivity of the system, such as increasing the microphone sensitivity for users with low voice.
さらに、利用者とシステムが同時にしゃべっても、利用者の声だけを取り出して認識できるので、利用者が自由なタイミングでシステムに話しかけることができるというシステム使用感向上の効果を有する。 Further, even if the user and the system speak at the same time, only the voice of the user can be extracted and recognized, so that the user can talk to the system at any time, which has the effect of improving the usability of the system.
実施例2では、環境雑音に対応した音響信号処理装置について説明する。図7は、本発明の実施例2に係る音響信号処理装置の機能ブロック図である。図中の符号1〜9は実施例1と同じ機能ブロックであるため、説明を省略する。実施例2は、実施例1に機能ブロック31、32、33、34を加えた構成となっている。以下、これら追加された機能ブロックを中心に説明する。
In the second embodiment, an acoustic signal processing device corresponding to environmental noise will be described. FIG. 7 is a functional block diagram of the acoustic signal processing device according to the second embodiment of the present invention.
マイク31は、マイク2と比べて、スピーカ1並びに利用者からより遠い位置に配置されたマイクロホンである。この配置は、マイク31にシステム音声や利用者音声が微弱にしか受音されないように配慮したものである。この結果、マイク31には専ら周囲の環境雑音が受音され雑音信号n(t)として入力される。雑音信号n(t)は第3の周波数分解部32によって周波数領域データn(ω,f)に変換される。すなわち、第3の周波数分解部32は、雑音信号n(t)を第3のスペクトルデータn(ω,f)に変換する第3の変換部といえる。
The microphone 31 is a microphone arranged at a position farther from the
一方、環境雑音は電車の音など比較的遠距離から到来するので、マイク2の入力信号m(t)にもマイク31と同程度のレベルで混入する。このm(t)に混入した環境雑音はシステム音声x(t)と相関がないので、エコー消去部6と残留エコー抑圧部7の処理によっても消し去ることができない。 On the other hand, since environmental noise arrives from a relatively long distance such as the sound of a train, it is mixed in the input signal m (t) of the microphone 2 at the same level as the microphone 31. Since the environmental noise mixed in this m (t) has no correlation with the system voice x (t), it cannot be eliminated by the processing of the echo erasing unit 6 and the residual echo suppressing unit 7.
図7の33は、この環境雑音を抑圧するための環境雑音抑圧部である。環境雑音抑圧部33は、残留エコー抑圧部7の出力o2(ω,f)と雑音データである第3のスペクトルデータn(ω,f)を入力とし、式(9)に従ってo2(ω,f)に含まれる雑音成分を抑圧した音声o3(ω,f)を計算する。
ここで、式(9)のgain(ω,f)は下記の式(10)で計算される抑圧係数である。これは式(6)からフロアリング処理をなくした計算である。
図7の34は微小周波数成分抑圧部である。微小周波数成分抑圧部34は、環境雑音抑圧部33の出力o3(ω,f)を入力とし、式(11)に従ってo3(ω,f)に含まれる所定閾値未満の振幅を持つ微小な周波数成分を抑圧した音声o4(ω,f)を計算する。
ここで、式(11)のgain(ω,f)は下記の式(12)で計算される抑圧係数である。なお、式中の0.01は抑圧効果を与える1.0より小さい非負の値であり、例えば0.0や0.02などの他の数値でも良い。
本実施例の音声信号処理装置では、波形生成部8は、微小周波数成分抑圧部34の出力音声o4(ω,f)を逆FFT処理することで時間領域の出力信号O(t)を生成する。このO(t)が本実施例の音声信号処理装置の出力音声信号である。 In the audio signal processing apparatus of this embodiment, the waveform generation unit 8 generates an output signal O (t) in the time domain by performing inverse FFT processing on the output audio o4 (ω, f) of the minute frequency component suppression unit 34. .. This O (t) is the output audio signal of the audio signal processing device of this embodiment.
図8は、本発明の実施例2に係る音響信号処理装置の処理の流れを示すフローチャートである。本実施例の音響信号処理装置を起動すると、まず初期化処理ステップS21が実行される。この処理で時刻インデックスtとフレーム番号fが0に初期化される。 FIG. 8 is a flowchart showing a processing flow of the acoustic signal processing apparatus according to the second embodiment of the present invention. When the acoustic signal processing device of this embodiment is started, the initialization processing step S21 is first executed. In this process, the time index t and the frame number f are initialized to 0.
続くFSサンプル入力処理ステップS22では、m(t)、x(t)、n(t)の各音声信号がフレームシフト量FSサンプル分だけ入力される。 In the subsequent FS sample input processing step S22, each audio signal of m (t), x (t), and n (t) is input by the frame shift amount FS sample.
次にFLサンプル蓄積判定処理ステップS23では、これまでに入力されたm(t)、x(t)、n(t)の各音声信号のサンプル数がFFT解析窓の長さであるフレーム長FL以上か否かを判定する。もし、これまでに入力されたm(t)、X(t)、n(t)の各音声信号のサンプル数がフレーム長FLに満たない場合は以降のFFT処理を行えないので、図中左(No)に分岐してダミー出力生成処理ステップS29を実行する。一方、そうでない場合は図中下(Yes)に分岐して周波数分解処理ステップS24を実行する。 Next, in the FL sample accumulation determination processing step S23, the frame length FL in which the number of samples of each of the m (t), x (t), and n (t) audio signals input so far is the length of the FFT analysis window. It is determined whether or not it is the above. If the number of m (t), X (t), and n (t) audio signal samples input so far is less than the frame length FL, the subsequent FFT processing cannot be performed, so the left in the figure. Branch to (No) and execute the dummy output generation processing step S29. On the other hand, if this is not the case, the frequency decomposition process step S24 is executed by branching to the lower part (Yes) in the figure.
ダミー出力生成処理ステップS29では、例えば出力音声信号O(t)=m(t)として、マイクロホン入力信号をそのまま出力するか、あるいは無音を出力する。 In the dummy output generation processing step S29, for example, as the output audio signal O (t) = m (t), the microphone input signal is output as it is, or silence is output.
周波数分解処理ステップS24は第1の周波数分解部4、第2の周波数分解部5、第3の周波数分解部32に対応した処理ステップであり、入力されたx(t)、m(t)、n(t)の各音声信号を第1のスペクトルデータx(ω,f)、第2のスペクトルデータm(ω,f)、第3のスペクトルデータn(ω,f)に変換する。 The frequency decomposition processing step S24 is a processing step corresponding to the first frequency decomposition unit 4, the second frequency decomposition unit 5, and the third frequency decomposition unit 32, and the input x (t), m (t), Each voice signal of n (t) is converted into the first spectrum data x (ω, f), the second spectrum data m (ω, f), and the third spectrum data n (ω, f).
非エコー音声検出処理ステップS25は非エコー音声有無判定部9に対応した処理ステップであり、式(5)、式(6)、及び、式(7)の計算により第2のスペクトルデータm(ω,f)と第1のスペクトルデータx(ω,f)からDT(f)の値を決定する。 The non-echo voice detection processing step S25 is a processing step corresponding to the non-echo voice presence / absence determination unit 9, and the second spectral data m (ω) is calculated by the formulas (5), (6), and (7). , F) and the first spectral data x (ω, f) determine the value of DT (f).
エコー消去処理ステップS26はエコー消去部6に対応した処理ステップであり、式(1)及び式(2)の計算によりe(ω,f)を計算するとともに、DT(f)に基づくステップサイズμの制御によりフィルタ係数w(ω,f)を更新する。 The echo erasing processing step S26 is a processing step corresponding to the echo erasing unit 6, and e (ω, f) is calculated by the calculation of the equations (1) and (2), and the step size μ based on the DT (f) is calculated. The filter coefficient w (ω, f) is updated by the control of.
残留エコー抑圧処理ステップS27は残留エコー抑圧部7に対応した処理ステップであり、式(3)及び式(4)の計算により、e(ω,f)から残留エコーを抑圧した音声o2(ω,f)を計算する。 The residual echo suppression processing step S27 is a processing step corresponding to the residual echo suppression unit 7, and the voice o2 (ω, ω, f) in which the residual echo is suppressed from e (ω, f) by the calculation of the equations (3) and (4). f) is calculated.
環境雑音抑圧処理ステップS30は環境雑音抑圧部33に対応した処理ステップであり、式(9)及び式(10)の計算により、o2(ω,f)から雑音成分を抑圧した音声o3(ω,f)を計算する。 The environmental noise suppression processing step S30 is a processing step corresponding to the environmental noise suppression unit 33, and the noise component is suppressed from o2 (ω, f) by the calculation of the equations (9) and (10). f) is calculated.
微小周波数成分抑圧処理ステップS31は、微小周波数成分抑圧部34に対応した処理ステップであり、式(11)及び式(12)の計算により、o3(ω,f)から微小な周波数成分を抑圧した音声o4(ω,f)を計算する。 The minute frequency component suppression processing step S31 is a processing step corresponding to the minute frequency component suppression unit 34, and the minute frequency component is suppressed from o3 (ω, f) by the calculation of the equations (11) and (12). The voice o4 (ω, f) is calculated.
出力生成処理ステップS28は、波形生成部8に対応した処理ステップであり、o4(ω,f)から逆FFT処理により出力音声信号O(t)を計算する。 The output generation processing step S28 is a processing step corresponding to the waveform generation unit 8, and calculates the output audio signal O (t) from o4 (ω, f) by reverse FFT processing.
なお、ダミー出力生成処理ステップS29と出力生成処理ステップS28を実行すると、処理はFSサンプル入力処理ステップS22に戻る。その際、時刻インデックスtはFSだけ増加され、フレーム番号fは1だけ増加される。 When the dummy output generation processing step S29 and the output generation processing step S28 are executed, the processing returns to the FS sample input processing step S22. At that time, the time index t is increased by FS, and the frame number f is increased by 1.
実施例2に係る音響信号処理装置のハードウェア構成については、図5で説明した実施例1のハードウェア構成と同様であるため、省略する。 The hardware configuration of the acoustic signal processing device according to the second embodiment is the same as the hardware configuration of the first embodiment described with reference to FIG. 5, and is therefore omitted.
図9は、本発明の実施例2に係る音響信号処理装置による処理の結果を示す図である。図中(a)のマイク入力信号m(t)は、第2の周波数分解部5により第2のスペクトルデータm(ω,f)に変換される。この音声には利用者音声とシステム音声エコーと環境雑音とが混ざりこんでいる。システム音声x(t)も第1の周波数分解部4により第1のスペクトルデータx(ω,f)に変換される。また、環境雑音n(t)も第3の周波数分解部32により第3のスペクトルデータn(ω,f)に変換される。実施例2でも、実施例1と同様、Cooley−Tukey DFT Algorithmを使い、フレーム長FLを512サンプル、フレームシフト量FSを160サンプル、窓掛けにハニング窓を使用して、FFT及び逆FFTを実行している。 FIG. 9 is a diagram showing the results of processing by the acoustic signal processing apparatus according to the second embodiment of the present invention. The microphone input signal m (t) in the figure (a) is converted into the second spectral data m (ω, f) by the second frequency decomposition unit 5. This voice is a mixture of user voice, system voice echo, and environmental noise. The system voice x (t) is also converted into the first spectral data x (ω, f) by the first frequency decomposition unit 4. Further, the environmental noise n (t) is also converted into the third spectral data n (ω, f) by the third frequency decomposition unit 32. In Example 2, as in Example 1, FFT and reverse FFT are executed using Cooley-Tukey DFT Algorithm, frame length FL is 512 samples, frame shift amount FS is 160 samples, and Hanning window is used for window hanging. doing.
図中(b)は出力音声信号O(t)である。エコー消去部6、残留エコー抑圧部7、環境雑音抑圧部33、微小周波数成分抑圧部34を経て得られた出力音声o4(ω,f)は波形生成部8により時間領域信号O(t)に変換される。これが本実施例の出力音声である。出力音声O(t)には利用者音声のみが強く残る。このとき、図中(c)に示す非エコー音声有無判定部9の出力DT(f)のグラフは環境雑音のため全域で非エコー音声有り状態を示しているが、これは正しい応答である。 In the figure, (b) is an output audio signal O (t). The output voice o4 (ω, f) obtained through the echo erasing unit 6, the residual echo suppressing unit 7, the environmental noise suppressing unit 33, and the minute frequency component suppressing unit 34 is converted into a time domain signal O (t) by the waveform generation unit 8. Will be converted. This is the output voice of this embodiment. Only the user voice remains strongly in the output voice O (t). At this time, the graph of the output DT (f) of the non-echo voice presence / absence determination unit 9 shown in FIG.
図中(d)に示すm(t)/O(t)はERLEの値の推移を示している。ただし、ERLEはシステム音声エコーのみが存在する期間で計算すべきであるが、今回は利用者音声がなく、システム音声エコーと環境雑音を合わせた妨害音だけが存在する期間で、これら妨害音に対する消去性能を求める意味で計算した。グラフより、学習の初期(図中R1)、中期(図中R2)、終期(図中R3)の3か所のそれぞれ平均値を拾い出すと、133.5dB、109.4dB、150.0dBと高い値を記録していることがわかる。この消去性能はエコーの消去と抑圧効果に加えて環境雑音と微小周波数成分の抑圧効果を含んだ数値である。 In the figure, m (t) / O (t) shown in (d) shows the transition of the ERLE value. However, ERLE should be calculated in the period when only the system voice echo exists, but this time there is no user voice and only the disturbing sound which is the combination of the system voice echo and the environmental noise exists. It was calculated in the sense of finding the erasing performance. From the graph, when the average values of the three points of the initial stage (R1 in the figure), the middle stage (R2 in the figure), and the final stage (R3 in the figure) are picked up, they are 133.5 dB, 109.4 dB, and 150.0 dB. It can be seen that a high value is recorded. This erasing performance is a numerical value including the effect of suppressing environmental noise and minute frequency components in addition to the effect of erasing and suppressing echoes.
(効果)
本実施例によれば、実施例1で説明した効果はもちろん得られ、さらに、周囲が騒がしい場所(例えば、展示会場)でもシステム運用が可能になるというシステム運用条件拡大の効果を有する。
(effect)
According to this embodiment, the effects described in the first embodiment are of course obtained, and further, the system operation conditions can be expanded even in a noisy place (for example, an exhibition hall).
以上、本発明の実施例(変形例を含む)について説明してきたが、これらのうち、2つ以上の実施例を組み合わせて実施しても構わない。あるいは、これらのうち、1つの実施例を部分的に実施しても構わない。さらには、これらのうち、2つ以上の実施例を部分的に組み合わせて実施しても構わない。 Although the examples (including modified examples) of the present invention have been described above, two or more of these examples may be combined and carried out. Alternatively, one of these examples may be partially implemented. Furthermore, among these, two or more examples may be partially combined and carried out.
本発明は、上記発明の実施例の説明に何ら限定されるものではない。特許請求の範囲の記載を逸脱せず、当業者が容易に想到できる範囲で種々の変形態様もこの発明に含まれる。例えば、本発明の音声信号処理装置は、他の音声会話機能を有する案内型ロボットのフロントエンド処理としても適用可能である。 The present invention is not limited to the description of the embodiments of the above invention. Various modifications are also included in the present invention to the extent that those skilled in the art can easily conceive without departing from the description of the scope of claims. For example, the voice signal processing device of the present invention can also be applied as front-end processing of a guidance type robot having another voice conversation function.
1 スピーカ
2、31 マイク
3 エコー
4 第1の周波数分解部(第1の変換部)
5 第2の周波数分解部(第2の変換部)
6 エコー消去部
7 残留エコー抑圧部
8 波形生成部
9 非エコー音声有無判定部
11 適応フィルタ
12 減算器
21 エコー抑圧部
22 波形生成部
23 判定部
32 第3の周波数分解部(第3の変換部)
33 環境雑音抑圧部
34 微小周波数成分抑圧部
1 Speaker 2, 31 Microphone 3 Echo 4 First frequency decomposition section (first conversion section)
5 Second frequency decomposition unit (second conversion unit)
6 Echo erasing unit 7 Residual echo suppression unit 8 Waveform generation unit 9 Non-echo voice presence /
33 Environmental noise suppression section 34 Micro frequency component suppression section
Claims (7)
マイクから入力された音声信号を第2のスペクトルデータに変換する第2の変換部と、
前記第1のスペクトルデータ及び前記第2のスペクトルデータに基づいて非エコー音声の有無を判定する非エコー音声有無判定部と、
前記第1のスペクトルデータ及び前記第2のスペクトルデータを入力し、エコーを消去するための適応フィルタを用いて誤差出力を計算するエコー消去部と、
を備え、
前記エコー消去部は、
前記非エコー音声が有る場合、前記適応フィルタの学習の強さを示す係数を、前記非エコー音声が無い場合に比べ、低くし、
前記非エコー音声有無判定部は、
前記第2のスペクトルデータのエコー成分を抑圧するエコー抑圧部と、前記エコー抑圧部の出力結果から時間領域の音声信号を生成する生成部と、前記時間領域の音声信号から前記非エコー音声の有無を判定する判定部と、を有する音響信号処理装置。 The first conversion unit that converts the audio signal before being output from the speaker into the first spectral data, and
A second conversion unit that converts the audio signal input from the microphone into the second spectral data, and
A non-echo voice presence / absence determination unit that determines the presence / absence of non-echo voice based on the first spectrum data and the second spectrum data,
An echo elimination unit that inputs the first spectrum data and the second spectrum data and calculates an error output using an adaptive filter for eliminating echoes.
Equipped with
The echo erasing unit is
In the presence of the non-echo voice, the coefficient indicating the learning strength of the adaptive filter is lowered as compared with the case without the non-echo voice.
The non-echo voice presence / absence determination unit is
An echo suppression unit that suppresses the echo component of the second spectral data, a generation unit that generates an audio signal in the time domain from the output result of the echo suppression unit, and the presence / absence of the non-echo audio from the audio signal in the time domain. An acoustic signal processing device having a determination unit for determining.
前記生成部が生成した音声信号の波形データの振幅が所定の閾値以上のデータ数を計算し、
前記データ数が所定の閾値以上の場合に、前記非エコー音声が有ると判定する請求項1に記載の音響信号処理装置。 The determination unit
The number of data in which the amplitude of the waveform data of the audio signal generated by the generation unit is equal to or greater than a predetermined threshold value is calculated.
Wherein when the number of data is equal to or greater than a predetermined threshold value, the acoustic signal processing apparatus according to claim 1 determines that the non-echo sound is present.
前記第3のスペクトルデータを抑圧する環境雑音抑圧部と、をさらに備える請求項1に記載の音響信号処理装置。 A third converter that converts environmental noise signals input from other microphones into third spectral data, and
The acoustic signal processing device according to claim 1, further comprising an environmental noise suppressing unit that suppresses the third spectral data.
マイクから入力された音声信号を第2のスペクトルデータに変換する第2の変換ステップと、
前記第1のスペクトルデータ及び前記第2のスペクトルデータに基づいて非エコー音声の有無を判定する非エコー音声有無判定ステップと、
前記第1のスペクトルデータ及び前記第2のスペクトルデータを入力し、エコーを消去するための適応フィルタを用いて誤差出力を計算するエコー消去ステップと、
を備え、
前記エコー消去ステップは、
前記非エコー音声が有る場合、前記適応フィルタの学習の強さを示す係数を、前記非エコー音声が無い場合に比べ、低くし、
前記非エコー音声有無判定ステップは、
前記第2のスペクトルデータのエコー成分を抑圧するエコー抑圧ステップと、前記エコー抑圧ステップの出力結果から時間領域の音声信号を生成する生成ステップと、前記時間領域の音声信号から前記非エコー音声の有無を判定する判定ステップと、を有する音響信号処理方法。 The first conversion step of converting the audio signal before being output from the speaker into the first spectral data, and
A second conversion step of converting the audio signal input from the microphone into the second spectral data,
A non-echo voice presence / absence determination step for determining the presence / absence of non-echo voice based on the first spectrum data and the second spectrum data,
An echo elimination step in which the first spectral data and the second spectral data are input and the error output is calculated using an adaptive filter for eliminating echoes.
Equipped with
The echo erasing step is
In the presence of the non-echo voice, the coefficient indicating the learning strength of the adaptive filter is lowered as compared with the case without the non-echo voice.
The non-echo voice presence / absence determination step is
An echo suppression step that suppresses the echo component of the second spectral data, a generation step that generates an audio signal in the time domain from the output result of the echo suppression step, and the presence / absence of the non-echo audio from the audio signal in the time domain. A determination step for determining an acoustic signal processing method.
マイクから入力された音声信号を第2のスペクトルデータに変換する第2の変換ステップと、
前記第1のスペクトルデータ及び前記第2のスペクトルデータに基づいて非エコー音声の有無を判定する非エコー音声有無判定ステップと、
前記第1のスペクトルデータ及び前記第2のスペクトルデータを入力し、エコーを消去するための適応フィルタを用いて誤差出力を計算するエコー消去ステップと、
をコンピュータに実行可能な音響信号処理プログラムであって、
前記エコー消去ステップは、
前記非エコー音声が有る場合、前記適応フィルタの学習の強さを示す係数を、前記非エコー音声が無い場合に比べ、低くし、
前記非エコー音声有無判定ステップは、
前記第2のスペクトルデータのエコー成分を抑圧するエコー抑圧ステップと、前記エコー抑圧ステップの出力結果から時間領域の音声信号を生成する生成ステップと、前記時間領域の音声信号から前記非エコー音声の有無を判定する判定ステップと、を有する音響信号処理プログラム。 The first conversion step of converting the audio signal before being output from the speaker into the first spectral data, and
A second conversion step of converting the audio signal input from the microphone into the second spectral data,
A non-echo voice presence / absence determination step for determining the presence / absence of non-echo voice based on the first spectrum data and the second spectrum data,
An echo elimination step in which the first spectral data and the second spectral data are input and the error output is calculated using an adaptive filter for eliminating echoes.
Is an acoustic signal processing program that can be executed on a computer.
The echo erasing step is
In the presence of the non-echo voice, the coefficient indicating the learning strength of the adaptive filter is lowered as compared with the case without the non-echo voice.
The non-echo voice presence / absence determination step is
An echo suppression step that suppresses the echo component of the second spectral data, a generation step that generates an audio signal in the time domain from the output result of the echo suppression step, and the presence / absence of the non-echo audio from the audio signal in the time domain. A determination step, and an acoustic signal processing program having.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017108148A JP6970422B2 (en) | 2017-05-31 | 2017-05-31 | Acoustic signal processing device, acoustic signal processing method, and acoustic signal processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017108148A JP6970422B2 (en) | 2017-05-31 | 2017-05-31 | Acoustic signal processing device, acoustic signal processing method, and acoustic signal processing program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018207221A JP2018207221A (en) | 2018-12-27 |
JP6970422B2 true JP6970422B2 (en) | 2021-11-24 |
Family
ID=64957495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017108148A Active JP6970422B2 (en) | 2017-05-31 | 2017-05-31 | Acoustic signal processing device, acoustic signal processing method, and acoustic signal processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6970422B2 (en) |
-
2017
- 2017-05-31 JP JP2017108148A patent/JP6970422B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018207221A (en) | 2018-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111161752B (en) | Echo cancellation method and device | |
US10062372B1 (en) | Detecting device proximities | |
JP4532576B2 (en) | Processing device, speech recognition device, speech recognition system, speech recognition method, and speech recognition program | |
US9378755B2 (en) | Detecting a user's voice activity using dynamic probabilistic models of speech features | |
US12073818B2 (en) | System and method for data augmentation of feature-based voice data | |
CN106558315B (en) | Heterogeneous microphone automatic gain calibration method and system | |
CN108140395B (en) | Comfort noise generation apparatus and method | |
JP5566846B2 (en) | Noise power estimation apparatus, noise power estimation method, speech recognition apparatus, and speech recognition method | |
US20180033427A1 (en) | Speech recognition transformation system | |
JP2022544065A (en) | Method and Apparatus for Normalizing Features Extracted from Audio Data for Signal Recognition or Correction | |
JP6891144B2 (en) | Generation device, generation method and generation program | |
KR101877022B1 (en) | Apparatus for Cancellation of Acoustic Echo and Computer Program Therefore | |
JP2019020678A (en) | Noise reduction device and voice recognition device | |
JP6970422B2 (en) | Acoustic signal processing device, acoustic signal processing method, and acoustic signal processing program | |
JP2009276365A (en) | Processor, voice recognition device, voice recognition system and voice recognition method | |
KR100949910B1 (en) | Method and apparatus for acoustic echo cancellation using spectral subtraction | |
JP2007093630A (en) | Speech emphasizing device | |
US11996115B2 (en) | Sound processing method | |
CN111201568A (en) | Detection in situ | |
JP6439174B2 (en) | Speech enhancement device and speech enhancement method | |
CN111785292B (en) | Speech reverberation intensity estimation method and device based on image recognition and storage medium | |
JP6106618B2 (en) | Speech section detection device, speech recognition device, method thereof, and program | |
JP6125953B2 (en) | Voice section detection apparatus, method and program | |
JP2016080767A (en) | Frequency component extraction device, frequency component extraction method and frequency component extraction program | |
KR102012522B1 (en) | Apparatus for processing directional sound |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200528 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210226 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210416 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211005 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211022 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6970422 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |