JP2011033717A - Noise suppression device - Google Patents
Noise suppression device Download PDFInfo
- Publication number
- JP2011033717A JP2011033717A JP2009178117A JP2009178117A JP2011033717A JP 2011033717 A JP2011033717 A JP 2011033717A JP 2009178117 A JP2009178117 A JP 2009178117A JP 2009178117 A JP2009178117 A JP 2009178117A JP 2011033717 A JP2011033717 A JP 2011033717A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- component
- unit
- cross spectrum
- noise suppression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、騒音環境下において音声を明瞭に検出するための雑音抑圧装置に関する。 The present invention relates to a noise suppression device for clearly detecting speech in a noisy environment.
従来、雑音環境下においてマイクロホンから入力される音響信号の雑音成分を抑圧して音声成分を精度よく検出するための雑音抑圧装置が提案されている。
中でも代表的な手法として、スペクトルサブトラクション法(例えば非特許文献1、以下SS法)がある。
SS法は、発声が無い区間において雑音のパワースペクトルを計測し、発話時のパワースペクトルから雑音スペクトルを減算することにより、目的音声のパワースペクトルを推定するものであり、SS法については多くの改良手法が提案されている(例えば特許文献1)。
また非特許文献2では2チャンネルのマイク入力を用いて雑音除去を行う適応アレー技術が開示されている。
この技術は、2つのマイクの信号の和による主パスで音声を強調し、差信号による副パスで目的音声が含まれない参照信号を生成し、主パスに含まれる雑音成分を、副パスからの参照信号を変形させて差し引くことにより、雑音を抑制しようとするものである。
Conventionally, there has been proposed a noise suppression device for accurately detecting a speech component by suppressing a noise component of an acoustic signal input from a microphone in a noisy environment.
Among them, a typical method is a spectral subtraction method (for example, Non-Patent
The SS method estimates the power spectrum of the target speech by measuring the power spectrum of noise in a section where there is no utterance, and subtracting the noise spectrum from the power spectrum at the time of speech. A technique has been proposed (for example, Patent Document 1).
Non-Patent
This technique emphasizes the voice in the main path based on the sum of the signals of the two microphones, generates a reference signal that does not include the target voice in the sub path based on the difference signal, and extracts the noise component included in the main path from the sub path. The reference signal is deformed and subtracted to suppress noise.
しかし、SS法を用いる場合、環境雑音は絶えず変動しており、非発声時に計測した雑音レベルと、発声時に含まれている雑音レベルの間に生じる誤差のため、スペクトル減算の際に、雑音の残留或いは引き過ぎが発生し、人間が耳にした場合、耳障りなmusical noiseと呼ばれる雑音が発生する。
これに対して特許文献1では音声中のポーズ区間についてスペクトル減算の係数を変更することにより、引き過ぎの対策を行っている。しかし、雑音レベルが高くなると発声かどうかを切り分けることが困難となり、正しい雑音計測ができなくなる。また、SS法では、突発性の雑音には対応できないという問題がある。
However, when using the SS method, the environmental noise constantly fluctuates, and due to the error that occurs between the noise level measured during non-speech and the noise level included during utterance, the noise is reduced during spectral subtraction. When residual or excessive pulling occurs and a human hears it, an unpleasant noise called musical noise is generated.
On the other hand,
非特許文献2の適応アレー技術では、2つのマイクの差信号として求める参照信号を音声信号が含まれないように作成するのが困難であるという問題がある。これは2チャンネルのマイクロホンアレーでは音声信号が含まれないようにするための死角形成が1方向にしか形成できないことに起因する。一般の残響環境下では、音声信号は空間的に直接マイクに入力する経路以外に、壁などの物体に反射してから入力する成分が存在する。
仮にパワーが大きい直接波をキャンセルできたとしても反射波はキャンセルできない場合があり、その結果、参照信号中に含まれている残存音声成分の影響で、主パスから雑音を差し引く際に、目的信号である音声信号を除去する方向に適応処理が働き、処理された信号の品質は著しく損なわれることになるという問題がある。
また適応アレー技術では、適応処理を動作させるタイミング信号(音声が発せられたかどうか)を知る必要があり、一般的な雑音環境下では少なからず誤りが発生するため、適応処理が意図しない方向に進んでしまうという問題もある。
In the adaptive array technique of Non-Patent
Even if the direct wave with high power can be canceled, the reflected wave may not be cancelled.As a result, the target signal is subtracted when noise is subtracted from the main path due to the influence of the residual audio component contained in the reference signal. There is a problem that the adaptive processing works in the direction of removing the voice signal, and the quality of the processed signal is significantly impaired.
In addition, the adaptive array technology needs to know the timing signal (whether or not the voice is emitted) for operating the adaptive processing, and there are not a few errors in a general noise environment, so the adaptive processing proceeds in an unintended direction. There is also a problem that it ends up.
そこで、本発明は、かかる課題を解決するため、2つのマイクロホンからの入力信号を利用して簡易な手法にて精度よく雑音成分だけを抑圧可能な雑音抑圧装置の実現を目的とする。 Therefore, in order to solve such a problem, an object of the present invention is to realize a noise suppression device capable of accurately suppressing only a noise component by a simple method using input signals from two microphones.
本発明は、2つの集音器にて取得した音響信号を処理して雑音成分を抑圧する雑音抑圧装置であって、2つの音響信号同士の位相差の時間変動度合いを周波数成分毎に評価する位相差変動評価部と位相差の時間変動度合いが大きい周波数成分を雑音として当該周波数成分の振幅成分が小さくなるような振幅補正係数を算出し、音響信号に振幅補正係数を作用させて雑音成分を抑圧した信号を出力する振幅補正部を有する雑音抑圧装置を提供する。 The present invention is a noise suppression device that processes acoustic signals acquired by two sound collectors and suppresses noise components, and evaluates the degree of temporal variation in phase difference between two acoustic signals for each frequency component. An amplitude correction coefficient is calculated so that the amplitude component of the frequency component becomes small with the frequency component having a large degree of time variation of the phase difference as a noise, and the noise component is calculated by applying the amplitude correction coefficient to the acoustic signal. Provided is a noise suppression device having an amplitude correction unit that outputs a suppressed signal.
また、本発明の好適な態様は、位相差変動評価部は、2つの音響信号のクロススペクトルを所定周期ごとに算出するクロススペクトル算出部と、算出されたクロススペクトルを所定数記憶するバッファリング部と、バッファリング部に記憶されたクロススペクトルの位相成分の時間変動度合いを音響信号同士の位相差の時間変動度合いとして所定周期ごとに算出する変動測定部とを有する。 According to a preferred aspect of the present invention, the phase difference fluctuation evaluating unit includes a cross spectrum calculating unit that calculates cross spectra of two acoustic signals at predetermined intervals, and a buffering unit that stores a predetermined number of calculated cross spectra. And a fluctuation measuring unit that calculates a time fluctuation degree of the phase component of the cross spectrum stored in the buffering part as a time fluctuation degree of the phase difference between the acoustic signals for each predetermined period.
また、本発明の好適な態様では、振幅補正部は、振幅補正係数をクロススペクトルの振幅成分に乗算して雑音成分を抑圧したクロススペクトルを算出する。 In a preferred aspect of the present invention, the amplitude correction unit calculates a cross spectrum in which the noise component is suppressed by multiplying the amplitude component of the cross spectrum by the amplitude correction coefficient.
さらに、本発明の好適な態様として振幅補正部は、クロススペクトルの振幅成分に白色化処理を行う白色化部を有し、白色化されたクロススペクトルの振幅成分に対し、振幅補正係数を乗算して雑音成分を抑圧する。 Further, as a preferred aspect of the present invention, the amplitude correction unit includes a whitening unit that performs whitening processing on the amplitude component of the cross spectrum, and multiplies the amplitude component of the whitened cross spectrum by an amplitude correction coefficient. To suppress the noise component.
また、本発明の好適な態様として、振幅補正部は、振幅補正係数を逆フーリエ変換したフィルタ係数を算出するフィルタ係数算出部を有し、2つの音響信号のいずれか又は合成した音響信号にフィルタ係数を作用させて雑音が抑圧された音響信号を生成する。 Further, as a preferred aspect of the present invention, the amplitude correction unit includes a filter coefficient calculation unit that calculates a filter coefficient obtained by performing inverse Fourier transform on the amplitude correction coefficient, and performs filtering on one of the two acoustic signals or a synthesized acoustic signal. An acoustic signal in which noise is suppressed is generated by applying a coefficient.
本発明の雑音抑圧装置を発声検知装置に適用すれば、目的方向以外の音声や雑音に反応しにくい発声検知装置を構成できる。
さらに本発明を適用した音声再生装置によれば、定常的な環境雑音の影響が取り除かれた聞きやすい音声が提供できる。
When the noise suppression device of the present invention is applied to the utterance detection device, it is possible to configure an utterance detection device that does not easily react to voice or noise other than the target direction.
Furthermore, according to the sound reproducing apparatus to which the present invention is applied, it is possible to provide easy-to-hear sound from which the influence of stationary environmental noise is removed.
以下、本発明に係る雑音抑圧装置を適用した実施形態について図を参照して説明する。
(第1の実施形態)
ここでは、本発明に係る雑音抑圧装置を、金融機関のCD/ATM前で操作者が携帯電話により会話を行っていることを検出する発声検出装置に使用したときの例を説明する。
近年増加しつつある振込め詐欺の被害を未然に防止することを目的とし、金融機関のCD/ATMの操作者が音声を発していることを検出するとスピーカ等から警告を発する発声検出装置が提案されている。
Hereinafter, an embodiment to which a noise suppression device according to the present invention is applied will be described with reference to the drawings.
(First embodiment)
Here, an example will be described in which the noise suppression device according to the present invention is used in an utterance detection device that detects that an operator has a conversation using a mobile phone in front of a CD / ATM of a financial institution.
Proposed utterance detection device that issues a warning from a speaker or the like when it detects that a CD / ATM operator of a financial institution is uttering sound, in order to prevent the damage of wire fraud that has been increasing in recent years Has been.
振り込め詐欺では、犯罪者が被害者に携帯電話にてCD/ATMの操作を誘導し、被害者のお金を加害者の口座に振り込ませる手口を使うことがあり、振り込め詐欺の可能性のある操作者は、携帯電話を使用して電話口の相手と会話しながら、操作をすることが多い。
本発声検出装置は、振り込め詐欺を防止するためCD/ATMの上部左右両端に設置した2つのマイクロホンからの音響信号を解析することで、CD/ATMの正面にて操作者が発声した音声信号を検知するものである。
このようなCD/ATMが設定される環境は、CD/ATMの作動音や設置ブース内外の周辺雑音が大きく、精度よく音声を検出するためには、この周辺雑音を抑圧する必要がある。
In transfer fraud, criminals sometimes use victims to direct CD / ATM operations on their mobile phones and transfer victims' money into the perpetrator's account. In many cases, a person performs an operation while having a conversation with a partner at the telephone port using a mobile phone.
This utterance detection device analyzes the audio signals from the two microphones installed at the upper left and right ends of the CD / ATM in order to prevent wire fraud, and the voice signal uttered by the operator in front of the CD / ATM It is something to detect.
In such an environment in which CD / ATM is set, the operating noise of CD / ATM and the surrounding noise inside and outside the installation booth are large, and it is necessary to suppress the surrounding noise in order to detect the sound with high accuracy.
図2は、金融機関におけるATM3の利用者4の発声を検出するための発声検出装置の配置の例を示した図である。発声検出装置1は、本体装置が壁面に設置され、マイクロホン2がATM3の上部の左右両端に所定距離を離隔させて2つ設置されている。本実施の形態では、マイクロホン2を2つ使用しているが、これに限られるものではなく、3以上を適宜の数を適宜の配置にて使用しても良く、この場合、2つずつのマイクロホンのペアで後述の処理を実行すればよい。
FIG. 2 is a diagram showing an example of the arrangement of the utterance detection device for detecting the utterance of the user 4 of the
次に図1を用いて、本発明に係る雑音抑圧装置を適用した発声検出装置1の構成について説明する。発声検出装置1は、集音器である2つのマイクロホン2と、増幅器10、A/Dコンバータ11、本発明の雑音抑圧装置である雑音抑圧部12、相互相関計算部24、発声検出部25から構成されている。
Next, the configuration of the
マイクロホン2は、全方向からの音声を集音するのが望ましいため、無指向性のものを使用している。マイクロホン2同士は、所定距離の間隔を空けて設置される(例えば50cm)。この所定距離は、サンプリング周期や話者との想定距離範囲などに応じてATM3の正面の操作者が発声したことを特定できるような値に決定される。
尚、この所定距離は、音声の発声方向を精度よく検出するために必要な距離であり、本発明に係る雑音抑圧装置に制限を課するものではない。
また、マイクロホン2は、ほぼ同程度の感度、特性を持ったものが使用するが、特別に高品質なものを用意する必要はない。
Since it is desirable to collect sound from all directions, the
Note that this predetermined distance is a distance necessary for accurately detecting the voice direction, and does not impose any restrictions on the noise suppression device according to the present invention.
The
増幅器10は、マイクロホン2により集音された音響信号を増幅するアンプである。この増幅率はA/Dコンバータ11の入力電圧に応じて適宜設定される。
A/Dコンバータ11は増幅されたアナログ信号である音響信号を2チャネル同時に所定サンプリング周波数でサンプリングして離散時間信号(デジタル信号)に変換する。
増幅器10、A/Dコンバータ11は、いずれも周知の部品であるので、詳細な説明は省略する。
The
The A / D converter 11 samples an acoustic signal, which is an amplified analog signal, at two sampling channels simultaneously at a predetermined sampling frequency and converts it into a discrete time signal (digital signal).
Since the
雑音抑圧部12は、位相差変動評価部13と振幅補正部14から構成される。第1の実施形態における雑音抑圧部12では、A/Dコンバータ11から入力した2つチャネルの信号のクロススペクトルを求め、周波数軸上で雑音抑圧処理をして、雑音が抑圧されたクロススペクトルを出力する。
The
位相差変動評価部13は、周波数軸上において各周波数帯域が音声成分か、雑音成分のいずれかが支配的かを測定する。具体的には、非常に細かい時間間隔で分析を行い、2チャネルの信号のクロススペクトルを求め、その位相成分(2つの音響信号の位相差)の時間変動度合いを測定する。
振幅補正部14では、位相差変動評価部13で2つのマイクの位相差の変動が大きい周波数成分を雑音として当該周波数成分の振幅値が小さくなるような雑音抑圧係数を算出する。そして元の信号のクロスペクトルに対して算出した雑用抑圧係数を周波数軸上で乗算して雑音抑圧処理を行う。雑音抑圧処理の詳細な処理については後述する。
The phase difference
In the
相互相関算出部24では、雑音成分が抑圧された2つのマイクロホン2のクロススペクトルを所定時間毎に逆フーリエ変換して相互相関関数を算出し、発声検出部25へ出力する。
The
発声検出部25では、相互相関算出部24にて算出した相互相関値列のピークの高さ、ピークの幅、ピークの連続性を評価し、指定した方向から発声があったかを判定する。
無音声の音響フレームでは無秩序な音響信号が左右のマイクロホン2の入力に現れているため、相互相関値が相対的に小さくなるのに対し、有音声の音響フレームでは、例えばATM3の操作者4が発声すると、正面方向からの音声が同位相で両方のマイクロホン2の入力に現れるため、相互相関値が相対的に大きくなる。
従って、発声検出部25では相互相関値列の最大値を与えるピークの高さが一定以上で、かつ、その幅が一定以下を満たし、かつ、ピーク位置が所定方向に近く、かつ、前記条件が複数フレームに渡って満たされるときに、音声が発せられたと判断している。
The
In a voiceless sound frame, a disordered acoustic signal appears at the inputs of the left and
Therefore, in the
以上、本発明に係る雑音抑圧装置を発声検出装置1に適用したときの構成について説明した。
尚、本発明に係る雑音抑圧装置である雑音抑圧部12は、発声検出装置1を構成するソフトウェアの一部として実現できる。また、2チャンネルの信号入力機能と、雑音抑圧した信号を出力するモジュールしても実現可能である。
The configuration when the noise suppression device according to the present invention is applied to the
Note that the
次に、本発明の雑音抑圧装置である雑音抑圧部12の具体的な雑音抑圧原理について詳細に説明する。
一般に、人間が会話をしている場合などの音声信号を分析処理する場合、10ms〜20msの分析周期(シフト幅)で20ms〜40msの分析窓を用いて周波数分析を行う。これは音声信号の統計的性質として10ms程度の間ではその統計的性質が変わらないという事実に基づいている。
図6は、騒音環境下での女性の音声の有声部を30msのハミング窓で切り出して分析した際のパワースペクトルの例である(横軸は周波数[Hz]、縦軸は強度[dB])。
この信号の音声の成分は、1kHz以下の帯域では300Hz、600Hz、900Hzに鋭いピークが存在し、音声成分と見分けがつくが、1kHz以上は雑音に埋もれており、どの帯域が音声成分であるかを見分けるのは難しい。このように、1つのフレーム分析結果だけを見ても、どの帯域が音声成分が優勢なのか、もしくは環境雑音が優勢なのかを判断することは難しい。
Next, a specific noise suppression principle of the
In general, when an audio signal is analyzed, such as when a person is talking, frequency analysis is performed using an analysis window of 20 ms to 40 ms with an analysis period (shift width) of 10 ms to 20 ms. This is based on the fact that the statistical property of the voice signal does not change for about 10 ms.
FIG. 6 is an example of a power spectrum when a voiced part of a female voice under a noisy environment is cut out and analyzed with a 30 ms Hamming window (the horizontal axis is frequency [Hz] and the vertical axis is intensity [dB]). .
The audio component of this signal has a sharp peak at 300 Hz, 600 Hz, and 900 Hz in the band of 1 kHz or less, and can be distinguished from the audio component, but 1 kHz or more is buried in noise, and which band is the audio component It is difficult to distinguish. In this way, it is difficult to determine which band has the dominant speech component or environmental noise by looking at only one frame analysis result.
雑音抑圧部12では、各周波数における音声成分の優勢性を、通常の分析周期よりも非常に細かい時間間隔で分析することにより精度良く推定するものであり、以下これを詳細に説明する。
図6の600Hzのピークは音声の成分であるが、この600Hzの成分の左右チャネルのクロススペクトル(複素数)を求め、その10msの間の時間推移を表示したものを図5(a)に示す。
また、同様に雑音成分である1840Hzのクロススペクトルの10msの間の時間推移を表示したものを図5(b)に示す。
図5について説明する。図5は、特定の周波数におけるクロススペクトルの時間変動を表したものである。クロススペクトルは左右チャネルの相互相関関数をフーリエ変換したものを意味する。
図5において円周方向の変化は特定周波数のクロススペクトルの位相の時間変動度合い、即ち、2つのチャネルから入力した音響信号の相対的な位相差の変動度合いを示す。また半径方向の変化は特定周波数のクロススペクトルの振幅の時間変動度合い、即ち2つのチャネルの振幅値の積の変動度合いを示している。
The
The peak at 600 Hz in FIG. 6 is a voice component. FIG. 5A shows the cross spectrum (complex number) of the left and right channels of this 600 Hz component, and the time transition for 10 ms is displayed.
Similarly, FIG. 5B shows a time transition for 10 ms of a cross spectrum of 1840 Hz which is a noise component.
FIG. 5 will be described. FIG. 5 shows the time variation of the cross spectrum at a specific frequency. The cross spectrum means a Fourier transform of the cross-correlation function of the left and right channels.
In FIG. 5, the change in the circumferential direction indicates the degree of temporal variation of the phase of the cross spectrum of the specific frequency, that is, the degree of variation of the relative phase difference between the acoustic signals input from the two channels. The change in the radial direction indicates the degree of time fluctuation of the amplitude of the cross spectrum of the specific frequency, that is, the degree of fluctuation of the product of the amplitude values of the two channels.
図5において黒丸印は分析中心フレームでの値であり、その前後5フレームを1msずつずらして分析した際の軌跡を太線で示している。
図5(a)をみると音声成分である600Hzのクロススペクトル成分は、位相も振幅も10msの間、ほとんど変動していないことがわかる。一方、図5(b)を見ると雑音成分である1840Hzの成分は10msの間で左右チャネルの振幅(積)は殆ど変化しないが、位相差は大きく変動しているのがわかる。
In FIG. 5, black circles are values in the analysis center frame, and the locus when the previous and next 5 frames are shifted by 1 ms and analyzed is indicated by a bold line.
From FIG. 5A, it can be seen that the cross spectrum component of 600 Hz, which is an audio component, hardly fluctuates in both phase and amplitude for 10 ms. On the other hand, FIG. 5B shows that the 1840 Hz component, which is a noise component, hardly changes in amplitude (product) of the left and right channels in 10 ms, but the phase difference fluctuates greatly.
音声成分は、10msの間では特性が変化しないこと、音声の方向性が強いこと、10msで残響特性が一定であることにより、2つのマイクロホンから入力された信号間の位相差の変動は、音声成分では少ない。一方、雑音成分は方向性が低く、さまざまな音源からの信号がランダムに左右のマイクロホンに到達するため、2つのマイクロホンから入力された信号間の位相差の変動が大きい。
よって、定められた時間内(ここでは10ms)の間にクロススペクトルの位相、即ち2つのマイクロホンから入力した信号の位相差がどれだけ変動しているかを計測することで、注目している周波数成分が音声成分優位なのか、もしくは雑音成分優位なのかを判定することができる。雑音成分と判断された周波数帯域は、その振幅強度を落とすことにより、実質的に雑音抑圧を行うことが可能となる。
Since the sound component does not change in characteristics for 10 ms, the directionality of the sound is strong, and the reverberation characteristics are constant in 10 ms, the fluctuation in the phase difference between the signals input from the two microphones is There are few ingredients. On the other hand, the noise component has low directivity, and signals from various sound sources randomly reach the left and right microphones, so that the variation in the phase difference between the signals input from the two microphones is large.
Therefore, the frequency component of interest is measured by measuring how much the phase of the cross spectrum, that is, the phase difference between the signals input from the two microphones fluctuates within a predetermined time (here, 10 ms). It is possible to determine whether or not the voice component is dominant or the noise component is dominant. The frequency band determined to be a noise component can be substantially suppressed by reducing its amplitude intensity.
以上、雑音抑圧部12の具体的な雑音抑圧の原理を説明した。
尚、ここでは、2つのマイクロホンから入力した音響信号の位相差の変動を、FFTを利用したクロススペクトル計算結果から計測する例で説明した。これにより、計算量を削減することができるという利点があるが、計算量を考慮する必要がない場合は、2つのマイクロホンから入力した音響信号の各々のFFT算出結果から直接位相成分を算出し、それらの差分から位相差を求め、その変動度合いを計測するようにしてもよい。その他、クロススペクトルは、時間領域で相互相関関数を求め、これをフーリエ変換して算出するようにしても同様の結果が得られる。
また、位相差の変動を計測して音声成分と雑音成分を識別するには、上述のように音声の性質から10ms程度の区間から推定するのが適切であり、分析周期も通常の音声分析よりも短い1ms程度で行うことが適切である。これらは計算量と精度の兼ね合いで適宜決めればよい。
The specific principle of noise suppression of the
Here, an example has been described in which the variation in the phase difference between the acoustic signals input from the two microphones is measured from the cross spectrum calculation result using FFT. Thereby, there is an advantage that the amount of calculation can be reduced, but when there is no need to consider the amount of calculation, the phase component is directly calculated from the FFT calculation results of each of the acoustic signals input from the two microphones, A phase difference may be obtained from these differences, and the degree of variation thereof may be measured. In addition, the cross spectrum can be obtained by calculating a cross-correlation function in the time domain and performing Fourier transform on the cross-correlation function.
Moreover, in order to measure the fluctuation of the phase difference and discriminate between the speech component and the noise component, it is appropriate to estimate from the section of about 10 ms from the nature of the speech as described above, and the analysis cycle is also longer than the normal speech analysis. However, it is appropriate to carry out in a short time of about 1 ms. These may be appropriately determined depending on the balance between calculation amount and accuracy.
次に、雑音抑圧部12の具体的な雑音抑圧処理手順について説明する。雑音抑圧部12は、図3に示すよう位相差変動評価部13と、振幅補正部14から構成される。位相差変動評価部13は、さらに前処理部15、フレーム切出部16、FFT計算部17、クロススペクトル計算部18、バッファリング部19、変動測定部20からなり、振幅補正部14は、白色化部21と振幅補正係数算出部22と抑圧処理部23からなる。
以下、図7のフローチャート及び適宜図3の構成図を参照して各部の機能と雑音抑圧のための具体的な処理手順について説明する。
Next, a specific noise suppression processing procedure of the
Hereinafter, the function of each unit and a specific processing procedure for noise suppression will be described with reference to the flowchart of FIG. 7 and the configuration diagram of FIG. 3 as appropriate.
まずステップS10では、A/Dコンバータ11で所定のサンプリング周期(例えば8kHz)で変換された離散信号に対し、前処理部15にて前処理が行われる。前処理部15は、入力された離散信号の処理に不要な周波数帯域、例えば70Hz以下の周波数成分をカットする低域カットフィルタ、および、信号のダイナミックレンジを圧縮して数値演算精度を高める高域強調処理からなる。
これらはともに必須の処理ではない。また、左右の両チャネルで同じ構成にする必要があるが、低域カットフィルタに関して、FIR(Finite Impulse Response)型、IIR(Infinite
Impulse Response)型の制限は無い。
First, in step S10, preprocessing is performed on the discrete signal converted by the A / D converter 11 at a predetermined sampling period (for example, 8 kHz). The preprocessing
These are not essential processes. Moreover, although it is necessary to make it the same structure in both the left and right channels, the FIR (Finite Impulse Response) type, IIR (Infinite)
Impulse Response) There is no type restriction.
次にステップS20で、前処理部15で処理された信号に対しフレーム切出部16でフレーム切出処理が行われる。フレーム切出部16は、音響信号から固定長のフレーム(例えば30msとする)を所定のシフト幅で切り出す。ここでシフト幅は分析周期を表し、上述のように通常の音声分析と比較して非常に短い周期で切り出すものとする。ここではシフト幅を1msとしている。フレームを切り出す際には、ハミング窓を窓関数として音響信号に乗じて切り出す。なお、窓関数は、ハミング窓に限られるものではなく、ハニング窓等を用いてもよい。
Next, in step S <b> 20, frame extraction processing is performed by the
次にステップS30では、フレーム切出部16で切出された音響信号が、FFT計算部17でFFT(Fast
Fourier Transform)計算が実行され周波数成分に変換される。8kHzサンプリング、30ms分析窓を使用する分析条件の場合、信号のポイント数は240点となるため、FFTサイズとしては256を採用する。先頭から240点は窓かけ信号を入力し、後ろの16点は0を入力して処理を行う。
Next, in step S30, the acoustic signal cut out by the
(Fourier Transform) calculations are performed and converted to frequency components. In the case of analysis conditions using 8 kHz sampling and a 30 ms analysis window, the number of signal points is 240, so 256 is adopted as the FFT size. A 240-point signal is input to the first 240 points, and 0 is input to the subsequent 16 points.
次にステップS40で、クロススペクトル算出部18において、左右チャンネルのFFT計算結果から、以下の計算式(式1)によりクロススペクトルを算出する。
Next, in step S40, the cross
ここで、Y(k,t)は周波数番号k、フレーム番号tでのクロススペクトル、X1(k,t)は左チャンネルのFFT結果、X2(k,t)は右チャンネルのFFT結果である。また*は複素数の共役を表している。
尚、ここでは、クロススペクトルを左右チャネルの信号のフーリエ変換を求めてから計算しているが、左右チャネルの相互相関関数を求めてからフーリエ変換を行って求めるようにしてもよい。
Here, Y (k, t) is the cross spectrum at frequency number k and frame number t, X 1 (k, t) is the left channel FFT result, and X 2 (k, t) is the right channel FFT result. is there. * Represents a conjugate of a complex number.
Here, the cross spectrum is calculated after obtaining the Fourier transform of the left and right channel signals. However, the cross spectrum may be obtained by obtaining the cross correlation function of the left and right channels and then performing the Fourier transform.
算出されたクロススペクトルはバッファリング部19に記憶される。バッファリング部19は所定サイズのリングバッファであり、所定サイズを超えて新たなクロススペクトルが入力されると古いものから順次消去される。
リングバッファのサイズは、位相差の時間変動を観測するのに必要な分用意すればよい。前述のように、ここでは位相差の時間変動の観測時間を10ms、クロススペクトルの算出を1msごとに行っており、前後5ms分のクロススペクトルがあればよいので、バッファサイズは11とする。
ステップS50では、予め設定した所定期間が経過したか否かを判定する。この所定期間は、後述の雑音抑圧処理を行う周期である。
所定期間(ここでは10ms)が経過するごとにバッファリング部19は、雑音抑圧処理を行うため、後段の変動測定部20に蓄積されたクロススペクトルのデータを出力する。
The calculated cross spectrum is stored in the
The size of the ring buffer may be prepared as much as necessary for observing the temporal variation of the phase difference. As described above, here, the observation time of the time variation of the phase difference is 10 ms, the calculation of the cross spectrum is performed every 1 ms, and the cross spectrum for 5 ms before and after is sufficient, so the buffer size is 11.
In step S50, it is determined whether a predetermined period set in advance has elapsed. This predetermined period is a period for performing a noise suppression process described later.
The
ステップS60では、変動測定部20が、所定期間ごとにバッファリング部19に一時記憶されたクロススペクトル系列を使って、どの帯域が音声成分優勢か、雑音成分優勢かを判定するためのクロススペクトルの位相変動度合いを算出する。
発声検出装置1では、発声判定の周期をそれほど短くする必要はない。ここではその判定周期を10msとし、バッファリング部へのクロススペクトル入力10回につき1回の割合でバッファリング部19のデータを処理する。
In step S60, the
In the
変動測定部20による具体的な位相成分の変動度合いの算出方法を説明する。
いま、扱うクロススペクトルの数を2M+1(ここではM=5)、真ん中のフレーム番号をt0とする。このとき、クロススペクトルの位相変動度合いとして、例えば式2の評価値を使うことができる。
A specific method of calculating the degree of fluctuation of the phase component by the
Now, dealing with the number of 2M + 1 of the cross spectrum (in this case, M = 5), the frame number of middle and t 0. At this time, for example, the evaluation value of
ここで、D(k,t)は周波数番号k、フレーム番号tでの位相誤差評価値、θ(k,t)は周波数番号k、フレーム番号tでのクロススペクトルY(k,t)の位相情報である。この評価値は、式2から明らかなように10msの範囲内でのクロススペクトルの直前のフレームからの位相の変動度の平均値を表しており、クロススペクトルの位相成分の変動が小さいほどD(k,t)の値は0に近くなり、位相成分の変動が大きいほどDの値は大きくなる。
Here, D (k, t) is the phase error evaluation value at frequency number k and frame number t, θ (k, t) is the phase of cross spectrum Y (k, t) at frequency number k and frame number t. Information. As is apparent from
以上までが位相差変動評価部13による2つのチャネルの信号の位相差の変動評価する処理となる。
尚、ここでは、位相差の変動度合いの評価値として式2のような値を用いたが、この評価値以外にも、位相情報の分散や、クロススペクトルの分散などを位相差の変動度合いの評価値として使用することができる。
Up to the above, the phase difference
In this example, the value of
以下、振幅補正部14の処理としてステップS60で算出された評価値D(k、t)に基づいて雑音抑圧処理について説明する。
まず、ステップ70において振幅補正係数算出部22は変動測定部20で算出した評価値D(k、t)を使って振幅補正係数を算出する。ここでは振幅補正係数の例として式3の関数を用いる。
Hereinafter, the noise suppression process will be described based on the evaluation value D (k, t) calculated in step S60 as the process of the
First, in
式3の関数は0に近い入力で1に近い値を出力し、絶対値が大きい入力ほど出力が小さくなる。ここでγは補正の傾斜を制御するパラメータで大きい値ほど抑圧率が高くなる。
振幅補正係数算出部22では、フレームt0、周波数kにおける振幅補正係数をf(D(k,t0))として算出する。
即ち、フレームt0、周波数kが雑音成分であればD(k、t0)の値は大きくなるため、f(D(k,t0))の値は小さくなり、音声成分であればD(k、t0)の値は小さくなるため、f(D(k,t0))の値は大きくなり、結果として雑音成分を抑圧する振幅補正係数となる。
The function of
The amplitude correction
That is, if the frame t 0 and the frequency k are noise components, the value of D (k, t 0 ) increases, so the value of f (D (k, t 0 )) decreases, and if it is a speech component, D Since the value of (k, t 0 ) decreases, the value of f (D (k, t 0 )) increases, resulting in an amplitude correction coefficient that suppresses noise components.
さらにオプションとして、振幅補正係数をフレーム間で平滑化する処理を加えてもよい。例えば次式のような更新を行う。 Further, as an option, processing for smoothing the amplitude correction coefficient between frames may be added. For example, the following update is performed.
ここで、A(k,t)は周波数番号k、フレーム番号tでの振幅補正係数、A’(k,t)は周波数番号k、フレーム番号tでの平滑化振幅補正係数である。βは平滑化の窓長を制御するパラメータで1に近く1を超えない正数である。 Here, A (k, t) is an amplitude correction coefficient at frequency number k and frame number t, and A '(k, t) is a smoothed amplitude correction coefficient at frequency number k and frame number t. β is a parameter that controls the smoothing window length and is a positive number close to 1 and not exceeding 1.
次にステップS80では、抑圧処理部23が雑音抑圧処理を行う。
まず、雑音抑圧処理を行う前に、バッファリング部19に記憶されたクロススペクトルの白色化が行われる。上述の判定周期(例えば10ms)で1つのクロススペクトルがバッファリング部19から取り出され、白色化部21において白色化(平坦化)される。取り出されるクロススペクトルはバッファリング部19に記憶される11個のクロススペクトルのうち、中央のクロススペクトルである。
この白色化は、後述の相互相関関数をパルス状にする効果がある。この処理はいくつかのバリエーションが考えられるが、一例を以下に示す。
クロススペクトルからパワースペクトルを計算し、これをIFFTすることにより相互相関関数の自己相関関数を求める。これらの数値列の適当な低次の項からLPC(Linear
Predictive Coding)係数を求め、さらにLPCケプストラム係数に変換する。このLPCケプストラム係数によるスペクトル包絡を基に、平坦化処理を周波数軸上で行う。この白色化も必須の処理ではない。
Next, in step S80, the
First, before performing noise suppression processing, whitening of the cross spectrum stored in the
This whitening has an effect of making a cross-correlation function described later into a pulse shape. There are several possible variations of this process, but an example is shown below.
A power spectrum is calculated from the cross spectrum, and an autocorrelation function of the cross-correlation function is obtained by IFFT. LPC (Linear) from the appropriate low-order terms of these numeric sequences
Predictive Coding) coefficients are obtained and further converted into LPC cepstrum coefficients. Based on the spectrum envelope by this LPC cepstrum coefficient, flattening processing is performed on the frequency axis. This whitening is not an essential process.
次に抑圧処理部23は、白色化部21で白色化されたクロススペクトルの振幅成分に対して、振幅補正係数算出部22で算出された振幅補正係数を使って、周波数軸上で乗算処理を行い、雑音が抑圧されたクロススペクトル系列を出力する。クロススペクトル系列の出力は前述の通り、所定の判定周期(ここでは10ms)に1回出力される。
Next, the
尚、上述の例では、クロススペクトルの位相成分の変動度合いに応じた振幅補正係数を算出して雑音抑圧処理を行っているが、本発明の範囲はこれに限られるものではない。別の態様として、位相成分の変動度合いが所定値以上の周波数成分を雑音成分と判定し、当該雑音と判定された周波数成分を抑圧するような補正係数を導入するようにしてもよい。 In the above example, the noise correction processing is performed by calculating the amplitude correction coefficient corresponding to the degree of fluctuation of the phase component of the cross spectrum, but the scope of the present invention is not limited to this. As another aspect, a frequency component having a phase component variation degree equal to or greater than a predetermined value may be determined as a noise component, and a correction coefficient that suppresses the frequency component determined to be the noise may be introduced.
以上、本発明の雑音抑圧装置である雑音抑圧部12による、具体的な雑音抑圧処理について説明した。雑音抑圧処理されたクロススペクトルは前述のように相互相関算出部24で逆フーリエ変換を行い相互相関関数に戻される。雑音抑圧処理が成された相互相関関数は、処理を施さないそれと比べて、非発声時における相関値が著しく低くなるという性質がある。そのため、発声検出部25により発声検知処理では、発声の有無を判定する閾値設定が容易となり、環境雑音が大きい環境下においても精度よく発声検出が行われる。
The specific noise suppression processing by the
(第2の実施形態)
次に、第2の実施形態として、本発明に係る雑音抑圧装置を、音声再生装置に適用した例について説明する。
本実施形態で説明する音声再生装置は、2つのマイクロホン2から入力した音響信号に含まれる雑音成分を本発明に係る雑音抑圧装置にて抑圧して、雑音が抑圧されたクリアの音響信号をスピーカから再生する装置である。
(Second Embodiment)
Next, as a second embodiment, an example in which the noise suppression device according to the present invention is applied to an audio reproduction device will be described.
The sound reproducing device described in the present embodiment suppresses a noise component included in the acoustic signals input from the two
第1の実施形態である発声検出装置1と共通する部分については説明を適宜省略するものとし、以下本音声再生装置の動作について説明する。尚、第1の実施形態で説明に用いた図7雑音抑圧処理のフローチャートは基本的に第2の実施形態においても同じであるものとする。
図4に本実施形態に係る音声再生装置5のブロック図を示す。
マイクロホン2、増幅器10、A/Dコンバータ11は第1の実施形態と同様であるため説明を省略する。
雑音抑圧部52は、本願の雑音抑圧装置であり、A/Dコンバータ11で離散信号に変換された音響信号が入力されると、雑音が抑圧処理された離散信号を出力する。第1の実施形態では、雑音が抑圧されたクロススペクトルを出力したが、第2の実施形態に係る雑音抑圧部52は雑音が抑圧された音響信号を出力する点が異なる。
Description of parts common to the
FIG. 4 shows a block diagram of the
Since the
The
D/Aコンバータ58は雑音抑圧部52で雑音が抑圧された離散信号をアナログ信号に変換する。
D/Aコンバータ58で変換されたアナログ信号は増幅器59で増幅され、スピーカ60により再生される。D/Aコンバータ58、増幅器59、スピーカ60は周知のものであるため詳細な説明を省略する。
The D /
The analog signal converted by the D /
次に図8を用いて本発明の雑音抑圧装置である雑音抑圧部52の詳細ブロック図を説明する。
位相差変動評価部13はクロススペクトルの位相の変動に応じて周波数成分ごとに時間変動度合いを算出するものであり、第1の実施形態と同じ機能を有する。
Next, a detailed block diagram of the
The phase difference
振幅補正部54は、波形合成部55と、振幅補正係数算出部56、抑圧処理部57からなる。
The
波形合成部55では、左右チャンネルの音声信号を合成し、1チャンネルの信号とし、振幅補正係数算出部56の処理に連動して必要な波形を出力する。
2本のマイクを結ぶ線に垂直な方向からの音声の場合には、単純な和でよい。それ以外の場合は、左右の音波の到達時間の差に基づいた位相シフトを行った上での加算が望ましい。もしくは、左右どちらかの信号を出力するのでも構わない。
The
In the case of audio from a direction perpendicular to a line connecting two microphones, a simple sum may be used. In other cases, it is desirable to perform addition after performing phase shift based on the difference between arrival times of the left and right sound waves. Alternatively, either the left or right signal may be output.
振幅補正係数算出部56では、第1の実施形態と同様に、変動測定部20で算出した変動評価値を使って振幅補正係数を算出する。
振幅補正係数算出部56はさらにフィルタ係数計算部561を有し、フィルタ係数計算部561は、算出された振幅補正係数からFIR(Finite
Impulse Response)フィルタの係数を計算する。第2の実施形態では、第1の実施形態と異なり、この算出されたフィルタ係数を用いて時間軸上で雑音抑圧処理が実施され、雑音抑圧処理された時間波形を出力する。
ここでは、高品質な音声の出力を行うため、振幅補正係数算出部56およびフィルタ係数計算部561の更新周期は1msとしている。これは図7のフローチャートにおいて、ステップS50の所定周期を1msとすることに相当する。
即ち、クロススペクトルを算出する分析周期も1msであるため、クロススペクトルが算出されるたびに、バッファリング19に記憶されているクロススペクトルを用いてステップS60〜ステップS80の雑音抑圧処理を実施することを意味する。
更新周期を短くすることにより高品質な音声が再生可能となる。尚、多少の品質劣化を許容すればこの更新周期を延ばしてもよい。
In the amplitude correction
The amplitude correction
(Impulse Response) The coefficient of the filter is calculated. In the second embodiment, unlike the first embodiment, noise suppression processing is performed on the time axis using the calculated filter coefficient, and a time waveform subjected to noise suppression processing is output.
Here, in order to output high-quality sound, the update period of the amplitude correction
That is, since the analysis period for calculating the cross spectrum is also 1 ms, the noise suppression processing in steps S60 to S80 is performed using the cross spectrum stored in the
By shortening the update cycle, high-quality audio can be reproduced. Note that this update cycle may be extended if some quality degradation is allowed.
フィルタ係数計算部561における処理についてさらに説明する。
一般に、計算されたスペクトル補正特性は複雑な形状を有するため、FIRフィルタ係数長は長くなる傾向にある。そのため、本実施形態ではフィルタ係数を求めるのに、振幅補正係数を算出したFFT長よりも、長いFFT長を使用してフィルタ係数を計算している。具体的には、例えば256点の振幅特性を4倍のアップサンプリングを行い、これを逆FFTすることにより1024点のフィルタ係数を求め、これから適当な長さの窓関数を使って切り出す作業を行うようにしている。
この算出されたフィルタ係数を時間軸上で元の音響信号に畳み込むことにより、スペクトル形状が複雑で時々刻々変化したとしても変化に対応した高品質な音声の出力が可能となる。
The processing in the filter
In general, the calculated spectral correction characteristic has a complicated shape, so that the FIR filter coefficient length tends to be long. For this reason, in this embodiment, to obtain the filter coefficient, the filter coefficient is calculated using an FFT length that is longer than the FFT length for which the amplitude correction coefficient is calculated. Specifically, for example, upsampling is performed by quadrupling the 256-point amplitude characteristics, and 1024-point filter coefficients are obtained by performing inverse FFT on the up-sampling, and the work is performed using a window function having an appropriate length. I am doing so.
By convolving the calculated filter coefficient with the original acoustic signal on the time axis, even if the spectrum shape is complex and changes from moment to moment, it is possible to output high-quality sound corresponding to the change.
抑圧処理部57では、波形合成部55の出力に対して、振幅補正係数算出部56で算出されたフィルタ係数を用いて時間軸上で畳み込み演算を行いフィルタリング処理を行う。
処理対象の波形は、バッファリング部19に記憶されている11個のクロススペクトルのうちの中央のクロススペクトルの算出に用いた時間窓(30ms)の中央部分1msに相当する波形合成部からの信号で、この信号にフィルタリング処理を施して1ms(=8ポイント)の波形を出力する。
なお、ここではフィルタ処理を時間軸上で行う処理について説明したが、上述のように高品質の音声再生が要求されない場合は、算出された振幅補正係数を時間軸上に戻さず、周波数軸上で元の音響信号のFFT算出結果に乗算して雑音成分を抑圧する処理に置き換えても構わない。
The
The waveform to be processed is a signal from the waveform synthesizer corresponding to the
In addition, although the process which performs a filter process on a time axis was demonstrated here, when high quality audio | voice reproduction | regeneration is not requested | required as mentioned above, the calculated amplitude correction coefficient is not returned on a time axis, but on a frequency axis. In this case, the FFT calculation result of the original acoustic signal may be multiplied to suppress the noise component.
雑音抑圧処理が施された離散信号は、前述のようにD/Aコンバータ58にてアナログ
信号に変換され、増幅器59にて増幅され、スピーカ60から再生される。
The discrete signal subjected to the noise suppression processing is converted into an analog signal by the D /
以上、本発明の雑音抑圧装置を音声再生装置に適用した第2の実施形態について説明した。
尚、本発明の雑音抑圧装置は上記実施形態以外にも適用が可能である。例えば本発明に係る雑音抑圧装置を音声認識処理の前段に使用すれば、雑音や目的方向以外の音声を認識対象音声から精度良く外すことができるため、湧き出し誤りを大幅に減少させることが可能になる。その上、認識対象音声に含まれる雑音成分が抑圧されることにより、音声認識率も大きく向上させることが可能となる。
In the foregoing, the second embodiment in which the noise suppression device of the present invention is applied to an audio reproduction device has been described.
The noise suppression device of the present invention can be applied to other than the above embodiment. For example, if the noise suppression device according to the present invention is used in the previous stage of speech recognition processing, speech other than noise and the target direction can be accurately removed from the speech to be recognized, so that errors can be greatly reduced. become. In addition, since the noise component included in the recognition target speech is suppressed, the speech recognition rate can be greatly improved.
1・・・発声検出装置の本体
10・・・増幅器
11・・・A/Dコンバータ
12・・・雑音抑圧部(本発明の雑音抑圧装置)
13・・・位相差変動評価部
14・・・振幅補正部
24・・・相互相関計算部
25・・・発声推定部
58・・・D/Aコンバータ
59・・・増幅器
60・・・スピーカ
2・・・マイクロホン
3・・・ATM
4・・・話者
5・・・音声再生装置
DESCRIPTION OF
13 ... Phase difference
4 ...
Claims (5)
前記位相差の時間変動度合いが大きい周波数成分を雑音として当該周波数成分の振幅成分が小さくなるような振幅補正係数を算出し、前記音響信号に前記振幅補正係数を作用させて雑音成分を抑圧した信号を出力する振幅補正部と、
を有することを特徴とする雑音抑圧装置。 A noise suppression device that processes acoustic signals acquired by two sound collectors and suppresses noise components, wherein the phase difference variation evaluates the degree of temporal variation of the phase difference between the two acoustic signals for each frequency component. An evaluation unit;
A signal obtained by calculating an amplitude correction coefficient such that an amplitude component of the frequency component becomes small using a frequency component having a large degree of temporal variation of the phase difference as a noise, and suppressing the noise component by applying the amplitude correction coefficient to the acoustic signal. An amplitude correction unit that outputs
A noise suppression device comprising:
前記2つの音響信号のクロススペクトルを所定周期ごとに算出するクロススペクトル算出部と、
前記算出されたクロススペクトルを所定数記憶するバッファリング部と、
前記バッファリング部に記憶されたクロススペクトルの位相成分の所定周期ごとの時間変動度合いを前記位相差の時間変動度合いとして算出する変動測定部と、
を有することを特徴とする請求項1の雑音抑圧装置。 The phase difference variation evaluation unit is
A cross spectrum calculation unit for calculating a cross spectrum of the two acoustic signals for each predetermined period;
A buffering unit for storing a predetermined number of the calculated cross spectrum;
A fluctuation measuring unit that calculates a time fluctuation degree of the phase component of the cross spectrum stored in the buffering part for each predetermined period as a time fluctuation degree of the phase difference;
The noise suppression apparatus according to claim 1, comprising:
前記白色化されたクロススペクトルの振幅成分に対し、前記振幅補正係数を乗算して雑音成分を抑圧することを特徴とする請求項3に記載の雑音抑圧装置。 The amplitude correction unit includes a whitening unit that performs a whitening process on the amplitude component of the cross spectrum,
The noise suppression apparatus according to claim 3, wherein a noise component is suppressed by multiplying the amplitude component of the whitened cross spectrum by the amplitude correction coefficient.
前記2つの音響信号のいずれか又は合成した音響信号に前記フィルタ係数を作用させて雑音成分が抑圧された音響信号を生成することを特徴とする請求項2の雑音抑圧装置。 The amplitude correction unit includes a filter coefficient calculation unit that calculates a filter coefficient obtained by performing inverse Fourier transform on the amplitude correction coefficient,
The noise suppression device according to claim 2, wherein the filter coefficient is applied to one of the two acoustic signals or a synthesized acoustic signal to generate an acoustic signal in which a noise component is suppressed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009178117A JP2011033717A (en) | 2009-07-30 | 2009-07-30 | Noise suppression device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009178117A JP2011033717A (en) | 2009-07-30 | 2009-07-30 | Noise suppression device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011033717A true JP2011033717A (en) | 2011-02-17 |
Family
ID=43762878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009178117A Pending JP2011033717A (en) | 2009-07-30 | 2009-07-30 | Noise suppression device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011033717A (en) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101424327B1 (en) * | 2012-05-15 | 2014-07-31 | 고려대학교 산학협력단 | Apparatus and method for eliminating noise |
US8886499B2 (en) | 2011-12-27 | 2014-11-11 | Fujitsu Limited | Voice processing apparatus and voice processing method |
JP2017054015A (en) * | 2015-09-10 | 2017-03-16 | 新日本無線株式会社 | Intended sound extraction device and method for extracting intended sound |
CN106910511A (en) * | 2016-06-28 | 2017-06-30 | 阿里巴巴集团控股有限公司 | A kind of speech de-noising method and apparatus |
WO2018003158A1 (en) * | 2016-06-29 | 2018-01-04 | 日本電気株式会社 | Correlation function generation device, correlation function generation method, correlation function generation program, and wave source direction estimation device |
WO2018131099A1 (en) * | 2017-01-11 | 2018-07-19 | 日本電気株式会社 | Correlation function generation device, correlation function generation method, correlation function generation program, and wave source direction estimation device |
JP2020533619A (en) * | 2017-08-17 | 2020-11-19 | セレンス オペレーティング カンパニー | Reduced complexity of sounded speech detection and pitch estimation |
CN115206323A (en) * | 2022-09-16 | 2022-10-18 | 江门市鸿裕达电机电器制造有限公司 | Voice recognition method of fan voice control system |
CN116403597A (en) * | 2023-06-08 | 2023-07-07 | 武汉惠强新能源材料科技有限公司 | Automatic data grabbing and state updating method for large-screen billboard |
WO2023181144A1 (en) * | 2022-03-23 | 2023-09-28 | 三菱電機株式会社 | Noise elimination device and method |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002082668A (en) * | 2000-07-03 | 2002-03-22 | Elmorex Ltd Oy | Generation of note base/chord |
JP2002149198A (en) * | 2000-11-13 | 2002-05-24 | Matsushita Electric Ind Co Ltd | Voice encoder and decoder |
WO2004084187A1 (en) * | 2003-03-17 | 2004-09-30 | Nagoya Industrial Science Research Institute | Object sound detection method, signal input delay time detection method, and sound signal processing device |
JP2005227512A (en) * | 2004-02-12 | 2005-08-25 | Yamaha Motor Co Ltd | Sound signal processing method and its apparatus, voice recognition device, and program |
WO2006090589A1 (en) * | 2005-02-25 | 2006-08-31 | Pioneer Corporation | Sound separating device, sound separating method, sound separating program, and computer-readable recording medium |
JP2008185834A (en) * | 2007-01-30 | 2008-08-14 | Fujitsu Ltd | Sound determination method, sound determination apparatus and computer program |
JP2008227595A (en) * | 2007-03-08 | 2008-09-25 | Sony Corp | Signal processing apparatus, signal processing method and program |
JP2009010992A (en) * | 2008-09-01 | 2009-01-15 | Sony Corp | Audio signal processing apparatus, audio signal processing method, and program |
WO2009034686A1 (en) * | 2007-09-11 | 2009-03-19 | Panasonic Corporation | Sound judging device, sound sensing device, and sound judging method |
JP2009098203A (en) * | 2007-10-12 | 2009-05-07 | Nippon Telegr & Teleph Corp <Ntt> | Signal presuming device, method therefor, program therefor, recording medium therefor |
-
2009
- 2009-07-30 JP JP2009178117A patent/JP2011033717A/en active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002082668A (en) * | 2000-07-03 | 2002-03-22 | Elmorex Ltd Oy | Generation of note base/chord |
JP2002149198A (en) * | 2000-11-13 | 2002-05-24 | Matsushita Electric Ind Co Ltd | Voice encoder and decoder |
WO2004084187A1 (en) * | 2003-03-17 | 2004-09-30 | Nagoya Industrial Science Research Institute | Object sound detection method, signal input delay time detection method, and sound signal processing device |
JP2005227512A (en) * | 2004-02-12 | 2005-08-25 | Yamaha Motor Co Ltd | Sound signal processing method and its apparatus, voice recognition device, and program |
WO2006090589A1 (en) * | 2005-02-25 | 2006-08-31 | Pioneer Corporation | Sound separating device, sound separating method, sound separating program, and computer-readable recording medium |
JP2008185834A (en) * | 2007-01-30 | 2008-08-14 | Fujitsu Ltd | Sound determination method, sound determination apparatus and computer program |
JP2008227595A (en) * | 2007-03-08 | 2008-09-25 | Sony Corp | Signal processing apparatus, signal processing method and program |
WO2009034686A1 (en) * | 2007-09-11 | 2009-03-19 | Panasonic Corporation | Sound judging device, sound sensing device, and sound judging method |
JP2009098203A (en) * | 2007-10-12 | 2009-05-07 | Nippon Telegr & Teleph Corp <Ntt> | Signal presuming device, method therefor, program therefor, recording medium therefor |
JP2009010992A (en) * | 2008-09-01 | 2009-01-15 | Sony Corp | Audio signal processing apparatus, audio signal processing method, and program |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8886499B2 (en) | 2011-12-27 | 2014-11-11 | Fujitsu Limited | Voice processing apparatus and voice processing method |
KR101424327B1 (en) * | 2012-05-15 | 2014-07-31 | 고려대학교 산학협력단 | Apparatus and method for eliminating noise |
JP2017054015A (en) * | 2015-09-10 | 2017-03-16 | 新日本無線株式会社 | Intended sound extraction device and method for extracting intended sound |
CN106910511A (en) * | 2016-06-28 | 2017-06-30 | 阿里巴巴集团控股有限公司 | A kind of speech de-noising method and apparatus |
WO2018003158A1 (en) * | 2016-06-29 | 2018-01-04 | 日本電気株式会社 | Correlation function generation device, correlation function generation method, correlation function generation program, and wave source direction estimation device |
JPWO2018003158A1 (en) * | 2016-06-29 | 2019-05-09 | 日本電気株式会社 | Correlation function generation device, correlation function generation method, correlation function generation program and wave source direction estimation device |
WO2018131099A1 (en) * | 2017-01-11 | 2018-07-19 | 日本電気株式会社 | Correlation function generation device, correlation function generation method, correlation function generation program, and wave source direction estimation device |
US11336997B2 (en) | 2017-01-11 | 2022-05-17 | Nec Corporation | Correlation function generation apparatus, correlation function generation method, correlation function generation program, and wave source direction estimation apparatus |
US11176957B2 (en) | 2017-08-17 | 2021-11-16 | Cerence Operating Company | Low complexity detection of voiced speech and pitch estimation |
JP7052008B2 (en) | 2017-08-17 | 2022-04-11 | セレンス オペレーティング カンパニー | Reduced complexity of voiced voice detection and pitch estimation |
JP2020533619A (en) * | 2017-08-17 | 2020-11-19 | セレンス オペレーティング カンパニー | Reduced complexity of sounded speech detection and pitch estimation |
WO2023181144A1 (en) * | 2022-03-23 | 2023-09-28 | 三菱電機株式会社 | Noise elimination device and method |
CN115206323A (en) * | 2022-09-16 | 2022-10-18 | 江门市鸿裕达电机电器制造有限公司 | Voice recognition method of fan voice control system |
CN115206323B (en) * | 2022-09-16 | 2022-11-29 | 江门市鸿裕达电机电器制造有限公司 | Voice recognition method of fan voice control system |
CN116403597A (en) * | 2023-06-08 | 2023-07-07 | 武汉惠强新能源材料科技有限公司 | Automatic data grabbing and state updating method for large-screen billboard |
CN116403597B (en) * | 2023-06-08 | 2023-09-05 | 武汉惠强新能源材料科技有限公司 | Automatic data grabbing and state updating method for large-screen billboard |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2011033717A (en) | Noise suppression device | |
US10504539B2 (en) | Voice activity detection systems and methods | |
EP1208563B1 (en) | Noisy acoustic signal enhancement | |
Lebart et al. | A new method based on spectral subtraction for speech dereverberation | |
US11017798B2 (en) | Dynamic noise suppression and operations for noisy speech signals | |
JP5870476B2 (en) | Noise estimation device, noise estimation method, and noise estimation program | |
Kim et al. | Nonlinear enhancement of onset for robust speech recognition. | |
EP2881948A1 (en) | Spectral comb voice activity detection | |
JP2004502977A (en) | Subband exponential smoothing noise cancellation system | |
Itoh et al. | Environmental noise reduction based on speech/non-speech identification for hearing aids | |
Garg et al. | A comparative study of noise reduction techniques for automatic speech recognition systems | |
Sun et al. | Investigations into the relationship between measurable speech quality and speech recognition rate for telephony speech | |
Tsilfidis et al. | Signal-dependent constraints for perceptually motivated suppression of late reverberation | |
JP5271734B2 (en) | Speaker direction estimation device | |
JP7383122B2 (en) | Method and apparatus for normalizing features extracted from audio data for signal recognition or modification | |
Furoh et al. | Detection for Lombard speech with second-order mel-frequency cepstral coefficient and spectral envelope in beginning of talking-speech | |
Haeb‐Umbach et al. | Reverberant speech recognition | |
JP4632831B2 (en) | Speech recognition method and speech recognition apparatus | |
Krishnamoorthy et al. | Modified spectral subtraction method for enhancement of noisy speech | |
Roy et al. | Causal convolutional neural network-based Kalman filter for speech enhancement | |
JP5180139B2 (en) | Voice detection device | |
JP5234788B2 (en) | Background noise estimation device | |
Pacheco et al. | Spectral subtraction for reverberation reduction applied to automatic speech recognition | |
Shrawankar et al. | Performance analysis of noise filters and speech enhancement techniques in adverse mixed noisy environment for HCI | |
Pacheco et al. | Dereverberation and denoising techniques for ASR applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120705 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130328 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130409 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130806 |