JP4765461B2 - 雑音抑圧システムと方法及びプログラム - Google Patents
雑音抑圧システムと方法及びプログラム Download PDFInfo
- Publication number
- JP4765461B2 JP4765461B2 JP2005217694A JP2005217694A JP4765461B2 JP 4765461 B2 JP4765461 B2 JP 4765461B2 JP 2005217694 A JP2005217694 A JP 2005217694A JP 2005217694 A JP2005217694 A JP 2005217694A JP 4765461 B2 JP4765461 B2 JP 4765461B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- speech
- estimated speech
- input signal
- temporary estimated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 102
- 230000001629 suppression Effects 0.000 title claims description 57
- 238000001228 spectrum Methods 0.000 claims description 104
- 238000012937 correction Methods 0.000 claims description 79
- 238000004364 calculation method Methods 0.000 claims description 54
- 230000003595 spectral effect Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 15
- 238000009499 grossing Methods 0.000 claims description 12
- 239000000203 mixture Substances 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 20
- 230000003044 adaptive effect Effects 0.000 description 10
- 239000013598 vector Substances 0.000 description 10
- 230000000694 effects Effects 0.000 description 7
- 238000003672 processing method Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000009408 flooring Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- 239000006185 dispersion Substances 0.000 description 2
- 101000704910 Saponaria officinalis Ribosome-inactivating protein saporin-4 Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000007998 bicine buffer Substances 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Circuit For Audible Band Transducer (AREA)
- Noise Elimination (AREA)
Description
・音声の始端部分が欠ける、
・音声の終端部分が検出しにくくなる、
などの問題がある。
を含む、ことを特徴とする。
前記標準パタンとして確率分布を仮定し、
前記標準パタンを構成する確率分布が前記仮推定音声を出力する確率と、前記標準パタンを構成する確率分布の平均値とから、音声期待値を求め、前記音声期待値を、前記仮推定音声の補正値とする、ことを特徴とする。
複数の音声のパタンからなる前記標準パタンを用いて、前記仮推定音声を補正し、
前記入力信号に最も近くなる標準パタンを選択して、前記仮推定音声の補正値とするか、あるいは、前記入力信号に近くなる前記複数の標準パタンを距離に応じて重み付け平均することで前記仮推定音声の補正値とする、ことを特徴とする。
前記雑音の標準偏差を求める工程を含み、
前記雑音の標準偏差を考慮して、前記仮推定音声の補正を制御する、ことを特徴とする。
前記入力信号に前記雑音低減フィルタによるフィルタリング処理を施して前記雑音低減フィルタの出力より推定音声を得る工程と、
を含む、ことを特徴とする。
前記入力信号と雑音平均スペクトルから仮推定音声を求める工程が、前記複数の入力信号のうち少なくとも1つの入力信号と前記雑音のスペクトルとから、仮推定音声を求める、ことを特徴とする。
スペクトル領域で求めた前記仮推定音声を特徴ベクトルに変形する処理と、
特徴ベクトル領域での標準パタンを用いて、特徴ベクトルに変形された前記仮推定音声の補正値を求める処理と、
を含む、ことを特徴とする。
前記標準パタンとして確率分布を仮定し、前記標準パタンを構成する確率分布が仮推定音声を出力する確率と、前記標準パタンを構成する確率分布の平均値とから、音声期待値を求め、前記音声期待値を、仮推定音声の補正値とする、ことを特徴とする。
前記仮推定音声の補正値を求める処理が、
複数の音声のパタンからなる標準パタンを用いて仮推定音声を補正し、
入力信号に最も近くなる標準パタンを選択して仮推定音声の補正値とするか、あるいは
入力信号に近くなる複数の標準パタンを、距離に応じて、重み付け平均することで、前記仮推定音声の補正値とする、ことを特徴とする。
前記仮推定音声の補正値を求める理が、
雑音の標準偏差を求める処理を含み、前記雑音の標準偏差を考慮して補正を制御する、ことを特徴とする。
補正された推定音声と、雑音平均スペクトルから雑音低減フィルタを算出する処理と、
入力信号に対して前記雑音低減フィルタを施し、推定音声を得る処理と、
をさらに前記コンピュータに実行させるプログラムよりなる。
前記雑音低減フィルタを算出する処理は、
補正された推定音声と雑音平均スペクトルに加えて、入力信号を用いて、雑音低減フィルタを算出する、ことを特徴とする。
前記雑音低減フィルタを算出する処理は、
補正された推定音声、あるいは、補正された推定音声を雑音の平均スペクトルで除して得られる事前SNRに対し、時間方向、周波数方向、および特徴ベクトル次元数のうち少なくとも1つの方向に平滑化を行う、ことを特徴とする。
標準パタンを用いて補正された推定音声を仮推定値とし、再び、前記標準パタンを用いて補正するという処理を、複数回繰り返す、ことを特徴とする。
前記入力信号から雑音の平均スペクトルを算出する処理が、
複数の入力信号のうち少なくとも1つの入力信号から雑音のスペクトルを算出し、
前記入力信号と雑音平均スペクトルから仮推定音声を求める処理が、
複数の入力信号のうち少なくとも1つの入力信号と前記雑音のスペクトルから仮推定音声を求める、ことを特徴とする。
・SS法(図10参照)や、
・平滑化事前SNRを用いたウィナーフィルタ(図11参照)など、
公知の手法によって、仮推定音声S’(f,t)を算出する(ステップS2)。
kは、GMMの要素であるガウス分布の添え字(k=1,…,K:Kは混合数)、
W(k)は、ガウス分布kの重み、
p(S’|μS (k),σS (k))は、平均値μS (k) 分散σS (k)を持つガウス分布が仮推定音声S’を出力する確率である。
<S(f,t)> = Σk μS (k) P(k|S’(f,t)) …(3)
を求め、これを仮推定音声S’の補正値として出力する。<S(f,t)>は、入力信号から雑音が除去された前記仮推定音声の補正値となる。
・雑音の分散による推定誤差や、
・音声と雑音の位相差に由来する推定誤差
によって生じる推定音声の歪みを補正できる。
次に、本発明の第2の実施の形態について図面を参照して説明する。図3は、本発明の第2の実施の形態の構成を示す図である。図3を参照すると、本発明の第2の実施の形態は、前記第1の実施形態に対して、確率分布の形で保持する標準パタン4(図1参照)を、音声の平均値を複数個保持する標準パタン4aに変更し、また、音声の期待値を用いて仮推定音声を補正する仮推定音声の補正部5(図1参照)を、音声の平均値を用いて仮推定音声を補正する仮推定音声の補正部5aに変更したものである。
fは、周波数フィルタバンク番号(f=1,…,Lf :Lfは周波数フィルタバンクの数)、
kは1,…K (Kは標準パタンの数)、
μs (k)は、標準パタンを構成する音声のパタンkの平均値である。
次に、本発明の第3の実施形態について図面を参照して説明する。図4は、本発明の第3の実施の形態の構成を示す図である。図4を参照すると、本発明の第3の実施の形態は、図1の前記第1の実施形態における雑音平均スペクトル算出部2を、入力信号取得部1から取得された入力信号から雑音平均スペクトルと雑音の標準偏差を算出する、雑音平均スペクトル及び雑音の標準偏差算出部2aに変更している。
・入力信号X(f,t)の開始数十フレームと雑音平均スペクトルN(f,t)とのずれを評価する、あるいは、
・音声区間と非音声区間を求めておき、非音声区間において入力信号X(f,t)の標準偏差を求めてこれを雑音の標準偏差V(f,t)にするなど、公知の手法を用いて算出する。
・雑音の標準偏差V(f,t)をそのまま用いる、あるいは、
・雑音の標準偏差V(f,t)を事後SNRの値
η(f,t) = X(f,t) / N(f,t) …(5)
の逆数の値で重み付けされたものを用いる、ようにしてもよい。
S’(f,t) - V(f,t) ≦ <S(f,t)> ≦ S’(f,t) + V(f,t) …(6)
に収まる場合には、仮推定音声S’(f,t)を仮推定音声の補正値<S(f,t)>に置き換え、それ以外の場合には、置き換えないなどである。
次に、本発明の第4の実施形態について図面を参照して詳細に説明する。図5は、本発明の第4の実施形態の構成を示す図である。図5参照すると、本発明の第4の実施の形態は、図1に示した第1実施の形態の構成に加えて、仮推定音声補正部5で補正された、仮推定音声と、雑音平均スペクトル算出部2で算出された雑音平均スペクトルとから雑音低減フィルタを算出する雑音低減フィルタ算出部6と、雑音低減フィルタ算出部6で算出された雑音低減フィルタと入力信号取得部1から取得された入力信号スペクトルXから、推定音声を算出する推定音声算出部7を備えて構成されている。
η(f,t) = <S(f,t)>/N(f,t) …(7)
として求める。
・フレームの先読みを行い、前後の数フレームを使って平滑化する、あるいは、フレーム方向ではなく周波数方向に平滑化する、あるいはその組み合わせを用いてもよい。
W(f,t)=η(f,t)/(1+η(f,t)) …(9)
として算出する。
S(f,t) = W(f,t)× X(f,t) …(10)
として算出する。
図6は、本発明の第5の実施形態の構成を示す図である。図6を参照すると、本発明の第5の実施の形態は、前記第4の実施の形態の構成に対して、仮推定音声推定部5で補正された仮推定音声と、雑音平均スペクトラムの算出部2で算出された雑音平均スペクトルとから雑音低減フィルタを算出する雑音低減フィルタ算出部6が、仮推定音声推定部5で補正された仮推定音声と、雑音平均スペクトラムの算出部2で算出された雑音平均スペクトルと入力信号取得部1で取得された入力信号とから、雑音低減フィルタを算出する雑音低減フィルタの算出部6aに変更されている。
γ(f,t) = X(f,t)/N(f,t) …(11)
として求める。
図7は、本発明の第6の実施形態の構成を示す図である。図7参照すると、本発明の第6の実施の形態は、前記第1の実施の形態の構成に加えて、標準パタンを用いた仮推定音声補正部5で算出した補正音声をある条件を満たすならば出力へ、満たさないならば再び標準パタンを用いた補正部5へ送るように働く収束判定部8とから構成されている。
・「処理をN回繰り返したとき」や、
・「新しく算出された補正値と1回前の補正値の差がある閾値以下であるとき」
など様々な判別手段を考えることができる。
図8は、本発明の第7の実施形態の構成を示す図である。図8を参照すると、本発明の第7の実施の形態は、前記第1の実施の形態の構成に対して、入力信号Xを取得する入力信号取得部1として、複数の入力信号X1〜XKを取得する手段1aを備えている。例えば、2つのマイクを使用する場合であれば、1つのマイクを音声入力用、もう1つのマイクを雑音入力用とするようにしてもよい。また、方向に応じて2つのマイクの入力信号を加算、減算、あるいは数倍するなどしてから、仮推定音声算出部3bと雑音スペクトル算出部2bに渡すようにしてもよい。もちろん、さらに多くのマイクを用いても良い。
図9は、本発明の第8の実施形態の構成を示す図である。図9を参照すると、本発明の第8の実施の形態は、第1乃至第7の実施の形態の構成のいずれか、あるいはこれらを組み合わせた雑音抑圧部12と、雑音抑圧部12から出力される推定音声を用いて音声認識を行う認識部13とから構成される。
1a 入力信号取得部(多入力)
2 雑音平均スペクトル算出部
2a 雑音平均スペクトル及び標準偏差の算出部
2b 雑音スペクトル算出部(多入力)
3 仮推定音声算出部
3a 仮推定音声及び信頼度算出部
3b 仮推定音声算出部(多入力)
3c 仮推定音声算出部(スペクトル減算)
4 標準パタン(確率分布)
4a 標準パタン(平均値)
5 標準パタンを用いた仮推定音声補正部
5a 標準パタンを用いた仮推定音声補正部
5b 標準パタンを用いた仮推定音声補正部
6 雑音低減フィルタ算出部(事前SNRのみ用いる)
6a 雑音低減フィルタ算出部(事前SNRと事後SNRを用いる)
7 推定音声算出部
7a 推定音声算出部
8 収束判定部
9 雑音適応パタン作成部
10 雑音適応パタン
11 パタン移動ベクトル期待値算出部
12 雑音抑圧部
13 認識部
Claims (20)
- 入力信号から雑音平均スペクトルを算出する手段と、
前記入力信号と、前記雑音平均スペクトルとから、スペクトル領域で仮推定音声を求める手段と、
予め記憶部に記憶されている音声の標準パタンを用いて前記仮推定音声の補正値を求める手段と、
を含み、前記仮推定音声の補正値が、前記入力信号から雑音が抑圧された推定音声として出力され、
前記仮推定音声の補正値を求める手段が、前記標準パタンとして確率分布を仮定し、
前記標準パタンを構成する確率分布が前記仮推定音声を出力する確率と、前記標準パタンを構成する確率分布の平均値とを用いた期待値演算処理により求めた前記仮推定音声の期待値を、前記仮推定音声の補正値とする、ことを特徴とする雑音抑圧システム。 - 入力信号から雑音平均スペクトルを算出する手段と、
前記入力信号と、前記雑音平均スペクトルとから、スペクトル領域で仮推定音声を求める手段と、
予め記憶部に記憶されている音声の標準パタンを用いて前記仮推定音声の補正値を求める手段と、
を含み、前記仮推定音声の補正値が、前記入力信号から雑音が抑圧された推定音声として出力され、
前記雑音平均スペクトルを算出する手段が、雑音の標準偏差を求める手段を含み、
前記仮推定音声を求める手段は、前記雑音の標準偏差を用いて前記仮推定音声の信頼度を算出し、
前記仮推定音声の補正値を求める手段は、前記仮推定音声の信頼度を用いて、前記仮推定音声の補正値を制御する、ことを特徴とする雑音抑圧システム。 - 前記仮推定音声の補正値を求める手段は、前記仮推定音声の値と前記仮推定音声の信頼度とを用いて、前記仮推定音声の補正値の範囲を制限する、ことを特徴とする請求項2に記載の雑音抑圧システム。
- 入力信号から雑音平均スペクトルを算出する手段と、
前記入力信号と、前記雑音平均スペクトルとから、スペクトル領域で仮推定音声を求める手段と、
予め記憶部に記憶されている音声の標準パタンを用いて前記仮推定音声の補正値を求める手段と、
前記仮推定音声の補正値と、前記雑音平均スペクトルとから、雑音低減フィルタを導出する手段と、
前記入力信号に前記雑音低減フィルタによるフィルタリングを施し前記雑音低減フィルタの出力より推定音声を算出する手段と、
を含み、前記推定音声を算出する手段より、前記入力信号から雑音が抑圧された推定音声として出力される、ことを特徴とする雑音抑圧システム。 - 前記雑音低減フィルタを導出する手段は、前記仮推定音声の補正値と、前記雑音平均スペクトルとに加えて、前記入力信号を用いて、前記雑音低減フィルタを構成する、ことを特徴とする請求項4記載の雑音抑圧システム。
- 前記雑音低減フィルタを導出する手段は、前記仮推定音声の補正値を前記雑音平均スペクトルで除して得られる事前SNRに対し、時間方向、周波数方向のうち少なくとも1つの方向に平滑化を行う、ことを特徴とする請求項4又は5記載の雑音抑圧システム。
- 前記仮推定音声の補正値を求める手段から出力される仮推定音声の補正値を仮推定音声とし、再び、前記仮推定音声の補正値を求める手段にて、前記標準パタンを用いて仮推定音声の補正値を求めるという処理を、所定の条件を満たすまで複数回繰り返し、前記所定の条件を満たしたときの前記仮推定音声の補正値を推定音声として出力する、ことを特徴とする請求項1乃至6のいずれか一に記載の雑音抑圧システム。
- 前記入力信号から雑音平均スペクトルを算出する手段が、
複数の入力信号のうち少なくとも1つの入力信号から雑音のスペクトルを算出し、
前記入力信号と雑音平均スペクトルから仮推定音声を求める手段が、
複数の入力信号のうち少なくとも1つの入力信号と前記雑音のスペクトルから仮推定音声を求める、ことを特徴とする請求項1乃至7のいずれか一に記載の雑音抑圧システム。 - 入力信号から雑音平均スペクトルを算出する手段と、
前記入力信号と、前記雑音平均スペクトルとから、スペクトル領域で仮推定音声を求める手段と、
予め記憶部に記憶されている音声の標準パタンを用いて前記仮推定音声の補正値を求める手段と、
を含み、前記仮推定音声の補正値が、前記入力信号から雑音が抑圧された推定音声として出力され、
前記仮推定音声の補正値を求める手段が、
前記仮推定音声S’(f,t)(ただし、tはフレーム番号)を出力とする確率P(S’(f,t)|k)を以下のように定め、
P(k|S’(f,t)) = W(k) p(S’(f,t)|μS (k),σS (k)) / Σk W(k) p(S’(f,t)|μS (k),σS (k))
(だたし、
kは、GMM(Gaussian Mixed Model)の要素であるガウス分布の添え字(k=1,…,K:Kは混合数)、
W(k)は、ガウス分布kの重み、
p(S’(f,t)|μS (k),σS (k))は、平均値μS (k) 、分散σS (k)を持つガウス分布が前記仮推定音声S’(f,t)を出力する確率である。)、
前記仮推定音声S’(f,t)を前記標準パタンで保持している音声のパタンの形に合わせ、
確率P(k|S’(f,t))を用いて、前記仮推定音声の期待値
<S(f,t)> = Σk μS (k) P(S’(f,t)|k)
を求め、これを前記仮推定音声S’(f,t)の補正値とする、ことを特徴とする雑音抑圧システム。 - 前記雑音平均スペクトルN(f,t)(ただし、tはフレーム番号)と、前記仮推定音声の補正値<S(f,t)>とに基づき、算出される事前SNR η(f,t) = <S(f,t)>/N(f,t)に対して、雑音低減フィルタW(f,t)、
W(f,t)=η(f,t)/(1+η(f,t))
を算出し、
前記雑音低減フィルタW(f,t)と入力信号X(f,t)を用いて推定音声S(f,t)を周波数領域での乗算
S(f,t)= W(f,t)× X(f,t)
にて算出し、前記S(f,t)が前記入力信号から雑音が抑圧された前記推定音声として出力される、ことを特徴とする請求項4記載の雑音抑圧システム。 - 前記事前SNR η(f,t)(ただし、tはフレーム番号)を1フレーム前のη(f,t-1) を用い、η(f,t) = β × η(f,t-1) + (1-β) × <S(f,t)>/N(f,t)
(ただし、β(0≦β≦1)は平滑化をコントロールするパラメータ)として平滑化して求める、ことを特徴とする請求項10記載の雑音抑圧システム。 - 前記雑音平均スペクトルN(f,t)と、前記仮推定音声の補正値<S(f,t)>とに基づき、算出される事前SNR η(f,t)と、前記雑音平均スペクトルN(f,t)と、前記入力信号X(f,t)とに基づき算出される事後SNR γ(f,t)を求め、
前記雑音低減フィルタW(f,t)を、事前SNR η(f,t)と事後SNR γ(f,t)を組み合わせたものを用い、
前記雑音低減フィルタW(f,t)と入力信号X(f,t)を用いて推定音声S(f,t)を周波数領域での乗算
S(f,t) = W(f,t)× X(f,t)
にて算出し、前記S(f,t)が前記入力信号から雑音が抑圧された前記推定音声として出力される、ことを特徴とする請求項4記載の雑音抑圧システム。 - 請求項1乃至12のいずれか一に記載の雑音抑圧システムを備え、
前記入力信号に含まれる音声の強調を行う、ことを特徴とする信号強調システム。 - 請求項1乃至12のいずれか一に記載の雑音抑圧システムを備え、
前記雑音抑圧システムにおいて雑音が抑圧された音声信号を入力し音声認識する手段を含む、ことを特徴とする音声認識装置。 - 入力信号から雑音を抑圧し音声を推定する方法であって、
前記入力信号から雑音平均スペクトルを算出する工程と、
前記入力信号と前記雑音平均スペクトルとからスペクトル領域で仮推定音声を求める工程と、
予め記憶部に記憶されている音声の標準パタンを用いて、前記仮推定音声の補正値を求める工程と、
を含み、前記仮推定音声の補正値が、前記入力信号から雑音が抑圧された推定音声として出力され、
前記仮推定音声の補正値を求める工程において、
前記標準パタンとして確率分布を仮定し、
前記標準パタンを構成する確率分布が前記仮推定音声を出力する確率と、前記標準パタンを構成する確率分布の平均値とを用いた期待値演算処理により求めた前記仮推定音声の期待値を、前記仮推定音声の補正値とする、ことを特徴とする雑音抑圧方法。 - 入力信号から雑音を抑圧し音声を推定する方法であって、
前記入力信号から雑音平均スペクトルを算出する工程と、
前記入力信号と前記雑音平均スペクトルとからスペクトル領域で仮推定音声を求める工程と、
予め記憶部に記憶されている音声の標準パタンを用いて、前記仮推定音声の補正値を求める工程と、
前記仮推定音声の補正値と前記雑音平均スペクトルとから雑音低減フィルタを算出する工程と、
前記入力信号に対して前記雑音低減フィルタを施し、前記入力信号から雑音が抑圧された推定音声を得る工程と、
を含む、ことを特徴とする雑音抑圧方法。 - 前記仮推定音声の補正値を求める工程において、
前記標準パタンとして確率分布を仮定し、
前記標準パタンを構成する確率分布が前記仮推定音声を出力する確率と、前記標準パタンを構成する確率分布の平均値とを用いた期待値演算処理により求めた前記仮推定音声の期待値を、前記仮推定音声の補正値とする、ことを特徴とする請求項16記載の雑音抑圧方法。 - 入力信号を入力し雑音を抑圧し音声を推定するコンピュータに、
入力信号から雑音平均スペクトルを算出する処理と、
前記入力信号と、前記雑音平均スペクトルとから、スペクトル領域で仮推定音声を求める処理と、
予め記憶部に記憶された音声の標準パタンを用いて前記仮推定音声の補正値を求め、前記仮推定音声の補正値を、前記入力信号から雑音が抑圧された推定音声として出力する処理であって、前記標準パタンとして確率分布を仮定し、前記標準パタンを構成する確率分布が仮推定音声を出力する確率と、前記標準パタンを構成する確率分布の平均値とを用いた期待値演算処理で求めた仮推定音声の期待値を、前記仮推定音声の補正値とする処理と、
を実行させるプログラム。 - 入力信号を入力し雑音を抑圧し音声を推定するコンピュータに、
入力信号から雑音平均スペクトルを算出する処理と、
前記入力信号と、前記雑音平均スペクトルとから、スペクトル領域で仮推定音声を求める処理と、
予め記憶部に記憶された音声の標準パタンを用いて前記仮推定音声の補正値を求める処理と、
前記仮推定音声の補正値と前記雑音平均スペクトルとから雑音低減フィルタを算出する処理と、
前記入力信号に対して前記雑音低減フィルタを施して、前記入力信号から雑音が抑圧された推定音声を得る処理と、
を実行させるプログラム。 - 音声認識装置を構成するコンピュータに、
請求項18又は19に記載のプログラムによる処理で雑音が抑圧された音声信号を入力し、音声認識を実行する処理を実行させるプログラム。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005217694A JP4765461B2 (ja) | 2005-07-27 | 2005-07-27 | 雑音抑圧システムと方法及びプログラム |
| US11/489,594 US9613631B2 (en) | 2005-07-27 | 2006-07-20 | Noise suppression system, method and program |
| CN2006101080579A CN1905006B (zh) | 2005-07-27 | 2006-07-27 | 噪声抑制系统与方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005217694A JP4765461B2 (ja) | 2005-07-27 | 2005-07-27 | 雑音抑圧システムと方法及びプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2007033920A JP2007033920A (ja) | 2007-02-08 |
| JP4765461B2 true JP4765461B2 (ja) | 2011-09-07 |
Family
ID=37674255
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005217694A Expired - Fee Related JP4765461B2 (ja) | 2005-07-27 | 2005-07-27 | 雑音抑圧システムと方法及びプログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US9613631B2 (ja) |
| JP (1) | JP4765461B2 (ja) |
| CN (1) | CN1905006B (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2014049944A1 (ja) * | 2012-09-27 | 2014-04-03 | 日本電気株式会社 | 音声処理装置、音声処理方法、音声処理プログラムおよび雑音抑圧装置 |
| US10043532B2 (en) | 2014-03-17 | 2018-08-07 | Nec Corporation | Signal processing apparatus, signal processing method, and signal processing program |
| US10347273B2 (en) | 2014-12-10 | 2019-07-09 | Nec Corporation | Speech processing apparatus, speech processing method, and recording medium |
| US10748551B2 (en) | 2014-07-16 | 2020-08-18 | Nec Corporation | Noise suppression system, noise suppression method, and recording medium storing program |
Families Citing this family (48)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4765461B2 (ja) * | 2005-07-27 | 2011-09-07 | 日本電気株式会社 | 雑音抑圧システムと方法及びプログラム |
| US8345890B2 (en) | 2006-01-05 | 2013-01-01 | Audience, Inc. | System and method for utilizing inter-microphone level differences for speech enhancement |
| US8204252B1 (en) | 2006-10-10 | 2012-06-19 | Audience, Inc. | System and method for providing close microphone adaptive array processing |
| US8744844B2 (en) | 2007-07-06 | 2014-06-03 | Audience, Inc. | System and method for adaptive intelligent noise suppression |
| US8194880B2 (en) | 2006-01-30 | 2012-06-05 | Audience, Inc. | System and method for utilizing omni-directional microphones for speech enhancement |
| US9185487B2 (en) | 2006-01-30 | 2015-11-10 | Audience, Inc. | System and method for providing noise suppression utilizing null processing noise subtraction |
| US8150065B2 (en) | 2006-05-25 | 2012-04-03 | Audience, Inc. | System and method for processing an audio signal |
| US8204253B1 (en) | 2008-06-30 | 2012-06-19 | Audience, Inc. | Self calibration of audio device |
| US8849231B1 (en) | 2007-08-08 | 2014-09-30 | Audience, Inc. | System and method for adaptive power control |
| US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
| US8934641B2 (en) * | 2006-05-25 | 2015-01-13 | Audience, Inc. | Systems and methods for reconstructing decomposed audio signals |
| US8259926B1 (en) | 2007-02-23 | 2012-09-04 | Audience, Inc. | System and method for 2-channel and 3-channel acoustic echo cancellation |
| US9118805B2 (en) * | 2007-06-27 | 2015-08-25 | Nec Corporation | Multi-point connection device, signal analysis and device, method, and program |
| JP5374845B2 (ja) * | 2007-07-25 | 2013-12-25 | 日本電気株式会社 | 雑音推定装置と方法およびプログラム |
| US8189766B1 (en) | 2007-07-26 | 2012-05-29 | Audience, Inc. | System and method for blind subband acoustic echo cancellation postfiltering |
| EP2031583B1 (en) * | 2007-08-31 | 2010-01-06 | Harman Becker Automotive Systems GmbH | Fast estimation of spectral noise power density for speech signal enhancement |
| WO2009038013A1 (ja) * | 2007-09-21 | 2009-03-26 | Nec Corporation | 雑音除去システム、雑音除去方法および雑音除去プログラム |
| US8180064B1 (en) | 2007-12-21 | 2012-05-15 | Audience, Inc. | System and method for providing voice equalization |
| US8143620B1 (en) | 2007-12-21 | 2012-03-27 | Audience, Inc. | System and method for adaptive classification of audio sources |
| WO2009088478A1 (en) * | 2007-12-31 | 2009-07-16 | Thomson Reuters Global Resources | Systems, methods and sofstware for evaluating user queries |
| US8194882B2 (en) | 2008-02-29 | 2012-06-05 | Audience, Inc. | System and method for providing single microphone noise suppression fallback |
| US8355511B2 (en) | 2008-03-18 | 2013-01-15 | Audience, Inc. | System and method for envelope-based acoustic echo cancellation |
| US8589152B2 (en) * | 2008-05-28 | 2013-11-19 | Nec Corporation | Device, method and program for voice detection and recording medium |
| US8774423B1 (en) | 2008-06-30 | 2014-07-08 | Audience, Inc. | System and method for controlling adaptivity of signal modification using a phantom coefficient |
| US8521530B1 (en) | 2008-06-30 | 2013-08-27 | Audience, Inc. | System and method for enhancing a monaural audio signal |
| JP5134477B2 (ja) * | 2008-09-17 | 2013-01-30 | 日本電信電話株式会社 | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 |
| US8380497B2 (en) | 2008-10-15 | 2013-02-19 | Qualcomm Incorporated | Methods and apparatus for noise estimation |
| EP2346032B1 (en) * | 2008-10-24 | 2014-05-07 | Mitsubishi Electric Corporation | Noise suppressor and voice decoder |
| KR101253102B1 (ko) | 2009-09-30 | 2013-04-10 | 한국전자통신연구원 | 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법 |
| US8571231B2 (en) * | 2009-10-01 | 2013-10-29 | Qualcomm Incorporated | Suppressing noise in an audio signal |
| US20110178800A1 (en) | 2010-01-19 | 2011-07-21 | Lloyd Watts | Distortion Measurement for Noise Suppression System |
| US9008329B1 (en) | 2010-01-26 | 2015-04-14 | Audience, Inc. | Noise reduction using multi-feature cluster tracker |
| US8798290B1 (en) | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
| EP2579254B1 (en) * | 2010-05-24 | 2017-07-12 | Nec Corporation | Signal processing method, information processing device, and signal processing program |
| JP5265056B2 (ja) * | 2011-01-19 | 2013-08-14 | 三菱電機株式会社 | 雑音抑圧装置 |
| US9538286B2 (en) * | 2011-02-10 | 2017-01-03 | Dolby International Ab | Spatial adaptation in multi-microphone sound capture |
| JPWO2013145578A1 (ja) * | 2012-03-30 | 2015-12-10 | 日本電気株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
| US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
| US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
| CN106797512B (zh) | 2014-08-28 | 2019-10-25 | 美商楼氏电子有限公司 | 多源噪声抑制的方法、系统和非瞬时计算机可读存储介质 |
| JP6464449B2 (ja) * | 2014-08-29 | 2019-02-06 | 本田技研工業株式会社 | 音源分離装置、及び音源分離方法 |
| KR20180094875A (ko) * | 2015-12-18 | 2018-08-24 | 소니 주식회사 | 정보 처리 장치, 정보 처리 방법, 및 프로그램 |
| JP6559576B2 (ja) * | 2016-01-05 | 2019-08-14 | 株式会社東芝 | 雑音抑圧装置、雑音抑圧方法及びプログラム |
| CN105812068B (zh) * | 2016-03-23 | 2018-05-04 | 国家电网公司 | 一种基于高斯分布加权的噪声抑制方法及装置 |
| JP6567479B2 (ja) * | 2016-08-31 | 2019-08-28 | 株式会社東芝 | 信号処理装置、信号処理方法およびプログラム |
| KR102793521B1 (ko) | 2016-12-14 | 2025-04-09 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
| CN109346099B (zh) * | 2018-12-11 | 2022-02-08 | 珠海一微半导体股份有限公司 | 一种基于语音识别的迭代去噪方法和芯片 |
| KR102260216B1 (ko) * | 2019-07-29 | 2021-06-03 | 엘지전자 주식회사 | 지능적 음성 인식 방법, 음성 인식 장치, 지능형 컴퓨팅 디바이스 및 서버 |
Family Cites Families (31)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5359695A (en) * | 1984-01-30 | 1994-10-25 | Canon Kabushiki Kaisha | Speech perception apparatus |
| JPH05134694A (ja) * | 1991-11-15 | 1993-05-28 | Sony Corp | 音声認識装置 |
| IT1272653B (it) * | 1993-09-20 | 1997-06-26 | Alcatel Italia | Metodo di riduzione del rumore, in particolare per riconoscimento automatico del parlato, e filtro atto ad implementare lo stesso |
| JP2737624B2 (ja) | 1993-12-27 | 1998-04-08 | 日本電気株式会社 | 音声認識装置 |
| SE505156C2 (sv) * | 1995-01-30 | 1997-07-07 | Ericsson Telefon Ab L M | Förfarande för bullerundertryckning genom spektral subtraktion |
| JP3452443B2 (ja) * | 1996-03-25 | 2003-09-29 | 三菱電機株式会社 | 騒音下音声認識装置及び騒音下音声認識方法 |
| DE19747885B4 (de) * | 1997-10-30 | 2009-04-23 | Harman Becker Automotive Systems Gmbh | Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion |
| US6415253B1 (en) * | 1998-02-20 | 2002-07-02 | Meta-C Corporation | Method and apparatus for enhancing noise-corrupted speech |
| JPH11327593A (ja) * | 1998-05-14 | 1999-11-26 | Denso Corp | 音声認識システム |
| CA2358203A1 (en) * | 1999-01-07 | 2000-07-13 | Tellabs Operations, Inc. | Method and apparatus for adaptively suppressing noise |
| US6910011B1 (en) | 1999-08-16 | 2005-06-21 | Haman Becker Automotive Systems - Wavemakers, Inc. | Noisy acoustic signal enhancement |
| US20020116177A1 (en) * | 2000-07-13 | 2002-08-22 | Linkai Bu | Robust perceptual speech processing system and method |
| FR2820227B1 (fr) | 2001-01-30 | 2003-04-18 | France Telecom | Procede et dispositif de reduction de bruit |
| US6959276B2 (en) * | 2001-09-27 | 2005-10-25 | Microsoft Corporation | Including the category of environmental noise when processing speech signals |
| JP2003216180A (ja) * | 2002-01-25 | 2003-07-30 | Matsushita Electric Ind Co Ltd | 音声認識装置およびその方法 |
| JP2003271191A (ja) * | 2002-03-15 | 2003-09-25 | Toshiba Corp | 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム |
| US7174292B2 (en) * | 2002-05-20 | 2007-02-06 | Microsoft Corporation | Method of determining uncertainty associated with acoustic distortion-based noise reduction |
| US7103541B2 (en) * | 2002-06-27 | 2006-09-05 | Microsoft Corporation | Microphone array signal enhancement using mixture models |
| FR2848715B1 (fr) * | 2002-12-11 | 2005-02-18 | France Telecom | Procede et systeme de correction multi-references des deformations spectrales de la voix introduites par un reseau de communication |
| KR100486736B1 (ko) * | 2003-03-31 | 2005-05-03 | 삼성전자주식회사 | 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치 |
| ATE487332T1 (de) * | 2003-07-11 | 2010-11-15 | Cochlear Ltd | Verfahren und einrichtung zur rauschverminderung |
| JP4058521B2 (ja) * | 2003-09-11 | 2008-03-12 | 独立行政法人産業技術総合研究所 | 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム |
| US7483831B2 (en) * | 2003-11-21 | 2009-01-27 | Articulation Incorporated | Methods and apparatus for maximizing speech intelligibility in quiet or noisy backgrounds |
| US7133825B2 (en) * | 2003-11-28 | 2006-11-07 | Skyworks Solutions, Inc. | Computationally efficient background noise suppressor for speech coding and speech recognition |
| CA2454296A1 (en) * | 2003-12-29 | 2005-06-29 | Nokia Corporation | Method and device for speech enhancement in the presence of background noise |
| EP1600947A3 (en) * | 2004-05-26 | 2005-12-21 | Honda Research Institute Europe GmbH | Subtractive cancellation of harmonic noise |
| JP4283212B2 (ja) * | 2004-12-10 | 2009-06-24 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 雑音除去装置、雑音除去プログラム、及び雑音除去方法 |
| US7590529B2 (en) * | 2005-02-04 | 2009-09-15 | Microsoft Corporation | Method and apparatus for reducing noise corruption from an alternative sensor signal during multi-sensory speech enhancement |
| JP4670483B2 (ja) * | 2005-05-31 | 2011-04-13 | 日本電気株式会社 | 雑音抑圧の方法及び装置 |
| JP4765461B2 (ja) * | 2005-07-27 | 2011-09-07 | 日本電気株式会社 | 雑音抑圧システムと方法及びプログラム |
| US7584097B2 (en) * | 2005-08-03 | 2009-09-01 | Texas Instruments Incorporated | System and method for noisy automatic speech recognition employing joint compensation of additive and convolutive distortions |
-
2005
- 2005-07-27 JP JP2005217694A patent/JP4765461B2/ja not_active Expired - Fee Related
-
2006
- 2006-07-20 US US11/489,594 patent/US9613631B2/en not_active Expired - Fee Related
- 2006-07-27 CN CN2006101080579A patent/CN1905006B/zh not_active Expired - Fee Related
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2014049944A1 (ja) * | 2012-09-27 | 2014-04-03 | 日本電気株式会社 | 音声処理装置、音声処理方法、音声処理プログラムおよび雑音抑圧装置 |
| US10043532B2 (en) | 2014-03-17 | 2018-08-07 | Nec Corporation | Signal processing apparatus, signal processing method, and signal processing program |
| US10748551B2 (en) | 2014-07-16 | 2020-08-18 | Nec Corporation | Noise suppression system, noise suppression method, and recording medium storing program |
| US10347273B2 (en) | 2014-12-10 | 2019-07-09 | Nec Corporation | Speech processing apparatus, speech processing method, and recording medium |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2007033920A (ja) | 2007-02-08 |
| US20070027685A1 (en) | 2007-02-01 |
| CN1905006B (zh) | 2012-11-07 |
| US9613631B2 (en) | 2017-04-04 |
| CN1905006A (zh) | 2007-01-31 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4765461B2 (ja) | 雑音抑圧システムと方法及びプログラム | |
| Kumar et al. | Delta-spectral cepstral coefficients for robust speech recognition | |
| Deng et al. | Recursive estimation of nonstationary noise using iterative stochastic approximation for robust speech recognition | |
| EP1760696B1 (en) | Method and apparatus for improved estimation of non-stationary noise for speech enhancement | |
| JP5842056B2 (ja) | 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 | |
| US9530432B2 (en) | Method for determining the presence of a wanted signal component | |
| JP5262713B2 (ja) | ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム | |
| JP2003303000A (ja) | 特殊領域におけるチャンネル雑音および加法性雑音の合同補償に関する方法および装置 | |
| KR101720514B1 (ko) | Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법 | |
| JP2010078650A (ja) | 音声認識装置及びその方法 | |
| US8615393B2 (en) | Noise suppressor for speech recognition | |
| US20060165202A1 (en) | Signal processor for robust pattern recognition | |
| CN101154383B (zh) | 噪声抑制、提取语音特征、语音识别及训练语音模型的方法和装置 | |
| Hao et al. | Speech enhancement using Gaussian scale mixture models | |
| Elshamy et al. | An iterative speech model-based a priori SNR estimator | |
| JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
| Abe et al. | Robust speech recognition using DNN-HMM acoustic model combining noise-aware training with spectral subtraction. | |
| Han et al. | Reverberation and noise robust feature compensation based on IMM | |
| Tashev et al. | Unified framework for single channel speech enhancement | |
| Borgström et al. | HMM-based reconstruction of unreliable spectrographic data for noise robust speech recognition | |
| Kim et al. | Feature compensation based on switching linear dynamic model | |
| JP4058521B2 (ja) | 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム | |
| Abka et al. | Speech recognition features: Comparison studies on robustness against environmental distortions | |
| Li et al. | Improved cepstra minimum-mean-square-error noise reduction algorithm for robust speech recognition | |
| JP4242320B2 (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061211 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091028 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091104 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100104 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100309 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100510 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101109 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110111 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110517 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110530 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4765461 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140624 Year of fee payment: 3 |
|
| LAPS | Cancellation because of no payment of annual fees |