JP2003513320A - 音声信号からの雑音の消去 - Google Patents

音声信号からの雑音の消去

Info

Publication number
JP2003513320A
JP2003513320A JP2001534144A JP2001534144A JP2003513320A JP 2003513320 A JP2003513320 A JP 2003513320A JP 2001534144 A JP2001534144 A JP 2001534144A JP 2001534144 A JP2001534144 A JP 2001534144A JP 2003513320 A JP2003513320 A JP 2003513320A
Authority
JP
Japan
Prior art keywords
spectral
correlation
signal
noise
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001534144A
Other languages
English (en)
Inventor
イェー ホアン,チャオ−シィ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Publication of JP2003513320A publication Critical patent/JP2003513320A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 雑音のある時間変化する音声入力信号yにおける雑音を減少させる方法であって、入力信号yの受信、及び、入力信号yのスペクトル成分それぞれの大きさ|Y(k)|を表わす複数のスペクトル成分信号の導出を含む。入力信号y(y=s+n)に存在する本来の音声信号成分s及び雑音信号成分nの間のスペクトル領域の相関を示す相関係数γsnを得る。それぞれの雑音抑制スペクトル成分の大きさ 【外20】 は、雑音のある入力信号yのスペクトル成分|Y(k)|、本来の音声信号sのスペクトル成分|S(k)|、及び雑音信号のスペクトル信号|N(k)|のそれぞれの大きさの関係を与える相関方程式を解くことによって評価され、ここでこの方程式は得られる相関係数γsnに基いた相関を含む。好ましくは、相関方程式は 【数21】

Description

【発明の詳細な説明】
【0001】 本発明は、音声信号のような雑音のある時間変化する入力信号における雑音を
減少させる方法に関する。本発明はさらに、雑音のある時間変化する入力信号に
おける雑音を減少させる為の装置に関する。
【0002】 時間変化する入力信号における雑音の存在は、信号の処理の正確さ、及び質を
妨げる。これは特に、例えば音声信号が暗号化されるとき生じるような、音声信
号の処理の場合である。比較的よく雑音の存在に対処できる使用者に信号が最終
的に贈られず、例えば自動的に認識される音声信号の場合のように、信号が最終
的に自動的に処理される場合には、雑音の存在はいっそうより破壊的である。自
動音声認識及び符号化システムはますます使用される。このようなシステムの性
能は継続的に改善しているが、低いS/N比(SNR)又は狭い帯域幅の信号を
有するような特に不利な環境においては、正確さをさらに増加させることが望ま
れている。通常、音声認識システムは、入力音声信号の表現を、訓練音声信号(
training speech signal)の表現から組み立てられた隠れマルコフモデル(hidd
en Markov model)(HMMs)のような参照信号のモデルΛxに対して比較す
る。表現は通常、LPC又はケプストラル成分(capstral component)を伴う観
測ベクトル(observation vector)である。
【0003】 実際には、参照信号(及びそのようなモデル)が得られる条件と入力信号の条
件との間に不適合が存在する。参照信号は、通常比較的雑音が無く(高いSNR
、広い帯域幅)、一方実際に使用中の入力信号はひずんでいる(より低いSNR
、及び/又は、より狭い帯域幅)。従って、雑音抑制信号(noise-suppressed s
ignal)を得るために、少なくとも入力信号に存在する雑音の部分を消去するこ
とが望まれる。
【0004】 雑音抑制音声信号(‘本来の’音声)を評価する従来の方法は、スペクトル減
算(spectral subtraction)法を使用することである。離散的な時間領域におい
て、雑音音声yは、
【0005】
【数1】 のように表わすことができ、ここでs、n、yはそれぞれ本来の音声、雑音、及
び雑音のある音声を示し、ここでTは音声の長さを示し、iは時間を表す。従来
のスペクトル減算は、雑音のある音声のスペクトル成分を決定すること、及び雑
音のスペクトルを評価することを含む。スペクトル成分は、例えば、高速フーリ
エ変換(Fast Fourier transform)(FFT)を使用して計算してもよい。雑音
のスペクトル成分は一度、信号の一部の顕著で代表的な雑音で評価してもよい。
好ましくは、雑音は、‘オン−ザ−フライ(on-the-fly)’で評価し、例えば各
時間で‘静寂な(silent)’部分を、有意でない量の音声信号を伴う入力信号に
おいて検出する。一般的なスペクトル減算法において、雑音抑制音声は、雑音の
ある音声スペクトルから平均的な雑音スペクトルを減じること
【0006】
【数2】 によって評価され、ここで
【0007】
【外12】 は評価される音声s、雑音のある音声y、及び雑音nの大きさスペクトルであり
、wとmはそれぞれ周波数及び時間を表す。a=2の場合は、パワースペクトル
減算(power spectral subtraction)のように呼ばれる。a=1の場合では、そ
の差は通常、大きさスペクトル減算(magnitude spectral subtraction)と呼ば
れる。減算によっては、評価されるスペクトルが従来のスペクトル減算法で正で
あるとは保証されない。US5,749,068は、減算で負の出力を生じるよ
うなスペクトル成分を零に設定すること
【0008】
【数3】 を記載している。スペクトル成分を零(又は低いデフォルト値)に設定すること
は、負のスペクトル成分に対する“テイキングフロアー(taking floor)”のよ
うに呼ばれる。パラメータαは、正の値であり、雑音成分を消去する程度を示す
。US5,749,068は、雑音のスペクトル成分を消去することの発展した
方法を記載しているが、式(3)の従来のスペクトル減算をまだ使用している。
【0009】 負のスペクトル成分に対するテイキングフロアーは、スペクトル減算法の主な
限界を提供し、人工音程(musical tone artifact)を伴う残差雑音を評価され
た音声に導入する。
【0010】 従来のスペクトル減算法の限界を調査するために、本発明者は、負のスペクト
ルの割合(すなわち、負の値を有するようなスペクトル成分の相対的な数)を計
算する実験を実施した。従来のスペクトル減算法に対する負のスペクトルの割合
NSRconは次のように定義される。
【0011】
【数4】 ここで、|Y(k)|は、試験の音声yに対応する大きさスペクトルであり、
【0012】
【外13】 は、休止(非−音声部分)から評価される雑音スペクトルであり、kはk番目の
スペクトル成分を示し、Mは比を決定するスペクトル成分の合計数、例えば1フ
レームの、又は全試験発声のスペクトル成分の数、を表わす。
【0013】 次の表は、a=2である様々なS/N比(SNRs)に対する負のスペクトル
の割合NSRconを与える。負のスペクトルの割合NSRconは、本来の信
号の条件でさえ34.6%に達することを発見した。これは、特により高いS/
Nレベルにおいて、従来のスペクトル減算法がいくらかの残差雑音を導入し、こ
の技術の使用を制限することを説明する。
【0014】
【表1】 本発明の目的は、従来のスペクトル減算法の限界を克服することである。
【0015】 本発明の目的に一致して、音声信号のような雑音のある時間変化する入力信号
yにおいて雑音を減少させる方法は、 雑音のある時間変化する入力信号を受信すること、 その信号から、入力信号のスペクトル成分のそれぞれの大きさを表わす複数の
スペクトル成分信号を導出すること、 入力信号(y=s+n)に存在する本来の音声信号成分s及び雑音信号成分n
との間の、スペクトル領域における相関を示す相関係数γsnを得ること、及び 雑音のある入力信号yのそれぞれのスペクトル成分|Y(k)|の大きさ、本
来の音声信号sのスペクトル成分|S(k)|、及び雑音信号nのスペクトル成
分|N(k)|の間の関係を与える方程式を解くことによってそれぞれの雑音抑
制スペクトル成分
【0016】
【外14】 の大きさを評価すること、ここでこの方程式は、得られた相関係数γsnに基い
た相関を含む、 を含む。
【0017】 好ましくは、相関方程式は、
【0018】
【数5】 によって与えられ、ここでaは、大きさ又はパワースペクトルについてそれぞれ
1又は2であり得る。従来のスペクトル減算の代わりに、スペクトル領域におけ
る本来の音声s及び雑音nの間の相関係数γsnに基いたこの方程式を解く。こ
の方程式を解くことは、‘相関したスペクトル減算’ (CCS)として見るこ
とができる。
【0019】 相関係数γsnは、例えば分析する代表的な入力信号に基いて固定してもよい
。好ましくは、相関係数γsnは、実際に入力信号に基いて評価される。都合よ
く、その評価は負のスペクトルの割合を最小化することに基く。好ましくは、期
待される負のスペクトルの割合Rは、
【0020】
【数6】 のように定義され、ここで都合よく‘零−一(zero-one)’関数fsnは、微分
可能な関数
【0021】
【数7】 によって与えられる。
【0022】 適応性のある学習アルゴリズムの理論を適用することによって、相関係数は、
次の勾配演算(gradient operation)
【0023】
【数8】 によって都合よく得られる。
【0024】 相関係数は、NSRの減少方向に沿って学習され得る。好ましくは、これは反
復のアルゴリズムにおいて行われる。
【0025】 相関したスペクトル減算を表わすこの方程式は、直接解いても良い。好ましく
は、この方程式は反復手段において解かれ、本来の音声の評価を改善する。
【0026】 本発明のこれら及び他の様相は、図に示す実施例を参照することで明瞭になる
【0027】 {音声認識システムの一般的記述} 本発明に従った雑音の減少は、雑音のある音声信号の加工には、そのような信
号の符号化又はそのような信号の自動的な認識のようなものには、特に有用であ
る。ここで、音声認識システムの一般的記述を与える。当業者は、音声符号化シ
ステムにおいて雑音消去法をよく適用する。
【0028】 語彙の多い連続的音声認識のような音声認識システムは典型的に、入力パター
ンを認識する為に認識モデルの集合を使用する。例えば、音響モデル及び語彙を
、単語を認識する為に使用してもよく、言語モデルを基本的な認識結果を改善す
る為に使用してもよい。図は、語彙の多い連続的音声認識システム100の典型
的な構造を説明する。以下の定義はシステム及び認識方法を記載する為に使用す
る。
【0029】 Λ:訓練済み音声モデル(trained speech model)の組 X:モデルΛと一致するオリジナル音声 Y:試験音声 Λ:試験環境に対して一致したモデル W:単語列 S:単語、音節、サブ単語単位(sub-word unit)、状態若しくは混合成分、
又は他の適切な表現であり得る解読された列(sequence) システム100は、スペクトル分析サブシステム110及び単位一致サブシス
テム120を含む。スペクトル分析サブシステム110において、音声入力信号
(speech input signal)(SIS)は、特徴の代表的なベクトル(観測ベクト
ル、OV)を計算する為にスペクトル的に、及び/又は時間的に分析される。典
型的に、音声信号はデジタル化され(例えば6.67kHzの割合で標本抽出さ
れる)、例えば前強調(pre-emphasis)を適用することによって前処理される。
【0030】 連続する試料は、例えば音声信号の32m秒に相当するフレームに群分け(ブ
ロック分け)される。引き続くフレームは、部分的に、例えば16m秒重なる。
しばしば、線形予測符号化(Linear Predictive Coding)(LPC)スペクトル
分析法が、各フレームに対して特徴の代表的なベクトル(観測ベクトル)を計算
する。特徴のベクトルは、例えば24、32、又は63個の成分を有しても良い
。語彙の多い連続的音声認識の標準的なアプローチは、音声生成の確率モデルを
仮定することであり、これにより指定した単語列W=w…wは、音
響観測ベクトルの列Y=y…yを生じる。ここで観測ベクトルはス
ペクトル分析サブシステム110の出力であるが、認識誤りは、観測ベクトルy …y(時間t=1、…、Tにわたる)の観測された列を最も確実に
生じさせた単語列w…wを決定することによって実質的に最小化し
得る。これは、結果として最大のアポステリオリ(a posteriori)の確率、 全ての可能な言葉の順序Wに対するmaxP(W|Y,Λ) を決定することに帰着する。
【0031】 ベイズ(Bayes)の定理を条件付き確率に適用することによって、P(W
|Y,Λ)は、
【0032】
【数9】 によって与えられる。
【0033】 P(Y)はWに独立なので、最も確実な単語列は
【0034】
【数10】 によって与えられる。
【0035】 単位一致サブシステム120において、音響モデルは、式(a)の最初の項を
与える。音響モデルは、与えられた単語の文字列Wに対する一連の観測ベクトル
Yの確率P(Y|W)を評価するために使用される。語彙の多いシステムに対し
て、これは通常、音声認識単位の表に対して観測ベクトルを一致させることによ
って行われる。音声認識単位は、音響参照(acoustic reference)の列によって
表わされる。様々な形態の音声認識単位を使用してもよい。例として、全単語又
は単語群でさえ、一つの音声認識単位で表わされる場合もある。単語モデル(wo
rd model)(WM)は、与えられた語彙のそれぞれの言葉に対して一連の音響参
照における書き換え(transcription)を提供する。最も語彙の少ない音声認識
システムにおいて、全単語は、音声認識単位で表わされ、その場合は、単語モデ
ルと音声認識単位との間に直接的な関係が存在する。他の語彙の少ないシステム
において、例えば、比較的多数の(例えば、数百)単語を認識する為に使用され
るように、又は語彙の多いシステムにおいて、フェネン(phenen)及びフェノン
(phenon)のような導出単位と同様に、音、二音(diphone)又は音節のような
言語に基いたサブ単語単位の使用が成され得る。このようなシステムに対して、
単語モデルは、語彙の単語に関するサブ単語単位の列を記載するレクシコン(le
xicon)134、及び、含まれる音声認識単位の音響参照の列を記載するサブ単
語モデル132によって与えられる。単語モデル構成器(word model composer
)136は、サブ単語モデル132及びレクシコン134に基いた単語モデルを
構成する。(サブ)単語モデルは、典型的には隠れマルコフモデル(Hidden Mar
kov Models)(HMMs)に基いており、確率的なモデル音声信号に広く使用さ
れている。このようなアプローチに使用するとき、それぞれの認識単位(単語モ
デル又はサブ単語モデル)は典型的にHMMによって特徴付けられ、そのパラメ
ータはデータの訓練セットから評価される。語彙の多い音声認識システムは、比
較的大きな単位に対してHMMを適切に訓練するためには多くの訓練データを必
要とすると考えられるので、通常サブ単語単位の制限された組、例えば40が使
用される。HMMの状態は、音響参照に対応する。離散的な又は連続的な確率密
度を含めて、参照をモデル化するために様々な技術が知られている。一つの明確
な発声に関する音響参照の各列は、またその発声の音響的な書き換えとして参照
される。HMMs以外の認識技術を使用する場合、音響の書き換えの詳細は異な
ることがわかる。
【0036】 図の単語レベル一致システム130は、音声認識単位の全ての列に対する観測
ベクトルと一致し、そのベクトルと列との間の一致の可能性を提供する。サブ単
語単位を使用する場合、レクシコン134を使用することによる一致に束縛を与
え、サブ単語単位の可能性のある列をレクシコン134における列に限定する。
これは単語の可能性のある列の出力を減少させる。
【0037】 さらに、文レベルの一致システム140を、言語モデル(LM)に基いて、そ
の一致にさらなる束縛を与え、調査された経路が言語モデルで指定されるような
適切な列である単語列に対応するように使用する。このような言語モデルは、式
(a)の第2項P(W)を与える。音響モデルの結果を言語モデルのものと組み
合わせることは、認識される文(recognized sentence)(RS)153である
単位一致サブシステム120の出力に帰着する。パターン認識に使用される言語
モデルは、言語及び認識の仕事の統語論及び/又は意味論の束縛を含んでも良い
。統語論の束縛を基にした言語モデルは通常文法144と呼ばれる。言語モデル
に使用される文法144は、単語列W=w…wの確率を与え、それ
は原理的に
【0038】
【数11】 で与えられる。
【0039】 実際には、与えられた言語において全単語及び全列の長さに対して条件付き単
語確率を信頼して評価することは実行不可能であるので、N組(N-gram)の単語
モデルが広く使用される。N組モデルにおいて、項P(wj|w1w2w3…w
j−1)は、P(wj|wj−N+1…wj−1)で近似される。実際に、二つ
組(bigrams)又は三つ組(trugrams)を使用する。三つ組において、項P(w
j|w1w2w3…wj−1)はP(wj|wj−2wj−1)で近似される。
【0040】 本発明に従った音声加工は、従来のハードウェアを使用して実施してもよい。
例えば、音声認識システムは、PCのようなコンピューターで実施しても良く、
ここで音声入力はマイクロホンを通じて受信され、従来のオーディオインターフ
ェースカードによってデジタル化される。全てのさらなる加工は、CPUによっ
て実行されるソフトウェアの演算の形態で行われる。特に、音声は電話接続を通
じて、例えばコンピュータにおける従来のモデムを使用して、受信してもよい。
音声の加工はまた、例えばDSPの周囲に組み立てられた、格納されたハードウ
ェアを使用して実行しても良い。
【0041】 本発明に従った雑音の消去は、スペクトル分析サブシステム100の前の加工
段階において実行してもよい。好ましくは、雑音の消去は、例えば、時間領域か
らスペクトル領域への、及びその逆のいくつかの変換を必要とすることを避ける
ために、スペクトル分析サブシステム100の中に統合される。本発明を実行す
る為の全てのハードウェア及び加工能力は、通常音声認識又は音声符号化システ
ムに存在する。本発明に従った雑音消去技術は、通常、適切なプログラムの制御
の下に、DSP又はパーソナルコンピュータのマイクロプロセッサーのようなプ
ロセッサー上で実行される。時間領域からスペクトル領域への変換を実行するよ
うな、雑音消去技術の基本的関数のプログラミングは、技術者の範囲内にある。
【0042】 {発明の詳細な説明} 詳細は音声信号について与えられる。他の信号は対応する方法で加工できる。
上述のように、不連続時間領域において、雑音音声yは、
【0043】
【数12】 のように表わされ、ここで、s、n、yは、それぞれ本来の音声、雑音、及び雑
音のある音声を示し、Tは音声の長さを示し、及びiは時間を表わす。高速フー
リエ変換のような従来の方法を使用して、音声信号yは一組のスペクトル成分|
Y(k)|に変換し得る。既に時間領域への適切な変換が行われた場合、このよ
うな変換から結果として生じるスペクトル成分を回収することは十分であること
がわかる。
【0044】 |S(k)|、|N(k)|及び|Y(k)|を、それぞれ時間領域の信号s
、n、及びyのスペクトル対応する大きさとする。従来のスペクトル減算法を使
用して、個々のスペクトル成分は正とされる。雑音のある音声yの個々のスペク
トル成分|Y(k)|が、対応する雑音信号nのスペクトル成分|N(k)|よ
りも小さいような状況は許されない。
【0045】 次の相関
【0046】
【数13】 が音声信号と雑音信号との間に存在することを仮定し、ここでγsnは、スペク
トル領域における音声と雑音との相関係数であることを示し、aは大きさ又はパ
ワースペクトルに対してそれぞれ1又は2である。本来の音声スペクトルを評価
する基礎としてこの相関を使用することは(及び相関したスペクトル減算を使用
することは)、γsn<0の場合に|Y(k)|<|N(k)|であるよう
な状況を有することがあり得る。
【0047】
【外15】 を、それぞれ本来の音声信号s及び雑音信号nの大きさスペクトルの評価とする
。好ましくは、
【0048】
【外16】 は休止(非−音声部分)から評価される。式(6)に基いて、
【0049】
【外17】 は、1段階で式を解くことによって、又は反復のアルゴリズムを使用することに
よって、計算し得る。1段階の解は、それぞれa=1又はa=2の場合には、次
の式(7)及び(8)
【0050】
【数14】 で与えられる。
【0051】 式(8)は、2つの解を有し得る。NSRの減少の方向が好まれるので、(|
Y(k)|−|N(k)|)より大きく、(|Y(k)|−|N(k)| )に近い正の解が選択される。
【0052】 指定した相関係数γsn
【0053】
【外18】 を評価するための好ましい反復のアルゴリズムは、以下のようなものである。
【0054】
【数15】 外側のループkは、全ての個々のスペクトル成分を扱う。内側のループは、反
復が集束するまで行われる(評価した音声において、著しい変化がもはや起こら
ない)。
【0055】 上述のアルゴリズムは、決められた相関係数γsnについて使用し得る。本発
明に従ったさらなる実施例において、相関係数γsnは、実際の入力信号yに基
づいて評価される。この終了に対して、相関したスペクトル減算アルゴリズムに
対する負のスペクトルの割合(NSR)の関数は、次のように定義される。
【0056】
【数16】 式(5)に示されるfns関数は、零−一関数である。相関係数γsnとNS
Rとの間の関係を導出する為に、平滑化した零−一のジグモイド関数群を使用す
ることが好ましい。例えば、以下の関数fnsは、その微分可能性によってさら
なる導出の為に都合よく使用される。
【0057】
【数17】 α及びβの模範的な値は、それぞれ1.0及び0.0である。
【0058】 そして期待される負のスペクトルの割合Rは、次のように定義される。
【0059】
【数18】 適応性のある学習アルゴリズムの理論を適用することによって、相関係数は、
好ましくは次の勾配演算によって得られる。
【0060】
【数19】 相関係数は、NSRにおける減少の方向に沿って学習し得る。これは、提案し
た相関したスペクトル減算(CSS)アルゴリズムを使用して評価したスペクト
ルにおいて残差雑音を減少させることを意味する。
【0061】 相関係数γsnを基にした最小のNSRで
【0062】
【外19】 を評価するアルゴリズムは以下のようなものである。
【0063】
【数20】 ブロック1のように示されたブロックは、決まった相関係数γsnを仮定する
反復アルゴリズムとして使用されたのと同じである。ブロック1における反復の
解を使用する代わりに、また式(7)又は(8)の1段階の解を使用してもよい
【0064】 上述のように雑音を消去した後で、結果として生じる雑音を消去した信号の評
価されたスペクトル成分を時間領域に変換し直すことは認められる。可能な場合
には、信号を符号化又は自動的に認識することのような、引き続くさらなる加工
にスペクトル成分を直接使用してもよい。
【図面の簡単な説明】
【図1】 本発明で使用可能な従来の音声加工システムのブロック図を示す。

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 音声信号のような、雑音のある時間変化する入力信号yにお
    ける雑音を減少させる方法であって、 前記方法は、 前記雑音のある時間変化する入力信号yを受信するステップと、 前記入力信号yのスペクトル成分のそれぞれの大きさ|Y(k)|を表わす複
    数のスペクトル成分を前記入力信号yから導出するステップと、 前記入力信号y(y=s+n)に存在する本来の音声信号成分s及び雑音信号
    成分nの間の前記スペクトル領域における相関を示す相関係数γsnを得るステ
    ップと、 前記雑音のある入力信号yのそれぞれの前記スペクトル成分|Y(k)|、前
    記本来の音声信号sの前記スペクトル成分|S(k)|、及び前記雑音信号nの
    前記スペクトル成分|N(k)|の間の関係を与える相関方程式を解くことによ
    ってそれぞれの雑音抑制スペクトル成分 【外1】 の大きさを評価するステップと、を含み、 前記方程式は、得られた前記相関係数γsnに基いた前記相関を含む方法。
  2. 【請求項2】 前記相関係数γsnは、予め決められる請求項1記載の方法
  3. 【請求項3】 前記相関係数γsnを得るステップは、前記相関係数γsn を評価することを含む、請求項1記載の方法。
  4. 【請求項4】 前記相関係数γsnを評価するステップは、最小の負のスペ
    クトルの割合を決定することを含む請求項3記載の方法。
  5. 【請求項5】 前記負のスペクトルの割合NSRは、前記相関方程式の解に
    基いて負であるスペクトル成分 【外2】 の割合を表わす請求項4記載の方法。
  6. 【請求項6】 前記方法は、 前記相関係数γsnを零でない値で初期化するステップと、反復して、 前記相関方程式を解くステップを実行して 【外3】 を得るステップと、 【外4】 に対する前記負のスペクトルの割合NSRの勾配の降下を基にした新しい相関係
    数を評価するステップと、を含む請求項5記載の方法。
  7. 【請求項7】 前記相関方程式を解くステップは、前記雑音抑制スペクトル 【外5】 を反復して評価することを含む請求項1記載の方法。
  8. 【請求項8】 前記方法は、 前記雑音のある入力信号yの前記それぞれのスペクトル成分Y(k)の大きさ
    から前記雑音信号nの前記それぞれのスペクトル成分 【外6】 の評価の大きさを減算することによって、前記雑音抑制スペクトル 【外7】 の大きさの初期の評価を計算するステップを含む請求項7記載の方法。
  9. 【請求項9】 前記反復するスペクトルの評価を実行するステップは、それ
    ぞれの反復に於いて、 前記相関係数γsnを伴う項が前記前記雑音抑制スペクトル 【外8】 の大きさの現在の評価に基く前記相関方程式に基いて補助の雑音抑制スペクトル
    の大きさを評価するステップと、 前記補助の雑音抑制スペクトルの評価された大きさ、及び前記雑音抑制スペク
    トル 【外9】 の大きさの前記現在の評価、に基く前記雑音抑制スペクトル 【外10】 の新しい大きさを評価するステップと、 を含む請求項7記載の方法。
  10. 【請求項10】 音声信号のような、雑音のある時間変化する入力信号yに
    おける雑音を減少させる為の装置であって、 前記装置は、 前記雑音のある時間変化する入力信号yを受信する入力手段と、 前記入力信号yのスペクトル成分のそれぞれの大きさ|Y(k)|を表わす複
    数のスペクトル成分を前記入力信号yから導出する手段と、 前記入力信号y(y=s+n)に存在する本来の音声信号成分s及び雑音信号
    成分nの間の前記スペクトル領域における相関を示す相関係数γsnを得る手段
    と、 前記雑音のある入力信号yのそれぞれの前記スペクトル成分|Y(k)|、前
    記本来の音声信号sの前記スペクトル成分|S(k)|、及び前記雑音信号nの
    前記スペクトル成分|N(k)|の間の関係を与える相関方程式を解くことによ
    ってそれぞれの雑音抑制スペクトル成分 【外11】 の大きさを評価する手段と、を含み、 前記方程式は、得られた前記相関係数γsnに基いた前記相関を含む装置。
JP2001534144A 1999-10-29 2000-10-27 音声信号からの雑音の消去 Pending JP2003513320A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP99203565.9 1999-10-29
EP99203565 1999-10-29
PCT/EP2000/010713 WO2001031640A1 (en) 1999-10-29 2000-10-27 Elimination of noise from a speech signal

Publications (1)

Publication Number Publication Date
JP2003513320A true JP2003513320A (ja) 2003-04-08

Family

ID=8240796

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001534144A Pending JP2003513320A (ja) 1999-10-29 2000-10-27 音声信号からの雑音の消去

Country Status (3)

Country Link
EP (1) EP1141949A1 (ja)
JP (1) JP2003513320A (ja)
WO (1) WO2001031640A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4434813B2 (ja) * 2004-03-30 2010-03-17 学校法人早稲田大学 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3452443B2 (ja) * 1996-03-25 2003-09-29 三菱電機株式会社 騒音下音声認識装置及び騒音下音声認識方法

Also Published As

Publication number Publication date
WO2001031640A1 (en) 2001-05-03
EP1141949A1 (en) 2001-10-10

Similar Documents

Publication Publication Date Title
JP4274962B2 (ja) 音声認識システム
EP1199708B1 (en) Noise robust pattern recognition
Shahnawazuddin et al. Pitch-Adaptive Front-End Features for Robust Children's ASR.
Hirsch et al. A new approach for the adaptation of HMMs to reverberation and background noise
KR100766761B1 (ko) 화자-독립형 보이스 인식 시스템용 보이스 템플릿을구성하는 방법 및 장치
US8615393B2 (en) Noise suppressor for speech recognition
EP1508893B1 (en) Method of noise reduction using instantaneous signal-to-noise ratio as the Principal quantity for optimal estimation
JPH075892A (ja) 音声認識方法
KR20010040669A (ko) 잡음 보상되는 음성 인식 시스템 및 방법
Novoa et al. Uncertainty weighting and propagation in DNN–HMM-based speech recognition
WO2001035389A1 (en) Tone features for speech recognition
WO2007046267A1 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP2003504653A (ja) ノイズのある音声モデルからのロバスト音声処理
JP2005078077A (ja) 非線形予測子およびターゲットによって案内される時間的制約を使用して声道共鳴を追跡する方法および装置
JP4728791B2 (ja) 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体
JP2003532162A (ja) 雑音に影響された音声の認識のためのロバストなパラメータ
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP5200080B2 (ja) 音声認識装置、音声認識方法、およびそのプログラム
Kotnik et al. Efficient noise robust feature extraction algorithms for distributed speech recognition (DSR) systems
JP2003513320A (ja) 音声信号からの雑音の消去
WO2020100606A1 (ja) 非言語発話検出装置、非言語発話検出方法、およびプログラム
JP2007508577A (ja) 音声認識システムの環境的不整合への適応方法
JP4749990B2 (ja) 音声認識装置
JP2005084653A (ja) 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム