JP2002311989A - チャネル歪みおよび背景雑音の両方に対して補正した音声認識方法 - Google Patents
チャネル歪みおよび背景雑音の両方に対して補正した音声認識方法Info
- Publication number
- JP2002311989A JP2002311989A JP2002067939A JP2002067939A JP2002311989A JP 2002311989 A JP2002311989 A JP 2002311989A JP 2002067939 A JP2002067939 A JP 2002067939A JP 2002067939 A JP2002067939 A JP 2002067939A JP 2002311989 A JP2002311989 A JP 2002311989A
- Authority
- JP
- Japan
- Prior art keywords
- vector
- model
- noise
- speech
- average
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 99
- 238000010606 normalization Methods 0.000 claims abstract description 12
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 238000012937 correction Methods 0.000 abstract description 10
- 230000006978 adaptation Effects 0.000 description 9
- 239000000654 additive Substances 0.000 description 9
- 230000000996 additive effect Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000005534 acoustic noise Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 150000001768 cations Chemical class 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- MYWUZJCMWCOHBA-VIFPVBQESA-N methamphetamine Chemical compound CN[C@@H](C)CC1=CC=CC=C1 MYWUZJCMWCOHBA-VIFPVBQESA-N 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000002945 steepest descent method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Time-Division Multiplex Systems (AREA)
- Complex Calculations (AREA)
Abstract
音に対して同時に補正するモデルを提供すること。 【解決手段】 補正付き音声認識方法が、クリーンな音
声において訓練されたHMMモデルをケプストラル平均
正規化によって修正することによって提供される。各音
声発声に対して、MFCCベクトルがクリーンな音声デ
ータベースに対して計算される。この平均MFCCが元
のモデルに加算される。所与の音声発声に対して背景雑
音の推定値が決定される。雑音に対して適用されたモデ
ル平均ベクトルが決定される。雑音の多い空間における
平均ベクトルが決定され、これが雑音に対して適応され
るモデル平均ベクトルから取り除かれてターゲット・モ
デルが得られる。
Description
特に背景雑音およびチャネル歪みの両方に対する補正に
関する。
較的静かなオフィス環境の音声データによって訓練さ
れ、移動環境において動作する音声認識装置は少なくと
も2つの歪み源、すなわち、背景雑音およびマイクロホ
ンの変化によって誤りを生じる可能性がある。背景雑音
はコンピュータのファン、車のエンジン、および/また
は道路の雑音などからくる可能性がある。マイクロホン
の変化は、そのマイクロホンの品質、ハンドヘルドまた
はハンドフリーまたは口に対する位置に起因する可能性
がある。音声認識の移動用の応用においては、マイクロ
ホンの調整装置および背景雑音の両方が変化する可能性
がある。
声の平均値を取り除き、電話のチャネル歪みなどの畳込
み歪みを処理する簡単で効果的な方法である。1974
年、米国音響学学会ジャーナル、55巻、1304〜1
312ページ掲載の、B.エイタル(Atal)の、
“Effectiveness of LinearP
rediction Characteristics
of the Speech Wave for A
utomatic Speaker Identifi
cation and Verification”
「自動話者認識および検証のための音声波の線形予測特
性の有効性」を参照されたい。スペクトル減算(SS)
は、特徴空間における背景雑音を減らす。1979年4
月の音響学、音声および信号処理に関するIEEE議事
録、ASSP‐27(2):113〜129ページ掲載
の、S.F.ボール(Boll)の論文、“Suppr
ession of Acoustic Noise
in Speech Using Spectral
Subtraction”「スペクトル減算を使用した
音声における音響的雑音の抑圧」を参照されたい。並列
モデル組合せ(PMC)は、雑音のない音声モデルと雑
音の推定値とから雑音の多い状態における音声モデルの
近似を与える。米国、1992年4月の、音響学、音声
および信号処理に関するIEEE国際会議議事録、1
巻、233〜236ページ掲載の、M.J.F.グレー
ス(Glaes)およびS.ヤング(Young)の、
“An Improved Approach to
the Hidden Markov Model D
ecomposition of Speech an
dNoise”「音声および雑音の隠れマルコフ・モデ
ル分解に対する改善された方法」を参照されたい。その
技法は訓練用のデータを必要としない。
は、チャネル・モデルおよび雑音モデルを導入すること
によって実現することができる。付加的雑音に対するス
ペクトル的バイアスおよび畳込み雑音に対するケプスト
ラル・バイアスが、M.アフィフィ(Afify)、
Y.ゴング(Gong)、およびJ.P.ハトン(Ha
ton)による論文の中で導入されている。この論文
は、表題が、“A General Joint Ad
ditive and Convolutive Bi
as Compensation Approach
Applied toNoisy Lombard S
peech Recognition”「雑音の多いロ
ンバード音声認識に対して適用された一般的な共同の付
加的および畳込みバイアス補正」で、1998年11月
の、音響学、音声および信号処理に関するIEEE議事
録、6(6):524〜538ページに掲載されてい
る。スペクトル領域および畳込み領域の両方において期
待最大化(EM)を適用することによって5種類のバイ
アスを計算することができる。J.L.ガウベイン(G
auvain)他による1つの手順が畳込み成分を計算
するために示されており、それはトレーニング・データ
の再走査を必要とする。“Developments
in Continuous Speech Dict
ation using the ARPA NAB
News Task”「ARPA NABニュース・タ
スクを使用した連続音声ディクテーションにおける開
発」と題するJ.L.ガウベイン(Gauvain)、
L.ラメル(Lamel),M.アッダ‐デッカー(A
dda‐Decker)、およびD.マトロフ(Mat
rouf)の論文を参照されたい。1996年、デトロ
イト、音響学、音声および信号処理に関するIEEE国
際会議議事録、73〜76ページに掲載。再急峻降下
(steepest descent)法による畳込み
成分の解も報告されている。“A Maximum L
ikelihood Procedure fora
Universal Adaptation Meth
od Basedon HMM Compositio
n”「HMM構成に基づいた汎用付加法のための最尤手
順」と題する、Y.ミナミ(Minami)およびS.
フルイ(Furui)の論文を参照されたい。1995
年、デトロイト、音響学、音声および信号処理に関する
IEEE国際会議議事録、129〜132ページに掲
載。Y.ミナミおよびフルイによる1つの方法は、追加
の汎用の音声モデル、およびチャネルが変化する時に汎
用モデルでのチャネル歪みの再宛先を必要とする。19
96年、アトランタ、音響学、音声および信号処理に関
するIEEE国際会議議事録、327〜330ページ掲
載の、“Adaptation MethodBase
d on HMM Composition and
EM Algorithm”「HMM構成およびEMア
ルゴリズムに基づいた適応方法」と題するY.ミナミお
よびS.フルイの論文を参照されたい。
ognition in Additive and
Convolutional Noise”「付加的お
よび畳込みの雑音における音声認識のためのPMC」、
1993年12月、Technical Report
TR‐154,CUED/F‐INFENGの中で、
M.F.J.ゲールズ(Gales)によって提示され
ている技法は、2パスの試験発声、例えば、パラメータ
推定と、それに続く認識、ケプストラルおよびスペクト
ルの領域の間のいくつかの変換、およびクリーンな音声
に対するガウスの混合モデルを必要とする。
の変化は、その変化が小さいと仮定して線形の式によっ
て近似することができる。ヤコビアン行列と雑音の多い
状態における差との積として、および統計的線形近似と
して音声モデルのパラメータの変化をモデル化するヤコ
ビアンの方法は、この方向に沿っている。1997年1
2月、米国カリフォルニア州サンタバーバラ、IEEE
自動音声認識ワークショップ議事録、396〜403ペ
ージ掲載の、“Jacobian Adaptatio
n of Noisy Speech Models”
「雑音の多い音声モデルのヤコビアン適応」と題する
S.サガヤマ(Sagayama)、Y.ヤマグチ(Y
amaguchi)、およびS.タカハシ(Takah
ashi)の論文を参照されたい。IEEE信号処理学
会。また、1998年1月、IEEE信号処理レター、
5(1):8〜10ページ掲載の、N.S.キム(Ki
m)の“Statistical Linear Ap
proximation for Environme
nt Compensation”「環境補正のための
統計的線形近似」も参照されたい。
タを一致させるためにHMMパラメータを変換する。1
995年、Computer,Speech and
Language、9(2):171〜185ページ掲
載の、C.J.レゲッタ(Leggetter)および
P.C.ウッドランド(Woodland)の、“Ma
ximum Likelihood Linear R
egressionfor Speaker Adap
tation of ContinuousDensi
ty HMMs”「連続密度HMMの話者適応のための
最尤線形回帰」を参照されたい。この方法は両方の雑音
源に対して有効であるが、トレーニング・データを必要
とし、話者に対する依存性を導入する。
によると、広範囲の雑音およびチャネル歪みの種類に対
して丈夫である話者独立のシステムを作るために雑音お
よびチャネル歪みを同時に扱う新しい方法が示される。
音声認識装置が示されている。音声が認識装置11に加
えられる。その音声が隠れマルコフ・モデル(HMM)
13に比較されてテキストを認識する。そのモデルは静
かな環境および良好な品質のマイクロホンにおいて記録
された音声によるテキストにおいて最初に提供される。
チャネル/マイクロホンの歪みおよび背景雑音が同時に
存在している状況で動作するのに適している音声モデル
・セットを開発したい。本発明によると、音声モデル・
セットは、雑音および音声に関する統計情報を使用して
提供される。計算コストの小さい方法がPMCおよびC
MNの両方を統合化する。
ストラル平均正規化付きのクリーンな音声において訓練
されたHMMモデルから開始する。これらのモデルを修
正し、チャネル/マイクロホンの歪み(畳込み歪み)お
よび背景雑音(付加歪み)に対して同時に補正するため
のモデルを得る。HMMモデルに対する多くのパラメー
タがあるが、そのパラメータのうちの1つのサブセット
だけを変化させる。それは平均ベクトルmp,j,kであ
る。元のモデル空間の平均ベクトルmp,j,kが修正され
る、ここで、pは確率密度関数(PDF)のインデック
スであり、jは状態、kは混合成分のインデックスであ
る。
ースにおける平均メル・スケールでのケプストラム係数
(MFCC)ベクトルがどれであるかを計算するステッ
プである。すべてのデータを走査し、その平均値を計算
して を得る。
れているこの平均ベクトルのプールのそれぞれに平均値 を加算するステップである。これによって下式(1)が
得られる。
状態があり、1つの状態当たり2つのベクトルがある、
合計で600個のベクトルがあり得る。
発声に対して、背景雑音の推定値 が計算されるステップである。 であるとする。ここで、lは、その値がlog(対数)
スペクトルの領域において表されていることを意味す
る。
よび逆DFTの演算であり、 は雑音補正された平均ベクトルである。
は離散的フーリエ変換であり、IDFTは逆離散的フー
リエ変換である。 は2つのベクトルでの演算である。 がどのように定義されるかは、式2および3を見れば分
かる。式2は演算+が2つのベクトルuおよびvについ
て行われ、その結果がD次元のベクトル、すなわち、 であり、ここで、Tは転置である。2つのベクトルを取
り、別のベクトルを発生する。各要素を結果のベクトル
の中で規定する必要がある。式3は、そのベクトル の中のj番目の要素が、vのj番目の要素の指数関数に
uの要素の指数関数を加算し、そのvのj番目の要素の
指数関数にuの要素の指数関数を加算したものの組合わ
せのlogを取ったものによって定義されることを表し
ている。これで式4の定義が完了する。
らの)雑音の多い音声空間 において雑音の多いデータyの平均ベクトル を取り除く必要がある。十分に雑音の多いデータを補正
されたモデルから合成することができるが、これは大量
の計算を必要とする。本発明によると、そのベクトルは
雑音の多いモデルの統計情報を使用して計算される。認
識装置全体はCMN(ケプストラル平均正規化モデル)
によって動作するが、式4の中のモデルは平均正規化さ
れていない。発明者は付加的雑音を処理した。その処理
の第2の半分は式4において定義されているモデルのケ
プストラル平均を取り除くことである。これは式4の中
にモデルがあるので難しくない。ステップ6において、
式4によって発生されたすべてのサンプルを積分し、そ
の平均値を得る必要がある。平均値は である。式5がこの積分である。
び積分を行う必要がないことを示している。最終の結果
が式7であり、それはいくつかの和への積分である。確
率密度関数における和および状態における和および混合
成分における和である。次に、いくつかの量がある。 は、PDFインデックスを持つことの確率である。 が与えられた は、PDFpが与えられた場合のその状態にある確率で
ある。次はPDFインデックスが与えられた場合の混合
成分p,jの確率である。補正されたモードの平均ベク
トル。これを完成するために、その補正されたモデルか
らこの を取り除き、ターゲット・モデルを得る。これがステッ
プ7である。ターゲット・モデルは下式で表される。
の演算が各発声に対して行われる。
p)について2つの問題がある。 ・追加の記憶空間を必要とする。 ・認識のタスク、例えば、語彙、文法に依存する。 その確率を得ることは可能であるが、次の単純化された
ケースを考慮したい。 を計算するためのこの演算は3つの近似によって単純化
することができる。第1の近似は に対して等しい確率、すなわち、制約Cを使用する。 1. に対して等しい確率を使用する。
正された平均ベクトル を平均化するステップを構成している。式4および式1
を参照すると、平均化によって音声部分mp,j,kを、ち
ょうどCMNが行うように減らすことが期待できる。し
たがって、式7を下記のようにさらに単純化することが
できる。
都合の悪いことに、 は上記のすべてのケースにおいてチャネルおよび背景雑
音の両方の関数である。言い換えれば、雑音が存在して
いる状況で、CMNの場合のように、そのようなベクト
ルによってそのチャネルが取り除かれることの保証はな
い。
データベースのサブセットが使用された。それは3つの
録音セッション、すなわち、parked‐trn(車
が駐車していて、エンジンが停止している)、park
ed(車が駐車していて、エンジンが停止している)、
およびcity‐driving(車が停止および進行
のベースで運転されている)から構成されている。各セ
ッションにおいて、20人の話者(10人が男性)がそ
れぞれ40個の文章を読み、800の発声を与えてい
る。各文章は等しい確率での10、7または4個の数字
のシーケンスのいずれかである。そのデータベースが2
0msのMFCC解析のフレーム・レートで8kHzに
おいてサンプルされる。特徴ベクトルは10個の静的係
数と10個の動的係数とから構成されている。
は、TIDIGITSのクリーンな音声データにおいて
訓練されている。発声ベースのケプストラル平均正規化
が使用される。HMMは1957個の平均ベクトル、お
よび270個の対角分散を含む。TIGIDITのテス
ト・セットにおいて評価されて、この認識装置は0.3
6%のワード誤り率を与える。
めに、ガウスのPDFの分散をいくつかのやや雑音の多
いデータ、例えば、WAVES parked_eva
lのデータに対してMAP適応させることができる。そ
のような適応は、クリーンな音声の認識に影響しない
が、HMMの雑音の多い音声の間の分散のミスマッチを
減らす。その新しいアルゴリズムはJAC(付加的雑音
および畳込みの歪みの共同補正)と呼ばれる。
誤り率(WER)(%)
較して、補正のない場合(BASELENE)では、認
識の性能が大きく劣化する。 ・CMNは、駐車中のデータに対してWERを効果的に
減らすが、付加的雑音が支配的である運転中の状態に対
しては効果的ではない。 ・PMCは、運転中の状態に対してWERを大きく減ら
すが、マイクロホンのミスマッチが支配的である駐車中
のデータに対してはあまり良い結果を与えない。 ・JACのケースはすべて非JACの方法より低いWE
Rを与える。 ・式7から式9までを単純化し、次に式10を単純化す
ると、結果としてWERが段階的に増加する。ただし、
その劣化の程度は大きくない。特に、PDFの確率にお
ける情報は性能にとってはあまり重要ではない。 ・単純化されたJACはすべてのテストにおいて最も低
いWERを与える。このハンドフリー音声認識の場合、
その新しい方法はワード誤り率を駐車中の状態に対して
は61%、町中のドライビング状態に対しては94%だ
け減らす。
る。 (1)クリーンな音声について訓練されたHMMモデル
をケプストラル平均正規化によって修正し、チャネル/
マイクロホンの歪みおよび背景雑音(付加的歪み)に対
して同時に補正するモデルを提供する方法であって、各
音声の発声に対してクリーンなデータベース上で平均メ
ル・スケールでのケプストラム係数(MFCC)ベクト
ル を計算するステップと、pがPDFのインデックスであ
り、jが状態であり、kがmp,j,kにおける混合成分で
ある元のHMMモデルの平均ベクトルmp,j,kに前記平
均MFCCベクトル を加算するステップと、所与の音声発声に対して、背景
雑音ベクトル の推定値を計算するステップと、 を使用して雑音 に対して適応されるモデル平均ベクトルを計算して雑音
が補正された平均ベクトルを取得し、逆離散的フーリエ
変換が、評価された雑音 の離散的フーリエ変換に加算される平均MFCCベクト
ル によって修正された平均ベクトル の離散的フーリエ変換の和に対して取られるステップ
と、雑音の多いデータの平均ベクトル を雑音の多い音声空間において計算し、前記雑音の多い
データの前記平均ベクトル を雑音に対して適応される前記モデル平均ベクトルから
取り除き、ターゲット・モデルを得るステップとを含む
方法。
音の多い音声空間上で前記雑音の多いデータの前記平均
ベクトル を計算する前記ステップが、 を使用した雑音モデルの統計情報を使用して前記ベクト
ルを計算し、ここで はPDFを示す変数であり、インデックスJは、状態イ
ンデックスに対する変数であり、 は混合成分のインデックスに対する変数である方法。 (3)第2項記載の方法において、前記平均ベクトル を計算する前記ステップが に対して等しい確率を使用し、すなわち、
て補正された音声認識方法であって、ケプストラル平均
正規化によってクリーンな音声について訓練されたHM
Mモデルを提供するステップと、各発声に対して、前記
クリーンなデータベース上で平均メル・スケールでのケ
プストラム係数(MFCC)ベクトル を計算するステップと、前記平均MFCCベクトル を元のHMMモデルの平均ベクトルmp,j,kに加算し、
ここで、pはPDFのインデックスであり、jは状態で
あり、kはmp,j,kを得るための混合成分であるステッ
プと、所与の音声発声に対して前記背景雑音ベクトル の推定値を計算するステップと、 を使用して雑音 に対して適応されるモデル平均ベクトルを計算して雑音
が補正された平均ベクトルを取得し、逆離散的フーリエ
変換が、評価された雑音 の離散的フーリエ変換に加算される平均MFCCベクト
ル によって修正された平均ベクトル の離散的フーリエ変換の和に対して取られるステップ
と、雑音の多いデータの平均ベクトル を雑音の多い音声空間において計算し、前記雑音の多い
データの前記平均ベクトル を雑音に対して適応される前記モデル平均ベクトルから
取り除いてターゲット・モデルを得るステップと、音声
を認識するために、ターゲット・モデルを前記音声入力
発声に対して比較するステップとを含む方法。 (7)第6項記載の方法において、前記雑音の多い音声
空間上で前記雑音の多いデータの前記平均ベクトル を計算する前記ステップが、 を使用した雑音モデルの統計情報を使用して前記ベクト
ルを計算し、ここで はPDFを示す変数であり、インデックスJは、状態イ
ンデックスに対する変数であり、 は混合成分のインデックスに対する変数である方法。 (8)第7項記載の方法において、前記平均ベクトル を計算する前記ステップが に対して等しい確率を使用し、すなわち、
して補正された音声認識装置であって、ケプストラル平
均正規化によってクリーンな音声について訓練されたH
MMモデルを修正することによって発生される適応HM
Mモデルを含み、前記モデルは、各発声に対して、前記
クリーンなデータベース上で平均メル・スケールでのケ
プストラム係数(MFCC)ベクトル を計算するステップと、前記平均MFCCベクトル を元のHMMモデルの平均ベクトルmp,j,kに加算し、
ここで、pはPDFのインデックスであり、jは状態で
あり、kはmp,j,kを得るための混合成分であるステッ
プと、所与の音声発声に対して前記背景雑音ベクトル の推定値を計算するステップと、 を使用して雑音 に対して適応されるモデル平均ベクトルを計算して雑音
が補正された平均ベクトルを取得し、逆離散的フーリエ
変換が、評価された雑音 の離散的フーリエ変換に加算される平均MFCCベクト
ル によって修正された平均ベクトル の離散的フーリエ変換の和に対して取られるステップ
と、雑音の多いデータの平均ベクトル を雑音の多い音声空間において計算し、前記雑音の多い
データの前記平均ベクトル を雑音に対して適応される前記モデル平均ベクトルから
取り除き、ターゲット・モデルを得るステップとによっ
て適応されていて、さらに、音声を認識するために、適
応モデルを前記音声入力発声に対して比較する手段を組
み合わせて含む認識装置。 (12)第11項記載の認識装置において、前記雑音の
多い音声空間上で前記雑音の多いデータの前記平均ベク
トル を計算する前記ステップが、 を使用した雑音モデルの統計情報を使用して前記ベクト
ルを計算し、ここで はPDFを示す変数であり、インデックスJは、状態イ
ンデックスに対する変数であり、 は混合成分のインデックス6に対する変数である認識装
置。 (13)第12項記載の認識装置において、前記平均ベ
クトル を計算する前記ステップが に対して等しい確率を使用し、すなわち、
よび背景雑音の両方に対して同時に補正する音声認識方
法であって、クリーンな音声において訓練されたHMM
モデルをケプストラル平均正規化によって修正するステ
ップと、各音声発声に対して、クリーンなデータベース
に対するMFCCベクトルを計算するステップと、前記
平均MFCCベクトルを元のHMMモデルに加算するス
テップと、所与の音声発声に対して前記背景雑音を評価
するステップと、雑音に対して適応される前記モデル平
均ベクトルを決定するステップと、前記雑音の多い音声
空間上で前記雑音の多いデータの前記平均ベクトルを決
定するステップと、前記雑音に対して適応される前記モ
デル平均ベクトルから前記雑音の多い音声空間上で前記
雑音の多いデータの前記平均ベクトルを取り除き、ター
ゲット・モデルを得るステップとを含む方法。
音声において訓練されたHMMモデルをケプストラル平
均正規化によって提供するステップと、畳込み歪みおよ
び背景雑音に対して同時に補正するようにHMMモデル
を修正するステップとを含む方法。
ンな音声において訓練されたHMMモデルをケプストラ
ル平均正規化によって修正することによって提供され
る。各音声発声に対して、MFCCベクトルがクリーン
な音声データベースに対して計算される。この平均MF
CCが元のモデルに加算される。所与の音声発声に対し
て背景雑音の推定値が決定される。雑音に対して適用さ
れたモデル平均ベクトルが決定される。雑音の多い空間
における平均ベクトルが決定され、これが雑音に対して
適応されるモデル平均ベクトルから取り除かれてターゲ
ット・モデルが得られる。
示す。
Claims (2)
- 【請求項1】 クリーンな音声について訓練されたHM
Mモデルをケプストラル平均正規化によって修正し、チ
ャネル/マイクロホンの歪みおよび背景雑音(付加的歪
み)に対して同時に補正するモデルを提供する方法であ
って、 各音声の発声に対してクリーンなデータベース上で平均
メル・スケールでのケプストラム係数(MFCC)ベク
トル を計算するステップと、 pがPDFのインデックスであり、jが状態であり、k
がmp,j,kにおける混合成分である元のHMMモデルの
平均ベクトルmp,j,kに前記平均MFCCベクトル を加算するステップと、 所与の音声発声に対して背景雑音ベクトル の推定値を計算するステップと、 を使用して雑音 に対して適応されるモデル平均ベクトルを計算して雑音
が補正された平均ベクトルを取得し、逆離散的フーリエ
変換が、評価された雑音 の離散的フーリエ変換に加算される平均MFCCベクト
ル によって修正された平均ベクトル の離散的フーリエ変換の和に対して取られるステップ
と、 雑音の多いデータの平均ベクトル を雑音の多い音声空間において計算し、前記雑音の多い
データの前記平均ベクトル を雑音に対して適応される前記モデル平均ベクトルから
取り除き、ターゲット・モデルを得るステップとを含む
方法。 - 【請求項2】 チャネル歪みおよび背景雑音に対して補
正された音声認識装置であって、 ケプストラル平均正規化によってクリーンな音声につい
て訓練されたHMMモデルを修正することによって発生
される適応HMMモデルを含み、該モデルは、 各発声に対して、 前記クリーンなデータベース上で平均メル・スケールで
のケプストラム係数(MFCC)ベクトル を計算するステップと、 前記平均MFCCベクトル を元のHMMモデルの平均ベクトルmp,j,kに加算し、
ここで、pはPDFのインデックスであり、jは状態で
あり、kはmp,j,kを得るための混合成分であるステッ
プと、 所与の音声発声に対して前記背景雑音ベクトル の推定値を計算するステップと、 を使用して雑音 に対して適応されるモデル平均ベクトルを計算して雑音
が補正された平均ベクトルを取得し、逆離散的フーリエ
変換が、評価された雑音 の離散的フーリエ変換に加算される平均MFCCベクト
ル によって修正された平均ベクトル の離散的フーリエ変換の和に対して取られるステップ
と、 雑音の多いデータの平均ベクトル を雑音の多い音声空間において計算し、前記雑音の多い
データの前記平均ベクトル を雑音に対して適応される前記モデル平均ベクトルから
取り除き、適応モデルを得るステップとによって適応さ
れていて、さらに、 音声を認識するために、適応モデルを前記音声入力発声
に対して比較する手段を組み合わせて含む認識装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US275487 | 1981-06-19 | ||
US27548701P | 2001-03-14 | 2001-03-14 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002311989A true JP2002311989A (ja) | 2002-10-25 |
Family
ID=23052506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002067939A Pending JP2002311989A (ja) | 2001-03-14 | 2002-03-13 | チャネル歪みおよび背景雑音の両方に対して補正した音声認識方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7062433B2 (ja) |
EP (1) | EP1241662B1 (ja) |
JP (1) | JP2002311989A (ja) |
DE (1) | DE60212477T2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006030551A1 (ja) * | 2004-09-15 | 2006-03-23 | The University Of Tokyo | 多項式近似に基づく雑音下音声認識のためのモデル適応法 |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6985858B2 (en) * | 2001-03-20 | 2006-01-10 | Microsoft Corporation | Method and apparatus for removing noise from feature vectors |
US20040148160A1 (en) * | 2003-01-23 | 2004-07-29 | Tenkasi Ramabadran | Method and apparatus for noise suppression within a distributed speech recognition system |
JP4357867B2 (ja) * | 2003-04-25 | 2009-11-04 | パイオニア株式会社 | 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体 |
JP4682154B2 (ja) * | 2004-01-12 | 2011-05-11 | ヴォイス シグナル テクノロジーズ インコーポレーティッド | 自動音声認識チャンネルの正規化 |
US7236930B2 (en) * | 2004-04-12 | 2007-06-26 | Texas Instruments Incorporated | Method to extend operating range of joint additive and convolutive compensating algorithms |
US20070033027A1 (en) * | 2005-08-03 | 2007-02-08 | Texas Instruments, Incorporated | Systems and methods employing stochastic bias compensation and bayesian joint additive/convolutive compensation in automatic speech recognition |
US7877255B2 (en) * | 2006-03-31 | 2011-01-25 | Voice Signal Technologies, Inc. | Speech recognition using channel verification |
CN1897109B (zh) * | 2006-06-01 | 2010-05-12 | 电子科技大学 | 一种基于mfcc的单一音频信号识别方法 |
US7664643B2 (en) * | 2006-08-25 | 2010-02-16 | International Business Machines Corporation | System and method for speech separation and multi-talker speech recognition |
CN101030369B (zh) * | 2007-03-30 | 2011-06-29 | 清华大学 | 基于子词隐含马尔可夫模型的嵌入式语音识别方法 |
US8180637B2 (en) * | 2007-12-03 | 2012-05-15 | Microsoft Corporation | High performance HMM adaptation with joint compensation of additive and convolutive distortions |
WO2009078093A1 (ja) * | 2007-12-18 | 2009-06-25 | Fujitsu Limited | 非音声区間検出方法及び非音声区間検出装置 |
US8306817B2 (en) * | 2008-01-08 | 2012-11-06 | Microsoft Corporation | Speech recognition with non-linear noise reduction on Mel-frequency cepstra |
US8145488B2 (en) * | 2008-09-16 | 2012-03-27 | Microsoft Corporation | Parameter clustering and sharing for variable-parameter hidden markov models |
US8214215B2 (en) * | 2008-09-24 | 2012-07-03 | Microsoft Corporation | Phase sensitive model adaptation for noisy speech recognition |
EP2182512A1 (en) * | 2008-10-29 | 2010-05-05 | BRITISH TELECOMMUNICATIONS public limited company | Speaker verification |
US8639502B1 (en) | 2009-02-16 | 2014-01-28 | Arrowhead Center, Inc. | Speaker model-based speech enhancement system |
CN103811008A (zh) * | 2012-11-08 | 2014-05-21 | 中国移动通信集团上海有限公司 | 一种音频内容识别方法和装置 |
US9489965B2 (en) * | 2013-03-15 | 2016-11-08 | Sri International | Method and apparatus for acoustic signal characterization |
CN106057195A (zh) * | 2016-05-25 | 2016-10-26 | 东华大学 | 一种基于嵌入式音频识别的无人机探测系统 |
US10720165B2 (en) * | 2017-01-23 | 2020-07-21 | Qualcomm Incorporated | Keyword voice authentication |
US20210201928A1 (en) * | 2019-12-31 | 2021-07-01 | Knowles Electronics, Llc | Integrated speech enhancement for voice trigger application |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5450522A (en) * | 1991-08-19 | 1995-09-12 | U S West Advanced Technologies, Inc. | Auditory model for parametrization of speech |
US5924065A (en) * | 1997-06-16 | 1999-07-13 | Digital Equipment Corporation | Environmently compensated speech processing |
US6529872B1 (en) * | 2000-04-18 | 2003-03-04 | Matsushita Electric Industrial Co., Ltd. | Method for noise adaptation in automatic speech recognition using transformed matrices |
US6912497B2 (en) * | 2001-03-28 | 2005-06-28 | Texas Instruments Incorporated | Calibration of speech data acquisition path |
-
2002
- 2002-01-18 US US10/051,640 patent/US7062433B2/en active Active
- 2002-03-13 JP JP2002067939A patent/JP2002311989A/ja active Pending
- 2002-03-14 EP EP02100251A patent/EP1241662B1/en not_active Expired - Fee Related
- 2002-03-14 DE DE60212477T patent/DE60212477T2/de not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006030551A1 (ja) * | 2004-09-15 | 2006-03-23 | The University Of Tokyo | 多項式近似に基づく雑音下音声認識のためのモデル適応法 |
Also Published As
Publication number | Publication date |
---|---|
US7062433B2 (en) | 2006-06-13 |
DE60212477T2 (de) | 2007-07-05 |
EP1241662A2 (en) | 2002-09-18 |
US20020173959A1 (en) | 2002-11-21 |
DE60212477D1 (de) | 2006-08-03 |
EP1241662B1 (en) | 2006-06-21 |
EP1241662A3 (en) | 2004-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7165028B2 (en) | Method of speech recognition resistant to convolutive distortion and additive distortion | |
EP1241662B1 (en) | Speech recognition with compensation for both convolutive distortion and additive noise | |
US7269555B2 (en) | Unsupervised incremental adaptation using maximum likelihood spectral transformation | |
EP0831461B1 (en) | Scheme for model adaptation in pattern recognition based on taylor expansion | |
EP1262953B1 (en) | Speaker adaptation for speech recognition | |
JP4750271B2 (ja) | ノイズ補償されたスピーチ認識システムおよび方法 | |
Wang et al. | Speaker and noise factorization for robust speech recognition | |
Liao et al. | Joint uncertainty decoding for noise robust speech recognition. | |
US7571095B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
US20080208578A1 (en) | Robust Speaker-Dependent Speech Recognition System | |
US20020165712A1 (en) | Method and apparatus for feature domain joint channel and additive noise compensation | |
US20110015925A1 (en) | Speech recognition system and method | |
JP5242782B2 (ja) | 音声認識方法 | |
Buera et al. | Cepstral vector normalization based on stereo data for robust speech recognition | |
US20040064315A1 (en) | Acoustic confidence driven front-end preprocessing for speech recognition in adverse environments | |
US7120580B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
US7236930B2 (en) | Method to extend operating range of joint additive and convolutive compensating algorithms | |
US20020013697A1 (en) | Log-spectral compensation of gaussian mean vectors for noisy speech recognition | |
JPH10149191A (ja) | モデル適応方法、装置およびその記憶媒体 | |
Hansen et al. | Robust speech recognition in noise: an evaluation using the spine corpus | |
Nisa et al. | The speech signal enhancement approach with multiple sub-frames analysis for complex magnitude and phase spectrum recompense | |
JP4058521B2 (ja) | 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム | |
Kim et al. | Advanced parallel combined Gaussian mixture model based feature compensation integrated with iterative channel estimation | |
Torre et al. | On the comparison of front-ends for robust speech recognition in car environments | |
Chien et al. | Bayesian affine transformation of HMM parameters for instantaneous and supervised adaptation in telephone speech recognition. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050303 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070608 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070910 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070913 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20071009 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20071012 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20071108 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20071113 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080401 |