JP2002311989A - チャネル歪みおよび背景雑音の両方に対して補正した音声認識方法 - Google Patents

チャネル歪みおよび背景雑音の両方に対して補正した音声認識方法

Info

Publication number
JP2002311989A
JP2002311989A JP2002067939A JP2002067939A JP2002311989A JP 2002311989 A JP2002311989 A JP 2002311989A JP 2002067939 A JP2002067939 A JP 2002067939A JP 2002067939 A JP2002067939 A JP 2002067939A JP 2002311989 A JP2002311989 A JP 2002311989A
Authority
JP
Japan
Prior art keywords
vector
model
noise
speech
average
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002067939A
Other languages
English (en)
Inventor
Yifan Gong
ゴン イーファー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of JP2002311989A publication Critical patent/JP2002311989A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Complex Calculations (AREA)

Abstract

(57)【要約】 【課題】 チャネル/マイクロホンの歪みおよび背景雑
音に対して同時に補正するモデルを提供すること。 【解決手段】 補正付き音声認識方法が、クリーンな音
声において訓練されたHMMモデルをケプストラル平均
正規化によって修正することによって提供される。各音
声発声に対して、MFCCベクトルがクリーンな音声デ
ータベースに対して計算される。この平均MFCCが元
のモデルに加算される。所与の音声発声に対して背景雑
音の推定値が決定される。雑音に対して適用されたモデ
ル平均ベクトルが決定される。雑音の多い空間における
平均ベクトルが決定され、これが雑音に対して適応され
るモデル平均ベクトルから取り除かれてターゲット・モ
デルが得られる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識に関し、
特に背景雑音およびチャネル歪みの両方に対する補正に
関する。
【0002】
【従来の技術、及び、発明が解決しようとする課題】比
較的静かなオフィス環境の音声データによって訓練さ
れ、移動環境において動作する音声認識装置は少なくと
も2つの歪み源、すなわち、背景雑音およびマイクロホ
ンの変化によって誤りを生じる可能性がある。背景雑音
はコンピュータのファン、車のエンジン、および/また
は道路の雑音などからくる可能性がある。マイクロホン
の変化は、そのマイクロホンの品質、ハンドヘルドまた
はハンドフリーまたは口に対する位置に起因する可能性
がある。音声認識の移動用の応用においては、マイクロ
ホンの調整装置および背景雑音の両方が変化する可能性
がある。
【0003】ケプストラル平均正規化(CMN)は、発
声の平均値を取り除き、電話のチャネル歪みなどの畳込
み歪みを処理する簡単で効果的な方法である。1974
年、米国音響学学会ジャーナル、55巻、1304〜1
312ページ掲載の、B.エイタル(Atal)の、
“Effectiveness of LinearP
rediction Characteristics
of the Speech Wave for A
utomatic Speaker Identifi
cation and Verification”
「自動話者認識および検証のための音声波の線形予測特
性の有効性」を参照されたい。スペクトル減算(SS)
は、特徴空間における背景雑音を減らす。1979年4
月の音響学、音声および信号処理に関するIEEE議事
録、ASSP‐27(2):113〜129ページ掲載
の、S.F.ボール(Boll)の論文、“Suppr
ession of Acoustic Noise
in Speech Using Spectral
Subtraction”「スペクトル減算を使用した
音声における音響的雑音の抑圧」を参照されたい。並列
モデル組合せ(PMC)は、雑音のない音声モデルと雑
音の推定値とから雑音の多い状態における音声モデルの
近似を与える。米国、1992年4月の、音響学、音声
および信号処理に関するIEEE国際会議議事録、1
巻、233〜236ページ掲載の、M.J.F.グレー
ス(Glaes)およびS.ヤング(Young)の、
“An Improved Approach to
the Hidden Markov Model D
ecomposition of Speech an
dNoise”「音声および雑音の隠れマルコフ・モデ
ル分解に対する改善された方法」を参照されたい。その
技法は訓練用のデータを必要としない。
【0004】付加的雑音および畳込み雑音の共同補正
は、チャネル・モデルおよび雑音モデルを導入すること
によって実現することができる。付加的雑音に対するス
ペクトル的バイアスおよび畳込み雑音に対するケプスト
ラル・バイアスが、M.アフィフィ(Afify)、
Y.ゴング(Gong)、およびJ.P.ハトン(Ha
ton)による論文の中で導入されている。この論文
は、表題が、“A General Joint Ad
ditive and Convolutive Bi
as Compensation Approach
Applied toNoisy Lombard S
peech Recognition”「雑音の多いロ
ンバード音声認識に対して適用された一般的な共同の付
加的および畳込みバイアス補正」で、1998年11月
の、音響学、音声および信号処理に関するIEEE議事
録、6(6):524〜538ページに掲載されてい
る。スペクトル領域および畳込み領域の両方において期
待最大化(EM)を適用することによって5種類のバイ
アスを計算することができる。J.L.ガウベイン(G
auvain)他による1つの手順が畳込み成分を計算
するために示されており、それはトレーニング・データ
の再走査を必要とする。“Developments
in Continuous Speech Dict
ation using the ARPA NAB
News Task”「ARPA NABニュース・タ
スクを使用した連続音声ディクテーションにおける開
発」と題するJ.L.ガウベイン(Gauvain)、
L.ラメル(Lamel),M.アッダ‐デッカー(A
dda‐Decker)、およびD.マトロフ(Mat
rouf)の論文を参照されたい。1996年、デトロ
イト、音響学、音声および信号処理に関するIEEE国
際会議議事録、73〜76ページに掲載。再急峻降下
(steepest descent)法による畳込み
成分の解も報告されている。“A Maximum L
ikelihood Procedure fora
Universal Adaptation Meth
od Basedon HMM Compositio
n”「HMM構成に基づいた汎用付加法のための最尤手
順」と題する、Y.ミナミ(Minami)およびS.
フルイ(Furui)の論文を参照されたい。1995
年、デトロイト、音響学、音声および信号処理に関する
IEEE国際会議議事録、129〜132ページに掲
載。Y.ミナミおよびフルイによる1つの方法は、追加
の汎用の音声モデル、およびチャネルが変化する時に汎
用モデルでのチャネル歪みの再宛先を必要とする。19
96年、アトランタ、音響学、音声および信号処理に関
するIEEE国際会議議事録、327〜330ページ掲
載の、“Adaptation MethodBase
d on HMM Composition and
EM Algorithm”「HMM構成およびEMア
ルゴリズムに基づいた適応方法」と題するY.ミナミお
よびS.フルイの論文を参照されたい。
【0005】“PMC for Speech Rec
ognition in Additive and
Convolutional Noise”「付加的お
よび畳込みの雑音における音声認識のためのPMC」、
1993年12月、Technical Report
TR‐154,CUED/F‐INFENGの中で、
M.F.J.ゲールズ(Gales)によって提示され
ている技法は、2パスの試験発声、例えば、パラメータ
推定と、それに続く認識、ケプストラルおよびスペクト
ルの領域の間のいくつかの変換、およびクリーンな音声
に対するガウスの混合モデルを必要とする。
【0006】代わりに、両方のタイプの歪みの非線形性
の変化は、その変化が小さいと仮定して線形の式によっ
て近似することができる。ヤコビアン行列と雑音の多い
状態における差との積として、および統計的線形近似と
して音声モデルのパラメータの変化をモデル化するヤコ
ビアンの方法は、この方向に沿っている。1997年1
2月、米国カリフォルニア州サンタバーバラ、IEEE
自動音声認識ワークショップ議事録、396〜403ペ
ージ掲載の、“Jacobian Adaptatio
n of Noisy Speech Models”
「雑音の多い音声モデルのヤコビアン適応」と題する
S.サガヤマ(Sagayama)、Y.ヤマグチ(Y
amaguchi)、およびS.タカハシ(Takah
ashi)の論文を参照されたい。IEEE信号処理学
会。また、1998年1月、IEEE信号処理レター、
5(1):8〜10ページ掲載の、N.S.キム(Ki
m)の“Statistical Linear Ap
proximation for Environme
nt Compensation”「環境補正のための
統計的線形近似」も参照されたい。
【0007】最尤線形回帰(MLLR)は、歪みファク
タを一致させるためにHMMパラメータを変換する。1
995年、Computer,Speech and
Language、9(2):171〜185ページ掲
載の、C.J.レゲッタ(Leggetter)および
P.C.ウッドランド(Woodland)の、“Ma
ximum Likelihood Linear R
egressionfor Speaker Adap
tation of ContinuousDensi
ty HMMs”「連続密度HMMの話者適応のための
最尤線形回帰」を参照されたい。この方法は両方の雑音
源に対して有効であるが、トレーニング・データを必要
とし、話者に対する依存性を導入する。
【0008】
【課題を解決するための手段】本発明の1つの実施形態
によると、広範囲の雑音およびチャネル歪みの種類に対
して丈夫である話者独立のシステムを作るために雑音お
よびチャネル歪みを同時に扱う新しい方法が示される。
【0009】
【発明の実施の形態】図1を参照すると、本発明による
音声認識装置が示されている。音声が認識装置11に加
えられる。その音声が隠れマルコフ・モデル(HMM)
13に比較されてテキストを認識する。そのモデルは静
かな環境および良好な品質のマイクロホンにおいて記録
された音声によるテキストにおいて最初に提供される。
チャネル/マイクロホンの歪みおよび背景雑音が同時に
存在している状況で動作するのに適している音声モデル
・セットを開発したい。本発明によると、音声モデル・
セットは、雑音および音声に関する統計情報を使用して
提供される。計算コストの小さい方法がPMCおよびC
MNの両方を統合化する。
【0010】図2を参照すると、第1のステップはケプ
ストラル平均正規化付きのクリーンな音声において訓練
されたHMMモデルから開始する。これらのモデルを修
正し、チャネル/マイクロホンの歪み(畳込み歪み)お
よび背景雑音(付加歪み)に対して同時に補正するため
のモデルを得る。HMMモデルに対する多くのパラメー
タがあるが、そのパラメータのうちの1つのサブセット
だけを変化させる。それは平均ベクトルmp,j,kであ
る。元のモデル空間の平均ベクトルmp,j,kが修正され
る、ここで、pは確率密度関数(PDF)のインデック
スであり、jは状態、kは混合成分のインデックスであ
る。
【0011】第2のステップ2は、訓練されたデータベ
ースにおける平均メル・スケールでのケプストラム係数
(MFCC)ベクトルがどれであるかを計算するステッ
プである。すべてのデータを走査し、その平均値を計算
して を得る。
【0012】第3のステップ3はmp,j,kによって表さ
れているこの平均ベクトルのプールのそれぞれに平均値 を加算するステップである。これによって下式(1)が
得られる。
【数1】 例えば、100個のPDFがあり、PDF当たり3個の
状態があり、1つの状態当たり2つのベクトルがある、
合計で600個のベクトルがあり得る。
【0013】第4のステップ4は、所与の入力のテスト
発声に対して、背景雑音の推定値 が計算されるステップである。 であるとする。ここで、lは、その値がlog(対数)
スペクトルの領域において表されていることを意味す
る。
【0014】下記のように組合せ演算子 を導入する。
【数2】
【数3】
【0015】ステップ5において、式4を使用して雑音 に対して適応された平均ベクトルを計算する。
【数4】 ここで、DFTおよびIDFTは、それぞれ、DFTお
よび逆DFTの演算であり、 は雑音補正された平均ベクトルである。
【0016】式4は、いくつかの演算子を含む。DFT
は離散的フーリエ変換であり、IDFTは逆離散的フー
リエ変換である。 は2つのベクトルでの演算である。 がどのように定義されるかは、式2および3を見れば分
かる。式2は演算+が2つのベクトルuおよびvについ
て行われ、その結果がD次元のベクトル、すなわち、 であり、ここで、Tは転置である。2つのベクトルを取
り、別のベクトルを発生する。各要素を結果のベクトル
の中で規定する必要がある。式3は、そのベクトル の中のj番目の要素が、vのj番目の要素の指数関数に
uの要素の指数関数を加算し、そのvのj番目の要素の
指数関数にuの要素の指数関数を加算したものの組合わ
せのlogを取ったものによって定義されることを表し
ている。これで式4の定義が完了する。
【0017】次のステップにおいて、(結果のモデルか
らの)雑音の多い音声空間 において雑音の多いデータyの平均ベクトル を取り除く必要がある。十分に雑音の多いデータを補正
されたモデルから合成することができるが、これは大量
の計算を必要とする。本発明によると、そのベクトルは
雑音の多いモデルの統計情報を使用して計算される。認
識装置全体はCMN(ケプストラル平均正規化モデル)
によって動作するが、式4の中のモデルは平均正規化さ
れていない。発明者は付加的雑音を処理した。その処理
の第2の半分は式4において定義されているモデルのケ
プストラル平均を取り除くことである。これは式4の中
にモデルがあるので難しくない。ステップ6において、
式4によって発生されたすべてのサンプルを積分し、そ
の平均値を得る必要がある。平均値は である。式5がこの積分である。
【0018】ここで、 がPDFのインデックスを示す変数であるとし、 が状態インデックスに対する変数であり、 が混合成分のインデックスに対する変数であるとする。
【数5】 何故なら、下記の関係があるからである。
【数6】 下式が成立する。
【数7】 式7は、 を解析的に計算することができ、その物理的な発生およ
び積分を行う必要がないことを示している。最終の結果
が式7であり、それはいくつかの和への積分である。確
率密度関数における和および状態における和および混合
成分における和である。次に、いくつかの量がある。 は、PDFインデックスを持つことの確率である。 が与えられた は、PDFpが与えられた場合のその状態にある確率で
ある。次はPDFインデックスが与えられた場合の混合
成分p,jの確率である。補正されたモードの平均ベク
トル。これを完成するために、その補正されたモデルか
らこの を取り除き、ターゲット・モデルを得る。これがステッ
プ7である。ターゲット・モデルは下式で表される。
【数8】 これが本発明の認識装置にロードしたいものである。こ
の演算が各発声に対して行われる。
【0019】したがって、 の計算は各PDFの確率の知識を必要とする。P(,=
p)について2つの問題がある。 ・追加の記憶空間を必要とする。 ・認識のタスク、例えば、語彙、文法に依存する。 その確率を得ることは可能であるが、次の単純化された
ケースを考慮したい。 を計算するためのこの演算は3つの近似によって単純化
することができる。第1の近似は に対して等しい確率、すなわち、制約Cを使用する。 1. に対して等しい確率を使用する。
【数9】 2. に対して等しい確率を使用する。
【数10】 3. 実際には、式10に記述されているケースは、補
正された平均ベクトル を平均化するステップを構成している。式4および式1
を参照すると、平均化によって音声部分mp,j,kを、ち
ょうどCMNが行うように減らすことが期待できる。し
たがって、式7を下記のようにさらに単純化することが
できる。
【数11】 次に、モデル がCMNと一緒に雑音の多い音声について使用される。
都合の悪いことに、 は上記のすべてのケースにおいてチャネルおよび背景雑
音の両方の関数である。言い換えれば、雑音が存在して
いる状況で、CMNの場合のように、そのようなベクト
ルによってそのチャネルが取り除かれることの保証はな
い。
【0020】ハンドフリー録音を含んでいるWAVES
データベースのサブセットが使用された。それは3つの
録音セッション、すなわち、parked‐trn(車
が駐車していて、エンジンが停止している)、park
ed(車が駐車していて、エンジンが停止している)、
およびcity‐driving(車が停止および進行
のベースで運転されている)から構成されている。各セ
ッションにおいて、20人の話者(10人が男性)がそ
れぞれ40個の文章を読み、800の発声を与えてい
る。各文章は等しい確率での10、7または4個の数字
のシーケンスのいずれかである。そのデータベースが2
0msのMFCC解析のフレーム・レートで8kHzに
おいてサンプルされる。特徴ベクトルは10個の静的係
数と10個の動的係数とから構成されている。
【0021】すべての実験において使用されるHMM
は、TIDIGITSのクリーンな音声データにおいて
訓練されている。発声ベースのケプストラル平均正規化
が使用される。HMMは1957個の平均ベクトル、お
よび270個の対角分散を含む。TIGIDITのテス
ト・セットにおいて評価されて、この認識装置は0.3
6%のワード誤り率を与える。
【0022】雑音の多い環境における性能を改善するた
めに、ガウスのPDFの分散をいくつかのやや雑音の多
いデータ、例えば、WAVES parked_eva
lのデータに対してMAP適応させることができる。そ
のような適応は、クリーンな音声の認識に影響しない
が、HMMの雑音の多い音声の間の分散のミスマッチを
減らす。その新しいアルゴリズムはJAC(付加的雑音
および畳込みの歪みの共同補正)と呼ばれる。
【表1】 表1:運転の状態および補正方法の関数としてのワード
誤り率(WER)(%)
【0023】表1は、以下のことを示している。 ・雑音のない場合の認識(WER)(0.36%)と比
較して、補正のない場合(BASELENE)では、認
識の性能が大きく劣化する。 ・CMNは、駐車中のデータに対してWERを効果的に
減らすが、付加的雑音が支配的である運転中の状態に対
しては効果的ではない。 ・PMCは、運転中の状態に対してWERを大きく減ら
すが、マイクロホンのミスマッチが支配的である駐車中
のデータに対してはあまり良い結果を与えない。 ・JACのケースはすべて非JACの方法より低いWE
Rを与える。 ・式7から式9までを単純化し、次に式10を単純化す
ると、結果としてWERが段階的に増加する。ただし、
その劣化の程度は大きくない。特に、PDFの確率にお
ける情報は性能にとってはあまり重要ではない。 ・単純化されたJACはすべてのテストにおいて最も低
いWERを与える。このハンドフリー音声認識の場合、
その新しい方法はワード誤り率を駐車中の状態に対して
は61%、町中のドライビング状態に対しては94%だ
け減らす。
【0024】以上の説明に関して更に以下の項を開示す
る。 (1)クリーンな音声について訓練されたHMMモデル
をケプストラル平均正規化によって修正し、チャネル/
マイクロホンの歪みおよび背景雑音(付加的歪み)に対
して同時に補正するモデルを提供する方法であって、各
音声の発声に対してクリーンなデータベース上で平均メ
ル・スケールでのケプストラム係数(MFCC)ベクト
を計算するステップと、pがPDFのインデックスであ
り、jが状態であり、kがmp,j,kにおける混合成分で
ある元のHMMモデルの平均ベクトルmp,j,kに前記平
均MFCCベクトル を加算するステップと、所与の音声発声に対して、背景
雑音ベクトル の推定値を計算するステップと、 を使用して雑音 に対して適応されるモデル平均ベクトルを計算して雑音
が補正された平均ベクトルを取得し、逆離散的フーリエ
変換が、評価された雑音 の離散的フーリエ変換に加算される平均MFCCベクト
によって修正された平均ベクトル の離散的フーリエ変換の和に対して取られるステップ
と、雑音の多いデータの平均ベクトル を雑音の多い音声空間において計算し、前記雑音の多い
データの前記平均ベクトル を雑音に対して適応される前記モデル平均ベクトルから
取り除き、ターゲット・モデルを得るステップとを含む
方法。
【0025】(2)第1項記載の方法において、前記雑
音の多い音声空間上で前記雑音の多いデータの前記平均
ベクトル を計算する前記ステップが、 を使用した雑音モデルの統計情報を使用して前記ベクト
ルを計算し、ここで はPDFを示す変数であり、インデックスJは、状態イ
ンデックスに対する変数であり、 は混合成分のインデックスに対する変数である方法。 (3)第2項記載の方法において、前記平均ベクトル を計算する前記ステップが に対して等しい確率を使用し、すなわち、
【数12】 となっている方法。 (4)第2項記載の方法において、 に対して等しい確率が使用され、すなわち、
【数13】 となっている方法。 (5)第3項記載の方法において、平均ベクトル
【数14】 に等しくなる方法。
【0026】(6)チャネル歪みおよび背景雑音に対し
て補正された音声認識方法であって、ケプストラル平均
正規化によってクリーンな音声について訓練されたHM
Mモデルを提供するステップと、各発声に対して、前記
クリーンなデータベース上で平均メル・スケールでのケ
プストラム係数(MFCC)ベクトル を計算するステップと、前記平均MFCCベクトル を元のHMMモデルの平均ベクトルmp,j,kに加算し、
ここで、pはPDFのインデックスであり、jは状態で
あり、kはmp,j,kを得るための混合成分であるステッ
プと、所与の音声発声に対して前記背景雑音ベクトル の推定値を計算するステップと、 を使用して雑音 に対して適応されるモデル平均ベクトルを計算して雑音
が補正された平均ベクトルを取得し、逆離散的フーリエ
変換が、評価された雑音 の離散的フーリエ変換に加算される平均MFCCベクト
によって修正された平均ベクトル の離散的フーリエ変換の和に対して取られるステップ
と、雑音の多いデータの平均ベクトル を雑音の多い音声空間において計算し、前記雑音の多い
データの前記平均ベクトル を雑音に対して適応される前記モデル平均ベクトルから
取り除いてターゲット・モデルを得るステップと、音声
を認識するために、ターゲット・モデルを前記音声入力
発声に対して比較するステップとを含む方法。 (7)第6項記載の方法において、前記雑音の多い音声
空間上で前記雑音の多いデータの前記平均ベクトル を計算する前記ステップが、 を使用した雑音モデルの統計情報を使用して前記ベクト
ルを計算し、ここで はPDFを示す変数であり、インデックスJは、状態イ
ンデックスに対する変数であり、 は混合成分のインデックスに対する変数である方法。 (8)第7項記載の方法において、前記平均ベクトル を計算する前記ステップが に対して等しい確率を使用し、すなわち、
【数15】 となっている方法。 (9)第7項記載の方法において、 に対して等しい確率が使用され、すなわち、
【数16】 となっている方法。 (10)第9項記載の方法において、平均ベクトル
【数17】 に等しくなる方法。
【0027】(11)チャネル歪みおよび背景雑音に対
して補正された音声認識装置であって、ケプストラル平
均正規化によってクリーンな音声について訓練されたH
MMモデルを修正することによって発生される適応HM
Mモデルを含み、前記モデルは、各発声に対して、前記
クリーンなデータベース上で平均メル・スケールでのケ
プストラム係数(MFCC)ベクトル を計算するステップと、前記平均MFCCベクトル を元のHMMモデルの平均ベクトルmp,j,kに加算し、
ここで、pはPDFのインデックスであり、jは状態で
あり、kはmp,j,kを得るための混合成分であるステッ
プと、所与の音声発声に対して前記背景雑音ベクトル の推定値を計算するステップと、 を使用して雑音 に対して適応されるモデル平均ベクトルを計算して雑音
が補正された平均ベクトルを取得し、逆離散的フーリエ
変換が、評価された雑音 の離散的フーリエ変換に加算される平均MFCCベクト
によって修正された平均ベクトル の離散的フーリエ変換の和に対して取られるステップ
と、雑音の多いデータの平均ベクトル を雑音の多い音声空間において計算し、前記雑音の多い
データの前記平均ベクトル を雑音に対して適応される前記モデル平均ベクトルから
取り除き、ターゲット・モデルを得るステップとによっ
て適応されていて、さらに、音声を認識するために、適
応モデルを前記音声入力発声に対して比較する手段を組
み合わせて含む認識装置。 (12)第11項記載の認識装置において、前記雑音の
多い音声空間上で前記雑音の多いデータの前記平均ベク
トル を計算する前記ステップが、 を使用した雑音モデルの統計情報を使用して前記ベクト
ルを計算し、ここで はPDFを示す変数であり、インデックスJは、状態イ
ンデックスに対する変数であり、 は混合成分のインデックス6に対する変数である認識装
置。 (13)第12項記載の認識装置において、前記平均ベ
クトル を計算する前記ステップが に対して等しい確率を使用し、すなわち、
【数18】 となっている認識装置。 (14)第12項記載の認識装置において、 に対して等しい確率が使用され、すなわち、
【数19】 となっている認識装置。 (15)第12項記載の方法において、平均ベクトル
【数20】 に等しくなる方法。
【0028】(16)チャネル/マイクロホンの歪みお
よび背景雑音の両方に対して同時に補正する音声認識方
法であって、クリーンな音声において訓練されたHMM
モデルをケプストラル平均正規化によって修正するステ
ップと、各音声発声に対して、クリーンなデータベース
に対するMFCCベクトルを計算するステップと、前記
平均MFCCベクトルを元のHMMモデルに加算するス
テップと、所与の音声発声に対して前記背景雑音を評価
するステップと、雑音に対して適応される前記モデル平
均ベクトルを決定するステップと、前記雑音の多い音声
空間上で前記雑音の多いデータの前記平均ベクトルを決
定するステップと、前記雑音に対して適応される前記モ
デル平均ベクトルから前記雑音の多い音声空間上で前記
雑音の多いデータの前記平均ベクトルを取り除き、ター
ゲット・モデルを得るステップとを含む方法。
【0029】(17)音声の方法であって、クリーンな
音声において訓練されたHMMモデルをケプストラル平
均正規化によって提供するステップと、畳込み歪みおよ
び背景雑音に対して同時に補正するようにHMMモデル
を修正するステップとを含む方法。
【0030】(18)補正付き音声認識方法が、クリー
ンな音声において訓練されたHMMモデルをケプストラ
ル平均正規化によって修正することによって提供され
る。各音声発声に対して、MFCCベクトルがクリーン
な音声データベースに対して計算される。この平均MF
CCが元のモデルに加算される。所与の音声発声に対し
て背景雑音の推定値が決定される。雑音に対して適用さ
れたモデル平均ベクトルが決定される。雑音の多い空間
における平均ベクトルが決定され、これが雑音に対して
適応されるモデル平均ベクトルから取り除かれてターゲ
ット・モデルが得られる。
【図面の簡単な説明】
【図1】本発明の1つの実施形態による音声認識装置を
示す。
【図2】本発明の方法を示す。
【符号の説明】
11 認識装置 13c 適応されたHMM 13b 適応化 13a HMM(隠れマルコフモデル)
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 521T

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 クリーンな音声について訓練されたHM
    Mモデルをケプストラル平均正規化によって修正し、チ
    ャネル/マイクロホンの歪みおよび背景雑音(付加的歪
    み)に対して同時に補正するモデルを提供する方法であ
    って、 各音声の発声に対してクリーンなデータベース上で平均
    メル・スケールでのケプストラム係数(MFCC)ベク
    トル を計算するステップと、 pがPDFのインデックスであり、jが状態であり、k
    がmp,j,kにおける混合成分である元のHMMモデルの
    平均ベクトルmp,j,kに前記平均MFCCベクトル を加算するステップと、 所与の音声発声に対して背景雑音ベクトル の推定値を計算するステップと、 を使用して雑音 に対して適応されるモデル平均ベクトルを計算して雑音
    が補正された平均ベクトルを取得し、逆離散的フーリエ
    変換が、評価された雑音 の離散的フーリエ変換に加算される平均MFCCベクト
    によって修正された平均ベクトル の離散的フーリエ変換の和に対して取られるステップ
    と、 雑音の多いデータの平均ベクトル を雑音の多い音声空間において計算し、前記雑音の多い
    データの前記平均ベクトル を雑音に対して適応される前記モデル平均ベクトルから
    取り除き、ターゲット・モデルを得るステップとを含む
    方法。
  2. 【請求項2】 チャネル歪みおよび背景雑音に対して補
    正された音声認識装置であって、 ケプストラル平均正規化によってクリーンな音声につい
    て訓練されたHMMモデルを修正することによって発生
    される適応HMMモデルを含み、該モデルは、 各発声に対して、 前記クリーンなデータベース上で平均メル・スケールで
    のケプストラム係数(MFCC)ベクトル を計算するステップと、 前記平均MFCCベクトル を元のHMMモデルの平均ベクトルmp,j,kに加算し、
    ここで、pはPDFのインデックスであり、jは状態で
    あり、kはmp,j,kを得るための混合成分であるステッ
    プと、 所与の音声発声に対して前記背景雑音ベクトル の推定値を計算するステップと、 を使用して雑音 に対して適応されるモデル平均ベクトルを計算して雑音
    が補正された平均ベクトルを取得し、逆離散的フーリエ
    変換が、評価された雑音 の離散的フーリエ変換に加算される平均MFCCベクト
    によって修正された平均ベクトル の離散的フーリエ変換の和に対して取られるステップ
    と、 雑音の多いデータの平均ベクトル を雑音の多い音声空間において計算し、前記雑音の多い
    データの前記平均ベクトル を雑音に対して適応される前記モデル平均ベクトルから
    取り除き、適応モデルを得るステップとによって適応さ
    れていて、さらに、 音声を認識するために、適応モデルを前記音声入力発声
    に対して比較する手段を組み合わせて含む認識装置。
JP2002067939A 2001-03-14 2002-03-13 チャネル歪みおよび背景雑音の両方に対して補正した音声認識方法 Pending JP2002311989A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US275487 1994-07-15
US27548701P 2001-03-14 2001-03-14

Publications (1)

Publication Number Publication Date
JP2002311989A true JP2002311989A (ja) 2002-10-25

Family

ID=23052506

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002067939A Pending JP2002311989A (ja) 2001-03-14 2002-03-13 チャネル歪みおよび背景雑音の両方に対して補正した音声認識方法

Country Status (4)

Country Link
US (1) US7062433B2 (ja)
EP (1) EP1241662B1 (ja)
JP (1) JP2002311989A (ja)
DE (1) DE60212477T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006030551A1 (ja) * 2004-09-15 2006-03-23 The University Of Tokyo 多項式近似に基づく雑音下音声認識のためのモデル適応法

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6985858B2 (en) * 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
US20040148160A1 (en) * 2003-01-23 2004-07-29 Tenkasi Ramabadran Method and apparatus for noise suppression within a distributed speech recognition system
JP4357867B2 (ja) * 2003-04-25 2009-11-04 パイオニア株式会社 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体
US7797157B2 (en) * 2004-01-12 2010-09-14 Voice Signal Technologies, Inc. Automatic speech recognition channel normalization based on measured statistics from initial portions of speech utterances
US7236930B2 (en) * 2004-04-12 2007-06-26 Texas Instruments Incorporated Method to extend operating range of joint additive and convolutive compensating algorithms
US20070033027A1 (en) * 2005-08-03 2007-02-08 Texas Instruments, Incorporated Systems and methods employing stochastic bias compensation and bayesian joint additive/convolutive compensation in automatic speech recognition
US7877255B2 (en) * 2006-03-31 2011-01-25 Voice Signal Technologies, Inc. Speech recognition using channel verification
CN1897109B (zh) * 2006-06-01 2010-05-12 电子科技大学 一种基于mfcc的单一音频信号识别方法
US7664643B2 (en) * 2006-08-25 2010-02-16 International Business Machines Corporation System and method for speech separation and multi-talker speech recognition
CN101030369B (zh) * 2007-03-30 2011-06-29 清华大学 基于子词隐含马尔可夫模型的嵌入式语音识别方法
US8180637B2 (en) * 2007-12-03 2012-05-15 Microsoft Corporation High performance HMM adaptation with joint compensation of additive and convolutive distortions
JP5229234B2 (ja) * 2007-12-18 2013-07-03 富士通株式会社 非音声区間検出方法及び非音声区間検出装置
US8306817B2 (en) * 2008-01-08 2012-11-06 Microsoft Corporation Speech recognition with non-linear noise reduction on Mel-frequency cepstra
US8145488B2 (en) * 2008-09-16 2012-03-27 Microsoft Corporation Parameter clustering and sharing for variable-parameter hidden markov models
US8214215B2 (en) * 2008-09-24 2012-07-03 Microsoft Corporation Phase sensitive model adaptation for noisy speech recognition
EP2182512A1 (en) * 2008-10-29 2010-05-05 BRITISH TELECOMMUNICATIONS public limited company Speaker verification
US8639502B1 (en) 2009-02-16 2014-01-28 Arrowhead Center, Inc. Speaker model-based speech enhancement system
CN103811008A (zh) * 2012-11-08 2014-05-21 中国移动通信集团上海有限公司 一种音频内容识别方法和装置
US9489965B2 (en) * 2013-03-15 2016-11-08 Sri International Method and apparatus for acoustic signal characterization
CN106057195A (zh) * 2016-05-25 2016-10-26 东华大学 一种基于嵌入式音频识别的无人机探测系统
US10720165B2 (en) * 2017-01-23 2020-07-21 Qualcomm Incorporated Keyword voice authentication
US20210201928A1 (en) * 2019-12-31 2021-07-01 Knowles Electronics, Llc Integrated speech enhancement for voice trigger application

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5450522A (en) * 1991-08-19 1995-09-12 U S West Advanced Technologies, Inc. Auditory model for parametrization of speech
US5924065A (en) * 1997-06-16 1999-07-13 Digital Equipment Corporation Environmently compensated speech processing
US6529872B1 (en) * 2000-04-18 2003-03-04 Matsushita Electric Industrial Co., Ltd. Method for noise adaptation in automatic speech recognition using transformed matrices
US6912497B2 (en) * 2001-03-28 2005-06-28 Texas Instruments Incorporated Calibration of speech data acquisition path

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006030551A1 (ja) * 2004-09-15 2006-03-23 The University Of Tokyo 多項式近似に基づく雑音下音声認識のためのモデル適応法

Also Published As

Publication number Publication date
US7062433B2 (en) 2006-06-13
EP1241662A3 (en) 2004-02-18
DE60212477D1 (de) 2006-08-03
EP1241662B1 (en) 2006-06-21
DE60212477T2 (de) 2007-07-05
EP1241662A2 (en) 2002-09-18
US20020173959A1 (en) 2002-11-21

Similar Documents

Publication Publication Date Title
US7165028B2 (en) Method of speech recognition resistant to convolutive distortion and additive distortion
EP1241662B1 (en) Speech recognition with compensation for both convolutive distortion and additive noise
US7269555B2 (en) Unsupervised incremental adaptation using maximum likelihood spectral transformation
EP0831461B1 (en) Scheme for model adaptation in pattern recognition based on taylor expansion
EP1262953B1 (en) Speaker adaptation for speech recognition
JP4750271B2 (ja) ノイズ補償されたスピーチ認識システムおよび方法
Wang et al. Speaker and noise factorization for robust speech recognition
Liao et al. Joint uncertainty decoding for noise robust speech recognition.
US7571095B2 (en) Method and apparatus for recognizing speech in a noisy environment
US20080208578A1 (en) Robust Speaker-Dependent Speech Recognition System
US20020165712A1 (en) Method and apparatus for feature domain joint channel and additive noise compensation
US20110015925A1 (en) Speech recognition system and method
JP5242782B2 (ja) 音声認識方法
Buera et al. Cepstral vector normalization based on stereo data for robust speech recognition
US20040064315A1 (en) Acoustic confidence driven front-end preprocessing for speech recognition in adverse environments
US7120580B2 (en) Method and apparatus for recognizing speech in a noisy environment
US7236930B2 (en) Method to extend operating range of joint additive and convolutive compensating algorithms
US20020013697A1 (en) Log-spectral compensation of gaussian mean vectors for noisy speech recognition
JPH10149191A (ja) モデル適応方法、装置およびその記憶媒体
Hansen et al. Robust speech recognition in noise: an evaluation using the spine corpus
Nisa et al. The speech signal enhancement approach with multiple sub-frames analysis for complex magnitude and phase spectrum recompense
JP4058521B2 (ja) 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム
Kim et al. Advanced parallel combined Gaussian mixture model based feature compensation integrated with iterative channel estimation
Torre et al. On the comparison of front-ends for robust speech recognition in car environments
Chien et al. Bayesian affine transformation of HMM parameters for instantaneous and supervised adaptation in telephone speech recognition.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070608

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070910

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070913

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20071009

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20071012

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20071108

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20071113

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080401