JP2002091478A - 音声認識システム - Google Patents

音声認識システム

Info

Publication number
JP2002091478A
JP2002091478A JP2000282348A JP2000282348A JP2002091478A JP 2002091478 A JP2002091478 A JP 2002091478A JP 2000282348 A JP2000282348 A JP 2000282348A JP 2000282348 A JP2000282348 A JP 2000282348A JP 2002091478 A JP2002091478 A JP 2002091478A
Authority
JP
Japan
Prior art keywords
cep
speech
noise
multiplicative distortion
lin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000282348A
Other languages
English (en)
Inventor
Hiroshi Seo
尋 瀬尾
Teruya Komamura
光弥 駒村
Soichi Toyama
聡一 外山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Electronic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Electronic Corp filed Critical Pioneer Electronic Corp
Priority to JP2000282348A priority Critical patent/JP2002091478A/ja
Priority to EP01307875A priority patent/EP1189204B1/en
Priority to DE60124192T priority patent/DE60124192T2/de
Priority to US09/954,151 priority patent/US6937981B2/en
Priority to CN01135734.7A priority patent/CN1249666C/zh
Publication of JP2002091478A publication Critical patent/JP2002091478A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Abstract

(57)【要約】 【課題】 乗法性歪と加法性雑音に対してロバストな音
声認識システムを提供する。 【解決手段】 HMM法で作成した音声HMM5から乗
法性歪Hm(cep)を減算(合成)し、HMM法で作成した
雑音HMM6から発話音声の乗法性歪Ha(cep)を減算
(合成)し、それぞれの減算結果Sm(cep)と{Nm(cep)
−Ha(cep)}を合成することによってケプストラム領域
での合成HMM18を作成する。発話音声のケプストラ
ムRa(cep)から乗法性歪Ha(cep)を減算(合成)するこ
とで得られるケプストラムR^a(cep)と合成HMM18
のケプストラム領域での分布R^m(cep)とを照合し、最
大尤度を与える合成HMMを音声認識結果とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、雑音や、伝送系等
の歪みに対してロバスト(頑健)な音声認識システムに
関する。
【0002】
【従来の技術】従来、例えば車載用ナビゲーション装置
等の電子機器では、マンマシンコニュニケーション等を
可能にする音声認識システムが注目され、図4に示すよ
うな情報処理アルゴリズムに基づいて構成された音声認
識システムが知られている。
【0003】この音声認識システムは、隠れマルコフモ
デル(Hidden Markov Model:HMM)を用いて単語や
サブワード(音素、音節など)単位の音響モデル(音声
HMM)を作成しておき、認識すべき音声が発話される
と、その発話音声のケプストラムの時系列である観測値
系列を生成して、観測値系列と音声HMMとを照合し、
最大尤度を与える音声HMMを選んでこれを認識結果と
して出力する。
【0004】より具体的には、音声データベースに実験
的に収集して記憶しておいた大量の音声データRmを1
0〜20msec程度のフレーム単位に区分けし、各フレー
ム単位のデータを順次にケプストラム(Cepstrum)演算
することにより、ケプストラムの時系列を求め、更にこ
のケプストラムの時系列を音声の特徴量として学習処理
し、音響モデル(音声HMM)のパラメータに反映させ
ることで、単語やサブワード単位の音声HMMを作成し
ている。
【0005】実際に発話が行われると、その発話音声の
データRaを上記同様のフレーム単位に区分けして入力
し、各フレーム単位の発話音声データを順次にケプスト
ラム演算することによってケプストラムの時系列である
観測値系列を生成し、観測値系列と音声HMMとを単語
やサブワード単位で照合して、観測値系列と最も尤度の
高い音声HMMを音声認識結果として出力することによ
り、音声認識が行われている。
【0006】ところが、音声HMMを作成するための音
声データRmを収集する際、マイクロフォンや電気伝送
系等における乗法性歪の影響を受けた音声データRmが
収集されてしまい、精度の良い音声HMMを生成するこ
とが困難になる場合や、認識すべき発話音声が発話され
た際、室内雑音や背景雑音等の加法性雑音と、口元から
マイクロフォンまでの空間的伝達特性、マイクロフォン
や電気伝送系等における乗法性歪などが発話データRa
に悪影響を及ぼす場合があることから、加法性雑音と乗
法性歪の影響を受け難い音声認識システム、すなわちロ
バスト(robust)な音声認識システムの構築が重要な課
題となっている。
【0007】こうした課題に対処すべく、加法性雑音に
対してはHMM合成法、乗法性歪に対してはケプストラ
ム平均正規化法(Cepstrum Mean Normalization:CM
N)が提案されている。
【0008】HMM合成法を適用した音声認識システム
は、図5に示すように、HMM法で作成した音声の音響
モデル(音声HMM)と加法性雑音の音響モデル(雑音
HMM)とを備え、更に音声HMMと雑音HMMを合成
することによって加法性雑音を含んだ音声の雑音重畳音
響モデル(合成HMM)を作成し、その合成HMMと発
話音声データに基づいて生成した観測値系列とを照合し
て、最も尤度の高い合成HMMを音声認識結果として出
力するようになっている。
【0009】ここで、音声HMMは、加法性雑音を含ま
ないクリーンな音声のデータSmをフレーム化し、ケプ
ストラム演算及び学習処理することによって作成されて
いる。
【0010】雑音HMMは、非音声区間から収集した雑
音データNmを上記同様にフレーム化し、ケプストラム
演算及び学習処理することによって作成されている。
【0011】合成HMMは、音声HMMと雑音HMMと
を線形領域で足し合わせることによって作成されてい
る。ただし、音声HMMと雑音HMMはケプストラム領
域(cep)での分布Sm(cep)とNm(cep)として表される
ため、ケプストラム領域のまま合成HMMを求めること
はできない。
【0012】このため、まず、音声HMMの分布Sm(ce
p)と雑音HMMの分布Nm(cep)をそれぞれコサイン変換
することによって対数スペクトル領域(log)での分布
Sm(log)とNm(log)に変換し、更に指数変換することに
よって線形スペクトル領域(lin)での分布Sm(lin)と
Nm(lin)に変換した後、音声データベース2の音声Rm
の平均パワーと加法性雑音Nmの平均パワーの比、及び
発話音声RaのSN比で決まる所定係数kを分布Nm(li
n)に乗算して分布Sm(lin)に加算することにより、雑音
付加音声の線形スペクトル領域での分布Rm(lin)=Sm
(lin)+k・Nm(lin)を求めている。そして、雑音付加音
声の分布Rm(lin)を対数変換することによって対数スペ
クトル領域(log)での分布Rm(log)に変換し、更に逆
コサイン変換して雑音付加音声のケプストラム領域(ce
p)での分布Rm(cep)を求めることにより、合成HMM
を作成している。
【0013】このHMM合成法によると、実際の発話音
声Raは、線形スペクトル領域(lin)ではクリーンな音
声Sa(lin)と加法性雑音Na(lin)との加算Ra(lin)=S
a(lin)+Na(lin)で表されるのに対し、雑音付加音声モ
デル(合成HMM)も線形スペクトル領域(lin)では
クリーンな音声Sm(lin)と加法性雑音k・Nm(lin)との
加算Rm(lin)=Sm(lin)+k・Nm(lin)で表されること
から、観測値系列Ra(cep)と合成HMMの分布Rm(cep)
とを照合する際に、加法性雑音の影響を抑えることがで
きるとされている。尚、係数kは所定の定数である。
【0014】次に、CMN法を適用した音声認識システ
ムは、図6に示すように、乗法性歪を含んだ音声データ
Rmを予め収集して音声データベースに記憶しておき、
その音声データRmをフレーム化しケプストラム演算及
び学習処理することによって音声HMMが作成されてい
る。すなわち、乗法性歪をHm、乗法性歪の無いクリー
ンな音声をSmとすると、音声HMMはケプストラム領
域(cep)での分布Rm(cep)=Hm(cep)+Sm(cep)とし
て構成されている。
【0015】更に、乗法性歪のケプストラムは音声のケ
プストラムの長時間平均で推定され得るという仮定に基
づいて、音声HMMの分布Rm(cep)を所定時間平均する
ことにより乗法性歪Hm(cep)を求めると共に、分布Rm
(cep)から乗法性歪Hm(cep)を減算することにより、ク
リーンな音声のケプストラム領域(cep)での分布Sm
(cep)を生成している。
【0016】実際に発話がなされると、その発話音声の
データSaをフレーム化してケプストラム演算すること
により、クリーンな音声Saに実際の乗法性歪Haが含ま
れた発話音声のケプストラムRa(cep)=Sa(cep)+Ha
(cep)を求め、更に、乗法性歪のケプストラムは音声の
ケプストラムの長時間平均で推定され得るという仮定に
基づいて、発話音声のケプストラムRa(cep)を所定時間
平均することによって乗法性歪Ha(cep)を求め、更に発
話音声のケプストラムRa(cep)から乗法性歪Ha(cep)を
減算することにより、クリーンな音声Saのケプストラ
ムSa(cep)を生成し、そのケプストラムSa(cep)と音声
HMMから求めた分布Sm(cep)とを照合して、最も尤
度の高い音声HMMを認識結果として出力している。
【0017】このように、CMN法では、乗法性歪Hm
(cep)を取り除いたケプストラム領域(cep)での分布
Sm(cep)と、乗法性歪Ha(cep)を取り除いた発話音声の
ケプストラムSa(cep)とを照合するので、乗法性歪に対
してロバストな音声認識が可能であるとされている。
【0018】また、CMN法を用いた他の音声認識シス
テムとして、図7に示す構成のものも知られている。こ
の音声認識システムでは、図6に示した音声認識システ
ムと同様に、音声HMMの分布Rm(cep)を所定時間平均
することにより乗法性歪Hm(cep)を求めている。更に、
発話音声のケプストラムRa(cep)=Sa(cep)+Ha(cep)
を求めると共に、この発話音声のケプストラムRa(cep)
を所定時間平均することによって乗法性歪Ha(cep)を求
め、更に発話音声のケプストラムRa(cep)から乗法性歪
Ha(cep)を減算することによってクリーンな発話音声の
ケプストラムSa(cep)を生成している。
【0019】ただし、音声HMMの分布Rm(cep)から求
めた乗法性歪Hm(cep)とクリーンな発話音声のケプスト
ラムSa(cep)とを加算することで、乗法性歪Hm(cep)を
含んだケプストラムSa(cep)+Hm(cep)を生成し、音声
HMMの分布Rm(cep)=Hm(cep)+Sm(cep)とケプスト
ラムSa(cep)+Hm(cep)とを照合して、最も尤度の高い
音声HMMを認識結果として出力するようになってい
る。
【0020】したがって、図7に示した音声認識システ
ムも、図6に示した音声認識システムと同様に、乗法性
歪のケプストラムは音声のケプストラムの長時間平均で
推定され得るという仮定に基づいた処理を行うことで、
乗法性歪に対してロバストな音声認識が可能であるとさ
れている。
【0021】また、図8に示すように、HMM合成法と
CMN法とを併用することで、拡張性を持たせた音声認
識システムも知られている。
【0022】この音声認識システムは、図5に示したの
と同様に音声の音響モデル(音声HMM)と雑音の音響
モデル(雑音HMM)を作成し、音声HMMのケプスト
ラム領域(cep)での分布Rm(cep)を所定時間平均する
ことによって得られる乗法性歪Hm(cep)を分布Rm(cep)
から減算することにより、乗法性歪を除いた音声の分布
Sm(cep)を求めている。
【0023】そして、このクリーンな音声のケプストラ
ム領域での分布Sm(cep)と雑音HMMのケプストラム領
域での分布Nm(cep)とをそれぞれコサイン変換すること
で対数スペクトル領域での分布Sm(log)とNm(log)を求
め、更に指数変換することで線形スペクトル領域(li
n)での分布Sm(lin)とNm(lin)を求めた後、SN比で
決まる所定係数kを分布Nm(lin)に乗算して分布Sm(li
n)に加算することにより、雑音付加音声の分布R'm(li
n)=Sm(lin)+k・Nm(lin)を求めている。
【0024】そして、雑音付加音声の分布R'm(lin)を
対数変換することによって対数スペクトル領域(log)
での分布R'm(log)に変換し、更に逆コサイン変換して
雑音付加音声のケプストラム領域(cep)での分布R'm
(cep)を求めることにより、合成HMMを作成してい
る。
【0025】つまり、合成HMMは、音声Rmから乗法
性歪Hmが除去され、その乗法性歪Hmの除去された音声
に加法性雑音Nmを付加することによって生じる雑音付
加音声のケプストラムとして構成されている。
【0026】実際に発話がなされると、その発話音声の
データRaをフレーム化してケプストラム演算すること
により、クリーンな音声Saに実際の乗法性歪Haと加法
性雑音Naが含まれた発話音声のケプストラムRa(cep)
=Ha(cep)+R^a(cep)を求めた後、ケプストラムRa(c
ep)を所定時間平均することによって乗法性歪Ha(cep)
を求めると共に、発話音声のケプストラムRa(cep)から
乗法性歪Ha(cep)を減算することにより、乗法性歪Ha
(cep)を除いた発話音声のケプストラムR^a(cep)を生
成している。つまり、ケプストラムR^a(cep)は、乗法
性歪Haが除去されているが加法性雑音Naを含んでいる
発話音声のケプストラムとなっている。
【0027】そして、そのケプストラムR^a(cep)と合
成HMMの分布Rm(cep)とを照合して、最も尤度の高い
合成HMMを認識結果として出力している。
【0028】
【発明が解決しようとする課題】ところが、上記図8に
示したCMN法とHMM合成法とを適用した音声認識シ
ステムにあっては、合成HMMと発話音声のケプストラ
ムR^a(cep)とを照合することで音声認識を行うことに
しているが、合成HMMが発話音声に対して適切な照合
対象としてモデル化されていないという問題があった。
【0029】すなわち、実際に発話された発話音声Ra
に乗法性歪Haと加法性雑音Naが含まれている場合、そ
の発話音声Raは、クリーンな発話音声Saに乗法性歪み
Haと加法性雑音Naが重畳しているものとして、次式
(1)に示すような線形スペクトル領域(lin)で表す
ことができる。 Ra(lin)=Ha(lin)Sa(lin)+Na(lin) =Ha(lin){Sa(lin)+Na(lin)/Ha(lin)} =Ha(lin)R^a(lin) …(1) 図8に示した音声認識システムでは、この線形スペクト
ル領域(lin)で表される発話音声Raをフレーム化して
ケプストラム演算を施すことで、次式(2)に示すよう
な発話音声RaのケプストラムRa(cep)を求めている。 Ra(cep)=Ha(cep)+R^a(cep) …(2) そして、ケプストラム領域(cep)での乗法性歪Ha(ce
p)をCMN法によって除去することにより、照合すべき
ケプストラムR^a(cep) を求めている。尚、ケプストラ
ムR^a(cep)は、上記式(1)中の線形スペクトル{Sa
(lin)+Na(lin)/Ha(lin)}に対応している。
【0030】これに対し、合成HMMは、図8を参照し
て説明したように、雑音付加音声に基づいて生成されて
おり、その雑音付加音声を線形スペクトル領域(lin)
で表すと次式(3)、合成HMMのケプストラム領域
(cep)での表記は次式(4)となる。 R'm(lin)=Sm(lin)+k・Nm(lin) …(3) R'm(cep)=IDCT〔log{R'm(lin)}〕 =cep〔R'm(lin)〕 …(4) 尚、演算子logは対数変換、IDCTは逆コサイン変
換、cepは対数変換の逆コサイン変換、すなわちID
CT〔log{ }〕である。
【0031】ここで、上記式(2)と(4)を対比する
と、まず、上記式(2)に示した発話音声Raに基づい
て生成されるケプストラムR^a(cep)は、式(1)中の
線形スペクトル{Sa(lin)+Na(lin)/Ha(lin)}に対
応していることから、加法性雑音Na(lin)を乗法性歪H
a(lin)で割算した成分が含まれるのに対し、上記式
(4)に示した合成HMMのケプストラムR'm(cep)
は、式(3)に示した線形スペクトルSm(lin)+k・Nm
(lin) に対応していることから、加法性雑音Nm(lin)を
何らかの乗法性歪で割算するようなことは行われていな
い。
【0032】したがって、合成HMMは、実際の発話音
声を認識するための照合対象として適切にモデル化され
ていないという問題があった。
【0033】本発明は、上記従来の問題点を克服すると
共に、加法性雑音と乗法性歪に対してロバストな音声認
識システムを提供することを目的とする。
【0034】
【課題を解決するための手段】上記目的を達成するため
本発明は、少なくとも乗法性歪を含んだ音声に基づいて
作成された音響モデルと雑音モデルを合成することで得
られる合成モデルと、乗法性歪と加法性雑音を含んだ発
話音声とを照合することで音声認識を行う音声認識シス
テムであって、上記発話音声に含まれる乗法性歪の特徴
成分を抽出する第1の抽出手段と、上記音響モデルに含
まれる乗法性歪の特徴成分を抽出する第2の抽出手段
と、上記発話音声と上記第1の抽出手段の抽出した上記
乗法性歪の特徴成分とを合成する第1の演算手段と、上
記音響モデルと上記第2の抽出手段の抽出した上記乗法
性歪の特徴成分とを合成する第2の演算手段と、上記雑
音モデルと上記第1の抽出手段の抽出した上記乗法性歪
の特徴成分とを合成する第3の演算手段と、上記第2の
演算手段の演算結果と上記第3の演算手段の演算結果と
を合成することにより上記合成モデルを作成する作成手
段とを備え、上記第1の演算手段の演算結果と上記合成
モデルとを照合することにより、音声認識を行うことを
特徴とする。
【0035】かかる構成を有する音声認識システムによ
ると、第2の演算手段は音響モデルに乗法性歪を合成し
た演算結果を出力し、第3の演算手段は雑音モデルに乗
法性歪を合成した演算結果を出力する。これら第2,第
3の演算手段の演算結果を作成手段が合成することによ
り、音響モデルと雑音モデルと上記乗法性歪との情報を
有する合成モデルを作成する。
【0036】第1の演算手段は、乗法性歪と加法性雑音
を含んだ発話音声に、第1の抽出手段の抽出した乗法性
歪を合成することにより、合成モデルの有する音響モデ
ルに相当する発話音声と、雑音モデルに相当する加法性
雑音と、乗法性歪に相当する乗法性歪との情報を有する
演算結果を出力する。
【0037】そして、第1の演算手段の演算結果と合成
モデルは、共通した情報を有することになり、第1の演
算手段の演算結果と合成モデルとを照合することによ
り、加法性雑音と乗法性歪に対してロバストで、適切な
音声認識が実現される。
【0038】また、上記目的を達成するため本発明は、
少なくとも乗法性歪を含んだ音声に基づいて作成された
音響モデルと雑音モデルを合成することで得られる合成
モデルと、乗法性歪と加法性雑音を含んだ発話音声とを
照合することで音声認識を行う音声認識システムであっ
て、上記発話音声に含まれる乗法性歪の特徴成分を抽出
する第1の抽出手段と、上記音響モデルに含まれる乗法
性歪の特徴成分を抽出する第2の抽出手段と、上記発話
音声と上記第1の抽出手段の抽出した上記乗法性歪の特
徴成分を合成する第1の演算手段と、上記雑音モデルと
上記第1の抽出手段の抽出した上記乗法性歪の特徴成分
と上記雑音モデルに上記第2の抽出手段の抽出した上記
乗法性歪の特徴成分とを合成する第2の演算手段と、上
記音響モデルと上記第2の演算手段の演算結果とを合成
することにより上記合成モデルを作成する作成手段と、
上記合成モデルと上記第2の抽出手段の抽出した上記乗
法性歪の特徴成分とを合成する第3の演算手段とを備
え、上記第1の演算手段の演算結果と上記第3の演算手
段の演算結果とを照合することにより、音声認識を行う
ことを特徴とする。
【0039】かかる構成を有する音声認識システムによ
ると、第2の演算手段は雑音モデルに第1の抽出手段の
抽出した乗法性歪を合成し、且つ雑音モデルに第2の抽
出手段の抽出した乗法性歪を合成する。この第2の演算
手段による演算結果と音響モデルを作成手段が合成する
ことにより、音響モデルと雑音モデルと上記乗法性歪と
の情報を有する合成モデルを作成し、更に、第3の演算
手段が合成モデルから第2の抽出手段の抽出した乗法性
歪を合成して出力する。
【0040】第1の演算手段は、乗法性歪と加法性雑音
を含んだ発話音声に、第1の抽出手段の抽出した乗法性
歪を合成することにより、合成モデルの有する音響モデ
ルに相当する発話音声と、雑音モデルに相当する加法性
雑音と、乗法性歪に相当する乗法性歪との情報を有する
演算結果を出力する。
【0041】そして、第1の演算手段の演算結果と第3
の演算手段の演算結果は、共通した情報を有することに
なり、これらの演算結果を照合することで、加法性雑音
と乗法性歪に対してロバストで、適切な音声認識が実現
される。
【0042】また、上記目的を達成するため本発明は、
少なくとも乗法性歪を含んだ音声に基づいて作成された
音響モデルと雑音モデルを合成することで得られる合成
モデルと、乗法性歪と加法性雑音を含んだ発話音声とを
照合することで音声認識を行う音声認識システムであっ
て、上記発話音声に含まれる乗法性歪の特徴成分を抽出
する第1の抽出手段と、上記音響モデルに含まれる乗法
性歪の特徴成分を抽出する第2の抽出手段と、上記発話
音声と上記第1の抽出手段の抽出した上記乗法性歪の特
徴成分と上記発話音声に上記第2の抽出手段の抽出した
上記乗法性歪の特徴成分とを合成する第1の演算手段
と、上記雑音モデルと上記第1の抽出手段の抽出した上
記乗法性歪の特徴成分と上記雑音モデルに上記第2の抽
出手段の抽出した上記乗法性歪の特徴成分とを合成する
第2の演算手段と、上記音響モデルと上記第2の演算手
段の演算結果とを合成することにより上記合成モデルを
作成する作成手段とを備え、上記第1の演算手段の演算
結果と上記合成モデルとを照合することにより、音声認
識を行うことを特徴とする。
【0043】かかる構成を有する音声認識システムによ
ると、第2の演算手段は雑音モデルに第1の抽出手段の
抽出した乗法性歪を合成し、且つ雑音モデルに第2の抽
出手段の抽出した乗法性歪を合成する。この第2の演算
手段による演算結果と音響モデルを作成手段が合成する
ことにより、音響モデルと雑音モデルと上記乗法性歪と
の情報を有する合成モデルを作成する。
【0044】第1の演算手段は、乗法性歪と加法性雑音
を含んだ発話音声に、第1の抽出手段の抽出した乗法性
歪を合成すると共に、第2の抽出手段の抽出した乗法性
歪を合成することで、合成モデルの有する音響モデルに
相当する発話音声と、雑音モデルに相当する加法性雑音
と、乗法性歪に相当する乗法性歪との情報を有する演算
結果を出力する。
【0045】そして、第1の演算手段の演算結果と合成
モデルとが共通した情報を有することになり、第1の演
算手段の演算結果と合成モデルとを照合することで、加
法性雑音と乗法性歪に対してロバストで、適切な音声認
識が実現される。
【0046】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。尚、図1は本発明の音声認識シス
テムの第1の実施の形態の構成を示すブロック図、図2
は第2の実施の形態の構成を示すブロック図、図3は第
3の実施の形態の構成を示すブロック図である。
【0047】まず、これら第1〜第3の実施形態を説明
するに当たり、符号を説明する。音声認識システムが音
響モデル(音声HMM)を生成するために用いる音声デ
ータをRm、雑音モデル(雑音HMM)を生成するため
に用いる加法性雑音をNm、実際に発話された発話音声
のデータをRaとする。上記音声データRmは、雑音を含
まないクリーンな音声Smに乗法性歪Hmが重畳したもの
として表す。また、発話音声Raは、雑音を含まないク
リーンな発話音声Smに乗法性歪Haと加法性雑音Naが
重畳したものとして表す。
【0048】更に、線形スペクトル領域の情報には(li
n)、対数スペクトル領域の情報には(log)、ケプスト
ラム領域の情報には(cep)を付加して示すこととす
る。例えば、音響モデル(音声HMM)を生成するため
に用いる音声データRmの線形スペクトルを、Rm(lin)
=Hm(lin)Sm(lin)のようにして示すこととする。
【0049】(第1の実施の形態)図1において、第1
の実施形態の音声認識システムには、実験的に収集され
た多量の音声データRmを記憶する音声データベース1
と、実験的に収集された加法性雑音のデータNmを記憶
する雑音データベース2とが備えられている。
【0050】音声データRmは、静寂環境の下で被験者
の発話した音声をマイクロフォンで集音し、所定のサン
プリング周波数でA/D変換する等の一般的な手法によ
って収集される。このため、音声データRmは、加法性
雑音を殆ど含まないが、マイクロフォンや電気伝送系等
による乗法性歪Hmを含む可能性のあるデータである。
【0051】加法性雑音のデータNmは、上記実験の際
に時非音声区間から収集した雑音に基づいて生成したデ
ータである。
【0052】更に、隠れマルコフモデルHMMを用いて
作成された音声の音響モデル(音声HMM)5及び雑音
の音響モデル(雑音HMM)6が備えられている。
【0053】ここで、信号処理部3が音声データベース
1中の音声データRmを10〜20msec程度のフレーム
単位に区分けして入力し、各フレーム単位のデータを順
次にケプストラム(Cepstrum)演算することにより、ケ
プストラムの時系列を求め、更にこのケプストラムの時
系列を音声の特徴量として学習処理することにより、単
語やサブワード単位の音声HMM5を作成している。
【0054】また、信号処理部4が雑音データベース2
中の加法性雑音のデータNmを上記同様にフレーム単位
に区分けして入力し、各フレーム単位のデータを順次に
ケプストラム演算することによりケプストラムの時系列
を求め、更にこのケプストラムの時系列を加法性雑音の
特徴量として学習処理することにより、雑音HMM6を
作成している。
【0055】こうして作成された音声HMM5と雑音H
MM6に対して、平均演算部7、減算器8,9、コサイ
ン変換部10,11、指数変換部12,13、乗算器1
4、加算器15が図示するように所定の関係で接続さ
れ、更に、加算器15の出力には、対数変換部16と逆
コサイン変換部17、及び雑音付加音声の音響モデルで
ある合成HMM18が従属に接続され、合成HMM18
のケプストラム領域(cep)での分布R^m(cep)を認識部
22に供給するようになっている。
【0056】また、実際に発話が行われると、その発話
音声をマイクロフォン(図示省略)で集音し、所定のサ
ンプリング周波数でA/D変換する等の一般的な手法を
施すことにより、デジタルの発話音声データRaにして
信号処理部19に入力するようになっている。
【0057】したがって、発話音声のデータRaは、マ
イクロフォンや電気伝送系等による乗法性歪Haと、背
景雑音や室内雑音(例えば自動車の車室内で生じる雑
音)等の加法性雑音Naとを含んだデータである。
【0058】そして、信号処理部19は、発話音声のデ
ータRaを10〜20msec程度のフレーム単位に区分け
して入力し、各フレーム単位のデータを順次にケプスト
ラム演算することにより、ケプストラムの時系列Ra(ce
p)を求めて出力する。
【0059】更に、信号処理部19に続けて平均演算部
20と減算器21が設けられており、減算器21が出力
する観測値系列R^a(cep)を認識部22に供給するよう
になっている。
【0060】上記の平均演算部7は、音声HMM5のケ
プストラム領域(cep)での分布Rm(cep)を所定時間平
均することで、分布Rm(cep)に含まれている乗法性歪H
m(cep)を求め、減算器8は、分布Rm(cep)から、平均演
算部7で求められた乗法性歪Hm(cep)を減算することに
より、乗法性歪を除去したクリーンな音声のケプストラ
ム領域(cep)での分布Sm(cep)を生成する。
【0061】コサイン変換部10は、上記の分布Sm(ce
p)をコサイン変換することで対数スペクトル領域(li
n)での分布Sm(log)に変換し、指数変換部12は、分
布Sm(log)を指数変換することで、線形スペクトル領域
(lin)での分布Sm(lin)を求める。
【0062】減算器9は、雑音HMMのケプストラム領
域(cep)での分布Nm(cep)から、平均演算部20で求
められた乗法性歪Ha(cep)を減算処理するようになって
いる。すなわち、平均演算部20は、実際に発話が行わ
れて信号処理部19から出力されるフレーム単位毎の発
話音声データRaのケプストラムRa(cep)を所定時間
(所定フレーム分)平均することで乗法性歪Ha(cep)を
求め、更にこの乗法性歪Ha(cep)を減算器9に供給する
ことで、上記の減算処理を行わせるようになっている。
【0063】コサイン変換部11は、減算器9による減
算結果Nm(cep)−Ha(cep)をコサイン変換することで、
対数スペクトル領域(log)での減算結果Nm(log)−Ha
(log)を求め、更に指数変換部13は、減算結果Nm(lo
g)−Ha(log)を指数変換することで、線形スペクトル領
域(lin)での除算結果Nm(lin)/Ha(lin)を求める。
【0064】そして、乗算器14が、音声データベース
2の音声Rmの平均パワーと加法性雑音Nmの平均パワー
の比、及び発話音声RaのSN比で決まる所定値の係数
kを除算結果Nm(lin)/Ha(lin)に乗算して加算器15
に供給することで、加算器15では、乗算器14の出力
k・{Nm(lin)/Ha(lin)}と指数変換部12の出力Sm
(lin)との加算が行われ、この結果、線形スペクトル領
域での加算結果R^m(lin)が生成される。
【0065】尚、加算結果R^m(lin)は、次式(5)で
表されるように、乗法性歪Hmの取り除かれた音声Smに
加法性雑音Nmと乗法性歪Haとを重畳させることによっ
て得られる雑音付加音声R^mの線形スペクトルとなる。 R^m(lin)=Sm(lin)+k・{Nm(lin)/Ha(lin)} …(5) 対数変換部16は、加算器15で生成された雑音付加音
声の線形スペクトルR^m(lin)を対数変換することで、
雑音付加音声の対数スペクトルR^m(log)を求め、更に
逆コサイン変換部17がこの対数スペクトルR^m(log)
を逆コサイン変換することによって雑音付加音声のケプ
ストラムR^m(cep)を求めることにより、雑音付加音声
の音響モデル(ケプストラム領域での音響モデル)であ
る合成HMM18を作成している。そして、合成HMM
18のケプストラム領域での分布R^m(cep)が単語やサ
ブワード単位で認識部22に供給される。
【0066】減算器21は、上記した平均演算部20か
ら出力されるケプストラム領域(cep)での乗法性歪Ha
(cep)と、信号処理部19からフレーム単位で出力され
るケプストラム領域(cep)での発話音声Ra(cep)とを
入力し、次式(6)で表されるように、発話音声Ra(ce
p)から乗法性歪Ha(cep)を減算することによって、乗法
性歪が除去されたケプストラム領域(cep)での発話音
声R^a(cep)の時系列、すなわち観測値系列R^a(ce
p)を生成して認識部22に供給する。 R^a(cep)=Ra(cep)−Ha(cep) …(6) 認識部22は、観測値系列R^a(cep)と合成HMM1
8のケプストラム領域での分布R^m(cep)とを照合し、
最も尤度の高いHMMを音声認識結果として出力する。
【0067】かかる構成を有する本実施形態の音声認識
システムは、減算器9を備えて、雑音HMM6のケプス
トラム領域(cep)での分布Nm(cep)から、発話音声
Raのケプストラム領域(cep)での平均値(すなわち、
乗法性歪)Ha(cep)を減算するようにしたので、上記
式(5)の右辺第2項に示されるように、上記雑音付加
音声の線形スペクトルR^m(lin)には、加法性雑音Nm(l
in)を乗法性歪Ha(lin)で割算した成分が含まれること
になり、更に、この成分を含んだ合成HMM18がモデ
ル化されることになる。
【0068】そして、実際に発話される発話音声Raを
線形スペクトル領域(lin)で表記すると、Ra(lin)=
Ha(lin){Sa(lin)+Na(lin)/Ha(lin)}=Ha(lin)
R^a(lin)であるから、上記式(6)で表される観測値
系列R^a(cep)は、線形スペクトル領域では、R^a(lin)
=Sa(lin)+Na(lin)/Ha(lin)となり、上記雑音付加
音声の線形スペクトルR^m(lin)と同様に、加法性雑音
Na(lin)を乗法性歪Ha(lin)で割算した成分が含まれる
ことになるから、合成HMM18は発話音声を音声認識
するための照合対象として適切にモデル化されている。
【0069】このように、本実施形態の音声認識システ
ムによれば、音声認識に用いるための合成HMM18を
適切にモデル化することができると共に、加法性雑音と
乗法性歪に対処した構成としているため、加法性雑音と
乗法性歪に対してロバストで音声認識率の向上を図るこ
とができる。
【0070】(第2の実施の形態)次に、第2の実施形
態の音声認識システムを図2に基づいて説明する。尚、
図2中、図1と同一又は相当する部分を同一符号で示し
ている。
【0071】図2において、第1の実施形態との相違点
を述べると、本実施形態の音声認識システムでは、平均
演算部7が音声HMM5のケプストラム領域(cep)で
の分布Rm(cep)を所定時間平均して乗法性歪のケプスト
ラムHm(cep)を求めると、このケプストラムHm(cep)を
加減算器200に供給するようになっている。また、コ
サイン変換部10には、音声HMM5のケプストラム領
域(cep)での分布Rm(cep)がそのまま供給され、指数
変換器12の出力が線形スペクトル音声HMM100を
介して加算器15に供給されている。
【0072】加減算器200には、上記の乗法性歪のケ
プストラムHm(cep)の他、雑音HMM6のケプストラム
領域(cep)での分布Nm(cep)と、平均演算部20から
の乗法性歪のケプストラムHa(cep)が供給され、次式
(7)で表されるように、加減算結果σ(cep)が求めら
れる。 σ(cep)=Hm(cep)+Nm(cep)−Ha(cep) …(7) また、減算器300が備えられ、合成HMM18のケプ
ストラム領域(cep)での分布Hm(cep)+R^m(cep)から
平均演算部7の乗法性歪のケプストラムHm(cep)を減算
して認識部22に供給するようになっている。
【0073】かかる構成を備えた本音声認識システムで
は、音声HMM5のケプストラム領域(cep)での分布
Rm(cep)をコサイン変換部10がコサイン変換して指数
変換部12が指数変換することにより、線形スペクトル
領域での分布Rm(lin)=Hm(lin)Sm(lin)を求め、音声
HMM100が求まる。
【0074】更に、音声HMM100の線形スペクトル
領域での分布Rm(lin)=Hm(lin)Sm(lin)が加算器15
に供給される。
【0075】加減算器200から出力されるケプストラ
ム領域(cep)の加減算結果σ(cep)は、コサイン変換部
11でコサイン変換されて指数変換部13で指数変換さ
れることにより、線形スペクトル領域(lin)での加減
算結果Hm(lin)Nm(lin)/Ha(lin)に変換され、更に乗
算器14で所定係数kが乗算されることにより、k・
{Hm(lin)Nm(lin)/Ha(lin)}となって加算器15に
供給される。
【0076】したがって、加算器15では次式(8)で
表されるように、音声Rmに乗法性歪Hm,Haと加法性
雑音Nmとを重畳させることによって得られる雑音付加
音声の線形スペクトルHm(lin)R^m(lin)となる。 Hm(lin)R^m(lin) =Hm(lin)Sm(lin)+k・{Hm(lin)Nm(lin)/Ha(lin)} =Hm(lin){Sm(lin)+k・Nm(lin)/Ha(lin)} …(8) この雑音付加音声の線形スペクトルHm(lin)R^m(lin)
を対数変換部16が対数変換し更に逆コサイン変換部1
8が逆コサイン変換することで、雑音付加音声のケプス
トラムHm(cep)+R^m(cep)を求め、雑音付加音声の音
響モデル(ケプストラム領域での音響モデル)である合
成HMM18が作成されている。
【0077】そして、減算器300が、合成HMM18
のケプストラム領域での分布Hm(cep)+R^m(cep)か
ら、平均演算部7の求めた乗法性歪のケプストラムHm
(cep)を減算することで、乗法性歪Hmの除かれた雑音付
加音声のケプストラムR^m(cep)を認識部22に供給し
ている。このように、本実施形態の音声認識システムに
よれば、認識部22では、雑音付加音声のケプストラム
R^m(cep)と発話音声のケプストラムR^a(cep)とが照合
されるようになっている。
【0078】そして、雑音付加音声のケプストラムR^m
(cep)は、上記式(8)に示した線形スペクトルk・Nm
(lin)/Ha(lin)に相当する成分が含まれ、発話音声の
ケプストラムR^a(cep)にも線形スペクトルNa(lin)/
Ha(lin)に相当する成分が含まれることから、合成HM
M18は発話音声を音声認識するための照合対象として
適切にモデル化されている。
【0079】このように、本実施形態の音声認識システ
ムによれば、音声認識に用いるための合成HMM18を
適切にモデル化することができると共に、加法性雑音と
乗法性歪に対して対処した構成としているため、加法性
雑音と乗法性歪に対してロバストで音声認識率の向上を
図ることができる。
【0080】(第3の実施の形態)次に、第3の実施形
態の音声認識システムを図3に基づいて説明する。尚、
図3中、図2と同一又は相当する部分を同一符号で示し
ている。
【0081】図3に示す本実施形態と図2に示した第2
の実施形態との相違点を述べると、第2の実施形態の音
声認識システムでは、平均演算部7が求めた乗法性歪の
ケプストラムHm(cep)を減算器300に供給し、その減
算器300が合成HMM18のケプストラム領域(ce
p)での分布Hm(cep)+R^m(cep)から乗法性歪のケプス
トラムHm(cep)を減算して認識部22に供給している。
更に、減算器21が求めた発話音声のケプストラムR^a
(cep)を認識部22に供給し、認識部22が発話音声の
ケプストラムR^a(cep)と減算器300からのケプスト
ラムR^m(cep)とを照合して、音声認識を行う構成とな
っている。
【0082】これに対し本実施形態の音声認識システム
では、図3に示すように、減算器21と認識部22との
間に加算器400が設けられ、平均演算部7の求めた乗
法性歪のケプストラムHm(cep)と減算器21からの発話
音声のケプストラムR^a(cep)とを加算することで得ら
れるケプストラム領域(cep)での加算結果Hm(cep)+
R^a(cep)を認識部22に供給するようになっている。
更に、図2に示した減算器300は本音声認識システム
には設けられておらず、合成HMM18のケプストラム
領域(cep)での分布Hm(cep)+R^m(cep)を認識部22
に供給し、認識部22が上記の加算結果Hm(cep)+R^a
(cep)と分布Hm(cep)+R^m(cep)とを照合することによ
って、音声認識を行う構成となっている。
【0083】ここで、発話音声Raの線形スペクトルRa
(lin)は、上記式(1)に示したように、Ra(lin)=Ha
(lin)Sa(lin)+Na(lin)=Ha(lin){Sa(lin)+Na(l
in)/Ha(lin)}=Ha(lin)R^a(lin) で表されること
から、減算器21は線形スペクトル{Sa(lin)+Na(li
n)/Ha(lin)}に対応したケプストラムR^a(cep)を出
力し、更に加算器400は、線形スペクトルHm(lin)
{Sa(lin)+Na(lin)/Ha(lin)}に対応するケプスト
ラムHm(cep)+R^a(cep)を生成して認識部22に供給
する。
【0084】一方、合成HMM18から認識部22へ
は、上記式(8)に示したように、雑音付加音声の線形
スペクトルHm(lin)R^m(lin)=Hm(lin)Sm(lin)+k・
{Hm(lin)Nm(lin)/Ha(lin)}=Hm(lin){Sm(lin)
+k・Nm(lin)/Ha(lin)}に対応したケプストラムHm
(cep)+R^m(cep)が供給される。
【0085】このように本実施形態の音声認識システム
によれば、線形スペクトル{k・Na(lin)/Ha(lin)}
で表される成分を含んだケプストラムHm(cep)+R^a(c
ep)と、線形スペクトル{k・Nm(lin)/Ha(lin)}で表
される成分を含んだケプストラムHm(cep)+R^m(cep)
とを認識部22が照合することから、音声認識率の向上
を図ることができ、更に加法性雑音と乗法性歪に対して
ロバストな音声認識システムを実現することができる。
【0086】尚、以上の第1〜第3の実施形態の説明で
は、音声と雑音との加算や、音声から雑音を減算する等
の演算処理を、スペクトル領域又はケプルトラム領域に
おいて行うこととしているが、これらの加算と減算の演
算処理は、音声と雑音等をスペクトル領域又はケプスト
ラム領域にて合成することを意味している。例えば、図
3中の加算器400が発話音声のケプストラムR^a(ce
p)と平均演算部7からの乗法性歪のケプストラムHm(ce
p)とを加算することで、それらの加算結果Hm(cep)+R
^a(cep)を求めているが、かかるケプストラム領域での
加算は、R^a(cep)とHm(cep)とを合成することを意味
している。また、図3中の減算器21が発話音声のケプ
ストラムRa(cep)から平均演算部20の生成した乗法性
歪のケプストラムHa(cep)を減算することで、それらの
減算結果R^a(cep)=Ra(cep)−Hm(cep)を求めている
が、かかるケプストラム領域での減算は、Ra(cep)とH
a(cep)とを合成することを意味している。
【0087】
【発明の効果】以上説明したように本発明の音声認識シ
ステムによれば、音響モデルと雑音モデルとを合成する
ことによって作成する合成モデルを、発話音声に含まれ
ている乗法性歪と加法性雑音の情報に合わせて作成し、
その合成モデルに基づいて発話音声との照合を行うよう
にしたので、整合のとれた照合が可能となって、乗法性
歪と加法性雑音に対してロバストな音声認識が可能とな
る。
【図面の簡単な説明】
【図1】第1の実施形態の音声認識システムの構成を示
すブロック図である。
【図2】第2の実施形態の音声認識システムの構成を示
すブロック図である。
【図3】第3の実施形態の音声認識システムの構成を示
すブロック図である。
【図4】従来の音声認識システムの構成を示すブロック
図である。
【図5】HMM合成法を適用した従来の音声認識システ
ムの構成を示すブロック図である。
【図6】CMN法を適用した従来の音声認識システムの
構成を示すブロック図である。
【図7】CMN法を適用した従来の他の音声認識システ
ムの構成を示すブロック図である。
【図8】HMM合成法のCMN法を適用した従来の音声
認識システムの構成を示すブロック図である。
【符号の説明】
1…音声データベース 2…雑音データベース 3,4,19…信号処理部 5…音声HMM 6…雑音HMM 7,20…平均演算部 8,9,21,300…減算器 10,11…コサイン変換部 12,13…指数変換部 14…乗算器 15,400…加算器 16…対数変換部 17…逆コサイン変換部 18…合成HMM 22…認識部 100…線形スペクトル領域での音声HMM 200…加減算器
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/02 // G10L 101:04 (72)発明者 外山 聡一 埼玉県鶴ヶ島市富士見6丁目1番1号 パ イオニア株式会社総合研究所内 Fターム(参考) 5D015 AA01 BB01 HH02 HH21 KK01

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 少なくとも乗法性歪を含んだ音声に基づ
    いて作成された音響モデルと雑音モデルを合成すること
    で得られる合成モデルと、乗法性歪と加法性雑音を含ん
    だ発話音声とを照合することで音声認識を行う音声認識
    システムであって、 前記発話音声に含まれる乗法性歪の特徴成分を抽出する
    第1の抽出手段と、 前記音響モデルに含まれる乗法性歪の特徴成分を抽出す
    る第2の抽出手段と、 前記発話音声と前記第1の抽出手段の抽出した前記乗法
    性歪の特徴成分とを合成する第1の演算手段と、 前記音響モデルと前記第2の抽出手段の抽出した前記乗
    法性歪の特徴成分とを合成する第2の演算手段と、 前記雑音モデルと前記第1の抽出手段の抽出した前記乗
    法性歪の特徴成分とを合成する第3の演算手段と、 前記第2の演算手段の演算結果と前記第3の演算手段の
    演算結果とを合成することにより前記合成モデルを作成
    する作成手段とを備え、 前記第1の演算手段の演算結果と前記合成モデルとを照
    合することにより、音声認識を行うことを特徴とする音
    声認識システム。
  2. 【請求項2】 少なくとも乗法性歪を含んだ音声に基づ
    いて作成された音響モデルと雑音モデルを合成すること
    で得られる合成モデルと、乗法性歪と加法性雑音を含ん
    だ発話音声とを照合することで音声認識を行う音声認識
    システムであって、 前記発話音声に含まれる乗法性歪の特徴成分を抽出する
    第1の抽出手段と、 前記音響モデルに含まれる乗法性歪の特徴成分を抽出す
    る第2の抽出手段と、 前記発話音声と前記第1の抽出手段の抽出した前記乗法
    性歪の特徴成分を合成する第1の演算手段と、 前記雑音モデルと、前記第1の抽出手段の抽出した前記
    乗法性歪の特徴成分と、前記雑音モデルに前記第2の抽
    出手段の抽出した前記乗法性歪の特徴成分とを合成する
    第2の演算手段と、 前記音響モデルと前記第2の演算手段の演算結果とを合
    成することにより前記合成モデルを作成する作成手段
    と、 前記合成モデルと前記第2の抽出手段の抽出した前記乗
    法性歪の特徴成分とを合成する第3の演算手段とを備
    え、 前記第1の演算手段の演算結果と前記第3の演算手段の
    演算結果とを照合することにより、音声認識を行うこと
    を特徴とする音声認識システム。
  3. 【請求項3】 少なくとも乗法性歪を含んだ音声に基づ
    いて作成された音響モデルと雑音モデルを合成すること
    で得られる合成モデルと、乗法性歪と加法性雑音を含ん
    だ発話音声とを照合することで音声認識を行う音声認識
    システムであって、 前記発話音声に含まれる乗法性歪の特徴成分を抽出する
    第1の抽出手段と、 前記音響モデルに含まれる乗法性歪の特徴成分を抽出す
    る第2の抽出手段と、 前記発話音声と、前記第1の抽出手段の抽出した前記乗
    法性歪の特徴成分と、 前記発話音声に前記第2の抽出手段の抽出した前記乗法
    性歪の特徴成分とを合成する第1の演算手段と、 前記雑音モデルと、前記第1の抽出手段の抽出した前記
    乗法性歪の特徴成分と、前記雑音モデルに前記第2の抽
    出手段の抽出した前記乗法性歪の特徴成分とを合成する
    第2の演算手段と、 前記音響モデルと前記第2の演算手段の演算結果とを合
    成することにより前記合成モデルを作成する作成手段と
    を備え、 前記第1の演算手段の演算結果と前記合成モデルとを照
    合することにより、音声認識を行うことを特徴とする音
    声認識システム。
JP2000282348A 2000-09-18 2000-09-18 音声認識システム Pending JP2002091478A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2000282348A JP2002091478A (ja) 2000-09-18 2000-09-18 音声認識システム
EP01307875A EP1189204B1 (en) 2000-09-18 2001-09-17 HMM-based noisy speech recognition
DE60124192T DE60124192T2 (de) 2000-09-18 2001-09-17 HMM-basierte Erkennung von verrauschter Sprache
US09/954,151 US6937981B2 (en) 2000-09-18 2001-09-18 Voice recognition system
CN01135734.7A CN1249666C (zh) 2000-09-18 2001-09-18 语音识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000282348A JP2002091478A (ja) 2000-09-18 2000-09-18 音声認識システム

Publications (1)

Publication Number Publication Date
JP2002091478A true JP2002091478A (ja) 2002-03-27

Family

ID=18766886

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000282348A Pending JP2002091478A (ja) 2000-09-18 2000-09-18 音声認識システム

Country Status (5)

Country Link
US (1) US6937981B2 (ja)
EP (1) EP1189204B1 (ja)
JP (1) JP2002091478A (ja)
CN (1) CN1249666C (ja)
DE (1) DE60124192T2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325897A (ja) * 2003-04-25 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法
KR100464420B1 (ko) * 2002-06-28 2005-01-03 삼성전자주식회사 은닉 마코프 모델 탐색을 위한 관측 확률 연산 장치
WO2006030551A1 (ja) * 2004-09-15 2006-03-23 The University Of Tokyo 多項式近似に基づく雑音下音声認識のためのモデル適応法
JP2007156364A (ja) * 2005-12-08 2007-06-21 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体
JP2013120379A (ja) * 2011-12-09 2013-06-17 Nippon Telegr & Teleph Corp <Ntt> スペクトル歪みパラメータ推定値補正装置とその方法とプログラム

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100915387B1 (ko) * 2006-06-22 2009-09-03 삼성전자주식회사 병렬 인터페이스의 데이터 신호와 클럭 신호 간의 스큐를보상하는 방법 및 장치
US7885812B2 (en) * 2006-11-15 2011-02-08 Microsoft Corporation Joint training of feature extraction and acoustic model parameters for speech recognition
US8306817B2 (en) * 2008-01-08 2012-11-06 Microsoft Corporation Speech recognition with non-linear noise reduction on Mel-frequency cepstra
WO2014189486A1 (en) 2013-05-20 2014-11-27 Intel Corporation Natural human-computer interaction for virtual personal assistant systems
CN103280215B (zh) * 2013-05-28 2016-03-23 北京百度网讯科技有限公司 一种音频特征库建立方法及装置
CN103714818B (zh) * 2013-12-12 2016-06-22 清华大学 基于噪声屏蔽核的说话人识别方法
EP2980801A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
CN105355199B (zh) * 2015-10-20 2019-03-12 河海大学 一种基于gmm噪声估计的模型组合语音识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6026359A (en) * 1996-09-20 2000-02-15 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on Taylor expansion
JPH10161692A (ja) * 1996-12-03 1998-06-19 Canon Inc 音声認識装置及び音声認識方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100464420B1 (ko) * 2002-06-28 2005-01-03 삼성전자주식회사 은닉 마코프 모델 탐색을 위한 관측 확률 연산 장치
JP2004325897A (ja) * 2003-04-25 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法
WO2006030551A1 (ja) * 2004-09-15 2006-03-23 The University Of Tokyo 多項式近似に基づく雑音下音声認識のためのモデル適応法
JP2007156364A (ja) * 2005-12-08 2007-06-21 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体
JP4728791B2 (ja) * 2005-12-08 2011-07-20 日本電信電話株式会社 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体
JP2013120379A (ja) * 2011-12-09 2013-06-17 Nippon Telegr & Teleph Corp <Ntt> スペクトル歪みパラメータ推定値補正装置とその方法とプログラム

Also Published As

Publication number Publication date
US20020035472A1 (en) 2002-03-21
EP1189204A3 (en) 2002-08-28
EP1189204A2 (en) 2002-03-20
CN1343968A (zh) 2002-04-10
DE60124192T2 (de) 2007-08-30
EP1189204B1 (en) 2006-11-02
CN1249666C (zh) 2006-04-05
DE60124192D1 (de) 2006-12-14
US6937981B2 (en) 2005-08-30

Similar Documents

Publication Publication Date Title
JP5230103B2 (ja) 自動音声認識器のためのトレーニングデータを生成する方法およびシステム
CN106971741B (zh) 实时将语音进行分离的语音降噪的方法及系统
EP0831461B1 (en) Scheme for model adaptation in pattern recognition based on taylor expansion
US7890321B2 (en) Noise reduction device, program and method
JP4169921B2 (ja) 音声認識システム
JP4297602B2 (ja) 音声認識システム
JP5089295B2 (ja) 音声処理システム、方法及びプログラム
JP3584458B2 (ja) パターン認識装置およびパターン認識方法
JP2002091478A (ja) 音声認識システム
JP2004325897A (ja) 音声認識装置及び音声認識方法
US8423360B2 (en) Speech recognition apparatus, method and computer program product
Saleem et al. Spectral phase estimation based on deep neural networks for single channel speech enhancement
JP2836271B2 (ja) 雑音除去装置
JP3587966B2 (ja) 音声認識方法、装置そよびその記憶媒体
JP3102195B2 (ja) 音声認識装置
JP3250604B2 (ja) 音声認識方法および装置
JPH07121197A (ja) 学習式音声認識方法
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
KR20130125014A (ko) 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템
JP2003177781A (ja) 音響モデル生成装置及び音声認識装置
JPH06214592A (ja) 耐雑音音韻モデルの作成方式
JP2000075888A (ja) ヒドン・マルコフ・モデルの学習方法及び音声認識システム
JPH11327593A (ja) 音声認識システム
Techini et al. Robust Front-End Based on MVA and HEQ Post-processing for Arabic Speech Recognition Using Hidden Markov Model Toolkit (HTK)
JPH11154000A (ja) 雑音抑圧装置及び該装置を用いた音声認識システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080311

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080513

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080729