JP2002091478A

JP2002091478A - 音声認識システム

Info

Publication number: JP2002091478A
Application number: JP2000282348A
Authority: JP
Inventors: Hiroshi Seo; 尋瀬尾; Teruya Komamura; 光弥駒村; Soichi Toyama; 聡一外山
Original assignee: Pioneer Electronic Corp
Current assignee: Pioneer Corp
Priority date: 2000-09-18
Filing date: 2000-09-18
Publication date: 2002-03-27
Also published as: US20020035472A1; EP1189204A3; EP1189204A2; CN1343968A; DE60124192T2; EP1189204B1; CN1249666C; DE60124192D1; US6937981B2

Abstract

(57)【要約】【課題】乗法性歪と加法性雑音に対してロバストな音
声認識システムを提供する。【解決手段】ＨＭＭ法で作成した音声ＨＭＭ５から乗
法性歪Ｈm(cep)を減算（合成）し、ＨＭＭ法で作成した
雑音ＨＭＭ６から発話音声の乗法性歪Ｈa(cep)を減算
（合成）し、それぞれの減算結果Ｓm(cep)と｛Ｎm(cep)
−Ｈa(cep)｝を合成することによってケプストラム領域
での合成ＨＭＭ１８を作成する。発話音声のケプストラ
ムＲa(cep)から乗法性歪Ｈa(cep)を減算（合成）するこ
とで得られるケプストラムＲ^a(cep)と合成ＨＭＭ１８
のケプストラム領域での分布Ｒ^m(cep)とを照合し、最
大尤度を与える合成ＨＭＭを音声認識結果とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、雑音や、伝送系等
の歪みに対してロバスト（頑健）な音声認識システムに
関する。

【０００２】

【従来の技術】従来、例えば車載用ナビゲーション装置
等の電子機器では、マンマシンコニュニケーション等を
可能にする音声認識システムが注目され、図４に示すよ
うな情報処理アルゴリズムに基づいて構成された音声認
識システムが知られている。

【０００３】この音声認識システムは、隠れマルコフモ
デル（Hidden Markov Model：ＨＭＭ）を用いて単語や
サブワード（音素、音節など）単位の音響モデル（音声
ＨＭＭ）を作成しておき、認識すべき音声が発話される
と、その発話音声のケプストラムの時系列である観測値
系列を生成して、観測値系列と音声ＨＭＭとを照合し、
最大尤度を与える音声ＨＭＭを選んでこれを認識結果と
して出力する。

【０００４】より具体的には、音声データベースに実験
的に収集して記憶しておいた大量の音声データＲmを１
０〜２０msec程度のフレーム単位に区分けし、各フレー
ム単位のデータを順次にケプストラム（Cepstrum）演算
することにより、ケプストラムの時系列を求め、更にこ
のケプストラムの時系列を音声の特徴量として学習処理
し、音響モデル（音声ＨＭＭ）のパラメータに反映させ
ることで、単語やサブワード単位の音声ＨＭＭを作成し
ている。

【０００５】実際に発話が行われると、その発話音声の
データＲaを上記同様のフレーム単位に区分けして入力
し、各フレーム単位の発話音声データを順次にケプスト
ラム演算することによってケプストラムの時系列である
観測値系列を生成し、観測値系列と音声ＨＭＭとを単語
やサブワード単位で照合して、観測値系列と最も尤度の
高い音声ＨＭＭを音声認識結果として出力することによ
り、音声認識が行われている。

【０００６】ところが、音声ＨＭＭを作成するための音
声データＲmを収集する際、マイクロフォンや電気伝送
系等における乗法性歪の影響を受けた音声データＲmが
収集されてしまい、精度の良い音声ＨＭＭを生成するこ
とが困難になる場合や、認識すべき発話音声が発話され
た際、室内雑音や背景雑音等の加法性雑音と、口元から
マイクロフォンまでの空間的伝達特性、マイクロフォン
や電気伝送系等における乗法性歪などが発話データＲa
に悪影響を及ぼす場合があることから、加法性雑音と乗
法性歪の影響を受け難い音声認識システム、すなわちロ
バスト（robust）な音声認識システムの構築が重要な課
題となっている。

【０００７】こうした課題に対処すべく、加法性雑音に
対してはＨＭＭ合成法、乗法性歪に対してはケプストラ
ム平均正規化法（Cepstrum Mean Normalization：ＣＭ
Ｎ）が提案されている。

【０００８】ＨＭＭ合成法を適用した音声認識システム
は、図５に示すように、ＨＭＭ法で作成した音声の音響
モデル（音声ＨＭＭ）と加法性雑音の音響モデル（雑音
ＨＭＭ）とを備え、更に音声ＨＭＭと雑音ＨＭＭを合成
することによって加法性雑音を含んだ音声の雑音重畳音
響モデル（合成ＨＭＭ）を作成し、その合成ＨＭＭと発
話音声データに基づいて生成した観測値系列とを照合し
て、最も尤度の高い合成ＨＭＭを音声認識結果として出
力するようになっている。

【０００９】ここで、音声ＨＭＭは、加法性雑音を含ま
ないクリーンな音声のデータＳmをフレーム化し、ケプ
ストラム演算及び学習処理することによって作成されて
いる。

【００１０】雑音ＨＭＭは、非音声区間から収集した雑
音データＮmを上記同様にフレーム化し、ケプストラム
演算及び学習処理することによって作成されている。

【００１１】合成ＨＭＭは、音声ＨＭＭと雑音ＨＭＭと
を線形領域で足し合わせることによって作成されてい
る。ただし、音声ＨＭＭと雑音ＨＭＭはケプストラム領
域（cep）での分布Ｓm(cep)とＮm(cep)として表される
ため、ケプストラム領域のまま合成ＨＭＭを求めること
はできない。

【００１２】このため、まず、音声ＨＭＭの分布Ｓm(ce
p)と雑音ＨＭＭの分布Ｎm(cep)をそれぞれコサイン変換
することによって対数スペクトル領域（log）での分布
Ｓm(log)とＮm(log)に変換し、更に指数変換することに
よって線形スペクトル領域（lin）での分布Ｓm(lin)と
Ｎm(lin)に変換した後、音声データベース２の音声Ｒm
の平均パワーと加法性雑音Ｎmの平均パワーの比、及び
発話音声ＲaのＳＮ比で決まる所定係数ｋを分布Ｎm(li
n)に乗算して分布Ｓm(lin)に加算することにより、雑音
付加音声の線形スペクトル領域での分布Ｒm(lin)＝Ｓm
(lin)＋ｋ・Ｎm(lin)を求めている。そして、雑音付加音
声の分布Ｒm(lin)を対数変換することによって対数スペ
クトル領域（log）での分布Ｒm(log)に変換し、更に逆
コサイン変換して雑音付加音声のケプストラム領域（ce
p）での分布Ｒm(cep)を求めることにより、合成ＨＭＭ
を作成している。

【００１３】このＨＭＭ合成法によると、実際の発話音
声Ｒaは、線形スペクトル領域（lin）ではクリーンな音
声Ｓa(lin)と加法性雑音Ｎa(lin)との加算Ｒa(lin)＝Ｓ
a(lin)＋Ｎa(lin)で表されるのに対し、雑音付加音声モ
デル（合成ＨＭＭ）も線形スペクトル領域（lin）では
クリーンな音声Ｓm(lin)と加法性雑音ｋ・Ｎm(lin)との
加算Ｒm(lin)＝Ｓm(lin)＋ｋ・Ｎm(lin)で表されること
から、観測値系列Ｒa(cep)と合成ＨＭＭの分布Ｒm(cep)
とを照合する際に、加法性雑音の影響を抑えることがで
きるとされている。尚、係数ｋは所定の定数である。

【００１４】次に、ＣＭＮ法を適用した音声認識システ
ムは、図６に示すように、乗法性歪を含んだ音声データ
Ｒmを予め収集して音声データベースに記憶しておき、
その音声データＲmをフレーム化しケプストラム演算及
び学習処理することによって音声ＨＭＭが作成されてい
る。すなわち、乗法性歪をＨm、乗法性歪の無いクリー
ンな音声をＳmとすると、音声ＨＭＭはケプストラム領
域（cep）での分布Ｒm(cep)＝Ｈm(cep)＋Ｓm(cep)とし
て構成されている。

【００１５】更に、乗法性歪のケプストラムは音声のケ
プストラムの長時間平均で推定され得るという仮定に基
づいて、音声ＨＭＭの分布Ｒm(cep)を所定時間平均する
ことにより乗法性歪Ｈm(cep)を求めると共に、分布Ｒm
(cep)から乗法性歪Ｈm(cep)を減算することにより、ク
リーンな音声のケプストラム領域（cep）での分布Ｓm
（cep）を生成している。

【００１６】実際に発話がなされると、その発話音声の
データＳaをフレーム化してケプストラム演算すること
により、クリーンな音声Ｓaに実際の乗法性歪Ｈaが含ま
れた発話音声のケプストラムＲa(cep)＝Ｓa(cep)＋Ｈa
(cep)を求め、更に、乗法性歪のケプストラムは音声の
ケプストラムの長時間平均で推定され得るという仮定に
基づいて、発話音声のケプストラムＲa(cep)を所定時間
平均することによって乗法性歪Ｈa(cep)を求め、更に発
話音声のケプストラムＲa(cep)から乗法性歪Ｈa(cep)を
減算することにより、クリーンな音声Ｓaのケプストラ
ムＳa(cep)を生成し、そのケプストラムＳa(cep)と音声
ＨＭＭから求めた分布Ｓm（cep）とを照合して、最も尤
度の高い音声ＨＭＭを認識結果として出力している。

【００１７】このように、ＣＭＮ法では、乗法性歪Ｈm
（cep）を取り除いたケプストラム領域（cep）での分布
Ｓm(cep)と、乗法性歪Ｈa(cep)を取り除いた発話音声の
ケプストラムＳa(cep)とを照合するので、乗法性歪に対
してロバストな音声認識が可能であるとされている。

【００１８】また、ＣＭＮ法を用いた他の音声認識シス
テムとして、図７に示す構成のものも知られている。こ
の音声認識システムでは、図６に示した音声認識システ
ムと同様に、音声ＨＭＭの分布Ｒm(cep)を所定時間平均
することにより乗法性歪Ｈm(cep)を求めている。更に、
発話音声のケプストラムＲa(cep)＝Ｓa(cep)＋Ｈa(cep)
を求めると共に、この発話音声のケプストラムＲa(cep)
を所定時間平均することによって乗法性歪Ｈa(cep)を求
め、更に発話音声のケプストラムＲa(cep)から乗法性歪
Ｈa(cep)を減算することによってクリーンな発話音声の
ケプストラムＳa(cep)を生成している。

【００１９】ただし、音声ＨＭＭの分布Ｒm(cep)から求
めた乗法性歪Ｈm(cep)とクリーンな発話音声のケプスト
ラムＳa(cep)とを加算することで、乗法性歪Ｈm(cep)を
含んだケプストラムＳa(cep)＋Ｈm(cep)を生成し、音声
ＨＭＭの分布Ｒm(cep)＝Ｈm(cep)＋Ｓm(cep)とケプスト
ラムＳa(cep)＋Ｈm(cep)とを照合して、最も尤度の高い
音声ＨＭＭを認識結果として出力するようになってい
る。

【００２０】したがって、図７に示した音声認識システ
ムも、図６に示した音声認識システムと同様に、乗法性
歪のケプストラムは音声のケプストラムの長時間平均で
推定され得るという仮定に基づいた処理を行うことで、
乗法性歪に対してロバストな音声認識が可能であるとさ
れている。

【００２１】また、図８に示すように、ＨＭＭ合成法と
ＣＭＮ法とを併用することで、拡張性を持たせた音声認
識システムも知られている。

【００２２】この音声認識システムは、図５に示したの
と同様に音声の音響モデル（音声ＨＭＭ）と雑音の音響
モデル（雑音ＨＭＭ）を作成し、音声ＨＭＭのケプスト
ラム領域（cep）での分布Ｒm(cep)を所定時間平均する
ことによって得られる乗法性歪Ｈm(cep)を分布Ｒm(cep)
から減算することにより、乗法性歪を除いた音声の分布
Ｓm(cep)を求めている。

【００２３】そして、このクリーンな音声のケプストラ
ム領域での分布Ｓm(cep)と雑音ＨＭＭのケプストラム領
域での分布Ｎm(cep)とをそれぞれコサイン変換すること
で対数スペクトル領域での分布Ｓm(log)とＮm(log)を求
め、更に指数変換することで線形スペクトル領域（li
n）での分布Ｓm(lin)とＮm(lin)を求めた後、ＳＮ比で
決まる所定係数ｋを分布Ｎm(lin)に乗算して分布Ｓm(li
n)に加算することにより、雑音付加音声の分布Ｒ'm(li
n)＝Ｓm(lin)＋ｋ・Ｎm(lin)を求めている。

【００２４】そして、雑音付加音声の分布Ｒ'm(lin)を
対数変換することによって対数スペクトル領域（log）
での分布Ｒ'm(log)に変換し、更に逆コサイン変換して
雑音付加音声のケプストラム領域（cep）での分布Ｒ'm
(cep)を求めることにより、合成ＨＭＭを作成してい
る。

【００２５】つまり、合成ＨＭＭは、音声Ｒmから乗法
性歪Ｈmが除去され、その乗法性歪Ｈmの除去された音声
に加法性雑音Ｎmを付加することによって生じる雑音付
加音声のケプストラムとして構成されている。

【００２６】実際に発話がなされると、その発話音声の
データＲaをフレーム化してケプストラム演算すること
により、クリーンな音声Ｓaに実際の乗法性歪Ｈaと加法
性雑音Ｎaが含まれた発話音声のケプストラムＲa(cep)
＝Ｈa(cep)＋Ｒ^a(cep)を求めた後、ケプストラムＲa(c
ep)を所定時間平均することによって乗法性歪Ｈa(cep)
を求めると共に、発話音声のケプストラムＲa(cep)から
乗法性歪Ｈa(cep)を減算することにより、乗法性歪Ｈa
（cep）を除いた発話音声のケプストラムＲ^a(cep)を生
成している。つまり、ケプストラムＲ^a(cep)は、乗法
性歪Ｈaが除去されているが加法性雑音Ｎaを含んでいる
発話音声のケプストラムとなっている。

【００２７】そして、そのケプストラムＲ^a(cep)と合
成ＨＭＭの分布Ｒm(cep)とを照合して、最も尤度の高い
合成ＨＭＭを認識結果として出力している。

【００２８】

【発明が解決しようとする課題】ところが、上記図８に
示したＣＭＮ法とＨＭＭ合成法とを適用した音声認識シ
ステムにあっては、合成ＨＭＭと発話音声のケプストラ
ムＲ^a(cep)とを照合することで音声認識を行うことに
しているが、合成ＨＭＭが発話音声に対して適切な照合
対象としてモデル化されていないという問題があった。

【００２９】すなわち、実際に発話された発話音声Ｒa
に乗法性歪Ｈaと加法性雑音Ｎaが含まれている場合、そ
の発話音声Ｒaは、クリーンな発話音声Ｓaに乗法性歪み
Ｈaと加法性雑音Ｎaが重畳しているものとして、次式
（１）に示すような線形スペクトル領域（lin）で表す
ことができる。Ｒa(lin)＝Ｈa(lin)Ｓa(lin)＋Ｎa(lin) ＝Ｈa(lin)｛Ｓa(lin)＋Ｎa(lin)／Ｈa(lin)｝＝Ｈa(lin)Ｒ^a(lin) …(1) 図８に示した音声認識システムでは、この線形スペクト
ル領域（lin）で表される発話音声Ｒaをフレーム化して
ケプストラム演算を施すことで、次式（２）に示すよう
な発話音声ＲaのケプストラムＲa(cep)を求めている。Ｒa(cep)＝Ｈa(cep)＋Ｒ^a(cep) …(2) そして、ケプストラム領域（cep）での乗法性歪Ｈa(ce
p)をＣＭＮ法によって除去することにより、照合すべき
ケプストラムＲ^a(cep) を求めている。尚、ケプストラ
ムＲ^a(cep)は、上記式（１）中の線形スペクトル｛Ｓa
(lin)＋Ｎa(lin)／Ｈa(lin)｝に対応している。

【００３０】これに対し、合成ＨＭＭは、図８を参照し
て説明したように、雑音付加音声に基づいて生成されて
おり、その雑音付加音声を線形スペクトル領域（lin）
で表すと次式（３）、合成ＨＭＭのケプストラム領域
（cep）での表記は次式（４）となる。Ｒ'm(lin)＝Ｓm(lin)＋ｋ・Ｎm(lin) …(3) Ｒ'm(cep)＝ＩＤＣＴ〔ｌｏｇ｛Ｒ'm(lin)｝〕＝ｃｅｐ〔Ｒ'm(lin)〕 …(4) 尚、演算子ｌｏｇは対数変換、ＩＤＣＴは逆コサイン変
換、ｃｅｐは対数変換の逆コサイン変換、すなわちＩＤ
ＣＴ〔ｌｏｇ｛｝〕である。

【００３１】ここで、上記式（２）と（４）を対比する
と、まず、上記式（２）に示した発話音声Ｒaに基づい
て生成されるケプストラムＲ^a(cep)は、式（１）中の
線形スペクトル｛Ｓa(lin)＋Ｎa(lin)／Ｈa(lin)｝に対
応していることから、加法性雑音Ｎa(lin)を乗法性歪Ｈ
a(lin)で割算した成分が含まれるのに対し、上記式
（４）に示した合成ＨＭＭのケプストラムＲ'm(cep)
は、式（３）に示した線形スペクトルＳm(lin)＋ｋ・Ｎm
(lin) に対応していることから、加法性雑音Ｎm(lin)を
何らかの乗法性歪で割算するようなことは行われていな
い。

【００３２】したがって、合成ＨＭＭは、実際の発話音
声を認識するための照合対象として適切にモデル化され
ていないという問題があった。

【００３３】本発明は、上記従来の問題点を克服すると
共に、加法性雑音と乗法性歪に対してロバストな音声認
識システムを提供することを目的とする。

【００３４】

【課題を解決するための手段】上記目的を達成するため
本発明は、少なくとも乗法性歪を含んだ音声に基づいて
作成された音響モデルと雑音モデルを合成することで得
られる合成モデルと、乗法性歪と加法性雑音を含んだ発
話音声とを照合することで音声認識を行う音声認識シス
テムであって、上記発話音声に含まれる乗法性歪の特徴
成分を抽出する第１の抽出手段と、上記音響モデルに含
まれる乗法性歪の特徴成分を抽出する第２の抽出手段
と、上記発話音声と上記第１の抽出手段の抽出した上記
乗法性歪の特徴成分とを合成する第１の演算手段と、上
記音響モデルと上記第２の抽出手段の抽出した上記乗法
性歪の特徴成分とを合成する第２の演算手段と、上記雑
音モデルと上記第１の抽出手段の抽出した上記乗法性歪
の特徴成分とを合成する第３の演算手段と、上記第２の
演算手段の演算結果と上記第３の演算手段の演算結果と
を合成することにより上記合成モデルを作成する作成手
段とを備え、上記第１の演算手段の演算結果と上記合成
モデルとを照合することにより、音声認識を行うことを
特徴とする。

【００３５】かかる構成を有する音声認識システムによ
ると、第２の演算手段は音響モデルに乗法性歪を合成し
た演算結果を出力し、第３の演算手段は雑音モデルに乗
法性歪を合成した演算結果を出力する。これら第２，第
３の演算手段の演算結果を作成手段が合成することによ
り、音響モデルと雑音モデルと上記乗法性歪との情報を
有する合成モデルを作成する。

【００３６】第１の演算手段は、乗法性歪と加法性雑音
を含んだ発話音声に、第１の抽出手段の抽出した乗法性
歪を合成することにより、合成モデルの有する音響モデ
ルに相当する発話音声と、雑音モデルに相当する加法性
雑音と、乗法性歪に相当する乗法性歪との情報を有する
演算結果を出力する。

【００３７】そして、第１の演算手段の演算結果と合成
モデルは、共通した情報を有することになり、第１の演
算手段の演算結果と合成モデルとを照合することによ
り、加法性雑音と乗法性歪に対してロバストで、適切な
音声認識が実現される。

【００３８】また、上記目的を達成するため本発明は、
少なくとも乗法性歪を含んだ音声に基づいて作成された
音響モデルと雑音モデルを合成することで得られる合成
モデルと、乗法性歪と加法性雑音を含んだ発話音声とを
照合することで音声認識を行う音声認識システムであっ
て、上記発話音声に含まれる乗法性歪の特徴成分を抽出
する第１の抽出手段と、上記音響モデルに含まれる乗法
性歪の特徴成分を抽出する第２の抽出手段と、上記発話
音声と上記第１の抽出手段の抽出した上記乗法性歪の特
徴成分を合成する第１の演算手段と、上記雑音モデルと
上記第１の抽出手段の抽出した上記乗法性歪の特徴成分
と上記雑音モデルに上記第２の抽出手段の抽出した上記
乗法性歪の特徴成分とを合成する第２の演算手段と、上
記音響モデルと上記第２の演算手段の演算結果とを合成
することにより上記合成モデルを作成する作成手段と、
上記合成モデルと上記第２の抽出手段の抽出した上記乗
法性歪の特徴成分とを合成する第３の演算手段とを備
え、上記第１の演算手段の演算結果と上記第３の演算手
段の演算結果とを照合することにより、音声認識を行う
ことを特徴とする。

【００３９】かかる構成を有する音声認識システムによ
ると、第２の演算手段は雑音モデルに第１の抽出手段の
抽出した乗法性歪を合成し、且つ雑音モデルに第２の抽
出手段の抽出した乗法性歪を合成する。この第２の演算
手段による演算結果と音響モデルを作成手段が合成する
ことにより、音響モデルと雑音モデルと上記乗法性歪と
の情報を有する合成モデルを作成し、更に、第３の演算
手段が合成モデルから第２の抽出手段の抽出した乗法性
歪を合成して出力する。

【００４０】第１の演算手段は、乗法性歪と加法性雑音
を含んだ発話音声に、第１の抽出手段の抽出した乗法性
歪を合成することにより、合成モデルの有する音響モデ
ルに相当する発話音声と、雑音モデルに相当する加法性
雑音と、乗法性歪に相当する乗法性歪との情報を有する
演算結果を出力する。

【００４１】そして、第１の演算手段の演算結果と第３
の演算手段の演算結果は、共通した情報を有することに
なり、これらの演算結果を照合することで、加法性雑音
と乗法性歪に対してロバストで、適切な音声認識が実現
される。

【００４２】また、上記目的を達成するため本発明は、
少なくとも乗法性歪を含んだ音声に基づいて作成された
音響モデルと雑音モデルを合成することで得られる合成
モデルと、乗法性歪と加法性雑音を含んだ発話音声とを
照合することで音声認識を行う音声認識システムであっ
て、上記発話音声に含まれる乗法性歪の特徴成分を抽出
する第１の抽出手段と、上記音響モデルに含まれる乗法
性歪の特徴成分を抽出する第２の抽出手段と、上記発話
音声と上記第１の抽出手段の抽出した上記乗法性歪の特
徴成分と上記発話音声に上記第２の抽出手段の抽出した
上記乗法性歪の特徴成分とを合成する第１の演算手段
と、上記雑音モデルと上記第１の抽出手段の抽出した上
記乗法性歪の特徴成分と上記雑音モデルに上記第２の抽
出手段の抽出した上記乗法性歪の特徴成分とを合成する
第２の演算手段と、上記音響モデルと上記第２の演算手
段の演算結果とを合成することにより上記合成モデルを
作成する作成手段とを備え、上記第１の演算手段の演算
結果と上記合成モデルとを照合することにより、音声認
識を行うことを特徴とする。

【００４３】かかる構成を有する音声認識システムによ
ると、第２の演算手段は雑音モデルに第１の抽出手段の
抽出した乗法性歪を合成し、且つ雑音モデルに第２の抽
出手段の抽出した乗法性歪を合成する。この第２の演算
手段による演算結果と音響モデルを作成手段が合成する
ことにより、音響モデルと雑音モデルと上記乗法性歪と
の情報を有する合成モデルを作成する。

【００４４】第１の演算手段は、乗法性歪と加法性雑音
を含んだ発話音声に、第１の抽出手段の抽出した乗法性
歪を合成すると共に、第２の抽出手段の抽出した乗法性
歪を合成することで、合成モデルの有する音響モデルに
相当する発話音声と、雑音モデルに相当する加法性雑音
と、乗法性歪に相当する乗法性歪との情報を有する演算
結果を出力する。

【００４５】そして、第１の演算手段の演算結果と合成
モデルとが共通した情報を有することになり、第１の演
算手段の演算結果と合成モデルとを照合することで、加
法性雑音と乗法性歪に対してロバストで、適切な音声認
識が実現される。

【００４６】

【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。尚、図１は本発明の音声認識シス
テムの第１の実施の形態の構成を示すブロック図、図２
は第２の実施の形態の構成を示すブロック図、図３は第
３の実施の形態の構成を示すブロック図である。

【００４７】まず、これら第１〜第３の実施形態を説明
するに当たり、符号を説明する。音声認識システムが音
響モデル（音声ＨＭＭ）を生成するために用いる音声デ
ータをＲm、雑音モデル（雑音ＨＭＭ）を生成するため
に用いる加法性雑音をＮm、実際に発話された発話音声
のデータをＲaとする。上記音声データＲmは、雑音を含
まないクリーンな音声Ｓmに乗法性歪Ｈmが重畳したもの
として表す。また、発話音声Ｒaは、雑音を含まないク
リーンな発話音声Ｓmに乗法性歪Ｈaと加法性雑音Ｎaが
重畳したものとして表す。

【００４８】更に、線形スペクトル領域の情報には（li
n）、対数スペクトル領域の情報には（log）、ケプスト
ラム領域の情報には（cep）を付加して示すこととす
る。例えば、音響モデル（音声ＨＭＭ）を生成するため
に用いる音声データＲmの線形スペクトルを、Ｒm(lin)
＝Ｈm(lin)Ｓm(lin)のようにして示すこととする。

【００４９】（第１の実施の形態）図１において、第１
の実施形態の音声認識システムには、実験的に収集され
た多量の音声データＲmを記憶する音声データベース１
と、実験的に収集された加法性雑音のデータＮmを記憶
する雑音データベース２とが備えられている。

【００５０】音声データＲmは、静寂環境の下で被験者
の発話した音声をマイクロフォンで集音し、所定のサン
プリング周波数でＡ／Ｄ変換する等の一般的な手法によ
って収集される。このため、音声データＲmは、加法性
雑音を殆ど含まないが、マイクロフォンや電気伝送系等
による乗法性歪Ｈmを含む可能性のあるデータである。

【００５１】加法性雑音のデータＮmは、上記実験の際
に時非音声区間から収集した雑音に基づいて生成したデ
ータである。

【００５２】更に、隠れマルコフモデルＨＭＭを用いて
作成された音声の音響モデル（音声ＨＭＭ）５及び雑音
の音響モデル（雑音ＨＭＭ）６が備えられている。

【００５３】ここで、信号処理部３が音声データベース
１中の音声データＲmを１０〜２０msec程度のフレーム
単位に区分けして入力し、各フレーム単位のデータを順
次にケプストラム（Cepstrum）演算することにより、ケ
プストラムの時系列を求め、更にこのケプストラムの時
系列を音声の特徴量として学習処理することにより、単
語やサブワード単位の音声ＨＭＭ５を作成している。

【００５４】また、信号処理部４が雑音データベース２
中の加法性雑音のデータＮmを上記同様にフレーム単位
に区分けして入力し、各フレーム単位のデータを順次に
ケプストラム演算することによりケプストラムの時系列
を求め、更にこのケプストラムの時系列を加法性雑音の
特徴量として学習処理することにより、雑音ＨＭＭ６を
作成している。

【００５５】こうして作成された音声ＨＭＭ５と雑音Ｈ
ＭＭ６に対して、平均演算部７、減算器８，９、コサイ
ン変換部１０，１１、指数変換部１２，１３、乗算器１
４、加算器１５が図示するように所定の関係で接続さ
れ、更に、加算器１５の出力には、対数変換部１６と逆
コサイン変換部１７、及び雑音付加音声の音響モデルで
ある合成ＨＭＭ１８が従属に接続され、合成ＨＭＭ１８
のケプストラム領域（cep）での分布Ｒ^m(cep)を認識部
２２に供給するようになっている。

【００５６】また、実際に発話が行われると、その発話
音声をマイクロフォン（図示省略）で集音し、所定のサ
ンプリング周波数でＡ／Ｄ変換する等の一般的な手法を
施すことにより、デジタルの発話音声データＲaにして
信号処理部１９に入力するようになっている。

【００５７】したがって、発話音声のデータＲaは、マ
イクロフォンや電気伝送系等による乗法性歪Ｈaと、背
景雑音や室内雑音（例えば自動車の車室内で生じる雑
音）等の加法性雑音Ｎaとを含んだデータである。

【００５８】そして、信号処理部１９は、発話音声のデ
ータＲaを１０〜２０msec程度のフレーム単位に区分け
して入力し、各フレーム単位のデータを順次にケプスト
ラム演算することにより、ケプストラムの時系列Ｒa(ce
p)を求めて出力する。

【００５９】更に、信号処理部１９に続けて平均演算部
２０と減算器２１が設けられており、減算器２１が出力
する観測値系列Ｒ^a(cep)を認識部２２に供給するよう
になっている。

【００６０】上記の平均演算部７は、音声ＨＭＭ５のケ
プストラム領域（cep）での分布Ｒm(cep)を所定時間平
均することで、分布Ｒm(cep)に含まれている乗法性歪Ｈ
m(cep)を求め、減算器８は、分布Ｒm(cep)から、平均演
算部７で求められた乗法性歪Ｈm(cep)を減算することに
より、乗法性歪を除去したクリーンな音声のケプストラ
ム領域（cep）での分布Ｓm(cep)を生成する。

【００６１】コサイン変換部１０は、上記の分布Ｓm(ce
p)をコサイン変換することで対数スペクトル領域（li
n）での分布Ｓm(log)に変換し、指数変換部１２は、分
布Ｓm(log)を指数変換することで、線形スペクトル領域
（lin）での分布Ｓm(lin)を求める。

【００６２】減算器９は、雑音ＨＭＭのケプストラム領
域（cep）での分布Ｎm(cep)から、平均演算部２０で求
められた乗法性歪Ｈa(cep)を減算処理するようになって
いる。すなわち、平均演算部２０は、実際に発話が行わ
れて信号処理部１９から出力されるフレーム単位毎の発
話音声データＲaのケプストラムＲa(cep)を所定時間
（所定フレーム分）平均することで乗法性歪Ｈa(cep)を
求め、更にこの乗法性歪Ｈa(cep)を減算器９に供給する
ことで、上記の減算処理を行わせるようになっている。

【００６３】コサイン変換部１１は、減算器９による減
算結果Ｎm(cep)−Ｈa(cep)をコサイン変換することで、
対数スペクトル領域（log）での減算結果Ｎm(log)−Ｈa
(log)を求め、更に指数変換部１３は、減算結果Ｎm(lo
g)−Ｈa(log)を指数変換することで、線形スペクトル領
域（lin）での除算結果Ｎm(lin)／Ｈa(lin)を求める。

【００６４】そして、乗算器１４が、音声データベース
２の音声Ｒmの平均パワーと加法性雑音Ｎmの平均パワー
の比、及び発話音声ＲaのＳＮ比で決まる所定値の係数
ｋを除算結果Ｎm(lin)／Ｈa(lin)に乗算して加算器１５
に供給することで、加算器１５では、乗算器１４の出力
ｋ・｛Ｎm(lin)／Ｈa(lin)｝と指数変換部１２の出力Ｓm
(lin)との加算が行われ、この結果、線形スペクトル領
域での加算結果Ｒ^m(lin)が生成される。

【００６５】尚、加算結果Ｒ^m(lin)は、次式（５）で
表されるように、乗法性歪Ｈmの取り除かれた音声Ｓmに
加法性雑音Ｎmと乗法性歪Ｈaとを重畳させることによっ
て得られる雑音付加音声Ｒ^mの線形スペクトルとなる。Ｒ^m(lin)＝Ｓm(lin)＋ｋ・｛Ｎm(lin)／Ｈa(lin)｝ …(5) 対数変換部１６は、加算器１５で生成された雑音付加音
声の線形スペクトルＲ^m(lin)を対数変換することで、
雑音付加音声の対数スペクトルＲ^m(log)を求め、更に
逆コサイン変換部１７がこの対数スペクトルＲ^m(log)
を逆コサイン変換することによって雑音付加音声のケプ
ストラムＲ^m(cep)を求めることにより、雑音付加音声
の音響モデル（ケプストラム領域での音響モデル）であ
る合成ＨＭＭ１８を作成している。そして、合成ＨＭＭ
１８のケプストラム領域での分布Ｒ^m(cep)が単語やサ
ブワード単位で認識部２２に供給される。

【００６６】減算器２１は、上記した平均演算部２０か
ら出力されるケプストラム領域（cep）での乗法性歪Ｈa
(cep)と、信号処理部１９からフレーム単位で出力され
るケプストラム領域（cep）での発話音声Ｒa(cep)とを
入力し、次式（６）で表されるように、発話音声Ｒa(ce
p)から乗法性歪Ｈa(cep)を減算することによって、乗法
性歪が除去されたケプストラム領域（cep）での発話音
声Ｒ^a（cep）の時系列、すなわち観測値系列Ｒ^a（ce
p）を生成して認識部２２に供給する。Ｒ^a（cep）＝Ｒa(cep)−Ｈa(cep) …(6) 認識部２２は、観測値系列Ｒ^a（cep）と合成ＨＭＭ１
８のケプストラム領域での分布Ｒ^m(cep)とを照合し、
最も尤度の高いＨＭＭを音声認識結果として出力する。

【００６７】かかる構成を有する本実施形態の音声認識
システムは、減算器９を備えて、雑音ＨＭＭ６のケプス
トラム領域（cep）での分布Ｎm（cep）から、発話音声
Ｒaのケプストラム領域（cep）での平均値（すなわち、
乗法性歪）Ｈa（cep）を減算するようにしたので、上記
式（５）の右辺第２項に示されるように、上記雑音付加
音声の線形スペクトルＲ^m(lin)には、加法性雑音Ｎm(l
in)を乗法性歪Ｈa(lin)で割算した成分が含まれること
になり、更に、この成分を含んだ合成ＨＭＭ１８がモデ
ル化されることになる。

【００６８】そして、実際に発話される発話音声Ｒaを
線形スペクトル領域（lin）で表記すると、Ｒa(lin)＝
Ｈa(lin)｛Ｓa(lin)＋Ｎa(lin)／Ｈa(lin)｝＝Ｈa(lin)
Ｒ^a(lin)であるから、上記式（６）で表される観測値
系列Ｒ^a(cep)は、線形スペクトル領域では、Ｒ^a(lin)
＝Ｓa(lin)＋Ｎa(lin)／Ｈa(lin)となり、上記雑音付加
音声の線形スペクトルＲ^m(lin)と同様に、加法性雑音
Ｎa(lin)を乗法性歪Ｈa(lin)で割算した成分が含まれる
ことになるから、合成ＨＭＭ１８は発話音声を音声認識
するための照合対象として適切にモデル化されている。

【００６９】このように、本実施形態の音声認識システ
ムによれば、音声認識に用いるための合成ＨＭＭ１８を
適切にモデル化することができると共に、加法性雑音と
乗法性歪に対処した構成としているため、加法性雑音と
乗法性歪に対してロバストで音声認識率の向上を図るこ
とができる。

【００７０】（第２の実施の形態）次に、第２の実施形
態の音声認識システムを図２に基づいて説明する。尚、
図２中、図１と同一又は相当する部分を同一符号で示し
ている。

【００７１】図２において、第１の実施形態との相違点
を述べると、本実施形態の音声認識システムでは、平均
演算部７が音声ＨＭＭ５のケプストラム領域（cep）で
の分布Ｒm(cep)を所定時間平均して乗法性歪のケプスト
ラムＨm(cep)を求めると、このケプストラムＨm(cep)を
加減算器２００に供給するようになっている。また、コ
サイン変換部１０には、音声ＨＭＭ５のケプストラム領
域（cep）での分布Ｒm(cep)がそのまま供給され、指数
変換器１２の出力が線形スペクトル音声ＨＭＭ１００を
介して加算器１５に供給されている。

【００７２】加減算器２００には、上記の乗法性歪のケ
プストラムＨm(cep)の他、雑音ＨＭＭ６のケプストラム
領域（cep）での分布Ｎm(cep)と、平均演算部２０から
の乗法性歪のケプストラムＨa(cep)が供給され、次式
（７）で表されるように、加減算結果σ(cep)が求めら
れる。 σ(cep)＝Ｈm(cep)＋Ｎm(cep)−Ｈa(cep) …(7) また、減算器３００が備えられ、合成ＨＭＭ１８のケプ
ストラム領域（cep）での分布Ｈm(cep)＋Ｒ^m(cep)から
平均演算部７の乗法性歪のケプストラムＨm(cep)を減算
して認識部２２に供給するようになっている。

【００７３】かかる構成を備えた本音声認識システムで
は、音声ＨＭＭ５のケプストラム領域（cep）での分布
Ｒm(cep)をコサイン変換部１０がコサイン変換して指数
変換部１２が指数変換することにより、線形スペクトル
領域での分布Ｒm(lin)＝Ｈm(lin)Ｓm(lin)を求め、音声
ＨＭＭ１００が求まる。

【００７４】更に、音声ＨＭＭ１００の線形スペクトル
領域での分布Ｒm(lin)＝Ｈm(lin)Ｓm(lin)が加算器１５
に供給される。

【００７５】加減算器２００から出力されるケプストラ
ム領域（cep）の加減算結果σ(cep)は、コサイン変換部
１１でコサイン変換されて指数変換部１３で指数変換さ
れることにより、線形スペクトル領域（lin）での加減
算結果Ｈm(lin)Ｎm(lin)／Ｈa(lin)に変換され、更に乗
算器１４で所定係数ｋが乗算されることにより、ｋ・
｛Ｈm(lin)Ｎm(lin)／Ｈa(lin)｝となって加算器１５に
供給される。

【００７６】したがって、加算器１５では次式（８）で
表されるように、音声Ｒmに乗法性歪Ｈm，Ｈaと加法性
雑音Ｎmとを重畳させることによって得られる雑音付加
音声の線形スペクトルＨm(lin)Ｒ^m(lin)となる。Ｈm(lin)Ｒ^m(lin) ＝Ｈm(lin)Ｓm(lin)＋ｋ・｛Ｈm(lin)Ｎm(lin)／Ｈa(lin)｝＝Ｈm(lin)｛Ｓm(lin)＋ｋ・Ｎm(lin)／Ｈa(lin)｝ …(8) この雑音付加音声の線形スペクトルＨm(lin)Ｒ^m(lin)
を対数変換部１６が対数変換し更に逆コサイン変換部１
８が逆コサイン変換することで、雑音付加音声のケプス
トラムＨm(cep)＋Ｒ^m(cep)を求め、雑音付加音声の音
響モデル（ケプストラム領域での音響モデル）である合
成ＨＭＭ１８が作成されている。

【００７７】そして、減算器３００が、合成ＨＭＭ１８
のケプストラム領域での分布Ｈm(cep)＋Ｒ^m(cep)か
ら、平均演算部７の求めた乗法性歪のケプストラムＨm
(cep)を減算することで、乗法性歪Ｈmの除かれた雑音付
加音声のケプストラムＲ^m(cep)を認識部２２に供給し
ている。このように、本実施形態の音声認識システムに
よれば、認識部２２では、雑音付加音声のケプストラム
Ｒ^m(cep)と発話音声のケプストラムＲ^a(cep)とが照合
されるようになっている。

【００７８】そして、雑音付加音声のケプストラムＲ^m
(cep)は、上記式（８）に示した線形スペクトルｋ・Ｎm
(lin)／Ｈa(lin)に相当する成分が含まれ、発話音声の
ケプストラムＲ^a(cep)にも線形スペクトルＮa(lin)／
Ｈa(lin)に相当する成分が含まれることから、合成ＨＭ
Ｍ１８は発話音声を音声認識するための照合対象として
適切にモデル化されている。

【００７９】このように、本実施形態の音声認識システ
ムによれば、音声認識に用いるための合成ＨＭＭ１８を
適切にモデル化することができると共に、加法性雑音と
乗法性歪に対して対処した構成としているため、加法性
雑音と乗法性歪に対してロバストで音声認識率の向上を
図ることができる。

【００８０】（第３の実施の形態）次に、第３の実施形
態の音声認識システムを図３に基づいて説明する。尚、
図３中、図２と同一又は相当する部分を同一符号で示し
ている。

【００８１】図３に示す本実施形態と図２に示した第２
の実施形態との相違点を述べると、第２の実施形態の音
声認識システムでは、平均演算部７が求めた乗法性歪の
ケプストラムＨm(cep)を減算器３００に供給し、その減
算器３００が合成ＨＭＭ１８のケプストラム領域（ce
p）での分布Ｈm(cep)＋Ｒ^m(cep)から乗法性歪のケプス
トラムＨm(cep)を減算して認識部２２に供給している。
更に、減算器２１が求めた発話音声のケプストラムＲ^a
(cep)を認識部２２に供給し、認識部２２が発話音声の
ケプストラムＲ^a(cep)と減算器３００からのケプスト
ラムＲ^m(cep)とを照合して、音声認識を行う構成とな
っている。

【００８２】これに対し本実施形態の音声認識システム
では、図３に示すように、減算器２１と認識部２２との
間に加算器４００が設けられ、平均演算部７の求めた乗
法性歪のケプストラムＨm(cep)と減算器２１からの発話
音声のケプストラムＲ^a(cep)とを加算することで得ら
れるケプストラム領域（cep）での加算結果Ｈm(cep)＋
Ｒ^a(cep)を認識部２２に供給するようになっている。
更に、図２に示した減算器３００は本音声認識システム
には設けられておらず、合成ＨＭＭ１８のケプストラム
領域（cep）での分布Ｈm(cep)＋Ｒ^m(cep)を認識部２２
に供給し、認識部２２が上記の加算結果Ｈm(cep)＋Ｒ^a
(cep)と分布Ｈm(cep)＋Ｒ^m(cep)とを照合することによ
って、音声認識を行う構成となっている。

【００８３】ここで、発話音声Ｒaの線形スペクトルＲa
(lin)は、上記式（１）に示したように、Ｒa(lin)＝Ｈa
(lin)Ｓa(lin)＋Ｎa(lin)＝Ｈa(lin)｛Ｓa(lin)＋Ｎa(l
in)／Ｈa(lin)｝＝Ｈa(lin)Ｒ^a(lin) で表されること
から、減算器２１は線形スペクトル｛Ｓa(lin)＋Ｎa(li
n)／Ｈa(lin)｝に対応したケプストラムＲ^a(cep)を出
力し、更に加算器４００は、線形スペクトルＨm(lin)
｛Ｓa(lin)＋Ｎa(lin)／Ｈa(lin)｝に対応するケプスト
ラムＨm(cep)＋Ｒ^a(cep)を生成して認識部２２に供給
する。

【００８４】一方、合成ＨＭＭ１８から認識部２２へ
は、上記式（８）に示したように、雑音付加音声の線形
スペクトルＨm(lin)Ｒ^m(lin)＝Ｈm(lin)Ｓm(lin)＋ｋ・
｛Ｈm(lin)Ｎm(lin)／Ｈa(lin)｝＝Ｈm(lin)｛Ｓm(lin)
＋ｋ・Ｎm(lin)／Ｈa(lin)｝に対応したケプストラムＨm
(cep)＋Ｒ^m(cep)が供給される。

【００８５】このように本実施形態の音声認識システム
によれば、線形スペクトル｛ｋ・Ｎa(lin)／Ｈa(lin)｝
で表される成分を含んだケプストラムＨm(cep)＋Ｒ^a(c
ep)と、線形スペクトル｛ｋ・Ｎm(lin)／Ｈa(lin)｝で表
される成分を含んだケプストラムＨm(cep)＋Ｒ^m(cep)
とを認識部２２が照合することから、音声認識率の向上
を図ることができ、更に加法性雑音と乗法性歪に対して
ロバストな音声認識システムを実現することができる。

【００８６】尚、以上の第１〜第３の実施形態の説明で
は、音声と雑音との加算や、音声から雑音を減算する等
の演算処理を、スペクトル領域又はケプルトラム領域に
おいて行うこととしているが、これらの加算と減算の演
算処理は、音声と雑音等をスペクトル領域又はケプスト
ラム領域にて合成することを意味している。例えば、図
３中の加算器４００が発話音声のケプストラムＲ^a(ce
p)と平均演算部７からの乗法性歪のケプストラムＨm(ce
p)とを加算することで、それらの加算結果Ｈm(cep)＋Ｒ
^a(cep)を求めているが、かかるケプストラム領域での
加算は、Ｒ^a(cep)とＨm(cep)とを合成することを意味
している。また、図３中の減算器２１が発話音声のケプ
ストラムＲa(cep)から平均演算部２０の生成した乗法性
歪のケプストラムＨa(cep)を減算することで、それらの
減算結果Ｒ^a(cep)＝Ｒa(cep)−Ｈm(cep)を求めている
が、かかるケプストラム領域での減算は、Ｒa(cep)とＨ
a(cep)とを合成することを意味している。

【００８７】

【発明の効果】以上説明したように本発明の音声認識シ
ステムによれば、音響モデルと雑音モデルとを合成する
ことによって作成する合成モデルを、発話音声に含まれ
ている乗法性歪と加法性雑音の情報に合わせて作成し、
その合成モデルに基づいて発話音声との照合を行うよう
にしたので、整合のとれた照合が可能となって、乗法性
歪と加法性雑音に対してロバストな音声認識が可能とな
る。

【図面の簡単な説明】

【図１】第１の実施形態の音声認識システムの構成を示
すブロック図である。

【図２】第２の実施形態の音声認識システムの構成を示
すブロック図である。

【図３】第３の実施形態の音声認識システムの構成を示
すブロック図である。

【図４】従来の音声認識システムの構成を示すブロック
図である。

【図５】ＨＭＭ合成法を適用した従来の音声認識システ
ムの構成を示すブロック図である。

【図６】ＣＭＮ法を適用した従来の音声認識システムの
構成を示すブロック図である。

【図７】ＣＭＮ法を適用した従来の他の音声認識システ
ムの構成を示すブロック図である。

【図８】ＨＭＭ合成法のＣＭＮ法を適用した従来の音声
認識システムの構成を示すブロック図である。

【符号の説明】

１…音声データベース２…雑音データベース３，４，１９…信号処理部５…音声ＨＭＭ６…雑音ＨＭＭ７，２０…平均演算部８，９，２１，３００…減算器１０，１１…コサイン変換部１２，１３…指数変換部１４…乗算器１５，４００…加算器１６…対数変換部１７…逆コサイン変換部１８…合成ＨＭＭ２２…認識部１００…線形スペクトル領域での音声ＨＭＭ２００…加減算器

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/02 // Ｇ１０Ｌ 101:04 (72)発明者外山聡一埼玉県鶴ヶ島市富士見６丁目１番１号パイオニア株式会社総合研究所内Ｆターム(参考） 5D015 AA01 BB01 HH02 HH21 KK01

Claims

【特許請求の範囲】

【請求項１】少なくとも乗法性歪を含んだ音声に基づ
いて作成された音響モデルと雑音モデルを合成すること
で得られる合成モデルと、乗法性歪と加法性雑音を含ん
だ発話音声とを照合することで音声認識を行う音声認識
システムであって、前記発話音声に含まれる乗法性歪の特徴成分を抽出する
第１の抽出手段と、前記音響モデルに含まれる乗法性歪の特徴成分を抽出す
る第２の抽出手段と、前記発話音声と前記第１の抽出手段の抽出した前記乗法
性歪の特徴成分とを合成する第１の演算手段と、前記音響モデルと前記第２の抽出手段の抽出した前記乗
法性歪の特徴成分とを合成する第２の演算手段と、前記雑音モデルと前記第１の抽出手段の抽出した前記乗
法性歪の特徴成分とを合成する第３の演算手段と、前記第２の演算手段の演算結果と前記第３の演算手段の
演算結果とを合成することにより前記合成モデルを作成
する作成手段とを備え、前記第１の演算手段の演算結果と前記合成モデルとを照
合することにより、音声認識を行うことを特徴とする音
声認識システム。
【請求項２】少なくとも乗法性歪を含んだ音声に基づ
いて作成された音響モデルと雑音モデルを合成すること
で得られる合成モデルと、乗法性歪と加法性雑音を含ん
だ発話音声とを照合することで音声認識を行う音声認識
システムであって、前記発話音声に含まれる乗法性歪の特徴成分を抽出する
第１の抽出手段と、前記音響モデルに含まれる乗法性歪の特徴成分を抽出す
る第２の抽出手段と、前記発話音声と前記第１の抽出手段の抽出した前記乗法
性歪の特徴成分を合成する第１の演算手段と、前記雑音モデルと、前記第１の抽出手段の抽出した前記
乗法性歪の特徴成分と、前記雑音モデルに前記第２の抽
出手段の抽出した前記乗法性歪の特徴成分とを合成する
第２の演算手段と、前記音響モデルと前記第２の演算手段の演算結果とを合
成することにより前記合成モデルを作成する作成手段
と、前記合成モデルと前記第２の抽出手段の抽出した前記乗
法性歪の特徴成分とを合成する第３の演算手段とを備
え、前記第１の演算手段の演算結果と前記第３の演算手段の
演算結果とを照合することにより、音声認識を行うこと
を特徴とする音声認識システム。
【請求項３】少なくとも乗法性歪を含んだ音声に基づ
いて作成された音響モデルと雑音モデルを合成すること
で得られる合成モデルと、乗法性歪と加法性雑音を含ん
だ発話音声とを照合することで音声認識を行う音声認識
システムであって、前記発話音声に含まれる乗法性歪の特徴成分を抽出する
第１の抽出手段と、前記音響モデルに含まれる乗法性歪の特徴成分を抽出す
る第２の抽出手段と、前記発話音声と、前記第１の抽出手段の抽出した前記乗
法性歪の特徴成分と、前記発話音声に前記第２の抽出手段の抽出した前記乗法
性歪の特徴成分とを合成する第１の演算手段と、前記雑音モデルと、前記第１の抽出手段の抽出した前記
乗法性歪の特徴成分と、前記雑音モデルに前記第２の抽
出手段の抽出した前記乗法性歪の特徴成分とを合成する
第２の演算手段と、前記音響モデルと前記第２の演算手段の演算結果とを合
成することにより前記合成モデルを作成する作成手段と
を備え、前記第１の演算手段の演算結果と前記合成モデルとを照
合することにより、音声認識を行うことを特徴とする音
声認識システム。