JP4275353B2

JP4275353B2 - 音声認識装置及び音声認識方法

Info

Publication number: JP4275353B2
Application number: JP2002142998A
Authority: JP
Inventors: 聡一外山
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2002-05-17
Filing date: 2002-05-17
Publication date: 2009-06-10
Anticipated expiration: 2022-05-17
Also published as: JP2003330484A

Description

【０００１】
【発明の属する技術分野】
本発明は、例えば話者適応を施した音声モデルを用いて音声認識を行う音声認識装置及び音声認識方法に関するものである。
【０００２】
【従来の技術】
音声認識技術の分野では、大量の音声データベースから学習した不特定話者音声モデルを使用して音声認識が行われている。
【０００３】
しかし、この不特定話者音声モデルは、不特定多数の発話音声データに基づいて学習されたものであるため、標準的な発話を行う話者の発話音声を音声認識する場合には比較的高い認識性能が得られるものの、発話に特徴のある話者の発話音声を認識する場合は、必ずしも高い認識性能が得られるとは限らないという課題があった。
【０００４】
そのため、個々の話者の発話音声によって不特定話者音声モデルを話者適応し、その話者適応した音響モデルを用いることにより、話者個々人に対して適切な音声認識を行おうとする話者適応法が開発された。
【０００５】
従来の話者適応法では、大量の音声データベースを用いて音素等サブワード単位の不特定話者音声モデル（以下「初期音声モデル」という）を生成しておき、実際の音声認識を開始する前の前処理段階で、初期音声モデルに対して話者適応を施す。つまり、前処理段階の際に話者に発話をしてもらい、発話音声の特徴ベクトル系列に基づいて初期音声モデルを話者適応することにより、話者の個人差を考慮した話者適応モデルを生成する。
【０００６】
そして、実際の音声認識に際して、その話者が発した認識すべき発話音声の特徴ベクトル系列と既述の話者適応モデルから構成される系列とを照合し、最も高い尤度の得られる話者適応モデル系列を音声認識結果としている。
【０００７】
【発明が解決しようとする課題】
ところが、初期音声モデルに対して話者適応を行う際、話者の発話音声に発話環境下での背景雑音が重畳することとなる。
【０００８】
このため、従来の話者適応法では、発話音声のみならず背景雑音の重畳した発話音声（すなわち、背景雑音重畳発話音声）の特徴ベクトル系列によって話者適応することとなり、精度の良い話者適応モデルを生成することが困難となる場合があった。
【０００９】
特に、雑音の多い環境下での発話音声を用いて話者適応を行うことになると、背景雑音の影響を大きく受けてしまい、話者の特徴を適切に反映した話者適応モデルを生成することが困難となる場合があった。
【００１０】
そして、実際に、従来の話者適応法で話者適応を施した上記話者適応モデルで音声認識を行うと、その認識時の環境下での背景雑音と、既述した話者適応時の背景雑音とが異なるような場合に、話者適応を行ったことによる効果すなわち音声認識率向上の効果を必ずしも十分に得られないという問題があった。
【００１１】
本発明は、上記従来の問題点に鑑みてなされたものであり、背景雑音の影響に対してロバストな話者適応を行う音声認識装置及び音声認識方法を提供することを目的とする。
【００１２】
【課題を解決するための手段】
上記目的を達成するため請求項１に係る音声認識装置の発明は、初期音声モデルを有する記憶手段と、上記記憶手段の初期音声モデルに話者適応時の背景雑音によって雑音適応を施すことで雑音適応モデルを生成する雑音適応手段と、上記雑音適応手段で生成された上記雑音適応モデルに対し、上記話者適応時に発話された発話音声によって話者適応演算を行い、上記雑音適応モデルを雑音重畳話者適応モデルに変換するための話者適応パラメータを算出する話者適応パラメータ算出手段と、上記記憶手段の初期音声モデルに上記話者適応パラメータで話者適応を施すことにより話者適応モデルを生成し、当該話者適応モデルを上記初期音声モデルに代えて上記記憶手段に更新記憶させる音声モデル更新手段とを備えることを特徴とする。
【００１３】
請求項２に係る音声認識装置の発明は、請求項１に係る音声認識装置の発明において、音声認識時に音声認識処理を行う認識処理手段を備え、更に上記雑音適応手段は、上記音声認識時の非発話期間における背景雑音によって、上記記憶手段に更新記憶された上記話者適応モデルに対し雑音適応を施すことで雑音適応を施した話者適応モデルを生成し、当該雑音適応を施した話者適応モデルを、発話音声を音声認識するための音響モデルとして上記音声認識手段に供給することを特徴とする。
【００１４】
請求項３に係る音声認識装置の発明は、初期音声モデルを有する記憶手段と、音声認識時の非発話期間における背景雑音により上記記憶手段の初期音声モデルに雑音適応を施すことで雑音適応モデルを生成する雑音適応手段と、上記音声認識時の発話期間に発話された音声認識すべき発話音声と、上記雑音適応手段で生成された上記雑音適応モデルとを照合して音声認識を行う認識処理手段と、上記雑音適応手段で生成された上記雑音適応モデルに対し上記音声認識すべき発話音声によって話者適応演算を行い、上記雑音適応モデルを雑音重畳話者適応モデルに変換するための話者適応パラメータを算出する話者適応パラメータ算出手段と、上記記憶手段の初期音声モデルに上記話者適応パラメータで話者適応を施すことにより話者適応モデルを生成し、当該話者適応モデルを上記初期音声モデルに代えて上記記憶手段に更新記憶させる音声モデル更新手段とを備えることを特徴とする。
【００１５】
請求項４に係る音声認識装置の発明は、請求項３に係る音声認識装置の発明において、上記話者適応パラメータ算出手段と音声モデル更新手段は、上記認識処理手段の認識結果の信頼度が高い場合に、上記話者適応モデルを生成して上記初期音声モデルに代えて上記記憶手段に更新記憶させることを特徴とする。
【００１６】
請求項５に係る音声認識方法の発明は、記憶手段に記憶されている初期音声モデルに話者適応時の背景雑音によって雑音適応を施すことで雑音適応モデルを生成する雑音適応処理工程と、上記雑音適応処理工程で生成された上記雑音適応モデルに対し、上記話者適応時に発話された発話音声によって話者適応演算を行い、上記雑音適応モデルを雑音重畳話者適応モデルに変換するための話者適応パラメータを算出する話者適応パラメータ算出処理工程と、上記記憶手段の初期音声モデルに上記話者適応パラメータで話者適応を施すことにより話者適応モデルを生成し、当該話者適応モデルを上記初期音声モデルに代えて上記記憶手段に更新記憶させる音声モデル更新処理工程とを備えることを特徴とする。
【００１７】
請求項６に係る音声認識方法の発明は、請求項５に係る音声認識方法の発明において、更に上記雑音適応処理工程では、音声認識時の非発話期間における背景雑音によって、上記記憶手段に更新記憶された上記話者適応モデルに対し雑音適応を施すことで雑音適応を施した話者適応モデルを生成し、上記雑音適応を施した話者適応モデルと、上記音声認識時の発話期間における音声認識すべき発話音声とを照合することにより音声認識を行う音声認識処理工程とを備えることを特徴とする。
【００１８】
請求項７に係る音声認識方法の発明は、音声認識時の非発話期間における背景雑音により、記憶手段に記憶されている初期音声モデルに雑音適応を施すことで雑音適応モデルを生成する雑音適応処理工程と、上記音声認識時の発話期間に発話される音声認識すべき発話音声と、上記雑音適応処理工程で生成された上記雑音適応モデルとを照合して音声認識を行う認識処理工程と、上記雑音適応処理工程で生成された上記雑音適応モデルに対し上記音声認識すべき発話音声によって話者適応演算を行い、上記雑音適応モデルを雑音重畳話者適応モデルに変換するための話者適応パラメータを算出する話者適応パラメータ算出処理工程と、上記記憶手段の初期音声モデルに上記話者適応パラメータで話者適応を施すことにより話者適応モデルを生成し、当該話者適応モデルを上記初期音声モデルに代えて上記記憶手段に更新記憶させる音声モデル更新処理工程とを備えることを特徴とする。
【００１９】
請求項８に係る音声認識方法の発明は、請求項７に係る音声認識方法の発明において、上記話者適応パラメータ算出処理工程と音声モデル更新処理工程は、上記認識処理工程の認識結果の信頼度が高い場合に、上記話者適応モデルを生成して上記初期音声モデルに代えて上記記憶手段に更新記憶させることを特徴とする。
【００２０】
請求項１に係る音声認識装置と請求項５に係る音声認識方法の発明によれば、話者適応に際して、初期音声モデルに対して雑音適応を施し、その雑音適応で得られる雑音適応モデルに対して話者適応演算を行い、更に雑音適応モデルを雑音重畳話者適応モデルに変換するための話者適応パラメータを算出して、初期音声モデルに対しその話者適応パラメータで話者適応を施すことにより、音声認識に際して利用する話者適応モデルを生成し、初期音声モデルをその話者適応モデルで更新する。
【００２１】
これにより、話者適応時の背景雑音の悪影響を低減し、話者適応の本来の目的である話者の個人性への適応効果の高い話者適応モデルの生成を実現する。
【００２２】
請求項２に係る音声認識装置と請求項６に係る音声認識方法の発明によれば、話者適応が行われた後の音声認識の際、その音声認識時の非発話期間における背景雑音によって、更新記憶された話者適応モデルに対し雑音適応を施す。これにより、雑音適応を施した話者適応モデルを生成する。そして、雑音適応を施した話者適応モデルと音声認識時の発話期間における音声認識すべき発話音声とを照合することにより音声認識を行う。
【００２３】
請求項３に係る音声認識装置と請求項７に係る音声認識方法の発明によれば、音声認識時に話者適応も行う。
【００２４】
すなわち、音声認識時の非発話期間における背景雑音により初期音声モデルに雑音適応を施すことで雑音適応モデルを生成し、その音声認識時の発話期間に発話される音声認識すべき発話音声と雑音適応モデルとを照合して音声認識を行う。更に雑音適応モデルに対して、音声認識すべき発話音声によって話者適応演算を行い、雑音適応モデルを雑音重畳話者適応モデルに変換するための話者適応パラメータを算出する。そして、初期音声モデルに話者適応パラメータで話者適応を施すことにより話者適応モデルを生成し、生成した話者適応モデルを初期音声モデルに代えて更新する。
【００２５】
この結果、多くの発話音声を音声認識していくにしたがって、初期音声モデルを、話者の個人性への適応の度合いの高い話者適応モデルへと更新していくことになり、音声認識性能の向上を実現する。
【００２６】
請求項４に係る音声認識装置と請求項８に係る音声認識方法の発明によれば、音声認識の結果が信頼度の高い場合に、話者適応モデルを生成して初期音声モデルを更新することにより、発話環境の状態等に応じて適切な話者適応を実現する。
【００２７】
なお、初期音声モデルとは、話者適応を施す前の上記記憶手段に記憶されている音声モデルを指す。本発明では、話者適応によって生成された話者適応モデルで、記憶手段に記憶されている初期音声モデルを更新するが、この更新された話者適応音声モデルは、初期音声モデルとして扱われる。つまり、記憶手段には最初、初期音声モデルが記憶されているが、話者適応モデルで更新された後は、その更新された話者適応モデルを初期音声モデルとみなして扱うという処理が繰り返される。
【００２８】
【発明の実施の形態】
以下、本発明の好適な実施の形態を図面を参照して説明する。
【００２９】
（第１の実施の形態）
本発明の第１の実施の形態を図１及び図２を参照して説明する。図１は、本実施形態の音声認識装置の構成を示すブロック図である。
【００３０】
なお、好適な一実施形態として、初期設定で話者適応を行い、認識時には初期設定された音声モデルを用いて行う実施形態を説明する。
【００３１】
図１において、本音声認識装置はＨＭＭ（隠れマルコフモデル）を用いて音声認識を行う構成となっており、予め雑音のない環境で収録された音声データベースを用いて学習された不特定話者音声モデルである初期音声モデルＭcが記憶された初期音声モデル記憶部１と、後述の話者適応演算処理で生成される話者適応モデルＭc”を更新記憶するための話者適応モデル記憶部２と、雑音適応部３と、話者適応パラメータ算出部４及び音声モデル更新部５を有する話者適応部と、を備えて構成されている。
【００３２】
更に、マイクロフォン７で収音された収音信号ｖ(t)を所定のフレーム期間毎にケプストラム係数ベクトルに変換し、ケプストラム領域の特徴ベクトル系列Ｖ(n)を生成する音響分析部６と、切替スイッチ８及び認識処理部９が備えられている。
【００３３】
尚、同図中、矢印付きの破線と矢印付きの実線とによって、信号の通る経路を模式的に示しているが、矢印付きの破線は、話者適応時にのみ通る信号の流れ、一方、矢印付きの実線は、音声認識時にのみ通る信号の流れ、又は音声認識時及び話者適応時の際の信号の流れを表している。
【００３４】
ここで、音響分析部６は、マイクロフォン７が収音することで生じる時間軸上の収音信号ｖ(t)を所定のフレーム時間毎にケプストラム係数ベクトルに変換することにより、ケプストラム領域の特徴ベクトル系列Ｖ(n)を生成して出力する。なお、符号Ｖ(n)中の変数ｎはフレーム番号を示している。
【００３５】
切替スイッチ８は、後述する話者適応の処理に際して、話者が未だ発話を開始していない非発話期間内に雑音適応部３側に切り替わり、音声分析部６で生成される特徴ベクトル系列Ｖ(n)を雑音適応部３へ送出する。
【００３６】
これは、発話者あるいは装置から処理開始の指示がなされた直後の数十ミリ秒ないし数秒の間は音声が発話されていない区間とみなして、切替スイッチ８を雑音適応部３側へ切り替え、その後は、切替スイッチ８を話者適応算出部４あるいは認識処理部９側へ切替え制御することで実現可能となっている。
【００３７】
あるいは、マイクロフォン７からの収音信号ｖ(t)を所定の監視制御手段（図示省略）で逐次監視し、収音信号ｖ(t)に発話者の音声がないと判断したときには、切替スイッチ８を雑音適応部３側へ切り替え、発話者の音声が有ると判断すると、話者適応算出部４あるいは認識処理部９側へ切替え制御するようにしてもよい。要は、収音信号ｖ(t)に発話者の音声が含まれている区間であるか否かに応じて、切替スイッチ８を上述の如く切り替える。
【００３８】
また、その話者適応処理の際、話者が発話を開始すると、その発話期間内に話者適応パラメータ算出部４側に切り替わり、音声分析部６で生成される特徴ベクトル系列Ｖ(n)を話者適応パラメータ算出部４へ送出する。
【００３９】
また、話者適応処理が完了した後、音声認識処理が開始された場合も切替スイッチ８は同様の動作を行うが、前述のように、信号は矢印付きの破線で示す経路を通らず、矢印付きの実線で示す経路を通ることとなる。
【００４０】
話者が発話を開始する前の背景雑音のみが収音される期間では、切替スイッチ８は雑音適応部３側に切り替わり、背景雑音の特徴ベクトルＮ(n)を雑音適応部３へ送出する。
【００４１】
マイクロフォン７が発話音声を収音する発話期間になると、切替スイッチ８は、話者適応処理時には話者適応パラメータ算出部４側に、認識処理時には、認識処理部９側に切り替わり、その発話期間における特徴ベクトル系列Ｖ(n)を話者適応パラメータ算出部４あるいは認識処理部９へ送出する。
【００４２】
初期音声モデル記憶部１は、読出し専用の半導体メモリ（ＲＯＭ）や、着脱自在に設けられたスマートメディアやコンパクトフラッシュメモリ等で形成された所謂データベースであり、予め、標準的な話者の音声を学習することによって生成された音素等サブワード単位の初期音声モデルＭcが記憶されている。
【００４３】
話者適応モデル記憶部２は、再記憶が可能な非破壊形の半導体メモリ等で形成されており、後述の話者適応の処理に際して、まず、初期音声モデル記憶部１に記憶されている初期音声モデルＭcを複写して記憶する。
【００４４】
そして後述する如く、話者適応パラメータ算出部４と音声モデル更新部５によってＨＭＭは話者適応され、話者適応モデルＭc”にて更新されることから、初期音声モデルＭcを話者適応モデルＭc”に置き換えて（更新して）記憶するようになっている。
【００４５】
雑音適応部３は、話者適応の処理に際して、話者適応モデル記憶部２に記憶されている音素等サブワード単位での全ての初期音声モデルＭcに雑音適応を施すことにより、全ての初期音声モデルＭcに対応した雑音適応モデルＭc’を生成し、同図中の矢印付き点線の経路を通じて、話者適応パラメータ算出部４へ送出する。
【００４６】
また雑音適応部３は、音声認識時において、上記話者適応の処理により話者適応モデル記憶部２に更新記憶されることとなった音声モデル（すなわち、話者適応モデルＭc”）に対して雑音適応を施し、その雑音適応した話者適応モデルＭregを、同図中の矢印付き実線で示す経路を通じて認識処理部９へ送出する。
【００４７】
すなわち、前者の話者適応処理の際には、話者適応時に話者が未だ発話していない非発話期間に、その発話環境で生じる背景雑音をマイクロフォン７が収音すると、音響分析部６がその収音信号ｖ(t)より所定フレーム期間毎の特徴ベクトル系列Ｖ(n)を生成し、更に切替スイッチ８が雑音適応部３側に切り替わることで、その特徴ベクトル系列Ｖ(n)を背景雑音の特徴ベクトル系列Ｎ(n)として雑音適応部３へ送出する。
【００４８】
そして、雑音適応部３は、その背景雑音特徴ベクトル系列Ｎ(n)を用いて、全ての初期音声モデルＭcから、ＨＭＭ合成手法やヤコビ適応手法等の雑音適応処理により、雑音適応モデルＭc’を生成し、話者適応パラメータ算出部４へ送出する。
【００４９】
また、後者の音声認識処理の際には、音声認識時に話者が未だ発話していない非発話期間に、その発話環境で生じる背景雑音をマイクロフォン７が収音し、音響分析部６がその収音信号ｖ(t)より所定フレーム期間毎の特徴ベクトル系列Ｖ(n)を生成し、更に切替スイッチ８が雑音適応部３側に切り替わることで、その特徴ベクトル系列Ｖ(n)を背景雑音の特徴ベクトル系列Ｎ(n)として雑音適応部３へ送出する。
【００５０】
そして、雑音適応部３は、その背景雑音特徴ベクトル系列Ｎ(n)を用いて、更新記憶されることとなった音声モデル（すなわち、話者適応モデルＭc”）に対して雑音適応を施し、雑音適応した話者適応モデルＭregを認識処理部９へ送出する。
【００５１】
ここで、雑音適応部３が話者適応時にＨＭＭ合成法を用いて、音声認識率に大きく影響を与える話者適応モデルＭc”の各分布の平均ベクトルμcを雑音適応する場合を説明する。
【００５２】
まず、雑音適応部３は、背景雑音の特徴ベクトル系列Ｎ(n)より、背景雑音モデルＮbを求める。
【００５３】
ここで説明の便宜上、背景雑音は定常と仮定し、背景雑音モデルＮbは１状態１混合モデルとし、更に背景雑音モデルＮbの平均ベクトルをμNとして説明すると、平均ベクトルμNは背景雑音の特徴ベクトル系列Ｎ(n)をフレーム数で平均することで求める。
【００５４】
更に、初期音声モデルＭcの分布ｍの平均ベクトルμcmと背景雑音モデルＮbの平均ベクトルμNを合成することで、次式（１）で表される、合成後の雑音適応した分布ｍの平均ベクトルμcm’を求める。
【００５５】
【数１】

【００５６】
ここで、ＩＤＣＴ〔〕は逆離散コサイン変換、ｌｏｇ〔〕は対数変換、ｅｘｐ〔〕は指数変換、ＤＣＴ〔〕は離散コサイン変換、ｋはＳＮ比より求まる混合比である。
【００５７】
これを初期音声モデルＭcの全ての分布に対して求める。これにより、初期音声モデルＭcに話者適応時の発話環境下での背景雑音を重畳させた形の雑音適応モデルＭc’を求め、話者適応パラメータ算出部４へ送出する。
【００５８】
なお、ここでは、雑音モデルを１状態１混合としたが、２状態以上あるいは２混合以上の場合は、初期音声モデルＭcの１つの分布に対し、対応する雑音適応モデルＭc’の分布が複数求まることになる。また、共分散行列を考慮する場合も雑音適応モデルＭc’を求めることが可能である。
【００５９】
また、雑音適応手法としてＨＭＭ合成法を用いる場合を説明したが、本発明では、ヤコビ適応手法その他の、初期音声モデルＭcに発話時の背景雑音を重畳した状態の雑音適応モデルＭc’を求める雑音適応手法を用いることも可能である。
【００６０】
話者適応パラメータ算出部４は、話者適応処理に際して、雑音適応部３からの雑音適応モデルＭc’と、音響分析部６から切替スイッチ８を介して供給される発話音声の特徴ベクトル系列Ｖ(n)とを入力し、発話音声の特徴を有する話者適応パラメータＰを生成して出力する。
【００６１】
より具体的に述べると、話者適応処理に際して話者が発話を開始すると、その発話期間に切替スイッチ８が話者適応パラメータ算出部４側に切り替わり、背景雑音の重畳した発話音声の特徴ベクトル系列Ｖ(n)が音声分析部６から切替スイッチ８を介して話者適応パラメータ算出部４に供給される。
【００６２】
こうして背景雑音の重畳した音声（背景雑音重畳音声）の特徴ベクトル系列Ｖ(n)とそれと同じ背景雑音で雑音適応された雑音適応モデルＭc’が供給されると、話者適応パラメータ算出部４は、それらの特徴ベクトル系列Ｖ(n)と雑音適応モデルＭc’を用いて話者適応演算処理を行い、雑音適応モデルＭc’を話者適応するための話者適応パラメータＰを生成する。
【００６３】
ここでは話者適応演算処理としてＭＬＬＲ（Maxmum Likelihood Linear Regression）を用いて、認識率に大きく影響する話者適応モデルＭcの各分布の平均ベクトルを更新する場合を説明する。
【００６４】
発話内容が既知の発話音声の特徴ベクトル系列Ｖ(n)と雑音適応モデルＭc’とを用いてＭＬＬＲ処理を行い、雑音適応モデルＭc’の分布ｍの平均ベクトルμcm’を話者適応するための話者適応パラメータＰとして、変換行列Ｗm’とオフセットベクトルｂm’を求める。
【００６５】
ここで、変換行列Ｗm’とオフセットベクトルｂm’は複数の分布で共有させるので、いくつかの分布では同じ値の変換行列Ｗm’とオフセットベクトルｂm’を使用する。
【００６６】
また、変換行列Ｗm’とオフセットベクトルｂm’を共有させる分布の選択は、全平均ベクトルをクラスタリングすることにより、雑音適応前の分布を元に予め計算しておく。
【００６７】
また、全ての分布で変換行列Ｗm’とオフセットベクトルｂm’を共有する場合は、全分布に共通の１種類の変換行列Ｗm’とオフセットベクトルｂm’を求める。
【００６８】
また、上述した雑音適応３で用いた雑音モデルが１状態１混合でない場合は、雑音適応モデルＭc’の複数分布が初期音声モデルＭcの１つの分布に対応することになるが、この場合は初期音声モデルＭcの１つの分布に対応する全ての雑音適応モデルＭc’で、変換行列Ｗm’とオフセットベクトルｂm’を共有する。
【００６９】
なお、ＭＬＬＲでは、一般に数発話分の発話音声データを用いて計算を行うが、話者適応パラメータＰの分布間の共有情報を全発話で共通に用い、発話音声データに対応する音響モデルは発話毎に雑音適応された雑音適応モデルＭc’を用いて計算する。
【００７０】
このように、話者適応手法としてＭＬＬＲを用いる場合、話者適応パラメータ算出部４では、発話内容が既知の発話音声の特徴ベクトル系列Ｖ(n)を用いて、音響モデルＭc’の各分布の平均ベクトルを更新するための話者適応パラメータＰとして、変換行列Ｗm’とオフセットベクトルｂm’を求める。
【００７１】
なお、上述したように、ＭＬＬＲで変換行列Ｗm’とオフセットベクトルｂm’を算出する場合を述べたが、ＭＡＰ（Maxmum A Posteriori）推定法を適用することも可能である。
【００７２】
このＭＡＰ推定法を採用して、平均ベクトルμcm’を適応するためのパラメータＰを求めるには、雑音適応モデルＭc’の平均ベクトルをＭＡＰ推定法により話者適応させ、そこから話者適応パラメータ算出部４で、目的の話者適応パラメータＰに変換する。
【００７３】
このＭＡＰ推定法では、発話内容既知の発話音声の特徴ベクトル系列Ｖ(n)の各フレームの特徴ベクトルと、雑音適応モデルＭc’の各分布との対応関係をビタビ整合等により算出する。
【００７４】
そして、雑音適応モデルＭc’の分布ｍに対応するフレームの特徴ベクトルを集め、それをフレーム数で平均することで平均特徴ベクトルＶm~を求める。
【００７５】
このときの、分布ｍに対応するフレームの特徴ベクトルのフレーム数（個数）をｎm、分布ｍの重み係数をτm’、分布ｍの平均ベクトルμcm’を話者適応した更新平均ベクトルをμcm’＾とすると、その更新平均ベクトルμcm’＾を次式(2)で表される関係に従って算出する
【００７６】
【数２】

【００７７】
また、重み係数τm’も次式(3)で表される関係に従って、発話毎に更新する。
【００７８】
【数３】

【００７９】
そして、更新平均ベクトルμcm’＾で平均ベクトルμcm’を置き換え、更に重み係数もτm’＾でτm’を置き換えることで、発話がなされる度に平均ベクトルμcm’と重み係数τm’を夫々更新平均ベクトルμcm’＾と重み係数τm’＾で順次に更新していく。
【００８０】
ここで、話者適応パラメータＰを話者適応後のモデルと話者適応前のモデルとの差ベクトルと考えると、分布ｍの話者適応パラメータＰである差ベクトルｄm’は、次式(4)で表される。
【００８１】
【数４】

【００８２】
この式(4)によると、更新平均ベクトルμcm’＾を算出することなく差ベクトルｄm’を求めることができる。
【００８３】
そして、差ベクトルｄm’を後述の音声モデル更新部５に転送し、重み係数τm’は上記式(3)により更新し、話者適応パラメータ算出部４に保持しておく。なお、重み係数τm’の初期値は任意の値に選ぶことができる。
【００８４】
また、上述した雑音適応３で用いた雑音適応モデルＭc’が１状態１混合でない場合は、雑音適応モデルＭc’の複数分布が初期音声モデルＭcの１つの分布に対応することになる。
【００８５】
例えば初期音声モデルＭcの分布ｍが雑音適応モデルＭc’の分布ｍ1，ｍ2，……，ｍkに対応したとする。そして雑音適応モデルの分布ｍ1に対応する、上記式(4)より求まる話者適応パラメータをｄm1’、重み係数をτm1’とすると、初期音声モデルＭcの分布ｍを更新するための話者適応パラメータｄm’を、次式(5)で表される加算平均処理にて求める。
【００８６】
【数５】

【００８７】
また、上記式(5)に重み係数τm1’で重み付けした次式(6)で表される演算によって、ｋ個のパラメータを統合して話者適応パラメータｄm’を算出してもよい。
【００８８】
【数６】

【００８９】
以上、話者適応手法としてＭＬＬＲとＭＡＰ推定法を用いる場合の話者適応パラメータ算出部４の動作を説明した。
【００９０】
なお、話者適応手法として、他の手法を講じることもできる。
【００９１】
ＭＬＬＲの変換行列Ｗm’とオフセットベクトルｂm’のように、話者適応処理により話者適応パラメータＰが求まる話者適応手法を用いる場合は、それらの話者適応パラメータＰを用いることとし、また、ＭＡＰ推定法のように話者適応パラメータが直接使用できないような場合には、雑音適応モデルＭc’に話者適応を行った話者雑音適応モデルを考え、その雑音適応モデルＭc’と雑音適応モデルＭc’の差を話者適応パラメータＰとして用いることで、様々な話者適応手法に対応することが可能である。
【００９２】
また、ここでは平均ベクトルを適応する場合を例示したが、共分散行列を適応する場合にも応用可能である。
【００９３】
また、多くの話者適応手法では発話内容（発話された単語や文が何であったのか）を知る必要がある。この場合は、音声認識処理を行う前に話者適応処理のみを行い、その際、発話すべき内容は予め定めておき、定められた内容を話者に提示し、その提示に従って発話してもらうようにすることで対処する。
【００９４】
話者適応では、話者の個人性への適応と共に発話環境への適応も行われる。
【００９５】
背景雑音の無い環境でなされた発話を用いて、背景雑音の無い環境で収録された音声データベースを用いて学習された不特定話者モデルである初期音声モデルＭcを話者適応する場合は、背景雑音の影響を受けないので話者の個人性への適応のみを行う。
【００９６】
しかし、話者適応に用いる発話が背景雑音のある環境下でなされ、これを用いて上述の初期音声モデルＭcを話者適応すると、話者の個人性への適応と適応発話時の背景雑音への適応が同時になされることになる。
【００９７】
このため、一般には話者適応後の話者適応モデルを用いて音声認識を行うと、音声認識時の発話環境が適応発話時と同じ雑音環境であれば高い認識率を得ることができるが、認識を行う発話環境が適応発話時と異なる場合必ずしも高い認識率を得られない可能性がある。
【００９８】
本発明では、かかる問題に対処すべく、話者適応処理を行う前に上述のように雑音適応部３で雑音適応を行うことにより、上述初期音声モデルＭcを適応時の発話音声と同じ背景雑音環境に適応させた雑音適応モデルＭc’を生成し、そして、話者適応パラメータ算出部４において、その雑音適応モデルＭc’を用いて話者適応処理を行い、話者適応パラメータＰを算出する。
【００９９】
尚、雑音適応モデルＭc’は話者適応処理を行う前に、既に適応用発話環境と同じ背景雑音に適応しているため、話者適応処理により求まる話者適応パラメータＰからは背景雑音適応項の影響が軽減され、本来の目的である話者の個人性への適応項を多く含むものとなる。
【０１００】
この話者適応パラメータＰを用いて、後述する音声モデル更新部５が初期音声モデルを更新することで、適応発話時の背景雑音の影響の少ない話者適応モデルＭc”を生成する。
【０１０１】
音声モデル更新部５は、話者適応モデル記憶部２に記憶されている初期音声モデルＭcを、話者適応パラメータ算出部４の出力する話者適応パラメータＰを用いて話者適応モデルＭc”に変換する。
【０１０２】
なお、上述のＭＬＬＲとＭＡＰ推定法を採用し、初期音声モデルＭcの分布ｍの平均ベクトルμcmを更新する場合の音声モデル更新部５の機能を説明することとする。
【０１０３】
上述のように、話者適応パラメータ算出部４で話者適応処理としてＭＬＬＲを用い、話者適応パラメータＰとして変換行列Ｗm’とオフセットベクトルｂm’を用いる場合、話者適応更新後の話者適応モデルＭc”の分布ｍの平均ベクトルμcm”は、次式（7）の関係から求められる。
【０１０４】
【数７】

【０１０５】
また、話者適応パラメータ算出部４で話者適応処理としてＭＡＰ推定法を用い、話者適応パラメータＰとして差分ベクトルｄm’を用いる場合、平均ベクトルμcm”は、次式（8）の関係から求められる。
【０１０６】
【数８】

【０１０７】
いずれの場合も、平均ベクトルμcm”は上述のように、適応発話時の背景雑音の影響が少なく話者の個人性への適応がなされた平均ベクトルとなる。
【０１０８】
そして、上記のように音声モデル更新部５が話者適応モデル記憶部２に記憶された音声モデルＭcを、話者適応パラメータ生成部４の出力する話者適応パラメータＰを用いて更新し、その更新した話者適応モデルＭc”を話者適応モデル記憶部２に更新記憶させる。すなわち、音声認識に際して、話者適応モデルＭc”を音声モデルＭcとして使用すべく、更新記憶させる。
【０１０９】
認識処理部９は、音声認識処理を行うために設けられている。すなわち、音声認識の際、雑音適応部３が、話者適応音声記憶部２に更新記憶されることとなった話者適応モデルＭc（すなわち、話者適応モデルＭc”）に対して、認識発話雑音環境下での背景雑音の特徴ベクトル系列Ｎ(n)で雑音適応を施すことにより、雑音適応を施した話者適応モデルＭreg生成し、その話者適応モデルＭregを認識処理部９に供給する。
【０１１０】
そして、認識処理部９は、その雑音適応された話者適応モデルＭregを用いて構成した系列と、音響分析部６側から供給される認識すべき発話音声の特徴ベクトル系列Ｖ(n)とその認識候補単語や文のモデルとを照合して、最も大きな尤度となる話者適応モデルＭregを用いて構成した系列を認識結果として出力する。
【０１１１】
ここで、音声認識時に使用される上記の雑音適応された話者適応モデルＭregは、上述のように話者の個人性への適応がなされ、且つ認識発話時の背景雑音への適応もなされたものとなる。
【０１１２】
このため、音声認識時の背景雑音環境と適応発話時の背景雑音環境が異なっていても、音声認識時には高い認識性能を得ることが可能である。
【０１１３】
次に、図２のフローチャートを参照して本音声認識装置の動作を説明する。なお、図２は、話者適応時の動作を示している。
【０１１４】
図２において話者適応の処理を開始すると、まずステップＳ１００において、初期音声モデル記憶部１に記憶されている初期音声モデルＭcを話者適応モデル記憶部２に複写した後、雑音適応部３がその初期音声モデルＭcに雑音適応を施すことにより、雑音適応モデルＭc’を生成する。
【０１１５】
すなわち、話者適応時の非発話期間に収音される背景雑音の特徴ベクトル系列Ｎ(n)が音響分析部６から雑音適応部３に供給され、雑音適応部３がその特徴ベクトル系列Ｎ(n)によって初期音声モデルＭcに雑音適応を施すことにより、雑音適応モデルＭc’を生成し、話者適応パラメータ算出部４へ送出する。
【０１１６】
次に、ステップＳ１０２において、話者が発話を開始すると切替スイッチ８が話者適応パラメータ算出部４側に切り替わり、その発話期間内に、背景雑音の重畳した発話音声（背景雑音重畳音声）の特徴ベクトル系列Ｖ(n)が音声分析部６から話者適応パラメータ算出部４に供給される。
【０１１７】
そして、話者適応パラメータ算出部４がこれらの特徴ベクトル系列Ｖ(n)と雑音適応モデルＭc’によって、話者適応パラメータＰを生成する。
【０１１８】
つまり、既述したＭＬＬＲやＭＡＰ推定法を適応して話者適応パラメータＰを求める場合には、変換行列Ｗm’とオフセットベクトルｂm’を話者適応パラメータＰとして生成する。
【０１１９】
次に、ステップＳ１０４において、音声モデル更新部５が、話者適応モデル記憶部２に記憶されている初期音声モデルＭcと話者適応パラメータＰとを用いて、モデル更新演算を行うことで、話者適応モデルＭc”を求める。
【０１２０】
次に、ステップＳ１０６において、音声モデル更新部５が、話者適応モデル記憶部２に記憶されている初期音声モデルＭcに代えて、話者適応モデルＭc”を更新記憶させた後、話者適応の処理を終了する。
【０１２１】
そして、この話者適応処理の後、認識処理部９が音声認識の処理を行う際には、話者適応モデル記憶部２に記憶された話者適応モデルＭc”を更新された初期音声モデルＭcとして利用することとなり、その更新された初期音声モデルＭc（別言うすれば、話者適応モデルＭc”）を雑音適応部３が雑音適応することで、雑音適応を施した話者適応モデルＭregを生成して音声認識部９に供給し、更に、音声認識部９がその話者適応モデルＭregより構成される系列と音響分析部６からの話者音声の特徴ベクトル系列Ｖ(n)とを照合する。そして、最も高い尤度の得られる話者適応モデルＭregより構成される話者適応系列を認識結果として出力する。
【０１２２】
このように本実施形態の音声認識装置によれば、話者適応の処理を行う前に雑音適応の処理を行うので、その話者適応処理に際して求まる話者適応パラメータに対して、話者適応時の背景雑音の悪影響を低減することができる。
【０１２３】
そして、この背景雑音の悪影響が低減された話者適応パラメータを用いて話者適応モデルＭc”を生成するので、話者適応本来の目的すなわち話者適応効果の高い話者適応モデルＭc”を生成することが可能である。
【０１２４】
さらに音声認識時には、更新記憶されている話者適応モデルＭc”を、その認識発話時の背景雑音で雑音適応して用いる。
【０１２５】
このため、話者の個人性と発話時の背景雑音の双方に適応したモデルを用いて認識を行うことが可能であり、その結果高い認識性能が得られる。
（第２の実施の形態）
次に、本発明の第２の実施形態を図３及び図４を参照して説明する。尚、図３は本実施形態の音声認識装置の構成を示す図であり、図１と同一又は相当する部分を同一符号で示している。また、本実施形態は、音声認識の処理中に話者適応を行う。そこで、図３中にし示す信号の通過経路を全て矢印付きの実線で示している。
【０１２６】
図３において、本音声認識装置と第１の実施形態の音声認識装置との差異を述べると、第１の実施形態の音声認識装置では、話者適応を行った後に音声認識を行うのに対し、本実施形態の音声認識装置は、音声認識中に話者適応の処理を同時に行うようになっている。
【０１２７】
更に、雑音適応部３から出力される雑音適応モデルＭc’は、話者適応を行うべく話者適応パラメータ算出部４へ送出される他、話者適応モデル記憶部２の内容が話者適応モデルＭc”で更新されると、その雑音適応モデルＭc’は、図１に示した雑音適応された話者適応モデルＭregとして認識処理部９へ送出される。
【０１２８】
したがって、図３に示す雑音適応モデルＭc’は、雑音適応部３から話者適応パラメータ算出部４及び認識処理部９へ出力されるが、話者適応パラメータ算出部４へは話者適応の処理のための雑音適応モデルＭc’として、認識処理部９へは音声認識の処理のための雑音適応された話者適応モデルＭregとして出力される。
【０１２９】
認識処理部９は、既述した話者適応モデルＭc”を初期音声モデルＭcとして雑音適応部３が雑音適応モデルＭc’（すなわち、雑音適応された話者適応モデルＭreg）から構成される系列と、認識すべき発話音声の特徴ベクトル系列Ｖ(n)とを照合して、最も大きな尤度の得られる話者適応モデルＭregから構成される系列を認識結果として出力する。更に、その尤度から認識結果と発話音声との類似性を示すスコアデータＳＣＲを生成して認識結果と共に出力する。
【０１３０】
つまり、上記の照合を行った結果、高い尤度が得られた場合には、音声認識結果の信頼度が高いことを示すスコアデータＳＣＲと上述の認識結果とを出力し、高い尤度が得られなかった場合には、音声認識結果の信頼度が低いことを示すスコアデータＳＣＲと上述の認識結果とを出力して、話者適応パラメータ算出部４に供給する。
【０１３１】
そして、話者適応パラメータ算出部４は、音声認識結果の信頼度が高いことを示すスコアデータＳＣＲと上述の認識結果とが供給されると、発話音声を正しく認識したと判断して、その音声認識の対象となっている発話音声の特徴ベクトル系列Ｖ(n)と、雑音適応部３からの雑音適応モデルＭc’とから話者適応用の話者適応パラメータＰを生成する。
【０１３２】
更に音声モデル更新部５が、その話者適応パラメータＰと、話者適応モデル記憶部２に記憶されている初期音声モデルＭcとを用いて話者適応モデルＭc”を生成し、その話者適応モデルＭc”を話者適応モデル記憶部２に供給することで、音声モデルＭcに代えて更新記憶させる。
【０１３３】
したがって、本音声認識装置は、音声認識の処理をすればするほど、話者適応モデル記憶部２に記憶されている初期音声モデルＭcの話者の個人性への適応の度合いを次第に高めていくようになっている。
【０１３４】
次に、本音声認識装置の動作を図４に示すフローチャートを参照して説明する。
【０１３５】
図４において音声認識処理を開始すると、まずステップＳ２００において、雑音適応部３が、話者適応モデル記憶部２に記憶されている初期音声モデルＭcに雑音適応を施すことにより、雑音適応モデルＭc’を生成する。
【０１３６】
すなわち、話者が未だ発話を開始する前の非発話期間に収音される背景雑音の特徴ベクトル系列Ｎ(n)が音響分析部６から雑音適応部３に供給され、雑音適応部３がその背景雑音の特徴ベクトル系列Ｎ(n)によって初期音声モデルＭcを雑音適応することにより、雑音適応モデルＭc’を生成する。
【０１３７】
次に、ステップＳ２０２において、話者が発話を開始すると、切替スイッチ８が認識処理部９側に切替わり、その発話期間に発話される発話音声の特徴ベクトル系列Ｖ(n)が音響分析部６から認識処理部９に供給されるようになる。
【０１３８】
そして、認識処理部９が、雑音適応部３で生成された雑音適応モデルＭc’を用いて認識候補単語モデルや認識候補文モデルを生成する。
【０１３９】
そして更に認識処理部９は、次のステップＳ２０４において、認識候補単語モデルや認識候補文モデルと特徴ベクトル系列Ｖ(n)とを照合することにより、音声認識を行い、認識結果とスコアデータＳＣＲを出力する。
【０１４０】
次にステップＳ２０６において、話者適応パラメータ算出部４が、スコアデータＳＣＲが高スコアーとなっているか判断し、高スコアーでない場合（「ＮＯ」の場合）には認識結果の信頼度が低いと判断して後述のステップＳ２１４に移行し、高スコアーのとき（「ＹＥＳ」の場合）には、ステップＳ２０８へ移行する。
【０１４１】
ステップＳ２０８では、話者適応パラメータ算出部４は、現在認識対象となっている発話音声の特徴ベクトル系列Ｖ(n)と雑音適応モデルＭc’と認識結果によって、話者適応のための話者適応パラメータＰを生成する。
【０１４２】
次に、ステップＳ２１０において、音声モデル更新部５が、話者適応モデル記憶部２に記憶されている初期音声モデルＭcと話者適応パラメータＰとを用いて話者適応処理を行うことで、話者適応モデルＭc”を求める。
【０１４３】
更にステップＳ２１２において、音声モデル更新部５が、生成した話者適応モデルＭc”を話者適応モデル記憶部２に供給し、音声モデルＭcに置き換えて更新記憶させた後、処理を終了する。
【０１４４】
このように、本実施形態の音声認識装置によれば、音声認識と話者適応を同時進行的に行い、話者の個人性への適応の度合いの高い話者適応モデルＭc”を生成して、話者適応モデル記憶部２に更新記憶させる。
【０１４５】
このため、異なった単語や文がたくさん発話され、それらの発話音声を認識処理部９が累積的に音声認識していくにしたがって、話者適応モデル記憶部２に記憶されている初期音声モデルＭcは、話者の個人性への適応の度合いの高い話者適応モデルＭc”へと更新されていくことになり、音声認識性能の向上を図ることが可能となっている。
【０１４６】
また、高スコアーが得られた場合に、話者適応モデルＭc”を生成して初期音声モデルＭcを更新するので、発話環境の状態等に応じて適切な話者適応を行うことができ、音声認識性能を低下させるような不適切な話者適応を未然に防止し、ひいては音声認識性能の向上を実現することができる。
【０１４７】
また、音声認識と話者適応を同時進行的に行う本実施形態の音声認識装置においても、既述した第１の実施形態と同様、話者適応部で話者適応の処理を行う前に、雑音適応部３で雑音適応の処理が行われるので、その話者適応処理に際して求まる話者適応パラメータＰに対して、話者適応時の背景雑音の悪影響を低減することができるという優れた効果が得られる。
【０１４８】
【発明の効果】
以上説明したように本発明の音声認識装置及び音声認識方法によれば、初期音声モデルに対し雑音適応を施すことで雑音適応モデルを生成し、この雑音適応モデルに対して話者適応演算を施すことで話者適応パラメータを求め、雑音適応前の初期音声モデルに対しこの話者適応パラメータで話者適応施すことで話者適応モデルを生成することとしたので、話者適応時の背景雑音の悪影響を低減し話者適応本来の目的である話者の個人性への適応効果の高い話者適応モデルを生成することができる。
【０１４９】
また、音声認識時に、上記の話者適応した話者適応モデルに雑音適応を施して雑音適応した話者適応モデルを生成し、その雑音適応話者適応モデルを用いて音声認識の処理を行うので、認識発話時の背景雑音と話者の個人性双方に適応した雑音話者適応モデルを用いて音声認識を行うことができ、様々な発話雑音環境において高い認識性能を得ることができる。
【図面の簡単な説明】
【図１】第１の実施形態の音声認識装置の構成を示す図である。
【図２】第１の実施形態の音声認識装置の動作を示すフローチャートである。
【図３】第２の実施形態の音声認識装置の構成を示す図である。
【図４】第２の実施形態の音声認識装置の動作を示すフローチャートである。
【符号の説明】
１…初期音声モデル記憶部
２…話者適応モデル記憶部
３…雑音適応部
４…話者適応パラメータ生成部
５…音声モデル更新部
６…音響分析部
７…マイクロフォン
８…切替スイッチ
９…認識処理部

Claims

初期音声モデルを有する記憶手段と、
前記記憶手段の初期音声モデルに話者適応時の背景雑音によって雑音適応を施すことで雑音適応モデルを生成する雑音適応手段と、
前記雑音適応手段で生成された前記雑音適応モデルに対し、前記話者適応時に発話された発話音声によって話者適応演算を行い、前記雑音適応モデルを雑音重畳話者適応モデルに変換するための話者適応パラメータを算出する話者適応パラメータ算出手段と、
前記記憶手段の初期音声モデルに前記話者適応パラメータで話者適応を施すことにより話者適応モデルを生成し、当該話者適応モデルを前記初期音声モデルに代えて前記記憶手段に更新記憶させる音声モデル更新手段と、
を備えることを特徴とする音声認識装置。
音声認識時に音声認識処理を行う認識処理手段を備え、
更に前記雑音適応手段は、前記音声認識時の非発話期間における背景雑音によって、前記記憶手段に更新記憶された前記話者適応モデルに対し雑音適応を施すことで雑音適応を施した話者適応モデルを生成し、当該雑音適応を施した話者適応モデルを、発話音声を音声認識するための音響モデルとして前記音声認識手段に供給することを特徴とする請求項１に記載の音声認識装置。
初期音声モデルを有する記憶手段と、
音声認識時の非発話期間における背景雑音により前記記憶手段の初期音声モデルに雑音適応を施すことで雑音適応モデルを生成する雑音適応手段と、
前記音声認識時の発話期間に発話された音声認識すべき発話音声と、前記雑音適応手段で生成された前記雑音適応モデルとを照合して音声認識を行う認識処理手段と、
前記雑音適応手段で生成された前記雑音適応モデルに対し前記音声認識すべき発話音声によって話者適応演算を行い、前記雑音適応モデルを雑音重畳話者適応モデルに変換するための話者適応パラメータを算出する話者適応パラメータ算出手段と、
前記記憶手段の初期音声モデルに前記話者適応パラメータで話者適応を施すことにより話者適応モデルを生成し、当該話者適応モデルを前記初期音声モデルに代えて前記記憶手段に更新記憶させる音声モデル更新手段と、
を備えることを特徴とする音声認識装置。
前記話者適応パラメータ算出手段と音声モデル更新手段は、前記認識処理手段の認識結果の信頼度が高い場合に、前記話者適応モデルを生成して前記初期音声モデルに代えて前記記憶手段に更新記憶させることを特徴とする請求項３に記載の音声認識装置。
記憶手段に記憶されている初期音声モデルに話者適応時の背景雑音によって雑音適応を施すことで雑音適応モデルを生成する雑音適応処理工程と、
前記雑音適応処理工程で生成された前記雑音適応モデルに対し、前記話者適応時に発話された発話音声によって話者適応演算を行い、前記雑音適応モデルを雑音重畳話者適応モデルに変換するための話者適応パラメータを算出する話者適応パラメータ算出処理工程と、
前記記憶手段の初期音声モデルに前記話者適応パラメータで話者適応を施すことにより話者適応モデルを生成し、当該話者適応モデルを前記初期音声モデルに代えて前記記憶手段に更新記憶させる音声モデル更新処理工程と、
を備えることを特徴とする音声認識方法。
更に前記雑音適応処理工程では、音声認識時の非発話期間における背景雑音によって、前記記憶手段に更新記憶された前記話者適応モデルに対し雑音適応を施すことで雑音適応を施した話者適応モデルを生成し、
前記雑音適応を施した話者適応モデルと、前記音声認識時の発話期間における音声認識すべき発話音声とを照合することにより音声認識を行う音声認識処理工程と、
を備えることを特徴とする請求項５に記載の音声認識方法。
音声認識時の非発話期間における背景雑音により、記憶手段に記憶されている初期音声モデルに雑音適応を施すことで雑音適応モデルを生成する雑音適応処理工程と、
前記音声認識時の発話期間に発話される音声認識すべき発話音声と、前記雑音適応処理工程で生成された前記雑音適応モデルとを照合して音声認識を行う認識処理工程と、
前記雑音適応処理工程で生成された前記雑音適応モデルに対し前記音声認識すべき発話音声によって話者適応演算を行い、前記雑音適応モデルを雑音重畳話者適応モデルに変換するための話者適応パラメータを算出する話者適応パラメータ算出処理工程と、
前記記憶手段の初期音声モデルに前記話者適応パラメータで話者適応を施すことにより話者適応モデルを生成し、当該話者適応モデルを前記初期音声モデルに代えて前記記憶手段に更新記憶させる音声モデル更新処理工程と、
を備えることを特徴とする音声認識装置。
前記話者適応パラメータ算出処理工程と音声モデル更新処理工程は、前記認識処理工程の認識結果の信頼度が高い場合に、前記話者適応モデルを生成して前記初期音声モデルに代えて前記記憶手段に更新記憶させることを特徴とする請求項７に記載の音声認識方法。