JP4577543B2

JP4577543B2 - モデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置

Info

Publication number: JP4577543B2
Application number: JP2000353790A
Authority: JP
Inventors: 洪長中塚
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-11-21
Filing date: 2000-11-21
Publication date: 2010-11-10
Anticipated expiration: 2020-11-21
Also published as: JP2002156992A

Description

【０００１】
【発明の属する技術分野】
本発明は、モデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置に関し、特に、例えば、ノイズに起因する音声認識性能の劣化を防止することができるようにするモデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置に関する。
【０００２】
【従来の技術】
音声認識装置においては、例えば、音声認識対象の音声から、その特徴ベクトルが抽出され、その特徴ベクトルの系列が、音声の音響モデルから観測される尤度を計算すること等によって、音声が認識される。
【０００３】
【発明が解決しようとする課題】
ところで、音声認識装置においては、一般に、ユーザの発話が行われている区間である音声区間を特定し、その音声区間を対象に、音声認識が行われる。
【０００４】
しかしながら、ユーザの音声は、音声区間の全体にわたって存在するとは限らない。即ち、音声区間には、一般に、息継ぎ等によって、ユーザの音声が存在しない部分がある。
【０００５】
一方、音声認識装置が使用される環境においては、認識対象の音声以外の音、即ち、ノイズが存在する。
【０００６】
具体的には、例えば、音声を入力するマイク（マイクロフォン）を叩く音や、場所によっては、ドアを開閉する音、ユーザの咳の音、音声認識しようとしている音声のユーザ以外のユーザの発話等が、ノイズとして存在する。また、例えば、音声認識装置が、エンターテイメント用のロボット等に適用された場合には、そのロボットに各種の動作を行わせるためのアクチュエータの音が、ノイズとして存在し、さらに、そのロボットが、デモンストレーション会場で公表されるときには、観衆の話し声や拍手等が、ノイズとして存在する。
【０００７】
従って、音声区間において、ユーザの音声が存在しない部分には、上述したようなノイズのみが存在することとなるが、音声認識装置では、そのノイズのみの部分についても、ユーザの音声が存在するものとして、音響モデルを用いて、音声認識が行われるため、認識性能が劣化することがあった。即ち、特に、音声区間の開始から、実際に、ユーザの発話が開始されるまでの時間が長くなると、認識性能が低下する課題があった。
【０００８】
そこで、ユーザの音声が存在しない状態、即ち、音声認識装置が使用される環境においてノイズが存在する場合には、そのノイズのみが存在する状態としての無音を表す音響モデルである無音モデルを導入し、音声区間の中で、ユーザの音声が存在しない部分（以下、適宜、無音部分という）については、その無音モデルで対処する方法がある。
【０００９】
しかしながら、音声認識装置が使用される環境におけるノイズは、一定であるとは限らず、むしろ時々刻々と変化することが多いため、あらかじめ作成しておいた無音モデルを、そのまま用いるのでは、音声区間中の無音部分について、十分に対処することができない場合がある。
【００１０】
そこで、本件出願人は、例えば、特開2000-259198号公報（特願平11-57467号）において、音声区間の直前の区間における音声（ノイズ）に基づいて、無音モデルの適応を行う方法について、先に提案している。
【００１１】
しかしながら、先に提案した方法では、現在の音声認識の対象となっている音声の音声区間（以下、適宜、注目音声区間という）の直前の区間における音声にのみ基づいて、無音モデルの適応を行うため、例えば、注目音声区間の直前において、ユーザが、音声の入力に用いるマイクを叩く等した場合や、観衆が拍手を行った場合等の、いわば突発的なノイズが生じた場合、その突発的なノイズに基づいて、無音モデルの適応が行われることがあり、この場合、音声区間中の無音部分について、十分に対処することが困難であると考えられる。
【００１２】
また、そのような突発的なノイズが生じず、比較的定常的なノイズが長時間連続している場合には、注目音声区間のみならず、過去に音声認識の対象とされた音声の音声区間の直前の区間におけるノイズをも用いて、無音モデルの適応を行った方が、音声区間中の無音部分について、より十分に対処することができると予想される。
【００１３】
本発明は、このような状況に鑑みてなされたものであり、音声区間中の無音部分に十分対処可能な無音モデルの適応を行うことができるようにし、これにより、無音部分に起因する音声認識性能の劣化を防止（低減）することができるようにするものである。
【００１４】
【課題を解決するための手段】
本発明のモデル適応装置、又は、記録媒体は、音声区間の直前の区間で観測される音声データを抽出し、抽出データとして出力するデータ抽出手段と、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データとに基づいて、無音を表す音響モデルである無音モデルの適応を行うモデル適応手段とを備え、前記モデル適応手段は、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データそれぞれに重みを付して、前記無音モデルの適応を行うモデル適応装置、又は、モデル適応装置としてコンピュータを機能させるためのプログラムが記録された記録媒体である。
【００１５】
本発明のモデル適応方法は、音声区間の直前の区間で観測される音声データを抽出し、抽出データとして出力するデータ抽出ステップと、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データとに基づいて、無音を表す音響モデルである無音モデルの適応を行うモデル適応ステップとを備え、前記モデル適応ステップでは、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データそれぞれに重みを付して、前記無音モデルの適応を行うモデル適応方法である。
【００１７】
本発明の音声認識装置は、音声データの特徴量を抽出する特徴抽出手段と、前記特徴量と音響モデルに基づいて、前記音声を認識する音声認識手段と、音声区間の直前の区間で観測される音声データを抽出し、抽出データとして出力するデータ抽出手段と、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データとに基づいて、無音を表す音響モデルである無音モデルの適応を行うモデル適応手段とを備え、前記モデル適応手段は、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データそれぞれに重みを付して、前記無音モデルの適応を行う音声認識装置である。
【００１８】
本発明のモデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置においては、音声区間の直前の区間で観測される音声データが抽出され、抽出データとして出力される。そして、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データとに基づいて、無音を表す音響モデルである無音モデルの適応が行われる。無音モデルの適応は、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データそれぞれに重みを付して行われる。
【００１９】
【発明の実施の形態】
図１は、本発明を適用した音声認識装置の一実施の形態の構成例を示している。
【００２０】
この音声認識装置において、マイク１は、認識対象である発話音声を、環境ノイズとともに集音し、フレーム化部２に出力する。フレーム化部２は、マイク１から入力される音声データを、所定の時間間隔（例えば、１０ms）で取り出し、その取り出したデータを、１フレームのデータとして出力する。フレーム化部２が出力する１フレーム単位の音声データは、そのフレームを構成する時系列の音声データそれぞれをコンポーネントとする観測ベクトルａとして、ノイズ観測区間抽出部３、および特徴抽出部５に供給される。
【００２１】
ここで、以下、適宜、第ｔフレームの音声データである観測ベクトルを、ａ（ｔ）と表す。
【００２２】
ノイズ観測区間抽出部３は、フレーム化部２から入力されるフレーム単位の音声データを所定の時間（Ｍフレーム分以上）だけバッファリングし、図２に示すように、発話スイッチ４がオンとされるタイミングｔ_bからＭフレーム分だけ以前のタイミングｔ_aまでをノイズ観測区間Ｔｎとして、そのノイズ観測区間ＴｎにおけるＭフレーム分の観測ベクトルａを抽出して、無音モデル補正部７に出力する。
【００２３】
発話スイッチ４は、ユーザが発話を開始するときにユーザによってオンとされ、発話を終了するときにオフとされる。したがって、発話スイッチ４がオンとされたタイミングｔ_b以前（ノイズ観測区間Ｔｎ）の音声データには、発話音声は含まれず、環境ノイズだけが存在する。また、発話スイッチ４がオンとされたタイミングｔ_bから発話スイッチ４がオフとされるタイミングｔ_dまでは、音声区間とされて、その音声区間の音声データが音声認識の対象とされる。
【００２４】
特徴抽出部５は、例えば、図３に示すように、パワースペクトラム分析部１１から構成され、フレーム化部２からの音声区間における観測ベクトルａとしての音声データをフーリエ変換することにより、音声の特徴量として、そのパワースペクトラムを求め、そのパワースペクトラムの各周波数成分をコンポーネントとする特徴ベクトルｙを算出する。特徴抽出部５で得られた特徴ベクトルｙは、音声認識部６に供給される。
【００２５】
なお、パワースペクトラムの算出方法は、フーリエ変換によるものに限定されるものではない。すなわち、パワースペクトラムは、その他、例えば、いわゆるフィルタバンク法などによって求めることも可能である。
【００２６】
また、ここでは、音声の特徴量として、パワースペクトラムを用いることとしているが、音声の特徴量としては、パワースペクトラムの他、ケプストラム係数（ＭＦＣＣ(Mel Frequency Cepstrum Coefficients)を含む）や、線形予測係数その他を採用することが可能である。
【００２７】
音声認識部６は、特徴抽出部５から入力される特徴ベクトルｙを、所定数Ｋの音響モデルと１個の無音モデルの中のいずれかに分類し、その分類結果を、入力された音声の認識結果として出力する。すなわち、音声認識部６は、例えば、無音区間に対応する識別関数（特徴パラメータｙが無音モデルに分類されるかを識別するための関数）と、所定数Ｋの単語それぞれに対応する識別関数（特徴パラメータｙがいずれの音響モデルに分類されるかを識別するための関数）とを記憶しており、各音響モデルの識別関数の値を、特徴抽出部５からの特徴ベクトルｙを引数として計算する。そして、音声認識部６は、その関数値（いわゆるスコア）が最大である音響モデル（単語、または無音（ノイズ））を認識結果として出力する。
【００２８】
即ち、図４は、図１の音声認識部６の詳細な構成例を示している。
【００２９】
特徴抽出部５から入力される特徴ベクトルｙは、識別関数演算部２１−１乃至２１−ｋ、および識別関数演算部２１−ｓに供給される。識別関数演算部２１−ｋ（ｋ＝１，２，・・・，Ｋ）は、Ｋ個の音響モデルのうちのｋ番目に対応する単語を識別するための識別関数Ｇ_k（）を記憶しており、特徴抽出部５からの特徴ベクトルｙを引数として、識別関数Ｇ_k（ｙ）を演算する。識別関数演算部２１−ｓは、無音モデルに対応する無音区間を識別するための識別関数Ｇ_s（）を記憶しており、特徴抽出部５からの特徴ベクトルｙを引数として、識別関数Ｇ_s（ｙ）を演算する。
【００３０】
なお、音声認識部６では、例えば、HMM(Hidden Markov Model)法を用いて、クラスとしての単語または無音の識別（認識）が行われる。
【００３１】
ここで、図５は、HMMを示している。
【００３２】
同図において、HMMは、Ｈ個の状態ｑ₁乃至ｑ_Hを有しており、状態の遷移は、自身への遷移と、右隣の状態への遷移のみが許されている。また、初期状態は、最も左の状態ｑ₁とされ、最終状態は、最も右の状態ｑ_Hとされており、最終状態ｑ_Hからの状態遷移は禁止されている。このように、自身よりも左にある状態への遷移のないモデルは、left-to-rightモデルと呼ばれ、音声認識では、一般に、left-to-rightモデルが用いられる。
【００３３】
いま、HMMのｋクラスを識別するためのモデル（音響モデル）を、ｋクラスモデルというとすると、ｋクラスモデルは、例えば、最初に状態ｑ_hにいる確率（初期状態確率）π_k（ｑ_h）、ある時刻（フレーム）ｔにおいて、状態ｑ_iにいて、次の時刻ｔ＋１において、状態ｑ_jに状態遷移する確率（遷移確率）ａ_k（ｑ_i，ｑ_j）、および状態ｑ_iから状態遷移が生じるときに、その状態ｑ_iが、特徴ベクトルＯを出力する確率（出力確率）ｂ_k（ｑ_i）（Ｏ）によって規定される（ｈ＝１，２，・・・，Ｈ）。
【００３４】
そして、ある特徴ベクトル系列Ｏ₁，Ｏ₂，・・・が与えられた場合、例えば、そのような特徴ベクトル系列が観測される確率（観測確率）が最も高いモデルのクラスが、その特徴ベクトル系列の認識結果とされる。
【００３５】
ここでは、この観測確率が、識別関数Ｇ_k（ｙ）によって求められる。すなわち、識別関数Ｇ_k（ｙ）は、特徴ベクトル（系列）ｙ＝｛ｙ₁，ｙ₂，・・・，ｙ_T｝に対する最適状態系列（最適な状態の遷移のしていき方）において、そのような特徴ベクトル（系列）ｙ＝｛ｙ₁，ｙ₂，・・・，ｙ_T｝が観測される確率を求めるものとして、次式（１）で与えられる。
【００３６】
【数１】

【００３７】
ここで、連続ＨＭＭにおいては、状態ｑ_iにおける出力確率ｂ_k（ｑ_i）（ｙ_j）は、確率分布によって表される。即ち、特徴ベクトル空間上のコンポーネントどうしに相関がないものとして、出力確率ｂ_k（ｑ_i）（ｙ_j）を規定する確率分布に、正規分布関数を用いることとすると、その正規分布関数Ｐ（ｑ_i）（ｄ）（ｙ（ｔ）（ｄ））は、次式で表すことができる。
【００３８】
【数２】

但し、式（２）において、μ_k（ｑ_i）（ｄ）は、正規分布を規定する平均ベクトルのｄ番目のコンポーネントを表し、Σ_k（ｑ_i）（ｄ，ｄ）は、正規分布を規定する分散マトリクスの第ｄ行第ｄ列のコンポーネントを表す。また、ｙ（ｔ）（ｄ）は、特徴ベクトルｙ（ｔ）のｄ番目のコンポーネントを表す。
【００３９】
ｋクラスモデルの状態ｑ_iにおける出力確率は、式（２）の平均ベクトルμ_k（ｑ_i）（ｄ）と、分散マトリクスΣ_k（ｑ_i）（ｄ，ｄ）によって規定される。
【００４０】
なお、HMMは、上述したように、初期状態確率π_k（ｑ_h）、遷移確率ａ_k（ｑ_i，ｑ_j）、および出力確率ｂ_k（ｑ_i）（Ｏ）によって規定されるが、これらは、学習用の音声データから特徴ベクトルを算出し、その特徴ベクトルを用いて、予め求められる。
【００４１】
また、HMMとして、図５に示したものを用いる場合には、常に、最も左の状態ｑ₁から遷移が始まるので、状態ｑ₁に対応する初期状態確率だけが１とされ、他の状態に対応する初期状態確率はすべて０とされる。
【００４２】
さらに、HMMの学習方法としては、例えば、Baum-Welchの再推定法などが知られている。
【００４３】
図４において、識別関数演算部２１−ｋ（ｋ＝１，２，・・・，Ｋ）は、ｋクラスモデルについて、あらかじめ学習により求められている初期状態確率π_k（ｑ_h）、遷移確率ａ_k（ｑ_i，ｑ_j）、および出力確率ｂ_k（ｑ_i）（Ｏ）によって規定される式（２）の識別関数Ｇ_k（ｙ）を記憶しており、特徴抽出部２からの特徴ベクトルｙを引数として、識別関数Ｇ_k（ｙ）を演算し、その関数値（上述した観測確率）Ｇ_k（ｙ）を、決定部２２に出力する。識別関数演算部２１−ｓは、音声モデルとしての、初期状態確率π_s（ｑ_h）、遷移確率ａ_s（ｑ_i，ｑ_j）、および出力確率ｂ_s（ｑ_i）（Ｏ）によって規定される式（２）の識別関数Ｇ_k（ｙ）と同様の識別関数Ｇ_s（ｙ）を記憶しており、特徴抽出部２からの特徴ベクトルｙを引数として、識別関数Ｇ_s（ｙ）を演算し、その関数値（上述した観測確率）Ｇ_s（ｙ）を、決定部２２に出力する。
【００４４】
決定部２２では、識別関数演算部２１−１乃至２１−ｋ、および識別関数演算部２１−ｓそれぞれからの関数値Ｇ_k（ｙ）（ここでは、関数値Ｇ_s（ｙ）を含むものとする）に対して、例えば、次式（３）に示す決定規則を用いて、特徴ベクトルｙ、すなわち、入力された音声が属するクラス（音響モデル）が識別される。
【００４５】
【数３】

但し、Ｃ（ｙ）は、特徴ベクトルｙが属するクラスを識別する識別操作（処理）を行う関数を表す。また、式（３）の第２式の右辺におけるmaxは、それに続く関数値Ｇ_i（ｙ）（ただし、ここでは、ｉ＝ｓ，１，２，・・・，Ｋ）の最大値を表す。
【００４６】
決定部２２は、式（３）にしたがって、クラスを決定すると、対応する単語（または無音である旨）を、入力された音声の認識結果として出力する。
【００４７】
図１に戻り、無音モデル補正部７は、ノイズ観測区間抽出部３から入力されるノイズ観測区間Ｔｎにおける音声データとしての環境ノイズに基づいて、音声認識部６に記憶されている無音モデルに対応する識別関数Ｇ_s（ｙ）を生成し、この識別関数Ｇ_s（ｙ）によって、音声認識部６に記憶されている無音モデルの適応を行う。
【００４８】
具体的には、無音モデル補正部７は、ノイズ観測区間抽出部３から入力されるノイズ観測区間Ｔｎの音声データ（環境ノイズ）のＭ個のフレームの各フレームについて、特徴ベクトルｙの系列を観測し、その特徴ベクトルｙの系列に対して統計的処理を施すことによって、無音モデルを規定する確率分布（無音モデルとしてのHMMの出力確率を規定する確率分布）を生成する。
【００４９】
即ち、例えば、いま、無音モデルを規定する確率分布が正規分布で表されるとすると、無音モデル補正部７は、ノイズ観測区間ＴｎのＭフレームの特徴ベクトルｙ（ｔ）の系列を用い、式（４）にしたがった計算を行うことにより、無音モデルＧ_s（ｙ）としての正規分布を規定する平均値μ_silと、分散マトリクスΣ_silを求める。
【００５０】
【数４】

なお、式（４）におけるＴは、転置を表す。
【００５１】
そして、無音モデル補正部７は、平均値μ_silと分散マトリクスΣ_silで規定される正規分布としての無音モデルＧ_s（ｙ）によって、識別関数演算部２１−ｓの無音モデルＧ_s（ｙ）としての識別関数を更新（補正）する。
【００５２】
次に、図６のフローチャートを参照して、図１の音声認識装置による音声認識処理について説明する。
【００５３】
フレーム化部２には、マイク１で集音された音声データが入力され、そこでは、音声データがフレーム化され、各フレームの音声データは、観測ベクトルａとして、ノイズ観測区間抽出部３、および特徴抽出部５に順次供給される。ノイズ観測区間抽出部３は、ステップＳ１において、フレーム化部２からの各フレームの音声データをバッファリングする。
【００５４】
ここで、ノイズ観測区間抽出部３は、少なくともＭフレーム以上の音声データを記憶することのできる、図示せぬバッファを有しており、そのバッファの記憶容量分の音声データを記憶した後は、最も古い音声データに上書きする形で、新たな音声データを記憶するようになっている。従って、ノイズ観測区間抽出部３では、常に、最新のＭフレーム以上の音声データが記憶される。
【００５５】
その後、ステップＳ２において、音声区間が開始されたかどうか、即ち、ユーザによって、発話スイッチ４が操作されたかどうかが判定される。ステップＳ２において、音声区間が開始されていないと判定された場合、ステップＳ１に戻り、以下、同様の処理を繰り返す。
【００５６】
また、ステップＳ２において、音声区間が開始されたと判定された場合、ステップＳ３に進み、無音モデル補正部７において、無音モデル適応処理が行われる。
【００５７】
即ち、ステップＳ２では、ノイズ観測区間抽出部３は、発話スイッチ４がオンとされたタイミングｔ_bの直前の区間であるノイズ観測区間Ｔｎの音声データ（環境ノイズ）を、その内蔵するバッファから抽出し、無音モデル補正部７に供給する。
【００５８】
無音モデル補正部７は、ノイズ観測区間Ｔｎの各フレームの音声データの特徴ベクトルｙ（ｔ）を求め、その特徴ベクトル（ｙ）を用いて、式（４）により、平均値μ_silと分散マトリクスΣ_silを求める。そして、無音モデル補正部７は、その平均値μ_silと分散マトリクスΣ_silで規定される正規分布Ｎ（μ_sil，Σ_sil）によって、音声認識部６の無音モデルＧ_s（ｙ）を更新する。
【００５９】
一方、特徴抽出部５は、発話スイッチ４がオンとされ、音声区間が開始されると、フレーム化部２からの観測ベクトルａとしての音声データを音響分析し、その特徴ベクトルｙを求め、音声認識部６に供給する。音声認識部６は、ステップＳ４において、特徴抽出部５からの特徴ベクトルｙを用いて、無音と所定数Ｋの単語それぞれに対応する音響モデルの識別関数の値を演算し、ステップＳ５に進む。ステップＳ５では、音声認識部６は、ステップＳ５で演算した識別関数の関数値が最大となる音響モデルを選択し、対応する単語（または無音）を、音声の認識結果として出力する。
【００６０】
その後、ステップＳ６に進み、音声認識処理を終了するかどうかが判定され、終了しないと判定された場合、ステップＳ１に戻り、次の発話について、以下、同様の処理が行われる。
【００６１】
また、ステップＳ６において、音声認識処理を終了すると判定された場合、即ち、例えば、ユーザが、音声認識装置の電源をオフする操作を行った場合、処理を終了する。
【００６２】
次に、上述の場合においては、図７に示すように、各発話の音声区間ごとに、その直前のノイズ観測区間Ｔｎの音声データ（環境ノイズ）のみに基づいて、無音モデルの適応が行われる。即ち、いま、音声認識装置において音声認識処理が開始されてから、ユーザが行った発話を、第１発話、第２発話、・・・とカウントすることとし、第Ｎ発話を、現在の音声認識の対象となっている音声の音声区間（注目音声区間）の発話であるとすると、第Ｎ発話の音声区間である注目音声区間の音声の認識には、その注目音声区間の直前のノイズ観測区間Ｔｎの環境ノイズだけに基づいて生成された無音モデルが用いられる。
【００６３】
ここで、図７において（後述する図８，図１０，図１２においても同様）、Ｉ_nは、第ｎ発話を表し、Ｇ_s［Ｉ_n］は、第ｎ発話の音声区間の音声の認識に用いられる無音モデルを表す。
【００６４】
注目音声区間の直前のノイズ観測区間Ｔｎの環境ノイズだけに基づいて、無音モデルを生成する場合、前述したように、例えば、注目音声区間の直前において、ユーザが、音声の入力に用いるマイクを叩く等したときや、観衆が拍手を行ったとき等の、いわば突発的なノイズが生じたときには、その突発的なノイズに基づいて、無音モデルの適応が行われる。
【００６５】
しかしながら、注目音声区間の、ユーザが発話を行う区間においては、突発的なノイズが存在しなくなるから、突発的なノイズに基づいて生成された無音モデルを用いて、注目音声区間の音声を認識したのでは、認識率が劣化することがある。
【００６６】
また、比較的定常的なノイズが長時間連続している場合には、注目音声区間のみならず、過去に音声認識の対象とされた音声の音声区間の直前の区間における環境ノイズにも基づいて、無音モデルを生成した方が、環境ノイズをより的確に表す無音モデルを得ることができると予想され、さらに、そのような無音モデル用いて、注目音声区間の音声認識を行うことにより、精度の高い音声認識を行うことが可能となる。
【００６７】
そこで、音声認識装置では、注目音声区間の直前の環境ノイズだけでなく、過去の１以上の音声区間の直前の環境ノイズにも基づいて、以下のような第１乃至第３の３つの適応方法のいずれかにより、注目音声区間の音声を認識するのに用いる無音モデルの適応を行うことが可能となっている。
【００６８】
即ち、第１の適応方法では、図８に示すように、第Ｎ発話の音声区間である注目音声区間の直前の環境ノイズと、過去の第１乃至第Ｎ−１発話の音声区間の直前の環境ノイズから、注目音声区間の音声の認識に用いる無音モデルＧｓ［Ｉ_N］が生成される。
【００６９】
この場合、図６のステップＳ３における無音モデル適応処理は、図９のフローチャートに示すように行われる。
【００７０】
即ち、この場合、ステップＳ１１において、無音モデル補正部７は、第１乃至第Ｎ発話の音声区間の直前のノイズ観測区間Ｔｎの音声データ（環境ノイズ）の特徴ベクトルｙ（ｔ）を計算する。従って、この場合、ノイズ観測区間抽出部３では、注目音声区間である第Ｎ発話の音声区間の直前の環境ノイズだけでなく、過去の第１乃至第Ｎ発話の音声区間の直前の環境ノイズも記憶しておく必要がある。
【００７１】
さらに、無音モデル補正部７は、第１乃至第Ｎ発話の音声区間の直前のノイズ観測区間Ｔｎの音声データ（環境ノイズ）の特徴ベクトルｙ（ｔ）の集合の平均ベクトルμ_silと分散マトリクスΣ_silを、次式にしたがって計算し、その平均ベクトルμ_silと分散マトリクスΣ_silによって規定される正規分布を、注目音声区間の音声の認識に用いる無音モデルＧ_s［Ｉ_N］とする。
【００７２】
【数５】

【００７３】
なお、Ｍ（ｉ）は、第ｉ発話の音声区間の直前のノイズ観測区間Ｔ_nのフレーム数を表し、本実施の形態では、上述したことから、すべてＭフレームである。但し、ノイズ観測区間Ｔ_nのフレーム数は、各発話ごとに、異なるフレーム数とすることが可能である。
【００７４】
また、ｗ_iは、第ｉ発話の音声区間の直前の環境ノイズに対する重みを表す。この重みｗ_iは、式（６）を満たすもので、例えば、第Ｎ発話の音声区間（注目音声区間）の直前の環境ノイズに対する重みｗ_Nは、０．５とし、第１乃至第Ｎ−１発話の音声区間の直前の環境ノイズに対する重みｗ₁乃至ｗ_N-1は、いずれも、０．５／（Ｎ−１）とすることが可能である。
【００７５】
【数６】

【００７６】
さらに、重みｗ_iは、注目音声区間である第Ｎ発話の音声区間から離れた音声区間の直前の環境ノイズに対するものほど、小さな値にするようにすること等が可能である。
【００７７】
また、式（５）において、ｙ（ｔ）［Ｉ_i］は、第ｉ発話の音声区間の直前の環境ノイズの第ｔフレーム（ノイズ観測区間Ｔ_wの第ｔフレーム）の特徴ベクトルを表す。
【００７８】
次に、第２の適応方法では、図１０に示すように、過去の第１乃至第Ｎ−１発話の音声区間の直前の環境ノイズに基づいて、第１の無音モデルＧ_s-1が生成されるとともに、第Ｎ発話の音声区間である注目音声区間の直前の環境ノイズに基づいて、第２の無音モデルＧ_s-2が生成され、その第１の無音モデルＧ_s-1と、第２の無音モデルＧ_s-2とに基づいて、注目音声区間の音声の認識に用いる無音モデルＧ_s［Ｉ_N］が生成される。
【００７９】
この場合、図６のステップＳ３における無音モデル適応処理は、図１１のフローチャートに示すように行われる。
【００８０】
即ち、この場合、ステップＳ２１において、無音モデル補正部７は、第１乃至第Ｎ−１発話の音声区間の直前のノイズ観測区間Ｔｎの環境ノイズの特徴ベクトルｙ（ｔ）を計算する。さらに、無音モデル補正部７は、第１乃至第Ｎ−１発話の音声区間の直前のノイズ観測区間Ｔｎの環境ノイズの特徴ベクトルｙ（ｔ）の集合の平均ベクトルμ_sil-1と分散マトリクスΣ_sil-1を、式（５）における場合と同様に計算し、その平均ベクトルμ_sil-1と分散マトリクスΣ_sil-1によって規定される正規分布を、第１の無音モデルＧ_s-1とする。
【００８１】
そして、ステップＳ２２に進み、無音モデル補正部７は、注目フレームである第Ｎ発話の音声区間の直前のノイズ観測区間Ｔｎの環境ノイズの特徴ベクトルｙ（ｔ）を計算する。さらに、無音モデル補正部７は、第Ｎ発話の音声区間の直前のノイズ観測区間Ｔｎの環境ノイズの特徴ベクトルｙ（ｔ）の集合の平均ベクトルμ_sil-2と分散マトリクスΣ_sil-2を、上述の式（４）にしたがって計算し、その平均ベクトルμ_sil-2と分散マトリクスΣ_sil-2によって規定される正規分布を、第２の無音モデルＧ_s-2とする。
【００８２】
以上のようにして、第１の無音モデルＧ_s-1と、第２の無音モデルＧ_s-2を得た後は、ステップＳ２３に進み、無音モデル補正部７は、第１の無音モデルＧ_s-1と、第２の無音モデルＧ_s-2とを統合することにより、注目音声区間の音声の認識に用いる無音モデルＧ_s［Ｉ_N］を生成する。
【００８３】
即ち、無音モデル補正部７は、例えば、式（７）にしたがい、第１の無音モデルＧ_s-1を規定する平均ベクトルμ_sil-1と、第２の無音モデルＧ_s-2を規定する平均ベクトルμ_sil-2とを統合し、平均ベクトルμ_silを求めるとともに、第１の無音モデルＧ_s-1を規定する分散マトリクスΣ_sil-1と、第２の無音モデルＧ_s-2を規定する分散マトリクスΣ_sil-2とを統合し、分散マトリクスΣ_silを求める。そして、無音モデル補正部７は、その平均ベクトルμ_silと分散マトリクスΣ_silによって規定される正規分布を、注目音声区間の音声の認識に用いる無音モデルＧ_s［Ｉ_N］とする。
【００８４】
【数７】

【００８５】
ここで、式（７）におけるａ_μ ₁，ｂ_μ ₂，ａ_Σ ₁，ｂ_Σ ₂は、いずれも、０以上１以下の範囲の値をとる重みであり、式ａ_μ ₁＋ｂ_μ ₂＝１と、式ａ_Σ ₁＋ｂ_Σ ₂＝１を満たすものである。
【００８６】
環境ノイズが、比較的定常的なものである場合には、重みａ_μ ₁，ｂ_μ ₂，ａ_Σ ₁，ｂ_Σ ₂としては、例えば、同一の値を使用することができる。また、環境ノイズが、時間の経過に伴って、比較的変化する場合には、重みａ_μ ₁，ｂ_μ ₂，ａ_Σ ₁，ｂ_Σ ₂としては、例えば、ａ_μ ₁とａ_Σ ₁については、小さな値を、ｂ_μ ₂とｂ_Σ ₂については、大きな値を、それぞれ採用することができる。さらに、注目音声区間の直前の環境ノイズが、突発的なものである場合には、重みａ_μ ₁，ｂ_μ ₂，ａ_Σ ₁，ｂ_Σ ₂としては、例えば、ａ_μ ₁とａ_Σ ₁については、大きな値を、ｂ_μ ₂とｂ_Σ ₂については、小さな値を、それぞれ採用することができる。
【００８７】
なお、第１および第２の適応方法においては、過去の音声区間については、注目音声区間より過去の音声区間すべての直前の環境ノイズを用いる他、そのうちの一部の音声区間の直前の環境ノイズを用いて、注目音声区間の音声認識に用いる無音モデルの適応を行うようにすることが可能である。
【００８８】
次に、第３の適応方法では、図１２に示すように、第Ｎ発話の音声区間である注目音声区間の直前の環境ノイズに基づいて、無音モデルが生成され、その無音モデルと、過去の音声区間、即ち、図１２の実施の形態では、注目音声区間の直前の音声区間（第Ｎ−１発話の音声区間）の音声認識に用いられた無音モデルとに基づいて、注目音声区間の音声の認識に用いる無音モデルＧ_s［Ｉ_N］が生成される。
【００８９】
この場合、図６のステップＳ３における無音モデル適応処理は、図１３のフローチャートに示すように行われる。
【００９０】
即ち、この場合、ステップＳ３１において、無音モデル補正部７は、直前の発話、つまり第Ｎ−１発話の音声区間の音声認識に用いられた無音モデルＧ_s［Ｉ_N-1］を、音声認識部６（図４）から取得し、ステップＳ３２に進む。
【００９１】
ステップＳ３２では、無音モデル補正部７は、注目フレームである第Ｎ発話の音声区間の直前のノイズ観測区間Ｔｎの環境ノイズの特徴ベクトルｙ（ｔ）を計算する。さらに、無音モデル補正部７は、第Ｎ発話の音声区間の直前のノイズ観測区間Ｔｎの環境ノイズの特徴ベクトルｙ（ｔ）の集合の平均ベクトルと分散マトリクスを、上述の式（４）にしたがって計算し、その平均ベクトルと分散マトリクスによって規定される正規分布としての無音モデルＧ_s’［Ｉ_N］を生成する。
【００９２】
そして、ステップＳ３３に進み、無音モデル補正部７は、第Ｎ−１発話の音声区間の音声認識に用いられた無音モデルＧ_s［Ｉ_N-1］と、第Ｎ発話の音声区間の直前の環境ノイズだけから得られた無音モデルＧ_s’［Ｉ_N］とを統合することにより、注目音声区間の音声の認識に用いる無音モデルＧ_s［Ｉ_N］を生成する。
【００９３】
即ち、例えば、第Ｎ−１発話の音声区間の音声認識に用いられた無音モデルＧ_s［Ｉ_N-1］としての正規分布を規定する平均ベクトルと分散マトリクスを、それぞれμ_sil-1とΣ_sil-1とするとともに、第Ｎ発話の音声区間の直前の環境ノイズだけから得られた無音モデルＧ_s’［Ｉ_N］としての正規分布を規定する平均ベクトルと分散マトリクスを、それぞれμ_sil-2とΣ_sil-2とすると、無音モデル補正部７は、ステップＳ３３において、例えば、上述の式（７）にしたがい、平均ベクトルμ_sil-1とμ_sil-2とを統合し、平均ベクトルμ_silを求めるとともに、分散マトリクスΣ_sil-1とΣ_sil-2とを統合し、分散マトリクスΣ_silを求める。そして、無音モデル補正部７は、その平均ベクトルμ_silと分散マトリクスΣ_silによって規定される正規分布を、注目音声区間の音声の認識に用いる無音モデルＧ_s［Ｉ_N］とする。
【００９４】
なお、第３の適応方法においては、第Ｎ−１発話の音声認識に用いられた無音モデルの他、過去の他の発話の音声認識に用いられた無音モデルを用いて、注目音声区間の音声認識に用いる無音モデルを生成することが可能である。
【００９５】
以上のように、注目音声区間の直前の環境ノイズだけでなく、過去の１以上の音声区間の直前の環境ノイズにも基づいて、注目音声区間の音声を認識するのに用いる無音モデルの適応を行うようにしたので、音声区間中の無音部分に十分対処可能な無音モデルの適応を行うことができ、これにより、無音部分に起因する音声認識性能の劣化を防止（低減）することができる。
【００９６】
ところで、ノイズ環境下において音声を認識する場合の特徴量（特徴ベクトル）の抽出方法の１つに、例えば、スペクトルサブトラクション（Spectral Subtraction）と呼ばれるものがある。
【００９７】
スペクトルサブトラクションでは、音声の発話がされる前の入力（音声区間の前の入力）を、ノイズとして、そのノイズの平均スペクトルが算出される。そして、音声区間の音声から、ノイズの平均スペクトルが差し引かれ（Subtract）、その残りを、真の音声成分として、特徴ベクトルが算出される。
【００９８】
一方、図１の音声認識装置における特徴抽出部５では、各フレームの音声データとしての観測ベクトルａから、特徴ベクトルが求められるが、このことは、観測ベクトル空間上の、ある点を表す観測ベクトルａを、特徴ベクトル空間上に写像することにより、その特徴ベクトル空間上の、対応する点を表す特徴ベクトルに変換する処理が行われると考えることができる。
【００９９】
従って、特徴ベクトルは、特徴ベクトル空間上の、ある１点（観測ベクトルａに対応する点）を表す。
【０１００】
スペクトルサブトラクションでは、観測ベクトルａから、ノイズの平均スペクトル成分が取り除かれて、特徴ベクトルが算出されるが、この特徴ベクトルは、上述したように、特徴ベクトル空間上の１点であるため、ノイズの平均的な性質を考慮したものとはなっているが、ノイズの分散などの不規則な性質を考慮したものとはなっていない。
【０１０１】
このため、スペクトルサブトラクション処理後に得られる特徴ベクトルは、観測ベクトルａの特徴を充分に（あるいは、正確に）表現しているとはいえず、そのような特徴ベクトルでは、認識性能を十分に向上させることができないことがある。
【０１０２】
そこで、図１４は、本発明を適用した音声認識装置の他の一実施の形態の構成例を示している。なお、図中、図１における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
【０１０３】
即ち、図１４の実施の形態では、図１の特徴抽出部５、音声認識部６、または無音モデル補正部７に替えて、特徴抽出部３１、音声認識部３２、または無音モデル補正部３３がそれぞれ設けられており、さらに、ノイズ観測区間抽出部３が出力する環境ノイズが、無音モデル補正部３３だけでなく、特徴抽出部３１にも供給されるようになっている。
【０１０４】
但し、ノイズ観測区間抽出部３は、フレーム化部２から入力されるフレーム単位の音声データを、図１における場合よりも長い時間（例えば、２Ｍフレーム分以上など）だけバッファリングすることができるようになっている。
【０１０５】
即ち、図１４の実施の形態においては、ノイズ観測区間抽出部３は、例えば、図１５に示すように、発話スイッチ４がオンとされたタイミングｔ_bからＭフレーム分だけ以前のタイミングｔ_aまでを、ノイズ観測区間Ｔｎとするとともに、さらの、そのノイズ観測区間ＴｎからＭフレーム分だけ以前のタイミングｔ₀までをノイズ観測区間Ｔｍとして、その連続する２つのノイズ観測区間ＴｎとＴｍにおける２Ｍフレーム分の観測ベクトルａを抽出して、特徴抽出部３１、および無音モデル補正部３３に出力する。
【０１０６】
なお、２つのノイズ観測区間ＴｎとＴｍは、連続していなくてもかまわない。
また、ノイズ観測区間Ｔｎは、上述したように、無音モデルの適応を行うための環境ノイズを得るための区間であるが、ノイズ観測区間Ｔｍは、後述する特徴分布を抽出するための環境ノイズを得るための区間である。さらに、ここでは、２つのノイズ観測区間ＴｍとＴｎを、いずれも、Ｍフレームで構成するようにしたが、ノイズ観測区間ＴｍとＴｎのフレーム数は、同一である必要はない。
【０１０７】
特徴抽出部３１は、ノイズ観測区間抽出部３から入力されるノイズ観測区間ＴｍとＴｎのうちの前半のノイズ観測区間Ｔｍの環境ノイズだけが存在する音声データに基づいて、フレーム化部２から入力される、タイミングｔ_b以降の音声区間の観測ベクトルａから環境ノイズ成分を除去して、その特徴量を抽出する。
【０１０８】
即ち、特徴抽出部３１は、例えば、図１の特徴抽出部５と同様に、観測ベクトルａとしての音声データをフーリエ変換し、そのパワースペクトラムを求め、そのパワースペクトラムの各周波数成分をコンポーネントとする特徴ベクトルｙを算出する。さらに、特徴抽出部３１は、観測ベクトルａとしての音声データに含まれる真の音声成分を、その特徴量の空間（特徴ベクトル空間）に写像したときに得られる、その特徴ベクトル空間上の分布を表すパラメータ（以下、特徴分布パラメータと記述する）Ｚを、特徴ベクトルｙとノイズ観測区間Ｔｍの環境ノイズに基づいて算出し、音声認識部３２に供給する。
【０１０９】
即ち、図１６は、図１４の特徴抽出部３１の詳細な構成例を示している。なお、図中、図３の特徴抽出部５における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、特徴抽出部３１は、特徴分布パラメータ算出部４２とノイズ特性算出部４３が新たに設けられている他は、図３の特徴抽出部５と同様に構成されている。
【０１１０】
フレーム化部２から入力される観測ベクトルａは、特徴抽出部３１において、パワースペクトラム分析部１１に供給され、特徴ベクトルｙとしてのパワースペクトラムとされる。なお、ここでは、１フレームの音声データとしての観測ベクトルａが、Ｄ個のコンポーネントからなる特徴ベクトル（Ｄ次元の特徴ベクトル）に変換されるものとする。
【０１１１】
ここで、第ｔフレームの観測ベクトルａ（ｔ）から得られる特徴ベクトルｙ（ｔ）のうち、真の音声のスペクトル成分をｘ（ｔ）と、環境ノイズのスペクトル成分をｕ（ｔ）と表す。この場合、真の音声のスペクトル成分ｘ（ｔ）は、次式（８）で表される。
【０１１２】
【数８】

【０１１３】
ただし、ここでは、環境ノイズが不規則な特性を有し、また、観測ベクトルａ（ｔ）としての音声データは、真の音声成分に環境ノイズを加算したものであると仮定している。
【０１１４】
一方、ノイズ観測区間抽出部３から入力される音声データとしてのノイズ観測区間Ｔｍにおける環境ノイズは、特徴抽出部３１において、ノイズ特性算出部４３に供給される。ノイズ特性算出部４３では、ノイズ観測区間Ｔｍにおける環境ノイズの特性が求められる。
【０１１５】
即ち、ここでは、音声区間における環境ノイズのパワースペクトラムｕ（ｔ）の分布が、その音声区間の直前のノイズ観測区間Ｔｍにおける環境ノイズと同一であり、かつ、その分布が正規分布であると仮定して、ノイズ特性算出部４３において、その正規分布を規定する、環境ノイズの平均ベクトルμ’と分散マトリクスΣ’が、次式（９）にしたがって求められる。
【０１１６】
【数９】

【０１１７】
ただし、μ’（ｉ）は、平均ベクトルμ’のｉ番目のコンポーネントを表す（ｉ＝１，２，・・・，Ｄ）。また、ｙ（ｔ）（ｉ）は、第ｔフレームの特徴ベクトルのｉ番目のコンポーネントを表す。さらに、Σ’（ｉ，ｊ）は、分散マトリクスΣ’の、第ｉ行、第ｊ列のコンポーネントを表す（ｊ＝１，２，・・・，Ｄ）。
【０１１８】
ここで、計算量の低減のために、環境ノイズについては、特徴ベクトルｙの各コンポーネントが、互いに無相関であると仮定する。この場合、次式に示すように、分散マトリクスΣ’は、対角成分以外は０となる。
【０１１９】
【数１０】

【０１２０】
なお、環境ノイズについて、特徴ベクトルｙの各コンポーネントが、互いに無相関であると仮定しなくても、計算量は増加するが、以下説明する処理を行うことは可能である。
【０１２１】
ノイズ特性算出部４３は、以上のようにして、環境ノイズの特性としての、正規分布を規定する平均ベクトルμ’および分散マトリクスΣ’を求め、特徴分布パラメータ算出部４２に供給する。
【０１２２】
一方、パワースペクトラム分析部１１の出力、すなわち、環境ノイズを含む音声区間の音声の特徴ベクトルｙも、特徴分布パラメータ算出部４２に供給される。特徴分布パラメータ算出部４２は、パワースペクトラム分析部１１からの特徴ベクトルｙ、およびノイズ特性算出部４３からの環境ノイズの特性（ここでは、環境ノイズを表す正規分布を規定する平均ベクトルμ‘と分散マトリクスΣ’）に基づいて、真の音声のパワースペクトラムの分布（推定値の分布）を表す特徴分布パラメータを算出する。
【０１２３】
即ち、特徴分布パラメータ算出部４２は、真の音声のパワースペクトラムの分布が正規分布であるとして、その平均ベクトルξと分散マトリクスΨを、特徴分布パラメータとして、次式（１１）乃至（１４）にしたがって計算する。
【０１２４】
【数１１】

【０１２５】
【数１２】

【０１２６】
【数１３】

【０１２７】
【数１４】

【０１２８】
ここで、ξ（ｔ）（ｉ）は、第ｔフレームにおける平均ベクトルξ（ｔ）のｉ番目のコンポーネントを表す。また、Ｅ［］は、［］内の平均値を意味する。ｘ（ｔ）（ｉ）は、第ｔフレームにおける真の音声のパワースペクトラムｘ（ｔ）のｉ番目のコンポーネントを表す。さらに、ｕ（ｔ）（ｉ）は、第ｔフレームにおける環境ノイズのパワースペクトラムのｉ番目のコンポーネントを表し、Ｐ（ｕ（ｔ）（ｉ））は、第ｔフレームにおける環境ノイズのパワースペクトラムのｉ番目のコンポーネントがｕ（ｔ）（ｉ）である確率を表す。ここでは、環境ノイズの分布として正規分布を仮定しているので、Ｐ（ｕ（ｔ）（ｉ））は、式（１４）に示したように表される。
【０１２９】
また、Ψ（ｔ）（ｉ，ｊ）は、第ｔフレームにおける分散マトリクスΨ（ｔ）の、第ｉ行、第ｊ列のコンポーネントを表す。さらに、Ｖ［］は、［］内の分散を表す。
【０１３０】
特徴分布パラメータ算出部４２は、以上のようにして、各フレームごとに、平均ベクトルξおよび分散マトリクスΨを、真の音声の特徴ベクトル空間上での分布（ここでは、真の音声の特徴ベクトル空間上での分布が正規分布であると仮定した場合の、その分布）を表す特徴分布パラメータとして求める。
【０１３１】
特徴分布パラメータ算出部４２は、音声区間の各フレームについて求めた特徴分布パラメータを、音声認識部３２に出力する。すなわち、いま、音声区間がＴフレームであったとし、そのＴフレームそれぞれにおいて求められた特徴分布パラメータを、ｚ（ｔ）＝｛ξ（ｔ），Ψ（ｔ）｝（ｔ＝１，２，・・・，Ｔ）と表すと、特徴分布パラメータ算出部４２は、特徴分布パラメータ（系列）Ｚ＝｛ｚ（１），ｚ（２），・・・，ｚ（Ｔ）｝を、音声認識部３２に供給する。
【０１３２】
図１４に戻り、音声認識部３２は、特徴抽出部３１から入力される特徴分布パラメータＺを、所定数Ｋの音響モデルと１個の無音モデルのうちのいずれかに分類し、その分類結果を、入力された音声の認識結果として出力する。
【０１３３】
即ち、音声認識部３２は、例えば、無音区間に対応する識別関数と、所定数Ｋの単語それぞれに対応する識別関数とを記憶しており、各音響モデルの識別関数の値を、特徴抽出部３１からの特徴分布パラメータＺを引数として計算する。そして、その関数値が最大である音響モデル（単語、または無音（ノイズ））が認識結果として出力される。
【０１３４】
ここで、図１７は、図１４の音声認識部３２の詳細な構成例を示している。なお、図中、図４の音声認識部６における場合と対応する部分については、同一の符号を付してある。即ち、音声認識部３２は、基本的に、図４の音声認識部６と同様に構成されている。
【０１３５】
但し、識別関数演算部２１−１乃至２１−ｋ、および識別関数演算部２１−ｓには、特徴抽出部３１の特徴分布パラメータ算出部４２が出力する特徴分布パラメータＺが供給されるようになっており、識別関数演算部２１−ｋ（ｋ＝１，２，・・・，Ｋ，ｓ）は、特徴分布パラメータＺを引数とする識別関数Ｇ_k（Ｚ）を、音響モデルとして記憶している。
【０１３６】
図１７の実施の形態において、音声認識部３２が、例えば、図４の音声認識部６と同様に、HMM法を用いて、クラスとしての単語または無音の識別（認識）を行う場合、音声認識部３２は、音響モデルとしてのＨＭＭにおいて、特徴分布パラメータの系列Ｚ＝｛ｚ₁，ｚ₂，・・・，ｚ_T｝が観測される観測確率を、識別関数Ｇ_k（Ｚ）によって求める。即ち、この場合、識別関数Ｇ_k（Ｚ）は、特徴分布パラメータの系列Ｚ＝｛ｚ₁，ｚ₂，・・・，ｚ_T｝に対する最適状態系列において、そのような特徴分布パラメータ（の系列）Ｚ＝｛ｚ₁，ｚ₂，・・・，ｚ_T｝が観測される確率を求めるものとして、次式（１５）で与えられる。
【０１３７】
【数１５】

【０１３８】
ここで、ｂ_k’（ｑ_i）（ｚ_j）は、出力がｚ_jで表される分布であるときの出力確率を表す。式（１）で説明したように、状態遷移時に各特徴ベクトルを出力する確率である出力確率ｂ_k（Ｓ）（Ｏ_t）に（Ｓは状態を表す）、特徴ベクトル空間上のコンポーネントに相関がないものとして、正規分布関数を用いることとした場合、入力がｚ_tで表される分布であるときは、出力確率ｂ_k’（Ｓ）（ｚ_t）は、平均ベクトルμ_k（Ｓ）と分散マトリクスΣ_k（Ｓ）とによって規定される確率密度関数Ｐ_km（Ｓ）（ｘ）、および第ｔフレームの特徴ベクトル（ここでは、パワースペクトラム）ｘの分布を表す確率密度関数Ｐ_f（ｔ）（ｘ）を用いて、次式（１６）により求めることができる。
【０１３９】
【数１６】

【０１４０】
ただし、式（１６）における積分の積分区間は、Ｄ次元の特徴ベクトル空間（ここでは、パワースペクトラム空間）の全体である。
【０１４１】
また、式（１６）において、Ｐ（Ｓ）（ｉ）（ξ（ｔ）（ｉ），Ψ（ｔ）（ｉ，ｉ））は、次式（１７）で表される。
【０１４２】
【数１７】

【０１４３】
ただし、μ_k（Ｓ）（ｉ）は、平均ベクトルμ_k（Ｓ）のｉ番目のコンポーネントを、Σ_k（Ｓ）（ｉ，ｉ）は、分散マトリクスΣ_k（Ｓ）の、第ｉ行第ｉ列のコンポーネントを、それぞれ表す。そして、ｋクラスモデルの出力確率は、これらによって規定される。
【０１４４】
なお、HMMは、上述した場合と同様に、学習用の音声データから特徴ベクトルを算出し、その特徴ベクトルを用いて、予め求めておく。
【０１４５】
ここで、特徴分布パラメータＺに基づく音声認識に用いられる出力確率を規定する式（１７）の確率分布は、特徴分布パラメータＺの分散Ψ（ｔ）（ｉ，ｉ）を０とすると、特徴ベクトルの分散を考慮しない場合の連続HMMにおける出力確率を規定する式（２）の確率分布に一致する。
【０１４６】
決定部２２は、図４における場合と同様に、識別関数演算部２１−１乃至２１−ｋ、および識別関数演算部２１−ｓそれぞれからの関数値Ｇ_k（Ｚ）（関数値Ｇ_s（Ｚ）を含む）に対して、上述の式（３）と同様の決定規則を用いて、特徴分布パラメータＺ、即ち、入力された音声が属するクラス（音響モデル）を識別し、音声認識結果として出力する。
【０１４７】
図１４に戻り、無音モデル補正部３３は、ノイズ観測区間抽出部３から入力されるノイズ観測区間ＴｍとＴｎにおける音声データとしての環境ノイズに基づいて、音声認識部３２に記憶されている無音モデルに対応する識別関数Ｇ_s（Ｚ）を生成し、この識別関数Ｇ_s（Ｚ）によって、音声認識部３２に記憶されている無音モデルの適応を行う。
【０１４８】
具体的には、無音モデル補正部３３では、ノイズ観測区間抽出部３から入力される後半のノイズ観測区間Ｔｎの音声データ（環境ノイズ）のＭ個のフレームの各フレームについて、特徴ベクトルｙが観測され、さらに、特徴抽出部３１における場合と同様にして、前半のノイズ観測区間Ｔｍにおける環境ノイズを用いて、後半のノイズ観測区間Ｔｎの各フレーム＃ｉにおける環境ノイズの特徴分布パラメータの、次式で示される系列が生成される。
【０１４９】
【数１８】

【０１５０】
ここで、環境ノイズの特徴分布パラメータＦ_i（ｙ）は、ユーザの音声のない部分、つまり無音（正確には、環境ノイズが存在する）の特徴ベクトルの分布を表すから、以下、適宜、無音特徴分布とも記述する。
【０１５１】
次に、無音モデル補正部３３は、無音特徴分布を、次式（１９）に従い、無音モデルに対応する確率分布Ｇ_s（Ｚ）に写像する。
【０１５２】
【数１９】

【０１５３】
但し、Ｖは無音特徴分布｛Ｆ_i（Ｚ），ｉ＝１，２，・・・，Ｍ｝を無音モデルＧ_s（Ｚ）に写像する補正関数（写像関数）である。
【０１５４】
この写像は、無音特徴分布の記述によって様々な方法が考えられるが、例えば、次式を採用することができる。
【０１５５】
【数２０】

【０１５６】
但し、β_i（Ｆ₁（ｙ），Ｆ₂（ｙ），・・・，Ｆ_M（ｙ），Ｍ）は、ノイズ観測区間Ｔｎの第ｉフレームから得られる無音特徴分布Ｆ_i（ｙ）に対する重み関数であり、以下、β_iと記述する。なお、重み関数β_iは、次式（２１）の条件を満足するものである。
【０１５７】
【数２１】

【０１５８】
ノイズ観測区間Ｔｎにおける各フレームの特徴ベクトルｙを構成するコンポーネントが無相関であれば、無音特徴分布｛Ｆ_i（ｙ），ｉ＝１，２，・・・，Ｍ｝は、平均ベクトルμ_iと分散マトリクスΣ_iで規定される正規分布Ｎ（μ_i，Σ_i）となる。
【０１５９】
この場合、無音モデル補正部３３は、ノイズ観測区間Ｔｎの各フレームから得られる無音特徴分布Ｆ_i（ｙ）としての正規分布を規定する平均ベクトルμ_iと分散マトリクスΣ_iを用い、例えば、次式にしたがって、無音モデルＧ_s（Ｚ）を表す正規分布を規定する平均ベクトルμ_silと、Σ_silを演算する。
【０１６０】
【数２２】

【０１６１】
ここで、係数ａおよびｂとしては、例えば、シミュレーションにより最適な値を決定することができる。
【０１６２】
なお、無音特徴分布Ｆ_i（ｙ）から、無音モデルＧ_s（Ｚ）を生成する方法は、上述の方法に限定されるものではなく、例えば、本件出願人が先に出願した特願2000-276856号（特願平11-375766号を基礎とする国内優先権主張出願）等に開示されている各種の方法を採用することができる。
【０１６３】
ところで、上述のように、無音特徴分布を用いて、無音モデルの適応を行う場合においても、特徴ベクトルを用いて、無音モデルの適応を行う場合と同様に、注目音声区間の直前の環境ノイズだけでなく、過去の１以上の音声区間の直前の環境ノイズにも基づき、上述の第１乃至第３の３つの適応方法（図８乃至図１３）によって、注目音声区間の音声を認識するのに用いる無音モデルの適応を行うことが可能である。
【０１６４】
即ち、例えば、いま、第ｉ発話の音声区間の直前のノイズ観測区間Ｔｎの第ｊフレームの環境ノイズから得られる無音特徴分布を、Ｆ_j［Ｉ_i］と表すとすると、本実施の形態では、特徴ベクトルがＤ次のコンポーネントで構成されるから、無音特徴分布Ｆ_j［Ｉ_i］は、次式に示すようなＤ次のコンポーネントで表される。
【０１６５】
【数２３】

【０１６６】
また、第ｉ発話の音声区間の直前のノイズ観測区間Ｔｎの第ｊフレームの環境ノイズから得られる無音特徴分布Ｆ_j［Ｉ_i］のｄ番目のコンポーネントｆ_d（ｉ，ｊ）は、上述したことから、式（２４）に示すように、平均値μ_d（ｉ，ｊ）と、分散σ_d ²（ｉ，ｊ）によって規定される正規分布Ｎ（μ_d（ｉ，ｊ），σ_d ²（ｉ，ｊ））で表すことができる。
【０１６７】
【数２４】

【０１６８】
この場合、第１の適法方法（図８）では、無音モデル補正部３３は、第１乃至第Ｎ発話の音声区間の直前のノイズ観測区間Ｔｎの環境ノイズから得られる無音特徴分布のｄ番目のコンポーネントの平均値μ_sil（ｄ）と分散σ_sil ²（ｄ）を、次式にしたがって計算する。
【０１６９】
【数２５】

【０１７０】
そして、無音モデル補正部３３は、次式で示される平均ベクトルμ_silと分散マトリクスΣ_silによって規定される正規分布を、注目音声区間の音声の認識に用いる無音モデルＧ_s［Ｉ_N］とする。
【０１７１】
【数２６】

【０１７２】
次に、第２の適応方法（図１０）では、無音モデル補正部３３は、第１乃至第Ｎ−１発話の音声区間の直前のノイズ観測区間Ｔｎの環境ノイズから得られる無音特徴分布Ｆ_j［Ｉ₁］乃至Ｆ_j［Ｉ_N-1］を計算する。さらに、無音モデル補正部３３は、無音特徴分布Ｆ_j［Ｉ₁］乃至Ｆ_j［Ｉ_N-1］の平均ベクトルμ_sil-1と分散マトリクスΣ_sil-1を、式（２５）および（２６）における場合と同様に計算し、その平均ベクトルμ_sil-1と分散マトリクスΣ_sil-1によって規定される正規分布Ｎ（μ_sil-1，Σ_sil-1）を、式（２７）に示すように、第１の無音モデルＧ_s-1とする。
【０１７３】
【数２７】

【０１７４】
また、無音モデル補正部３３は、注目フレームである第Ｎ発話の音声区間の直前のノイズ観測区間Ｔｎの環境ノイズから得られる無音特徴分布Ｆ_j［Ｉ_N］のｄ番目のコンポーネントについて、そのノイズ観測区間Ｔｎにおける平均値μ_sil-2（ｄ）と分散σ_sil-2 ²（ｄ）を、次式にしたがって計算する。
【０１７５】
【数２８】

【０１７６】
さらに、無音モデル補正部３３は、式（２９）で示される平均ベクトルμ_sil-2と分散マトリクスΣ_sil-2によって規定される正規分布Ｎ（μ_sil-2，Σ_sil-2）を、式（３０）に示すように、第２の無音モデルＧ_s-2とする。
【０１７７】
【数２９】

【０１７８】
【数３０】

【０１７９】
以上のようにして、第１の無音モデルＧ_s-1と、第２の無音モデルＧ_s-2を得た後は、無音モデル補正部３３は、第１の無音モデルＧ_s-1と、第２の無音モデルＧ_s-2とを統合することにより、注目音声区間の音声の認識に用いる無音モデルＧ_s［Ｉ_N］を生成する。
【０１８０】
即ち、無音モデル補正部３３は、例えば、上述の式（７）にしたがい、第１の無音モデルＧ_s-1を規定する平均ベクトルμ_sil-1と、第２の無音モデルＧ_s-2を規定する平均ベクトルμ_sil-2とを統合し、平均ベクトルμ_silを求めるとともに、第１の無音モデルＧ_s-1を規定する分散マトリクスΣ_sil-1と、第２の無音モデルＧ_s-2を規定する分散マトリクスΣ_sil-2とを統合し、分散マトリクスΣ_silを求める。そして、無音モデル補正部３３は、その平均ベクトルμ_silと分散マトリクスΣ_silによって規定される正規分布Ｎ（μ_sil，Σ_sil）を、式（３１）に示すように、注目音声区間の音声の認識に用いる無音モデルＧ_s［Ｉ_N］とする。
【０１８１】
【数３１】

【０１８２】
次に、第３の適応方法（図１２）では、無音モデル補正部３３は、直前の発話、つまり第Ｎ−１発話の音声区間の音声認識に用いられた無音モデルＧ_s［Ｉ_N-1］を、音声認識部３２（図１４）から取得する。
【０１８３】
さらに、無音モデル補正部３３は、注目フレームである第Ｎ発話の音声区間の直前のノイズ観測区間Ｔｎの環境ノイズから得られる無音特徴分布Ｆ_j［Ｉ_N］の、そのノイズ観測区間Ｔｎにおける平均ベクトルと分散マトリクスを、上述の式（２８）および（２９）にしたがって計算し、その平均ベクトルと分散マトリクスによって規定される正規分布としての無音モデルＧ_s’［Ｉ_N］を生成する。
【０１８４】
そして、無音モデル補正部３３は、第Ｎ−１発話の音声区間の音声認識に用いられた無音モデルＧ_s［Ｉ_N-1］と、第Ｎ発話の音声区間の直前の環境ノイズだけから得られた無音モデルＧ_s’［Ｉ_N］とを統合することにより、注目音声区間の音声の認識に用いる無音モデルＧ_s［Ｉ_N］を生成する。
【０１８５】
即ち、例えば、第Ｎ−１発話の音声区間の音声認識に用いられた無音モデルＧ_s［Ｉ_N-1］としての正規分布を規定する平均ベクトルと分散マトリクスを、それぞれμ_sil-1とΣ_sil-1とするとともに、第Ｎ発話の音声区間の直前の環境ノイズだけから得られた無音モデルＧ_s’［Ｉ_N］としての正規分布を規定する平均ベクトルと分散マトリクスを、それぞれμ_sil-2とΣ_sil-2とすると、無音モデル補正部３３は、例えば、上述の式（７）にしたがい、平均ベクトルμ_sil-1とμ_sil-2とを統合し、平均ベクトルμ_silを求めるとともに、分散マトリクスΣ_sil-1とΣ_sil-2とを統合し、分散マトリクスΣ_silを求める。そして、無音モデル補正部３３は、その平均ベクトルμ_silと分散マトリクスΣ_silによって規定される正規分布を、注目音声区間の音声の認識に用いる無音モデルＧ_s［Ｉ_N］とする。
【０１８６】
以上のように、特徴分布パラメータを用いる場合においても、注目音声区間の直前の環境ノイズだけでなく、過去の１以上の音声区間の直前の環境ノイズにも基づいて、注目音声区間の音声を認識するのに用いる無音モデルの適応を行うようにすることで、音声区間中の無音部分に十分対処可能な無音モデルの適応を行うことができ、これにより、無音部分に起因する音声認識性能の劣化を防止（低減）することができる。
【０１８７】
なお、第ｉ発話の音声区間の直前の環境ノイズから得られる無音特徴分布Ｆ_j［Ｉ_N］の、そのノイズ観測区間Ｔｎにおける平均ベクトルと分散マトリクスを、上述の式（２８）および（２９）にしたがって計算する場合においては、そのノイズ観測区間ＴｎにおけるＭフレームそれぞれから得られる時系列の無音特徴分布Ｆ₁［Ｉ_i］，Ｆ₂［Ｉ_i］，・・・，Ｆ_M［Ｉ_i］は、平等に扱うのではなく、例えば、対応する音声区間に近いものほど重みをおいて扱うことが可能である。このような重み付けの方法の詳細については、例えば、上述の特願2000-276856号等に記載されている。
【０１８８】
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
【０１８９】
そこで、図１８は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
【０１９０】
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク１０５やＲＯＭ１０３に予め記録しておくことができる。
【０１９１】
あるいはまた、プログラムは、フロッピーディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体１１１に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体１１１は、いわゆるパッケージソフトウエアとして提供することができる。
【０１９２】
なお、プログラムは、上述したようなリムーバブル記録媒体１１１からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部１０８で受信し、内蔵するハードディスク１０５にインストールすることができる。
【０１９３】
コンピュータは、CPU(Central Processing Unit)１０２を内蔵している。CPU１０２には、バス１０１を介して、入出力インタフェース１１０が接続されており、CPU１０２は、入出力インタフェース１１０を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部１０７が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)１０３に格納されているプログラムを実行する。あるいは、また、CPU１０２は、ハードディスク１０５に格納されているプログラム、衛星若しくはネットワークから転送され、通信部１０８で受信されてハードディスク１０５にインストールされたプログラム、またはドライブ１０９に装着されたリムーバブル記録媒体１１１から読み出されてハードディスク１０５にインストールされたプログラムを、RAM(Random Access Memory)１０４にロードして実行する。これにより、CPU１０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU１０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース１１０を介して、LCD(Liquid CryStal Display)やスピーカ等で構成される出力部１０６から出力、あるいは、通信部１０８から送信、さらには、ハードディスク１０５に記録等させる。
【０１９４】
ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。
【０１９５】
また、プログラムは、１のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
【０１９６】
なお、本実施の形態では、音響モデルとして、ＨＭＭを採用し、ＨＭＭ法に基づいて音声認識を行うようにしたが、音響モデル、および音声認識のアルゴリズムは、特に限定されるものではない。
【０１９７】
また、本発明は、特徴ベクトルと、特徴分布パラメータの両方を用いて音声認識を行う場合にも適用可能である。
【０１９８】
【発明の効果】
本発明のモデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置によれば、音声区間中の無音部分に十分対処可能な無音モデルの適応を行うことが可能となる。
【図面の簡単な説明】
【図１】本発明を適用した音声認識装置の第１実施の形態の構成例を示すブロック図である。
【図２】図１のノイズ観測区間抽出部３の処理を説明する図である。
【図３】特徴抽出部５の構成例を示すブロック図である。
【図４】音声認識部６の構成例を示すブロック図である。
【図５】ＨＭＭを示す図である。
【図６】音声認識処理を説明するフローチャートである。
【図７】各発話に対して、無音モデルの適応を行う様子を示す図である。
【図８】第１の無音モデルの適応方法を説明する図である。
【図９】第１の無音モデルの適応方法による無音モデル適応処理を説明するフローチャートである。
【図１０】第２の無音モデルの適応方法を説明する図である。
【図１１】第２の無音モデルの適応方法による無音モデル適応処理を説明するフローチャートである。
【図１２】第３の無音モデルの適応方法を説明する図である。
【図１３】第３の無音モデルの適応方法による無音モデル適応処理を説明するフローチャートである。
【図１４】本発明を適用した音声認識装置の第２実施の形態の構成例を示すブロック図である。
【図１５】図１４のノイズ観測区間抽出部３の処理を説明する図である。
【図１６】特徴抽出部３１の構成例を示すブロック図である。
【図１７】音声認識部３２の構成例を示すブロック図である。
【図１８】本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
【符号の説明】
１マイクロフォン，２フレーム化部，３ノイズ観測区間抽出部，４発話スイッチ，５特徴抽出部，６音声認識部，７無音モデル補正部，１１パワースペクトラム分析部，２１−１乃至２１−Ｎ，２１−ｓ識別関数演算部，２２決定部，３１特徴抽出部，３２音声認識部，３３無音モデル補正部，４２特徴分布パラメータ算出部，４３ノイズ特性算出部，１０１バス，１０２ CPU，１０３ ROM，１０４ RAM，１０５ハードディスク，１０６出力部，１０７入力部，１０８通信部，１０９ドライブ，１１０入出力インタフェース，１１１リムーバブル記録媒体

Claims

音声を認識するのに用いる音響モデルの適応を行うモデル適応装置であって、
音声区間の直前の区間で観測される音声データを抽出し、抽出データとして出力するデータ抽出手段と、
現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データとに基づいて、無音を表す音響モデルである無音モデルの適応を行うモデル適応手段と
を備え、
前記モデル適応手段は、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データそれぞれに重みを付して、前記無音モデルの適応を行う
モデル適応装置。
前記モデル適応手段は、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた１以上の音声の音声区間の直前の区間における抽出データとから、現在の音声認識の対象となっている音声の認識に用いる前記無音モデルを生成する
請求項１に記載のモデル適応装置。
前記モデル適応手段は、過去に音声認識の対象とされた１以上の音声の音声区間の直前の区間における抽出データに基づいて、第１の無音モデルを生成するとともに、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データに基づいて、第２の無音モデルを生成し、前記第１と第２の無音モデルに基づいて、現在の音声認識の対象となっている音声の認識に用いる前記無音モデルを生成する
請求項１に記載のモデル適応装置。
前記モデル適応手段は、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データに基づいて、前記無音モデルを生成し、その無音モデルと、過去に音声認識の対象とされた音声の認識に用いられた前記無音モデルとに基づいて、現在の音声認識の対象となっている音声の認識に用いる前記無音モデルを生成する
請求項１に記載のモデル適応装置。
前記音声の認識は、音声の特徴空間における特徴量のベクトルまたは特徴量の分布に基づいて行われ、
前記モデル適応手段は、前記抽出データから得られる前記特徴量のベクトルまたは特徴量の分布に基づいて、前記無音モデルの適応を行う
請求項１に記載のモデル適応装置。
前記モデル適応手段は、前記抽出データから得られる前記特徴量と特徴量の分布の両方に基づいて、前記無音モデルの適応を行う
請求項５に記載のモデル適応装置。
前記モデル適応手段は、統計的手法によって、前記無音モデルの適応を行う
請求項１に記載のモデル適応装置。
音声を認識するのに用いる音響モデルの適応を行うモデル適応方法であって、
音声区間の直前の区間で観測される音声データを抽出し、抽出データとして出力するデータ抽出ステップと、
現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データとに基づいて、無音を表す音響モデルである無音モデルの適応を行うモデル適応ステップと
を備え、
前記モデル適応ステップでは、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データそれぞれに重みを付して、前記無音モデルの適応を行う
モデル適応方法。
音声を認識するのに用いる音響モデルの適応を行うモデル適応処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、
音声区間の直前の区間で観測される音声データを抽出し、抽出データとして出力するデータ抽出手段と、
現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データとに基づいて、無音を表す音響モデルである無音モデルの適応を行うモデル適応手段と
して、コンピュータを機能させるためのプログラムであり、
前記モデル適応手段は、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データそれぞれに重みを付して、前記無音モデルの適応を行う
プログラムが記録されている記録媒体。
音声を、音響モデルを用いて認識する音声認識装置であって、
音声データの特徴量を抽出する特徴抽出手段と、
前記特徴量と音響モデルに基づいて、前記音声を認識する音声認識手段と、
音声区間の直前の区間で観測される音声データを抽出し、抽出データとして出力するデータ抽出手段と、
現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データとに基づいて、無音を表す音響モデルである無音モデルの適応を行うモデル適応手段と
を備え、
前記モデル適応手段は、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データそれぞれに重みを付して、前記無音モデルの適応を行う
音声認識装置。