JP2005221727A

JP2005221727A - 音声認識システム、音声認識方法および音声認識用プログラム

Info

Publication number: JP2005221727A
Application number: JP2004029143A
Authority: JP
Inventors: Takeshi Hanazawa; 健花沢
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2004-02-05
Filing date: 2004-02-05
Publication date: 2005-08-18
Anticipated expiration: 2024-02-05
Also published as: JP4583772B2

Abstract

【課題】音声認識システムにおいて、少ない処理量で入力音声の音響モデルを判別、選択しながら、当該入力音声の音声認識を行うことを可能にする。
【解決手段】本発明の音声認識システムは、入力音声の先頭の所定区間においては、複数の音響モデルを全て用いて音響尤度計算処理および仮説処理をそれぞれ音響尤度計算部１０４と仮説処理部１０６で行う。なお、先頭の所定区間の音響尤度計算処理が終了した時点で音響尤度の計算結果が良い音響モデルがモデル判別部１０８で選択されている。それ以降の区間においては、モデル判別部１０８で選択された音響モデルのみを用いて音響尤度計算処理および仮説処理をそれぞれ音響尤度計算部１０４と仮説処理部１０６で行う。
【選択図】図１

Description

本発明は、不特定話者の音声を認識する音声認識システム、音声認識方法および音声認識用プログラムに関するものである。

不特定話者音響モデルを使用して不特定話者の音声を認識する音声認識システムでは、ユーザによる音声登録が不要である反面、ある特定の話者あるいは話者群に特化した音響モデルを使用する場合に比べて一般に認識性能が劣化する。ここで、音響モデルとは、入力音声に対して音響的な確からしさを与えるモデルのことである。

また、音声認識の前段階でＧＭＭ（Gaussian Mixture Model）などを用いて複数話者を判別してから、複数話者の中から選択された話者の音声認識を行う音声認識システムがある。しかし、この音声認識システムでは、前処理を行う分だけ処理量が多くなる他、前処理時に一旦入力音声を処理しなければならないため、応答が遅れる。

そこで、複数話者の音響モデルを並列に認識処理させ、最後に音声認識スコアの良いものを選択する、すなわち複数話者を判別する音声認識システムがある。しかし、この音声認識システムでは、話者数分の計算量が必要になる。

これに対し、計算量を削減した音声認識システムの一例が、特許文献１に開示されている。この音声認識システムは、複数話者に対応する複数の仮説に対し、後述する枝刈りという処理を共通に行うことで自動的に最良の話者を選択するシステムであり、図５に示すように、マイクロフォン１と、特徴抽出部２と、バッファメモリ３と、音素照合部４と、ＬＲパーザ５と、話者混合隠れマルコフ網メモリ１１と、話者モデルメモリ１２と、ＬＲテーブルメモリ１３と、文脈自由文法データベースメモリ２０とから構成されている。

このような構成を有する従来の音声認識システムは、次のように動作する。

まず、マイクロフォン１で話者音声が受け付けられ、特徴抽出部２で話者音声のパラメータである特徴量が抽出される。抽出された特徴量は、バッファメモリ３を介して音素照合部４に入力される。

音素照合部４では、ＬＲパーザ５からの音素照合要求に応じて、入力された特徴量の音素照合が行われる。このとき、ＬＲパーザ５からは、音素照合区間の情報、および照合対象音素とその前後の音素の情報を含む音素コンテキスト情報が渡される。音素照合部４では、受け取った音素コンテキスト情報に基づいてそのような音素コンテキストを受理することができる隠れマルコフ網（以下、ＨＭ網という。）上の状態を、先行状態リストと後続状態リストの制約内で連結することによって、１つのモデルが選択される。そして、この選択されたモデルを用いて音素照合区間内のデータに対する尤度が計算され、この尤度の値が音素照合スコアとしてＬＲパーザ５に返される。

ＬＲパーザ５では、例えば音素継続時間長モデルを含む話者モデルメモリ１２と、ＬＲテーブルメモリ１３とを参照して、入力された音素照合スコアについて左から右方向に、後戻りなしに、仮説計算処理を行う。ＬＲテーブルメモリ１３には、文脈自由文法データベースメモリ２０内の所定の文脈自由文法（ＣＦＧ）が自動変換されたＬＲテーブルが格納されている。ＬＲパーザ５では、ＬＲテーブルメモリ１３内のＬＲテーブルから次にくる音素を予測し、その音素予測データを音素照合部４に出力する。

これに応答して、音素照合部４では、入力された音素予測データに対応する隠れマルコフ網メモリ１１内の情報を参照して照合し、その尤度を音声認識スコアとしてＬＲパーザ５に戻す。

ＬＲパーザ５では、入力された音声認識スコアを元に順次音素を連接していくことにより、連続音声の認識を行う。なお、音素照合部４で複数の音素が予測された場合は、これらすべての存在をチェックし、部分的な音声認識の尤度の高い部分木を残すという枝刈りを行って高速処理を実現する。

その後、マイクロフォン１で受け付けられた話者音声が最後まで処理されると、ＬＲパーザ５では、全体の尤度が最大のものまたは所定の上位複数個のものを音声認識結果データとして出力する。
特許第２９０５６７４号明細書

しかしながら、上述のように、複数話者を自動判別しながら音声認識する場合に、複数話者の仮説を共通に枝刈りする音声認識システムでは、仮説計算処理までの処理を全ての話者の音響モデルに対して行わなければならないため、処理量の点で効率的でないという問題点がある。

本発明の目的は、少ない処理量で入力音声の音響モデルを判別、選択しながら、当該入力音声の音声認識を行うことができる音声認識システム、音声認識方法および音声認識用プログラムを提供することにある。

本発明の音声認識システムは、入力音声の特徴量に対し、複数の音響モデルとの音響尤度を計算する音響尤度計算手段と、音響尤度計算手段にて入力音声の先頭の所定区間分の音響尤度計算が終了した時点で、当該所定区間内に音響尤度計算手段にて計算された音響尤度に基づいて、入力音声の音響モデルの判別、選択を行うモデル判別手段と、音響尤度計算手段にて入力音声の所定区間分の音響尤度計算が終了する度に、当該所定区間内にモデル判別手段にて選択された音響モデルに対して計算された音響尤度を用いて仮説処理を行い、入力音声の全区間の仮説処理が終了した後に、仮説処理結果に基づく音声認識結果を出力する仮説処理手段とを備える。ここで、音響尤度計算手段は、入力音声の先頭の所定区間では、入力音声の特徴量に対し、複数の音響モデルの全てとの音響尤度を各々計算し、入力音声の先頭以降の所定区間では、入力音声の特徴量に対し、モデル判別手段にて選択された音響モデルのみとの音響尤度を計算する。

このような構成により、入力音声の先頭の所定区間でのみ、音響尤度計算処理が複数の音響モデルの数だけ複数回行われ、先頭以降の所定区間では、音響尤度計算処理が、既に選択されている音響モデルの数だけすなわち１回だけ行われることになる。そのため、入力音声の音響モデルを判別、選択しながら、当該入力音声の音声認識を行う際の処理量を小さく迎えることができる。

ここで、モデル判別の対象は話者であっても良く、その場合の話者判別の対象は、性別、年齢別、または方言別であっても良い。あるいは、モデル判別の対象は、雑音環境、伝送特性、言語、またはそれらの組み合わせであっても良い。

本発明によれば、入力音声の先頭の所定区間でのみ、音響尤度計算処理が複数の音響モデルの数だけ複数回行われ、先頭以降の所定区間では、音響尤度計算処理が、既に選択されている音響モデルの数だけすなわち１回だけ行われること、また、仮説処理時には、その前段の音響尤度計算処理時に計算された音響尤度を共用し、新たに音響尤度を計算しなくても済むことから、入力音声の音響モデルを判別、選択しながら、当該入力音声の音声認識を行う際の処理量が小さくて済むという効果を奏する。

次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。

図１は、本発明の一実施形態による音声認識システムの構成を示すブロック図である。この音声認識システムは、複数の音響モデルを格納する音響モデル格納部１０５と、言語モデルを格納する言語モデル格納部１０７と、入力音声１０１の音声入力が行われるマイクロフォン１０２と、入力音声１０１のパラメータである特徴量を抽出する特徴抽出部１０３と、抽出された特徴量に対し、複数の音響モデルとの音響尤度を計算する音響尤度計算部１０４と、入力音声１０１の先頭の所定区間分の音響尤度計算が終了した時点で、当該所定区間内に計算された音響尤度に基づき入力音声１０１の音響モデルの判別、選択を行うモデル判別部１０８と、入力音声１０１の所定区間分の音響尤度計算が終了する度に、当該所定区間内に選択された音響モデルに対して計算された音響尤度を用いて仮説処理を行い、入力音声１０１の全区間の仮説処理が終了した後に、仮説処理結果に基づく音声認識結果１０９を出力する仮説処理部３０６とを有する。ここで、音響尤度計算部１０４は、入力音声１０１の先頭の所定区間では、入力音声１０１の特徴量に対し、複数の音響モデルの全てとの音響尤度を各々計算するが、それ以降の所定区間では、入力音声１０１の特徴量に対し、モデル判別部１０８にて選択された音響モデルのみとの音響尤度を計算する。

次に、本実施形態による音声認識システムの動作の一例について図２のフローチャートを用いて説明する。

まず、入力音声１０１をマイクロフォン１０２から時間同期で、例えば１０ｍ秒ずつ入力する（ステップ２０１）。この１０ｍ秒分の標本量を１フレームとする。

次に、特徴抽出部１０３において、入力音声１０１の１フレーム分の音声の特徴量を抽出する（ステップ２０２）。

次に、音響尤度計算部１０４において、特徴抽出部１０３により抽出された１フレーム分の特徴量に対し、音響モデル格納部１０５に格納されている複数の音響モデルとの音響尤度を計算する（ステップ２０３）。このとき、音響尤度計算部１０４においては、入力音声１０１の先頭の所定区間では、複数の音響モデルの全てとの音響尤度を計算するが、それ以降の区間では、既に選択されている音響モデルのみとの音響尤度を計算する。なお、ここで計算された音響尤度は、音響尤度計算部１０４にて蓄積される。

ここで、音響尤度が所定区間分、例えば６０フレーム分蓄積された場合、この区間が入力音声１０１の先頭であれば（ステップ２０４のＹｅｓ）、モデル判別部１０８において、音響尤度の計算結果に基づいて入力音声１０１の音響モデルの判別、選択を行い（ステップ２０５）、ここで選択された音響モデルに対して音響尤度計算部１０４にて計算された音響尤度が、仮説処理部１０６での仮説処理に使用される。一方、入力音声１０１の先頭以外であれば（ステップ２０４のＮｏ）、モデル判別部１０８でのモデル判別は行われず、既にモデル判別部１０８により選択されている音響モデルに対して音響尤度計算部１０４にて計算された音響尤度が、仮説処理部１０６での仮説処理に使用される。

次に、仮説処理部１０６において、モデル判別部１０８により選択された音響モデルに対して音響尤度計算部１０４にて上記の所定区間内に計算された音響尤度と、言語モデル格納部１０７に格納されている言語モデルとを用いて１フレームずつ仮説処理を行う（ステップ２０６）。

入力音声１０１の所定区間分の仮説処理までの処理が終了すると、その区間の終端が入力音声１０１の全区間の終端でなければ（ステップ２０７のＮｏ）、ステップ２０１に戻って、入力音声１０１の次のフレームの入力を受け付ける。一方、入力音声１０１の全区間の終端であれば（ステップ２０７のＹｅｓ）、仮説処理部１０６では、仮説処理により得た単語列の中から最も確からしい単語列を音声認識結果１０９として出力して（ステップ２０８）、処理を終了する。

上述のように本発明では、入力音声１０１の先頭の所定区間においては、複数の音響モデルを全て用いて音響尤度計算処理を音響尤度計算部１０４で行い、その先頭の所定区間の音響尤度計算処理が終了した時点で音響尤度の計算結果が良い音響モデルをモデル判別部１０８で選択する。先頭以降の所定区間においては、モデル判別部１０８で選択された音響モデルのみを用いて音響尤度計算処理を音響尤度計算部１０４で行う。

それにより、入力音声１０１の先頭区間でのみ、音響尤度計算処理が複数の音響モデルの数だけ複数回行われ、先頭以降の区間では、音響尤度計算処理が、既に選択されている音響モデルの数だけすなわち１回だけ行われるため、複数の音響モデルの中から入力音声１０１の音響モデルを選択して音声認識する場合の処理量を小さく抑えることができる。

次に、本発明の音声認識システムについて具体的な実施例を用いて説明する。

（第１実施例）
図３は、本発明の第１実施例による音声認識システムの構成を示すブロック図である。この音声認識システムは、図１に示した入力音声１０１の具体例として不特定話者の音声を用いることにより、モデル判別の対象を話者とし、また、音響モデルの具体例として男性話者モデルと女性話者モデルとを用いることにより、話者判別の対象を性別とする。それに伴い、図１に示したモデル判別部１０８を、話者のモデルを判別する話者判別部３０８に置き換え、また、音響モデル格納部１０５を、男性話者モデルを格納する男性話者モデル格納部３０５Ａと女性話者モデルを格納する女性話者モデル格納部３０５Ｂとに置き換える。なお、図３において、マイクロフォン３０２、特徴抽出部３０３、音響尤度計算部３０４、仮説処理部３０６、言語モデル格納部３０７は、それぞれ、図１に示したマイクロフォン１０２、特徴抽出部１０３、音響尤度計算部１０４、仮説処理部１０６、言語モデル格納部１０７に相当する。

次に、本実施例による音声認識システムの動作の一例について説明する。

まず、入力音声３０１をマイクロフォン３０２から時間同期で、例えば１０ｍ秒ずつ入力する。この１０ｍ秒分の標本量を１フレームとする。

次に、特徴抽出部３０３において、入力音声３０１の１フレーム分の音声の特徴量を抽出する。

次に、音響尤度計算部３０４において、特徴抽出部３０３により抽出された１フレーム分の特徴量に対し、男性話者モデル格納部３０５Ａに格納されている男性話者モデルとの音響尤度、女性話者モデル格納部３０５Ｂに格納されている女性話者モデルとの音響尤度をそれぞれ計算する。なお、ここで計算された音響尤度は、音響尤度計算部３０４にて蓄積される。

ここで、入力音声３０１の先頭の所定区間分、例えば先頭の６０フレーム分の音響尤度が蓄積された場合、話者判別部３０８において、その区間分の男性話者モデル、女性話者モデルのそれぞれの音響尤度の平均値を比較し、例えば男性話者モデルの平均音響尤度の方が女性話者モデルの平均音響尤度よりもより確からしい場合には、男性話者モデルを選択する。以下では、男性話者モデルが選択されたものとして説明する。

次に、仮説処理部３０６において、話者判別部３０８により選択された男性話者モデルに対して音響尤度計算部３０４にて上記の所定区間内に計算された音響尤度と、言語モデル格納部３０７に格納されている言語モデルとを用いて１フレームずつ仮説処理を行い、確からしい順に複数の単語列仮説を得る。

入力音声３０１の先頭の所定区間分の仮説処理までの処理が終了すると、それ以降の区間については既に選択されている男性話者モデルのみを用いて音響尤度計算処理と仮説処理をそれぞれ音響尤度計算部３０４と仮説処理部３０６で行い、入力音声３０１の全区間の終端までの処理が終了したら、仮説処理部３０６から音声認識結果３０９として最も確からしい単語列を出力する。

上述のように本実施例では、話者の性別をあらかじめ指定することなしに男性あるいは女性に特化した話者モデルを使用することが可能となり、さらに性別をあらかじめ指定する場合と比較しても処理量の増加が少なくてすむ。すなわち、先頭の所定区間分でのみ、音響尤度計算処理が複数（本実施例では２回）行われることになる。

なお、本実施例では、話者判別の対象を性別とし、話者を男性と女性との２つのクラスタに分けているが、話者を何らかの別の基準で複数のクラスタに分け、その中から話者のモデルを判別することも容易に実現可能である。例えば、話者判別の対象を年齢別とし、子供音声と成人音声と高齢者音声とを判別する場合や、話者判別の対象を方言別とし、アメリカ人の英語と日本人の英語とを判別する場合などが考えられる。

また、本実施例では、モデル判別の対象を話者としているが、モデル判別の対象は話者に限定されない。例えば、モデル判別の対象を雑音環境とし、ＳＮ比の異なる複数の雑音環境に対応したモデルを用いて雑音環境を判別しながら音声認識を行う場合や、モデル判別の対象を伝送特性とし、携帯電話音声と固定電話音声など異なる伝送特性に対応したモデルを用いて伝送特性を判別しながら音声認識を行う場合などが考えられる。また、モデル判別の対象を言語とし、例えば、日本語、英語、中国語の３種類のモデルを用い、言語判別しながら音声認識を行う場合が考えられる。このとき、先頭の所定区間で言語をどれか１つに絞る方法を採用しても良いし、確からしいもの２つをまず選択しておいて、次の所定区間で最終的に１つに絞る、という方法を採用しても良い。また、モデル判別の対象を、上述の雑音環境、伝送特性、言語の組み合わせとしても良い。

さらに、本実施例では、話者判別のための音響尤度比較の方法として、その区間分のフレーム単位音響尤度の平均値を用いる方法を採用したが、この方法には限定されず、フレームごとに音響尤度の優劣を比較してその区間分で多数決をとる方法を採用しても良い。

（第２の実施例）
図４は、本発明の第２実施例による音声認識システムの構成を示すブロック図である。この音声認識システムは、第１の実施例と同様に、図１に示した入力音声１０１の具体例として不特定話者の音声を用いることにより、モデル判別の対象を話者とし、また、音響モデルの具体例として男性話者モデルと女性話者モデルとを用いることにより、話者判別の対象を性別とする。それに伴い、図１に示したモデル判別部１０８を、話者のモデルを判別する話者判別部４０８に置き換え、また、音響モデル格納部１０５を、男性話者モデルを格納する男性話者モデル格納部４０５Ａと女性話者モデルを格納する女性話者モデル格納部４０５Ｂとに置き換える。なお、図４において、マイクロフォン４０２、特徴抽出部４０３、音響尤度計算部４０４、仮説処理部４０６、言語モデル格納部４０７は、それぞれ、図１に示したマイクロフォン１０２、特徴抽出部１０３、音響尤度計算部１０４、仮説処理部１０６、言語モデル格納部１０７に相当する。さらに、この音声認識システムは、話者判別部４０８で選択しようとしているモデルの平均音響尤度が所定の閾値を超えているか判定する閾値判定部４１０も新たに備えられている。

まず、入力音声４０１をマイクロフォン４０２から時間同期で、例えば１０ｍ秒ずつ入力する。この１０ｍ秒分の標本量を１フレームとする。

次に、特徴抽出部４０３において、入力音声４０１の１フレーム分の音声の特徴量を抽出する。

次に、音響尤度計算部４０４において、特徴抽出部４０３により抽出された１フレーム分の特徴量に対し、男性話者モデル格納部４０５Ａに格納されている男性話者モデルとの音響尤度、女性話者モデル格納部４０５Ｂに格納されている女性話者モデルとの音響尤度をそれぞれ計算する。なお、ここで計算された音響尤度は、音響尤度計算部４０４にて蓄積される。

ここで、入力音声４０１の先頭の所定区間分、例えば先頭の３０フレーム分の音響尤度が蓄積された場合、話者判別部４０８において、その区間分の男性話者モデル、女性話者モデルのそれぞれの音響尤度の平均値を比較し、例えば男性話者モデルの平均音響尤度の方が女性話者モデルの平均音響尤度よりもより確からしい場合には、男性話者モデルの平均音響尤度を閾値判定部４１０へ渡す。以下では、男性話者モデルの平均音響尤度が閾値判定部４１０へ渡されたものとして説明する。

次に、閾値判定部４１０において、話者判別部４０８から渡された男性話者モデルの平均音響尤度が所定の閾値を超えているかどうかを判定し、例えば閾値を超えている場合には受理という判定結果を話者判別部４０８へ返す。以下では、受理という判定結果が話者判別部４０８へ返されたものとして説明する。

次に、話者判別部４０８において、閾値判定部４１０から受理という判定結果が渡されたので、モデル判別結果として男性話者モデルを選択する。

次に、仮説処理部４０６において、話者判別部４０８により選択された男性話者モデルに対して音響尤度計算部４０４にて上記の所定区間内に計算された音響尤度と、言語モデル格納部４０７に格納されている言語モデルとを用いて１フレームずつ仮説処理を行い、確からしい順に複数の単語列仮説を得る。

入力音声４０１の先頭の所定区間分の仮説処理までの処理が終了すると、それ以降の区間については既に選択されている男性話者モデルのみを用いて音響尤度計算処理と仮説処理をそれぞれ音響尤度計算部４０４と仮説処理部４０６で行い、入力音声４０１の全区間の終端までの処理が終了したら、仮説処理部４０６から音声認識結果４０９として最も確からしい単語列を出力する。

上述のように本実施例では、閾値判定を行うことにより、入力音声４０１の区間の中で話者判別が行われる先頭区間を可変長とすることが可能となり、その結果としてより高精度な話者判別を行うことが可能となる。

なお、本発明においては、音声認識システム内の処理は、上述の専用のハードウェアにより実現されるもの以外に、その機能を実現するための音声認識プログラムにより実行するものであっても良い。この場合、音声認識システムを１台のコンピュータとして構成し、このコンピュータにて読取可能な記録媒体に音声認識プログラムを記録し、この記録媒体に記録された音声認識プログラムをコンピュータにて読み込み、実行する。コンピュータにて読取可能な記録媒体とは、フロッピーディスク、光磁気ディスク、ＤＶＤ、ＣＤなどの移設可能な記録媒体の他、コンピュータに内蔵されたＨＤＤなどを指す。

本発明は、計算機に対する音声入力インタフェースといった用途に適用できる。

本発明の一実施形態による音声認識システムの構成を示すブロック図である。図１に示した音声認識システムの動作の一例を説明するフローチャートである。本発明の第１実施例による音声認識システムの構成を示すブロック図である。本発明の第２実施例による音声認識システムの構成を示すブロック図である。従来の音声認識システムの構成の一例を示すブロック図である。

符号の説明

１０１入力音声
１０２マイクロフォン
１０３特徴抽出部
１０４音響尤度計算部
１０５音響モデル格納部
１０６仮説処理部
１０７言語モデル格納部
１０８モデル判別部
１０９音声認識結果
２０１〜２０８ステップ
３０１入力音声
３０２マイクロフォン
３０３特徴抽出部
３０４音響尤度計算部
３０５Ａ男性話者モデル格納部
３０５Ｂ女性話者モデル格納部
３０６仮説処理部
３０７言語モデル格納部
３０８話者判別部
３０９音声認識結果
４０１入力音声
４０２マイクロフォン
４０３特徴抽出部
４０４音響尤度計算部
４０５Ａ男性話者モデル格納部
４０５Ｂ女性話者モデル格納部
４０６仮説処理部
４０７言語モデル格納部
４０８話者判別部
４０９音声認識結果
４１０閾値判定部

Claims

複数の音響モデルの中から入力音声の音響モデルを判別、選択しながら、当該入力音声の音声認識を行う音声認識システムにおいて、
前記入力音声の特徴量に対し、前記複数の音響モデルとの音響尤度を計算する音響尤度計算手段と、
前記音響尤度計算手段にて前記入力音声の先頭の所定区間分の音響尤度計算が終了した時点で、当該所定区間内に前記音響尤度計算手段にて計算された音響尤度に基づいて、前記入力音声の音響モデルの判別、選択を行うモデル判別手段と、
前記音響尤度計算手段にて前記入力音声の所定区間分の音響尤度計算が終了する度に、当該所定区間内に前記モデル判別手段にて選択された音響モデルに対して計算された音響尤度を用いて仮説処理を行い、前記入力音声の全区間の仮説処理が終了した後に、仮説処理結果に基づく音声認識結果を出力する仮説処理手段とを有し、
前記音響尤度計算手段は、前記入力音声の先頭の所定区間では、前記入力音声の特徴量に対し、前記複数の音響モデルの全てとの音響尤度を各々計算し、前記入力音声の先頭以降の所定区間では、前記入力音声の特徴量に対し、前記モデル判別手段にて選択された音響モデルのみとの音響尤度を計算することを特徴とする音声認識システム。
前記音響尤度計算手段は、前記入力音声の特徴量に対する音響尤度計算を時間同期で行う、請求項１に記載の音声認識システム。
前記モデル判別手段によるモデル判別の対象が話者である、請求項１または２に記載の音声認識システム。
前記モデル判別手段による話者判別の対象が、性別、年齢別、または方言別である、請求項３に記載の音声認識システム。
前記モデル判別手段によるモデル判別の対象が、雑音環境、伝送特性、言語、またはそれらの組み合わせである、請求項１または２に記載の音声認識システム。
複数の音響モデルの中から入力音声の音響モデルを判別、選択しながら、当該入力音声の音声認識を行う音声認識システムによる音声認識方法において、
音響尤度計算手段が、前記入力音声の先頭の所定区間で、前記入力音声の特徴量に対し、前記複数の音響モデルの全てとの音響尤度を各々計算する第１のステップと、
モデル判別手段が、前記入力音声の先頭の所定区間分の音響尤度計算が終了した時点で、当該所定区間内に前記第１のステップにて計算された音響尤度に基づいて、前記入力音声の音響モデルの判別、選択を行う第２のステップと、
仮説処理手段が、前記入力音声の先頭の所定区間分の音響尤度計算が終了した時点で、当該所定区間内に前記第２のステップで選択された音響モデルに対して前記第１のステップで計算された音響尤度を用いて仮説処理を行う第３のステップと、
前記音響尤度計算手段が、前記入力音声の先頭以降の所定区間で、前記入力音声の特徴量に対し、前記第２のステップで選択された音響モデルのみとの音響尤度を計算する第４のステップと、
前記仮説処理手段が、前記入力音声の先頭以降の所定区間分の音響尤度計算が終了する度に、当該所定区間内に前記第２のステップで選択された音響モデルに対して前記第４のステップで計算された音響尤度を用いて仮説処理を行い、前記入力音声の全区間の仮説処理が終了した後に、仮説処理結果に基づく音声認識結果を出力する第５のステップとを有することを特徴とする音声認識方法。
前記第１のステップおよび前記第４のステップでは、前記入力音声の特徴量に対する音響尤度計算を時間同期で行う、請求項６に記載の音声認識方法。
前記第２のステップでは、モデル判別の対象が話者である、請求項６または７に記載の音声認識方法。
前記第２のステップでは、話者判別の対象が、性別、年齢別、または方言別である、請求項８に記載の音声認識方法。
前記第２のステップでは、モデル判別の対象が、雑音環境、伝送特性、言語、またはそれらの組み合わせである、請求項６または７に記載の音声認識方法。
複数の音響モデルの中から入力音声の音響モデルを判別、選択しながら、当該入力音声の音声認識を行うコンピュータに実行させる音声認識用プログラムにおいて、
前記入力音声の先頭の所定区間で、前記入力音声の特徴量に対し、前記複数の音響モデルの全てとの音響尤度を各々計算する第１のステップと、
前記入力音声の先頭の所定区間分の音響尤度計算が終了した時点で、当該所定区間内に前記第１のステップにて計算された音響尤度に基づいて、前記入力音声の音響モデルの判別、選択を行う第２のステップと、
前記入力音声の先頭の所定区間分の音響尤度計算が終了した時点で、当該所定区間内に前記第２のステップで選択された音響モデルに対して前記第１のステップで計算された音響尤度を用いて仮説処理を行う第３のステップと、
前記入力音声の先頭以降の所定区間で、前記入力音声の特徴量に対し、前記第２のステップで選択された音響モデルのみとの音響尤度を計算する第４のステップと、
前記入力音声の先頭以降の所定区間分の音響尤度計算が終了する度に、当該所定区間内に前記第２のステップで選択された音響モデルに対して前記第４のステップで計算された音響尤度を用いて仮説処理を行い、前記入力音声の全区間の仮説処理が終了した後に、仮説処理結果に基づく音声認識結果を出力する第５のステップとを前記コンピュータに実行させることを特徴とする音声認識用プログラム。
前記第１のステップおよび前記第４のステップでは、前記入力音声の特徴量に対する音響尤度計算を時間同期で行う、請求項１１に記載の音声認識用プログラム。
前記第２のステップでは、モデル判別の対象が話者である、請求項１１または１２に記載の音声認識用プログラム。
前記第２のステップでは、話者判別の対象が、性別、年齢別、または方言別である、請求項１３に記載の音声認識用プログラム。
前記第２のステップでは、モデル判別の対象が、雑音環境、伝送特性、言語、またはそれらの組み合わせである、請求項１１または１２に記載の音声認識用プログラム。