JP2003099083A

JP2003099083A - 音声認識装置

Info

Publication number: JP2003099083A
Application number: JP2001291825A
Authority: JP
Inventors: Shoe Sato; 庄衛佐藤; Toru Imai; 亨今井; Kazuho Onoe; 和穂尾上; Hiroyuki Segi; 寛之世木; Akio Ando; 彰男安藤
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2001-09-25
Filing date: 2001-09-25
Publication date: 2003-04-04

Abstract

(57)【要約】【課題】認識結果出力までの遅延時間を短縮し、計算
コストを軽減することが可能な音声認識装置を提供する
こと。【解決手段】事前音声データの各クラスタについて、
音声クラスモデルを生成するための音声クラスモデル生
成手段と、各音声クラスモデルに基づいて複数の適応音
響モデル生成するための適応化処理手段と、音声クラス
モデルに対する入力音声の尤度を計算するための音声ク
ラスモデル尤度計算手段とを有する１以上のモデル生成
手段からなるモデル群生成手段４０と、音声クラスモデ
ルに対する入力音声の尤度を基準に複数の適応音響モデ
ルの中から最適な適応音響モデルを選択するための適応
音響モデル選択手段６０と、適応音響モデル選択手段が
選択した適応音響モデルを用いて入力音声の音声認識を
行うための音声認識手段５０とを備え、音声クラスモデ
ル尤度計算手段は、入力音声の先頭近傍のデータを用い
て尤度を計算する構成を有する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、適応化音響モデル
を用いる音声認識装置に関し、特に、入力音声が不特定
話者によるものまたは背景雑音を含むものである場合の
音声認識において、認識結果を時間遅れなく出力するた
めに適応化音響モデルを用いる音声認識装置に関する。

【０００２】

【従来の技術】従来、予め話者を特定すること、および
音声認識用の音響モデルをその話者に適応させるための
データ（以下、適応用データという。）を十分用意でき
る場合には、音響モデルの話者適応化は音声認識の認識
精度向上に有効な方法であることが知られている。一
方、話者を特定できない場合には、１人以上の話者につ
いて、音声データの集合からなるクラスタを作成し、ク
ラスタ毎に適応化した音響モデルを使用することが提案
されている。

【０００３】クラスタの作成方法に関しては、以下に示
す事後クラスタリング法と事前クラスタリング法の２つ
の方法が提案されている。事後クラスタリング法は、エ
ス．イー．ジョンソン等著、「ＭＬＬＲ採用尤度の直接
最大化技術を用いた話者のクラスタリング」、ＩＣＡＳ
ＳＰ９８、５巻、１７７５−１７７８頁（Ｓ．Ｅ．Ｊｏ
ｈｎｓｏｎｅｔａｌ．，“ＳｐｅａｋｅｒＣｌｕ
ｓｔｅｒｉｎｇｕｓｉｎｇＤｉｒｅｃｔＭａｘｉ
ｍｉｚａｔｉｏｎｏｆｔｈｅＭＬＬＲ−ａｄｏｐ
ｔｅｄＬｉｋｅｌｉｈｏｏｄ”，ＩＣＡＳＳＰ９８，
ｖｏｌ．５，ｐｐ１７７５−１７７８）に記載されてい
るように、すべての音声が入力された後に入力音声をク
ラスタリングしてクラスタ毎の適応音響モデルを作成す
る方法である。

【０００４】事前クラスタリング法は、ワイ．ガオ．エ
ム等著、「事前話者学習に基づく話者適応化」、Ｅｕｒ
ｏｓｐｅｅｃｈ‘９７、４巻、２０９１−２０９４ペー
ジ（Ｙ．Ｇａｏ．Ｍ．ｅｔａｌ．，“Ｓｐｅａｋｅｒ
ＡｄａｐｔａｔｉｏｎＢａｓｅｄｏｎＰｒｅ−
ｃｌｕｓｔｅｒｉｎｇＴｒａｉｎｉｎｇＳｐｅａｋ
ｅｒ”，Ｅｕｒｏｓｐｅｅｃｈ’９７，ｖｏｌ．４，ｐ
ｐ．２０９１−２０９４）に記載されているように、事
前に音響モデルの学習用データをクラスタリングし、そ
のクラスタリングされたデータを用いて適応音響モデル
を作成しておく方法である。

【０００５】音声認識に上記のクラスタ毎の適応音響モ
デルを用いる場合は、複数ある適応音響モデルの中から
入力音声に対して最適な適応音響モデルを選択して音声
認識が行われる。上記の事後クラスタリング法では、全
ての音声が入力され、クラスタリングが行なわれた後に
適応音響モデルが決定される。一方、事前クラスタリン
グ法では、多くの場合、事前に用意された複数の適応音
響モデルについて、最適な適応音響モデルを選択するた
めの処理が同時に行われる。

【０００６】

【発明が解決しようとする課題】しかしながら、従来の
事後クラスタリング法では、全ての音声が入力され、ク
ラスタリングが行なわれた後に最適な適応音響モデルの
選択が行われるため、音声入力から認識結果出力までの
遅延時間を短くする必要がある場合には利用できないと
いう問題がある。

【０００７】また、従来の事前クラスタリング法では、
事前に用意された複数の適応音響モデルについて、最適
な適応音響モデルを選択するための処理が同時に行われ
るため、それに伴う計算コストが増大するという問題が
ある。

【０００８】本発明は、かかる問題を解決するためにな
されたものであり、その目的は、認識結果出力までの遅
延時間を短縮し、計算コストを軽減することが可能な音
声認識装置を提供することにある。

【０００９】

【課題を解決するための手段】以上の点を考慮して、請
求項１に係る発明は、複数の音声クラスモデルを生成す
るための音声クラスモデル生成手段と、前記各音声クラ
スモデルに基づいて複数の適応音響モデル生成するため
の適応化処理手段と、前記音声クラスモデルに対する入
力音声の尤度を計算するための音声クラスモデル尤度計
算手段とを有する１以上のモデル生成手段からなるモデ
ル群生成手段と、前記音声クラスモデルに対する入力音
声の尤度を基準に前記複数の適応音響モデルの中から最
適な適応音響モデルを選択するための適応音響モデル選
択手段と、前記適応音響モデル選択手段が選択した適応
音響モデルを用いて前記入力音声の音声認識を行うため
の音声認識手段とを備えた構成を有している。

【００１０】この構成により、音声認識処理前に予め音
声クラスモデルおよび適応音響モデルを生成しておき、
音声クラスモデルに対する尤度に基づいて適応音響モデ
ルの選択を行うため、クラスタ依存の適応音響モデルを
短時間に選択することが可能な音声認識装置を実現でき
る。

【００１１】また、請求項２に係る発明は、請求項１に
おいて、さらに、認識対象音声の所定の特性を有する事
前音声データを記憶するための事前音声データ記憶手段
と、前記事前音声データを、前記認識対象音声の特性別
にクラスタリングして１以上のクラスタを生成するため
のクラスタリング手段とを備え、前記音声クラスモデル
生成手段は、前記クラスタリング手段が生成したクラス
タに含まれる音声データをモデル化して前記音声クラス
モデルを生成する構成を有している。

【００１２】この構成により、音声認識処理前に予め音
声クラスモデルおよび適応音響モデルを生成しておき、
音声クラスモデルに対する尤度に基づいて適応音響モデ
ルの選択を行うため、クラスタ依存の適応音響モデルを
短時間に選択することが可能な音声認識装置を実現でき
る。

【００１３】また、請求項３に係る発明は、請求項１に
おいて、前記音声認識装置は、さらに、所定の音声デー
タを、前記事前音声データ記憶手段に記憶された事前音
声データの個数以上記憶するためのデータベースを備
え、前記各モデル群生成手段は、さらに、前記音声クラ
スモデルに基づいて、前記適応データ選択手段が前記適
応音響モデル生成のためのモデル適応化に用いる音声デ
ータである適応用データを、前記データベースに記憶さ
れた音声データ中から選択するための適応データ選択手
段を含む構成を有している。

【００１４】この構成により、音声認識処理前に予め音
声クラスモデルを生成しておくと共に、適応データ選択
手段を設けてモデル適応化のために用いる音声データを
選択し、適応音響モデルを生成しておき、音声クラスモ
デルに対する尤度に基づいて適応音響モデルの選択を行
うため、クラスタ依存の適応音響モデルを短時間に選択
することが可能な音声認識装置を実現できる。

【００１５】また、請求項４に係る発明は、請求項１に
おいて、前記音声クラスモデル尤度計算手段は、前記音
声クラスモデルに対する入力音声の尤度を、前記入力デ
ータの先頭近傍における所定部分のデータである先頭デ
ータを用いて計算し、前記適応音響モデル選択手段は、
前記先頭データを用いて計算された尤度の情報を用いて
前記適応音響モデルを選択する構成を有している。

【００１６】この構成により、音声認識処理前に予め音
声クラスモデルおよび適応音響モデルを生成しておき、
音声認識時に入力音声の先頭データを用いてモデルの選
択を行うため、クラスタ依存の適応音響モデルを短時間
に、かつ低計算コストで選択することが可能な音声認識
装置を実現できる。

【００１７】また、請求項５に係る発明は、請求項１ま
たは４において、前記音声クラスモデル尤度計算手段
は、前記先頭データが前記適応音響モデル選択に利用可
能なデータか否かを判断するための指標である信頼度を
生成し、前記適応音響モデル選択手段は、前記音声クラ
スモデルに対する入力音声の尤度の情報と前記信頼度の
情報とを用いて前記適応音響モデルを選択する構成を有
している。

【００１８】この構成により、モデルの利用可能性の指
標である信頼度を生成し、その信頼度の情報を併用して
適応音響モデルの選択を行うこととしたため、背景雑音
のある環境下での音声入力に対しても適応音響モデルの
誤選択の割合が小さく、短時間に、かつ低計算コストで
選択することが可能な音声認識装置を実現できる。

【００１９】また、請求項６に係る発明は、請求項１に
おいて、前記音声クラスモデル尤度計算手段は、モデル
出現確率の時系列データを時間に関して平滑化処理して
得られる局所尤度を、前記音声クラスモデルに対する入
力音声の尤度として生成する構成を有している。

【００２０】この構成により、音声クラスモデルに対す
る尤度を時間に関して平滑化処理するため、尤度の時間
変動が激しい場合でも、適応音響モデルを、安定かつ短
時間に選択することが可能な音声認識装置を実現でき
る。

【００２１】また、請求項７に係る発明は、請求項１、
４、５、６のいずれかにおいて、前記音声クラスモデル
は、所定の事前情報に基づいて複数のグループに分けら
れ、前記音声クラスモデル尤度計算手段は、前記各グル
ープについて、前記各グループを構成する各音声クラス
モデルに対する尤度の情報を用いて前記適応音響モデル
選択のための信頼度とする構成を有している。

【００２２】この構成により、事前情報を反映した信頼
度を用いて音声データがモデル選択に使用できるものか
否かの判断を行うこととしたため、背景雑音のある環境
下での音声入力に対しても適応音響モデルの誤選択の割
合が小さく、短時間に、かつ低計算コストで選択するこ
とが可能な音声認識装置を実現できる。

【００２３】

【発明の実施の形態】以下、添付図面を参照し、本発明
の第１の実施の形態に係る音声認識装置について説明す
る。図１に、本発明の第１の実施の形態に係る音声認識
装置の構成を模式的に示す。図１において、音声認識装
置１００は、事前音声データ記憶部１０、クラスタリン
グ部２０、大規模データベース３０、モデル群生成部４
０、切出部５０、適応音響モデル選択部６０、および音
声認識部７０によって構成される。

【００２４】事前音声データ記憶部１０は、予め認識対
象音声の所定の特性を有する事前音声データを記憶する
ための記憶部である。クラスタリング部２０は、音声デ
ータ記憶部１０に記憶された事前音声データのうちの、
認識対象音声の特性を良くあらわした音声データを特性
別に１以上のクラスタにクラスタリングするための構成
部である。

【００２５】ここで、上記の「認識対象音声の特性を良
くあらわした音声データ」として、例えば、放送音声の
認識の場合では、同一の番組で過去に放送された音声の
データがあげられる。大規模データベース３０は、音響
モデルの適応化のために、事前に収集された多数の音響
データを格納しておくためのデータベースである。

【００２６】モデル群生成部４０の詳細な構成を図２お
よび３に示す。図２に示すように、モデル群生成部４０
は、複数のモデル生成部４１−ｉ（ｉ＝１、２、・・
・、ｎの値をとる整数）によって構成され、各モデル生
成部４１−ｉは、同一の構成を有する。また、各モデル
生成部４１−ｉには、それぞれ、クラスタリング部２０
から出力されたクラスタ、大規模データベース３０から
出力された適応用データおよび切出部５０から出力され
た切出データが入力され、後述する尤度データおよび適
応音響モデルが出力される。

【００２７】図３に示すように、各モデル生成部４１−
ｉは、それぞれ音声クラスモデル生成部４２、適応デー
タ選択部４３、適応化処理部４４、および音声クラスモ
デル尤度計算部４５によって構成される。音声クラスモ
デル生成部４２は、クラスタリング部２０から出力され
た各クラスタに含まれる音声データをモデル化して複数
の音声クラスモデルを作成するための構成部である。

【００２８】この音声クラスモデルとしては、例えば、
エス．サト等著、「２段クラスタリングを用いたＨＭＭ
の選択的学習」、ＩＣＳＬＰ２０００、３巻、７２６−
７２９頁（Ｓ．Ｓａｔｏｅｔａｌ．，“Ｓｅｌｅｃ
ｔｉｖｅＴｒａｉｎｉｎｇｏｆＨＭＭｓｂｙｕ
ｓｉｎｇｔｗｏ−ｓｔａｇｅＣｌｕｓｔｅｒｉｎ
ｇ”，ＩＣＳＬＰ２０００，ｖｏｌ．３，ｐｐ７２６−
７２９）に記載されたＧＭＭ（ＧａｕｓｓｉａｎＭｉ
ｘｔｕｒｅＭｏｄｅｌ）を用いることができる。

【００２９】適応データ選択部４３は、音声クラスモデ
ル生成部４２から出力された音声クラスモデルに基づい
て、大規模データベース３０から出力される適応用デー
タの中から、元となる不特定話者用の音響モデルを適応
化するために用いる適応用データを選択するための構成
部である。適応化処理部４４は、音声クラスモデル生成
部４２から出力された音声クラスモデルに基づいて、適
応データ選択部４３で選択された適応用データを用いて
音響モデルの適応化処理を行い、音声認識用の候補とし
ての適応音響モデルを生成する。

【００３０】音響モデルの適応化には、シー．ジェイ．
レゲッター等著、「連続密度隠れマルコフモデルの話者
適応化のための最尤線形回帰」、ＣｏｍｐｕｔｅｒＳ
ｐｅｅｃｈａｎｄＬａｎｇｕａｇｅ、９号、１７１
−１８５頁、１９９５年９月（Ｃ．Ｊ．Ｌｅｇｇｅｔｔ
ｅｒｅｔａｌ．，“Ｍａｘｉｍｕｍｌｉｋｅｌｉ
ｈｏｏｄｌｉｎｅａｒｒｅｇｒｅｓｓｉｏｎｆｏ
ｒｓｐｅａｋｅｒａｄａｐｔａｔｉｏｎｏｆｃｏ
ｎｔｉｎｕｏｕｓｄｅｎｓｉｔｙｈｉｄｄｅｎＭ
ａｒｋｏｖｍｏｄｅｌｓ”，ＣｏｍｐｕｔｅｒＳｐ
ｅｅｃｈａｎｄＬａｎｇｕａｇｅ，Ｎｏ．９，ｐ
ｐ．１７１−１８５，Ｓｐｅ．１９９５）に記載のＭＬ
ＬＲ（ＭｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄＬｉｎｅ
ａｒＲｅｇｒｅｓｓｉｏｎ、）や、ジーン・リュック
コビアン等著、「マルコフの鎖の多変量ガウス混合観
測のための最尤後方推定」、ＩＥＥＥｔｒａｎｓ．，
Ｓ．Ａ．Ｐ．、２巻、２号、２９１−２９８頁（Ｊｅａ
ｎ−ｌｕｃＣａｕｖｉａｎｅｔａｌ．，“Ｍａｘｉ
ｍｕｍａＰｏｓｔｅｒｉｏｒｉＥｓｔｉｍａｔｉ
ｏｎｆｏｒＭｕｌｔｉｖａｒｉａｔｅＧａｕｓｓ
ｉａｎＭｉｘｔｕｒｅＯｂｓｅｒｖａｔｉｏｎｓ
ｏｆＭａｒｋｏｖＣｈａｉｎｓ”，ＩＥＥＥｔｒａ
ｎｓ．，Ｓ．Ａ．Ｐ．，ｖｏｌ．２，Ｎｏ．２，ｐｐ．
２９１−２９８）に記載のＭＡＰ（Ｍａｘｉｍｕｍａ
ＰｏｓｔｅｒｉｏｒｉＥｓｔｉｍａｔｉｏｎ）等の
技術を用いることができる。

【００３１】音声クラスモデル尤度計算部４５は、音声
クラスモデル生成部４２から出力される音声クラスモデ
ル対して、後述する切出部５０から入力される入力音声
の切出データの尤度を計算するための構成部であり、計
算された尤度は適応音響モデル選択部６０に出力され
る。尤度の計算方法は公知であり、その説明は省略す
る。

【００３２】切出部５０は、発話区間を検出し、その発
話区間の入力音声を所定の長さのデータとして切り出
し、切り出された音声データ（以下、切出データとい
う。）をモデル群生成部４０と音声認識部７０に出力す
る為の構成部である。適応音響モデル選択部６０は、モ
デル群生成部４０から出力された尤度の情報（以下、尤
度データという。）に基づいて、最も高い尤度を与える
音声クラスモデルに対応した適応音響モデルを、音声認
識に使用する適応音響モデルとして決定し、図１に示す
ように、モデル群生成部４０から出力される複数の適応
音響モデルの中からその適応音響モデルを選択するため
の構成部である。

【００３３】音声認識部７０は、モデル群生成部４０に
よって生成され、適応音響モデル選択部６０によって選
択された適応音響モデルを用いて、切出部５０から出力
された切出データの音声認識処理を行うための構成部で
ある。音声認識部７０での音声認識処理の結果が、認識
結果として音声認識装置１００から出力される。

【００３４】なお、適応音響モデル選択部６０は、入力
音声の先頭近傍における所定部分のデータ（以下、先頭
データという。）を用いて、上記の各音声クラスモデル
について尤度を計算することができる。上記の先頭デー
タとして、例えば、発話区間の検出と切り出しを行って
得られた各切出データの先頭部分のデータ等を用いるこ
とができる。これによって、各音声クラスモデルについ
ての尤度計算のための時間の短縮が図れ、適応音響モデ
ルの選択を短時間に行うことが可能となる。

【００３５】また、一般に、発話区間の切り出しは音声
のレベルに基づいて行われる場合が多いが、背景雑音レ
ベルが高い状況下で入力された音声では、切出データに
おける先頭データがしばしば雑音で占められる場合があ
る。このような場合は、適応音響モデルの選択エラーが
発生し、認識精度が低下する一因となる。

【００３６】そこで、適応音響モデル選択部６０におけ
る選択処理として、上記の切出データにおける局所的な
データ（以下、局所データという。）に対するモデル選
択の指標である信頼度を導入し、信頼度の情報に基づい
てモデル選択の結果が信頼できると判断された時点で適
応音響モデルの選択を行うように処理することにするの
でも良い。以下に、上記の信頼度について説明する。

【００３９】また、λ^-は、以下の式（３）によって定
義される。 L（t|λ^-）=（１−α）L（t−１|λ^-）＋αΣ_λ≠λ'P（x_t|λ’）（３）ここで、式（３）の総和は、上記の式（１）、（２）に
おける音声クラスモデルλと異なる音声クラスモデル
λ’についてとられる。

【００４０】音声クラスモデルの選択は、以下の条件を
満たす音声クラスモデルλ＾が選ばれるように行われ
る。 λ＾＝argmax_λ（R（t|λ）））ｉｆ max_λ（R（t|λ））＞Ｔ_h （４）ここで、argmax_λは、引数の値が最大値になる引数を取
るようにλを選択する函数であり、Ｔ_hは尤度比R（t|
λ）のしきい値である。

【００４１】これによって、信頼度の目安である尤度比
R（t|λ）が所定のしきい値Ｔ_hを超える入力音声と音声
クラスモデルλが存在したとき、尤度比R（t|λ）が最
大となる音声クラスモデルλを選択できることになる。
したがって、例えば局所データが雑音である場合は、尤
度比R（t|λ）がしきい値Ｔ_hを超えないようにしておく
ことによって、いずれの音声クラスモデルλも選択され
ないようにすることができる。

【００４２】適応音響モデルの選択に関しては、よく似
た音声クラスモデルが複数あることにより、上記の式
（４）で記載される判定だけでは異なる音声クラスモデ
ル間での尤度比の差が広がらないことが起こる。そのた
め、尤度比を用いて最適な適応音響モデルを確定するこ
とが困難となる場合もある。そこで、上記の式（４）で
前提とされる条件に加えて、あるいは代わりに、以下の
式（５）で表される条件を導入するのでも良い。

【００４３】以下の式（５）は、性別という事前知識を
利用し、同性の音声クラスモデルをグルーピングして性
別モデル｛Λ_m，Λ_f｝を形成し、上記の単一の音声クラ
スモデルλの代わりに各性別モデルについて、出現確率
密度（あるいは、局所尤度比）がしきい値を超えている
か否かを判断するものである。 max_g∈{m、f}（R_g（t|Λ_g））＞Ｔｈ_g （５）

【００４４】ここで、Λ_mは、例えば男性の性別モデル
であり、Λ_fは、女性の性別モデルである。各性別モデ
ルについての出現確率密度（あるいは、局所尤度比）と
して、同一性別モデル内にある音声クラスモデルの出力
確率密度の和を取ることも、重み付きの和を取ることも
できる。上記の式（５）の条件を満たすことを条件とし
て併用することで、音声区間でのモデル選択精度の向上
を図ることができ、モデル確定の早期化と、認識精度を
大きく低下させる性別誤りを削減することができる。

【００４５】以上説明したように、本発明の第１の実施
の形態に係る音声認識装置は、音声認識処理前に予め音
声クラスモデルと、その音声クラスモデルに基づいて適
応音響モデルを生成しておき、音声認識時に入力音声の
先頭データを用いてモデルの選択を行うため、クラスタ
依存の適応音響モデルを短時間に、かつ低計算コストで
選択することができる。また、信頼度を用いて音声デー
タがモデル選択に使用できるものか否かの判断を行うこ
ととしたため、背景雑音のある環境下での音声入力に対
しても適応音響モデルの誤選択の割合を低減できる。

【００４６】

【発明の効果】以上説明したように、本発明は、認識結
果出力までの遅延時間を短縮し、計算コストを軽減する
ことが可能な音声認識装置を実現することができる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態に係る音声認識装置
の全体構成を示すブロック図である。

【図２】本発明の第１の実施の形態に係る音声認識装置
におけるモデル群生成部の全体構成を示すブロック図で
ある。

【図３】本発明の第１の実施の形態に係る音声認識装置
におけるモデル生成部の詳細な構成を示すブロック図で
ある。

【符号の説明】

１０事前音声データ記憶部２０クラスタリング部３０大規模データベース４０モデル群生成部４１−ｉ（ｉ＝１、２、・・・、ｎ）モデル生成部４２音声クラスモデル生成部４３適応データ選択部４４適応化処理部４５音声クラスモデル尤度計算部５０切出部６０適応音響モデル選択部７０音声認識部１００音声認識装置

───────────────────────────────────────────────────── フロントページの続き (72)発明者尾上和穂東京都世田谷区砧一丁目10番11号日本放送協会放送技術研究所内 (72)発明者世木寛之東京都世田谷区砧一丁目10番11号日本放送協会放送技術研究所内 (72)発明者安藤彰男東京都世田谷区砧一丁目10番11号日本放送協会放送技術研究所内Ｆターム(参考） 5D015 GG01 GG04 GG06

Claims

【特許請求の範囲】

【請求項１】複数の音声クラスモデルを生成するための
音声クラスモデル生成手段と、前記各音声クラスモデル
に基づいて複数の適応音響モデル生成するための適応化
処理手段と、前記音声クラスモデルに対する入力音声の
尤度を計算するための音声クラスモデル尤度計算手段と
を有する１以上のモデル生成手段からなるモデル群生成
手段と、前記音声クラスモデルに対する入力音声の尤度
を基準に前記複数の適応音響モデルの中から最適な適応
音響モデルを選択するための適応音響モデル選択手段
と、前記適応音響モデル選択手段が選択した適応音響モ
デルを用いて前記入力音声の音声認識を行うための音声
認識手段とを備えたことを特徴とする音声認識装置。
【請求項２】前記音声認識装置は、さらに、認識対象音
声の所定の特性を有する事前音声データを記憶するため
の事前音声データ記憶手段と、前記事前音声データを、
前記認識対象音声の特性別にクラスタリングして１以上
のクラスタを生成するためのクラスタリング手段とを備
え、前記音声クラスモデル生成手段は、前記クラスタリ
ング手段が生成したクラスタに含まれる音声データをモ
デル化して前記音声クラスモデルを生成することを特徴
とする請求項１記載の音声認識装置。
【請求項３】前記音声認識装置は、さらに、所定の音声
データを、前記事前音声データ記憶手段に記憶された事
前音声データの個数以上記憶するためのデータベースを
備え、前記各モデル群生成手段は、さらに、前記音声ク
ラスモデルに基づいて、前記適応データ選択手段が前記
適応音響モデル生成のためのモデル適応化に用いる音声
データである適応用データを、前記データベースに記憶
された音声データ中から選択するための適応データ選択
手段を有することを特徴とする請求項１記載の音声認識
装置。
【請求項４】前記音声クラスモデル尤度計算手段は、前
記音声クラスモデルに対する入力音声の尤度を、前記入
力データの先頭近傍における所定部分のデータである先
頭データを用いて計算し、前記適応音響モデル選択手段
は、前記先頭データを用いて計算された尤度の情報を用
いて前記適応音響モデルを選択することを特徴とする請
求項１記載の音声認識装置。
【請求項５】前記音声クラスモデル尤度計算手段は、前
記先頭データが前記適応音響モデル選択に利用可能なデ
ータか否かを判断するための指標である信頼度を生成
し、前記適応音響モデル選択手段は、前記音声クラスモ
デルに対する入力音声の尤度の情報と前記信頼度の情報
とを用いて前記適応音響モデルを選択することを特徴と
する請求項１または４記載の音声認識装置。
【請求項６】前記音声クラスモデル尤度計算手段は、モ
デル出現確率の時系列データを時間に関して平滑化処理
して得られる局所尤度を、前記音声クラスモデルに対す
る入力音声の尤度として生成することを特徴とする請求
項１記載の音声認識装置。
【請求項７】前記音声クラスモデルは、所定の事前情報
に基づいて複数のグループに分けられ、前記音声クラス
モデル尤度計算手段は、前記各グループについて、前記
各グループを構成する各音声クラスモデルに対する尤度
の情報を用いて前記適応音響モデル選択のための信頼度
とすることを特徴とする請求項１、４、５、６のいずれ
かに記載の音声認識装置。