JP3547350B2

JP3547350B2 - 連続音声認識装置

Info

Publication number: JP3547350B2
Application number: JP27422499A
Authority: JP
Inventors: 徹清水; 宜男樋口
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 1999-09-28
Filing date: 1999-09-28
Publication date: 2004-07-28
Anticipated expiration: 2019-09-28
Also published as: JP2001100783A

Description

【０００１】
【発明の属する技術分野】
本発明は連続音声認識装置に関し、特に、統計的言語モデル例えばＮ−ｇｒａｍモデルを利用して連続音声認識する分野において、特定の文型に依存したクラスタ別言語モデルを使用し、特定の文型に依存した音声認識結果を出力することを可能にした連続音声認識装置に関する。
【０００２】
【従来の技術】
従来は、図３に示すように、格納部１内の学習テキストを文クラスタリング部２でクラスタリングすることによってクラスタ混合分布言語モデルを作成して格納部１２に格納し、得られたクラスタ混合分布言語モデルと格納部７内の入力音声と図示省略の格納部内の音響モデル１３とを使用して、音声認識部８で音声認識を行うことによって、音声認識結果を作成している。音声認識結果は格納部１１に格納される。
【０００３】
【発明が解決しようとする課題】
しかし従来は、１つのクラスタ混合分布言語モデルを使用して音声認識していたために、特定の文型に依存した音声認識結果を得ることができなかった。
【０００４】
特定の文型に依存した音声認識結果を得るためには、文型に依存した言語モデルを作成した上で、この言語モデルから音声認識結果を得る必要がある。
【０００５】
しかし、一般に、入力音声の文型を只１つの文型に限定することは実用的でないから、文型に依存した音声認識結果を得るためには、複数の言語モデルが必要である。
【０００６】
従って、本発明の課題は、複数の文型の可能性がある入力音声と、文型に依存した言語モデルを使用しながらも、複数の言語モデルを利用して特定の文型に依存した音声認識結果を得ることができる連続音声認識装置を提供することである。
【０００７】
【課題を解決するための手段】
上記課題を解決する発明は、多数の学習テキストをクラスタリングしてクラスタ別言語モデルを作成する文クラスタリング部と、入力音声と前記文クラスタリング部で得られたクラスタ別言語モデルから、クラスタ別言語モデル毎の音声認識結果の全てを出力する音声認識部と、前記音声認識部で得られたクラスタ別言語モデル毎の音声認識結果の全てと前記文クラスタリング部で得られたクラスタ別言語モデルから適切な音声認識結果を選択して出力する音声認識結果照合部を具備することを特徴とする連続音声認識装置である。
【０００８】
また、上記課題を解決する他の発明は、多数の学習テキストをクラスタリングしてクラスタ別言語モデルを作成する文クラスタリング部と、前記学習テキストのうち特定の文型の例文を用いて、前記文クラスタリング部で得られたクラスタ別言語モデル全ての混合比を求め、前記クラスタ別言語モデル全ての混合比により選択すべきクラスタ別言語モデルの数を求め、その数の適当なクラスタ別言語モデルを選択するモデル選択部と、入力音声と前記モデル選択部で選択された数のクラスタ別言語モデルから、クラスタ別言語モデル毎の音声認識結果を出力する音声認識部と、前記音声認識部で得られたクラスタ別言語モデル毎の音声認識結果と前記文クラスタリング部で得られたクラスタ別言語モデルから適切な音声認識結果を選択して出力する音声認識結果照合部を具備することを特徴とする連続音声認識装置であり、
【０００９】
また、上記課題を解決する更に他の発明は、前記文クラスタリング部は、クラスタ別言語モデルに加え、前記学習テキスト全文から学習したフル言語モデルを作成することを特徴とし、あるいは、前記モデル選択部は、前記学習テキストのうち特定の文型の例文を用い、前記文クラスタリング部で得られたクラスタ別言語モデルから選択した適宜な数のクラスタ別言語モデルに加えて、フル言語モデルを選択することを特徴とする。
【００１０】
【発明の実施の形態】
図１に本発明の第１実施形態例に係る連続音声認識装置の構成を示す。この装置は学習テキスト格納部１と、文クラスタリング部２と、クラスタ別言語モデル及びフル言語モデルを格納する格納部３と、入力音声を格納する格納部７と、音声認識部８と、言語モデル毎の音声認識結果を格納する格納部９と、音声認識結果を照合する照合部１０と、音声認識結果格納部１１を備えている。
【００１１】
クラスタ別言語モデルに加え、本例では、フル言語モデルも使用する。また、本例では、クラスタ別言語モデル及びフル言語モデルの作成に、格納部１内の多数の学習テキストを使用する。クラスタ別言語モデルは、文クラスタリングによって分割された学習テキストから文クラスタリング部２が作成し、フル言語モデルは学習テキストの全文から文クラスタリング部２が作成する。フル言語モデルは他の学習テキストを用いて作成したもの、あるいは、他の手段により作成したものであっても良い。
【００１２】
分割した学習テキストの同一クラスタ内のテキストは文型が類似したものであり、従って、特定の文型に依存したクラスタ別言語モデルが作成される。
【００１３】
そして、格納部７内の入力音声と、格納部３内のクラスタ別言語モデル及びフル言語モデルと、図示省略の格納部内の音響モデル１３を利用して、音声認識部８で音声認識し、クラスタ別言語モデル及びフル言語モデル毎の音声認識結果を格納部９に格納する。
【００１４】
次に、格納部９内のクラスタ別言語モデル及びフル言語モデル毎の音声認識結果と、格納部３内のクラスタ別言語モデル及びフル言語モデルとを利用して、照合部１０で音声認識結果と言語モデル（クラスタ別言語モデル及びフル言語モデル）との照合を行い、予め定めた照合の条件（詳細後述）に合致した音声認識結果を音声認識結果格納部１１に格納する。
【００１５】
このように、各クラスタ別言語モデル及びフル言語モデル毎に音声認識結果を求め、こらら音声認識結果と言語モデル（クラスタ別言語モデル及びフル言語モデル）との照合を行うことにより、特定の文型に依存した音声認識結果を得ることができる。
【００１６】
この照合において、フル言語モデルも使用しているのは、このモデルの方がクラスタ別言語モデルより照合度が高い場合もあることが考えられるからであり、音声認識を簡便に行う場合は、フル言語モデルを利用した音声認識及びフル言語モデルとの照合を省略することができる。
【００１７】
上述の第１実施形態例では、格納部３内のクラスタ別言語モデル及びフル言語モデルを全て音声認識に使用するため、格納部７内の入力音声の文型と合致しない文型をモデル化したクラスタ別言語モデルも音声認識に使用される。
【００１８】
一般に、文型が著しく異なるモデルを音声認識に利用した場合、音声認識に要する計算時間が膨大になる。
【００１９】
そこで、計算時間の短縮が可能な連続音声認識装置を本発明の第２実施形態例として、図２を参照して説明する。
【００２０】
図２に示す装置は、学習テキスト格納部１と、文クラスタリング部２と、クラスタ別言語モデル及びフル言語モデルを格納する格納部３と、例文を格納する格納部４と、モデル選択部５と、選択したクラスタ別言語モデル及びフル言語モデルを格納する格納部６と、入力音声を格納する格納部７と、音声認識部８と、言語モデル毎の音声認識結果を格納する格納部９と、音声認識結果を照合する照合部１０と、音声認識結果格納部１１を備えている。
【００２１】
文クラスタリング部２は第１実施形態例と同様であり、格納部１内の多数の学習テキストを使用してクラスタ別言語モデル及びフル言語モデルを作成し、格納部３に格納する。
【００２２】
格納部４に格納する例文としては、格納部７内の入力音声に類似した文型の文を予め格納しておく。
【００２３】
モデル選択部５は、格納部４に格納されている例文と、文クラスタリング部２で得られたクラスタ別言語モデル及びフル言語モデルを利用して、クラスタ別言語モデルを選択し、格納部６に格納する。併せて、文クラスタリング部２で得られたフル言語モデルも格納部６に格納する。
【００２４】
そして、格納部７内の入力音声と、格納部６内の選択した言語モデル（クラスタ別言語モデル及びフル言語モデル）と、図示省略の格納部内の音響モデル１３を利用して、音声認識部８で音声認識し、言語モデル毎の音声認識結果を格納部９に格納する。
【００２５】
次に、格納部９内の言語モデル（クラスタ別言語モデル及びフル言語モデル）毎の音声認識結果と、格納部３内のクラスタ別言語モデル及びフル言語モデルとを利用して、照合部１０で音声認識結果と言語モデル（クラスタ別言語モデル及びフル言語モデル）との照合を行い、予め定めた照合の条件（例えば照合度が最大）に合致した音声認識結果を音声認識結果格納部１１に格納する。
【００２６】
このように、格納部４に格納した例文を利用し、モデル選択部５で選択した言語モデルのみについて、音声認識部８で音声認識を行うことにより、入力音声に類似していない文型をモデル化したクラスタ別言語モデルによる計算量の増大を抑えながら、特定の文型に依存した音声認識結果を得ることができる。
【００２７】
ここで、会話音声では、類似した文型の文が頻繁に現れることから、文クラスタリングにより特定の文型から作成した言語モデルは、特定の文型に対するモデルの推定精度が高くなることが期待される。
【００２８】
そこで、本発明では、前述のようにクラスタ別言語モデルを作成し、各モデル毎の認識結果を求め、これらの認識結果から、音声認識結果を選択するようにしている。本例では、フル言語モデルも使用している。
【００２９】
一般には、音声認識の尤もらしさは、総尤度（音響モデル尤度＋言語モデル尤度）の大きさで計られる。即ち、複数の音声認識結果が得られた場合には、総尤度の値の順に音声認識結果を並べ、最も総尤度の大きい音声認識結果を第１の音声認識結果とする。
【００３０】
しかし、前述したが、複数の文型を含むテキストから１つの言語モデルを学習して音声認識に利用した場合、特定の文型に依存ない音声認識結果が出力される可能性があり、総尤度だけの大きさだけでは、果たして正しい文型であるかどうか判断できない。
【００３１】
これに対して、上述のように本発明では、文型に依存した言語モデルを作成した上で、特定の文型に依存した音声認識結果を得て、総尤度だけでなく、文型を判断した上で音声認識結果を出力する。
【００３２】
次に、音声認識結果照合部１０の動作について説明する。
作成したクラスタ別言語モデルＭｊとクラスタｋに含まれる文ｓとの間には、クラスタ別言語モデルＭｊにおける文ｓの出現確率をＰ（ｓ，Ｍｊ）とした場合、下記数１の関係がある。但し。ｍはクラスタ数である。
【００３３】
【数１】

【００３４】
一方、クラスタ別言語モデルＭｋから出力された認識結果ｓｋが属するクラスタｋ’は下記数２を用いて求めることができる。
【００３５】
【数２】

【００３６】
そこで、音声認識結果照合部１０では、上記数２で求めたｋ’に基づいて、言語モデル毎の音声認識結果から、尤もらしい音声認識結果を選択する。
【００３７】
具体的には、まず、クラスタ言語モデルＭｋからの音声認識結果ｓｋの総尤度Ｐｒｏｂ（ｓｋ，Ｍｋ）がフル言語モデルからの音声認識結果ｓｏの総尤度Ｐｒｏｂ（ｓｏ，Ｍｏ）を超える文で、ｋ＝ｋ’となる文ｓｋが存在するかどうか調べる。存在する場合は、その中で総尤度が最大の文を音声認識結果格納部１１に格納する。
【００３８】
もし、上記の条件を満たす文が存在しない場合は、次に、フル言語モデルからの音声認識結果ｓｏの総尤度Ｐｒｏｂ（ｓｏ，Ｍｏ）を超える文で、Ｍｋ’が音声認識部８で使用されたモデルである文ｓｋが存在するかどうか調べる。存在する場合は、その中で総尤度最大の文を音声認識結果格納部１１に格納する。
【００３９】
もし、上記いずの条件も満たす文が存在しない場合は、フル言語モデルからの音声認識結果ｓｏを音声認識結果格納部１１に格納する。
【００４０】
次に、モデル選択部５の詳細について説明する。
【００４１】
モデル選択部５では、クラスタリングに使用した学習テキストのうちから、特定の文型の例文を取り出す。この例文を用いて混合比を推定し、混合比の大きいクラスタ言語モデルを選択し、フル言語モデルとともに格納部４に格納する。
【００４２】
ここで、作成したクラスタ別言語モデルにおける文ｓの出現確率Ｐ（ｓ）は、クラスタ数をｍ、クラスタｊに対するモデルをＭｊ、クラスタｊにおける文ｓの出現確率をＰ（ｓ，ｍｊ）、クラスタｊに対する混合比をλｊとした場合、下記数３で表される。
【００４３】
【数３】

【００４４】
次に、評価実験を説明する。
【００４５】
評価実験は「通信に関するカスタマケアサービス」タスクの國番号、地域番号の問い合わせとし、評価音声５０文（５５７単語）を使用した。学習テキストは約５６，０００文で、そのうち１３，５６３文を例文として用いた。クラスタ別言語モデルは単語トライグラム（ｔｒｉｇｒａｍ）とし、クラスタ数２、４、６、１１のトライグラムを作成した。また、学習テキスト全文から学習した単語トライグラムＭｏを作成した。音声認識辞書は各クラスタに属する語彙から作成し、最大語彙数３，０００語とした、音響モデルは性別依存の音素環境依存音声イベントＨＭＭ（隠れマルコフモデル）を用いた。
【００４６】
まず、例文とクラスタ別言語モデルから混合比を求めて、モデル選択部５で選択すべきモデルの数を求めた。表１に示すように、混合比は特定のクラスタ数を境に極端に小さくなる傾向が見られる。従って、選択するモデルの数は、順位が１つ下がった場合に混合比が極端に小さくならないところまでという条件で、設定した。
【００４７】
【表１】

【００４８】
次に、音声認識結果照合部１０から出力された音声認識結果の単語誤り率ＷＥＲ（％）を調べた。表２に示すように、クラスタ数が２以上において、単語誤り率が、学習テキスト全文から作成したトライグラムの単語誤り率を下回っている。このことから、特定の文型に依存したクラスタ別言語モデルを利用することにより、音声認識性能が向上することが判る。
【００４９】
【表２】

【００５０】
【発明の効果】
以上より、本発明によれば、文型に依存したクラスタ別言語モデルを利用することによって、入力音声の文型に合致した言語モデルを使用することが可能であり、その結果、音声認識性能が向上する。
【００５１】
また、入力音声の文型とは異なる文型の言語モデルを使用しないことにより、音声認識に要する計算時間が短縮する。
【図面の簡単な説明】
【図１】本発明の第１実施形態例に係る連続音声認識装置の構成を示す図。
【図２】本発明の第２実施形態例に係る連続音声認識装置の構成を示す図。
【図３】従来の連続音声認識装置の構成を示す図。
【符号の説明】
１学習テキスト格納部
２文クラスタリング部
３クラスタ別言語モデル及びフル言語モデルの格納部
４例文格納部
５モデル選択部
６選択されたクラスタ別言語モデル及びフル言語モデルの格納部
７入力音声格納部
８話者認識部
９言語モデル毎の音声認識結果格納部
１０音声認識結果照合部
１１音声認識結果格納部
１２クラスタ混合分布言語モデル格納部
１３音響モデル

Claims

多数の学習テキストをクラスタリングしてクラスタ別言語モデルを作成する文クラスタリング部と、
入力音声と前記文クラスタリング部で得られたクラスタ別言語モデルから、クラスタ別言語モデル毎の音声認識結果の全てを出力する音声認識部と、
前記音声認識部で得られたクラスタ別言語モデル毎の音声認識結果の全てと前記文クラスタリング部で得られたクラスタ別言語モデルから適切な音声認識結果を選択して出力する音声認識結果照合部を具備することを特徴とする連続音声認識装置。
多数の学習テキストをクラスタリングしてクラスタ別言語モデルを作成する文クラスタリング部と、
前記学習テキストのうち特定の文型の例文を用いて、前記文クラスタリング部で得られたクラスタ別言語モデル全ての混合比を求め、前記クラスタ別言語モデル全ての混合比により選択すべきクラスタ別言語モデルの数を求め、その数の適当なクラスタ別言語モデルを選択するモデル選択部と、
入力音声と前記モデル選択部で選択された数のクラスタ別言語モデルから、クラスタ別言語モデル毎の音声認識結果を出力する音声認識部と、
前記音声認識部で得られたクラスタ別言語モデル毎の音声認識結果と前記文クラスタリング部で得られたクラスタ別言語モデルから適切な音声認識結果を選択して出力する音声認識結果照合部を具備することを特徴とする連続音声認識装置。
前記文クラスタリング部は、クラスタ別言語モデルに加え、前記学習テキスト全文から学習したフル言語モデルを作成することを特徴とする請求項１または２記載の連続音声認識装置。
前記モデル選択部は、選択された適宜な数のクラスタ別言語モデルに加えて、フル言語モデルを選択することを特徴とする請求項２記載の連続音声認識装置。