JP2001100783A

JP2001100783A - 連続音声認識装置

Info

Publication number: JP2001100783A
Application number: JP27422499A
Authority: JP
Inventors: Toru Shimizu; 徹清水; Norio Higuchi; 宜男樋口
Original assignee: DDI Corp
Current assignee: KDDI Corp
Priority date: 1999-09-28
Filing date: 1999-09-28
Publication date: 2001-04-13
Anticipated expiration: 2019-09-28
Also published as: JP3547350B2

Abstract

(57)【要約】【課題】特定の文型に依存した音声認識結果を得るこ
と。【解決手段】多数の学習テキストをクラスタリングし
てクラスタ別言語モデルを作成する文クラスタリング部
２と、入力音声とクラスタ別言語モデルから、クラスタ
別言語モデル毎の音声認識結果を出力する音声認識部８
と、クラスタ別言語モデル毎の音声認識結果とクラスタ
別言語モデルから、適切な音声認識結果を選択して出力
する音声認識結果照合部１０により、音声認識を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は連続音声認識装置に
関し、特に、統計的言語モデル例えばＮ−ｇｒａｍモデ
ルを利用して連続音声認識する分野において、特定の文
型に依存したクラスタ別言語モデルを使用し、特定の文
型に依存した音声認識結果を出力することを可能にした
連続音声認識装置に関する。

【０００２】

【従来の技術】従来は、図３に示すように、格納部１内
の学習テキストを文クラスタリング部２でクラスタリン
グすることによってクラスタ混合分布言語モデルを作成
して格納部１２に格納し、得られたクラスタ混合分布言
語モデルと格納部７内の入力音声と図示省略の格納部内
の音響モデル１３とを使用して、音声認識部８で音声認
識を行うことによって、音声認識結果を作成している。
音声認識結果は格納部１１に格納される。

【０００３】

【発明が解決しようとする課題】しかし従来は、１つの
クラスタ混合分布言語モデルを使用して音声認識してい
たために、特定の文型に依存した音声認識結果を得るこ
とができなかった。

【０００４】特定の文型に依存した音声認識結果を得る
ためには、文型に依存した言語モデルを作成した上で、
この言語モデルから音声認識結果を得る必要がある。

【０００５】しかし、一般に、入力音声の文型を只１つ
の文型に限定することは実用的でないから、文型に依存
した音声認識結果を得るためには、複数の言語モデルが
必要である。

【０００６】従って、本発明の課題は、複数の文型の可
能性がある入力音声と、文型に依存した言語モデルを使
用しながらも、複数の言語モデルを利用して特定の文型
に依存した音声認識結果を得ることができる連続音声認
識装置を提供することである。

【０００７】

【課題を解決するための手段】上記課題を解決する発明
は、多数の学習テキストをクラスタリングしてクラスタ
別言語モデルを作成する文クラスタリング部と、入力音
声と前記文クラスタリング部で得られたクラスタ別言語
モデルから、クラスタ別言語モデル毎の音声認識結果を
出力する音声認識部と、前記音声認識部で得られたクラ
スタ別言語モデル毎の音声認識結果と前記文クラスタリ
ング部で得られたクラスタ別言語モデルから適切な音声
認識結果を選択して出力する音声認識結果照合部を具備
することを特徴とする連続音声認識装置である。

【０００８】また、上記課題を解決する他の発明は、多
数の学習テキストをクラスタリングしたクラスタ別言語
モデルを作成する文クラスタリング部と、前記学習テキ
ストのうち特定の話題の例文と前記文クラスタリング部
で得られたクラスタ別言語モデルから、適当なクラスタ
別言語モデルを選択するモデル選択部と、入力音声と前
記モデル選択部で得られたクラスタ別言語モデルから、
クラスタ別言語モデル毎の音声認識結果を出力する音声
認識部と、前記音声認識部で得られたクラスタ別言語モ
デル毎の音声認識結果と前記文クラスタリング部で得ら
れたクラスタ別言語モデルから適切な音声認識結果を選
択して出力する音声認識結果照合部を具備することを特
徴とする連続音声認識装置であり、

【０００９】また、上記課題を解決する更に他の発明
は、前記文クラスタリング部は、クラスタ別言語モデル
に加え、前記学習テキスト全文から学習したフル言語モ
デルを作成することを特徴とし、あるいは、前記モデル
選択部は、前記学習テキストのうち特定の話題の例文
と、前記文クラスタリング部で得られたクラスタ別言語
モデルから選択した適宜なクラスタ別言語モデルに加え
て、フル言語モデルを出力することを特徴とする。

【００１０】

【発明の実施の形態】図１に本発明の第１実施形態例に
係る連続音声認識装置の構成を示す。この装置は学習テ
キスト格納部１と、文クラスタリング部２と、クラスタ
別言語モデル及びフル言語モデルを格納する格納部３
と、入力音声を格納する格納部７と、音声認識部８と、
言語モデル毎の音声認識結果を格納する格納部９と、音
声認識結果を照合する照合部１０と、音声認識結果格納
部１１を備えている。

【００１１】クラスタ別言語モデルに加え、本例では、
フル言語モデルも使用する。また、本例では、クラスタ
別言語モデル及びフル言語モデルの作成に、格納部１内
の多数の学習テキストを使用する。クラスタ別言語モデ
ルは、文クラスタリングによって分割された学習テキス
トから文クラスタリング部２が作成し、フル言語モデル
は学習テキストの全文から文クラスタリング部２が作成
する。フル言語モデルは他の学習テキストを用いて作成
したもの、あるいは、他の手段により作成したものであ
っても良い。

【００１２】分割した学習テキストの同一クラスタ内の
テキストは文型が類似したものであり、従って、特定の
文型に依存したクラスタ別言語モデルが作成される。

【００１３】そして、格納部７内の入力音声と、格納部
３内のクラスタ別言語モデル及びフル言語モデルと、図
示省略の格納部内の音響モデル１３を利用して、音声認
識部８で音声認識し、クラスタ別言語モデル及びフル言
語モデル毎の音声認識結果を格納部９に格納する。

【００１４】次に、格納部９内のクラスタ別言語モデル
及びフル別言語モデル毎の音声認識結果と、格納部３内
のクラスタ別言語モデル及びフル言語モデルとを利用し
て、照合部１０で音声認識結果と言語モデル（クラスタ
別言語モデル及びフル言語モデル）との照合を行い、予
め定めた照合の条件（詳細後述）に合致した音声認識結
果を音声認識結果格納部１１に格納する。

【００１５】このように、各クラスタ別言語モデル及び
フル言語モデル毎に音声認識結果を求め、こらら音声認
識結果と言語モデル（クラスタ別言語モデル及びフル言
語モデル）との照合を行うことにより、特定の文型に依
存した音声認識結果を得ることができる。

【００１６】この照合において、フル言語モデルも使用
しているのは、このモデルの方がクラスタ別言語モデル
より照合度が高い場合もあることが考えられるからであ
り、音声認識を簡便に行う場合は、フル言語モデルを利
用した音声認識及びフル言語モデルとの照合を省略する
ことができる。

【００１７】上述の第１実施形態例では、格納部３内の
クラスタ別言語モデル及びフル言語モデルを全て音声認
識に使用するため、格納部７内の入力音声の文型と合致
しない文型をモデル化したクラスタ別言語モデルも音声
認識に使用される。

【００１８】一般に、文型が著しく異なるモデルを音声
認識に利用した場合、音声認識に要する計算時間が膨大
になる。

【００１９】そこで、計算時間の短縮が可能な連続音声
認識装置を本発明の第２実施形態例として、図２を参照
して説明する。

【００２０】図２に示す装置は、学習テキスト格納部１
と、文クラスタリング部２と、クラスタ別言語モデル及
びフル言語モデルを格納する格納部３と、例文を格納す
る格納部４と、モデル選択部５と、選択したクラスタ別
言語モデル及びフル言語モデルを格納する格納部６と、
入力音声を格納する格納部７と、音声認識部８と、言語
モデル毎の音声認識結果を格納する格納部９と、音声認
識結果を照合する照合部１０と、音声認識結果格納部１
１を備えている。

【００２１】文クラスタリング部２は第１実施形態例と
同様であり、格納部１内の多数の学習テキストを使用し
てクラスタ別言語モデル及びフル言語モデルを作成し、
格納部３に格納する。

【００２２】格納部４に格納する例文としては、格納部
７内の入力音声に類似した文型の文を予め格納してお
く。

【００２３】モデル選択部５は、格納部４に格納されて
いる例文と、文クラスタリング部２で得られたクラスタ
別言語モデル及びフル言語モデルを利用して、クラスタ
別言語モデルを選択し、格納部６に格納する。併せて、
文クラスタリング部２で得られたフル言語モデルも格納
部６に格納する。

【００２４】そして、格納部７内の入力音声と、格納部
６内の選択した言語モデル（クラスタ別言語モデル及び
フル言語モデル）と、図示省略の格納部内の音響モデル
１３を利用して、音声認識部８で音声認識し、言語モデ
ル毎の音声認識結果を格納部９に格納する。

【００２５】次に、格納部９内の言語モデル（クラスタ
別言語モデル及びフル言語モデル）毎の音声認識結果
と、格納部３内のクラスタ別言語モデル及びフル言語モ
デルとを利用して、照合部１０で音声認識結果と言語モ
デル（クラスタ別言語モデル及びフル言語モデル）との
照合を行い、予め定めた照合の条件（例えば照合度が最
大）に合致した音声認識結果を音声認識結果格納部１１
に格納する。

【００２６】このように、格納部４に格納した例文を利
用し、モデル選択部５で選択した言語モデルのみについ
て、音声認識部８で音声認識を行うことにより、入力音
声に類似していない文型をモデル化したクラスタ別言語
モデルによる計算量の増大を抑えながら、特定の文型に
依存した音声認識結果を得ることができる。

【００２７】ここで、会話音声では、類似した文型の文
が頻繁に現れることから、文クラスタリングにより特定
の文型から作成した言語モデルは、特定の文型に対する
モデルの推定精度が高くなることが期待される。

【００２８】そこで、本発明では、前述のようにクラス
タ別言語モデルを作成し、各モデル毎の認識結果を求
め、これらの認識結果から、音声認識結果を選択するよ
うにしている。本例では、フル言語モデルも使用してい
る。

【００２９】一般には、音声認識の尤もらしさは、総尤
度（音響モデル尤度＋言語モデル尤度）の大きさで計ら
れる。即ち、複数の音声認識結果が得られた場合には、
総尤度の値の順に音声認識結果を並べ、最も総尤度の大
きい音声認識結果を第１の音声認識結果とする。

【００３０】しかし、前述したが、複数の文型を含むテ
キストから１つの言語モデルを学習して音声認識に利用
した場合、特定の文型に依存ない音声認識結果が出力さ
れる可能性があり、総尤度だけの大きさだけでは、果た
して正しい文型であるかどうか判断できない。

【００３１】これに対して、上述のように本発明では、
文型に依存した言語モデルを作成した上で、特定の文型
に依存した音声認識結果を得て、総尤度だけでなく、文
型を判断した上で音声認識結果を出力する。

【００３２】次に、音声認識結果照合部１０の動作につ
いて説明する。作成したクラスタ別言語モデルＭｊとク
ラスタｋに含まれる文ｓとの間には、クラスタ別言語モ
デルＭｊにおける文ｓの出現確率をＰ（ｓ，Ｍｊ）とし
た場合、下記数１の関係がある。但し。ｍはクラスタ数
である。

【００３３】

【数１】

【００３４】一方、クラスタ別言語モデルＭｋから出力
された認識結果ｓｋが属するクラスタｋ’は下記数２を
用いて求めることができる。

【００３５】

【数２】

【００３６】そこで、音声認識結果照合部１０では、上
記数２で求めたｋ’に基づいて、言語モデル毎の音声認
識結果から、尤もらしい音声認識結果を選択する。

【００３７】具体的には、まず、クラスタ言語モデルＭ
ｋからの音声認識結果ｓｋの総尤度Prob(sk,Mk) がフル
言語モデルからの音声認識結果soの総尤度Prob(so,Mo)
を超える文で、ｋ＝ｋ’となる文ｓｋが存在するかどう
か調べる。存在する場合は、その中で総尤度が最大の文
を音声認識結果格納部１１に格納する。

【００３８】もし、上記の条件を満たす文が存在しない
場合は、次に、フル言語モデルからの音声認識結果soの
総尤度Prob(so,Mo) を超える文で、Ｍｋ’が音声認識部
８で使用されたモデルである文ｓｋが存在するかどうか
調べる。存在する場合は、その中で総尤度最大の文を音
声認識結果格納部１１に格納する。

【００３９】もし、上記いずの条件も満たす文が存在し
ない場合は、フル言語モデルからの音声認識結果soを音
声認識結果格納部１１に格納する。

【００４０】次に、モデル選択部５の詳細について説明
する。

【００４１】モデル選択部５では、クラスタリングに使
用した学習テキストのうちから、特定の文型の例文を取
り出す。この例文を用いて混合比を推定し、混合比の大
きいクラスタ言語モデルを選択し、フル言語モデルとと
もに格納部４に格納する。

【００４２】ここで、作成したクラスタ別言語モデルに
おける文ｓの出現確率Ｐ（ｓ）は、クラスタ数をｍ、ク
ラスタｊに対するモデルをＭｊ、クラスタｊにおける文
ｓの出現確率をＰ（ｓ，ｍｊ）、クラスタｊに対する混
合比をλｊとした場合、下記数３で表される。

【００４３】

【数３】

【００４４】次に、評価実験を説明する。

【００４５】評価実験は「通信に関するカスタマケアサ
ービス」タスクの國番号、地域番号の問い合わせとし、
評価音声５０文（５５７単語）を使用した。学習テキス
トは約５６，０００文で、そのうち１３，５６３文を例
文として用いた。クラスタ別言語モデルは単語トライグ
ラム(trigram) とし、クラスタ数２、４、６、１１のト
ライグラムを作成した。また、学習テキスト全文から学
習した単語トライグラムＭｏを作成した。音声認識辞書
は各クラスタに属する語彙から作成し、最大語彙数３，
０００語とした、音響モデルは性別依存の音素環境依存
音声イベントＨＭＭ（隠れマルコフモデル）を用いた。

【００４６】まず、例文とクラスタ別言語モデルから混
合比を求めて、モデル選択部５で選択すべきモデルの数
を求めた。表１に示すように、混合比は特定のクラスタ
数を境に極端に小さくなる傾向が見られる。従って、選
択するモデルの数は、順位が１つ下がった場合に混合比
が極端に小さくならないところまでという条件で、設定
した。

【００４７】

【表１】

【００４８】次に、音声認識結果照合部１０から出力さ
れた音声認識結果の単語誤り率ＷＥＲ（％）を調べた。
表２に示すように、クラスタ数が２以上において、単語
誤り率が、学習テキスト全文から作成したトライグラム
の単語誤り率を下回っている。このことから、特定の文
型に依存したクラスタ別言語モデルを利用することによ
り、音声認識性能が向上することが判る。

【００４９】

【表２】

【００５０】

【発明の効果】以上より、本発明によれば、文型に依存
したクラスタ別言語モデルを利用することによって、入
力音声の文型に合致した言語モデルを使用することが可
能であり、その結果、音声認識性能が向上する。

【００５１】また、入力音声の文型とは異なる文型の言
語モデルを使用しないことにより、音声認識に要する計
算時間が短縮する。

【図面の簡単な説明】

【図１】本発明の第１実施形態例に係る連続音声認識装
置の構成を示す図。

【図２】本発明の第２実施形態例に係る連続音声認識装
置の構成を示す図。

【図３】従来の連続音声認識装置の構成を示す図。

【符号の説明】１学習テキスト格納部２文クラスタリング部３クラスタ別言語モデル及びフル言語モデルの格納部４例文格納部５モデル選択部６選択されたクラスタ別言語モデル及びフル言語モデ
ルの格納部７入力音声格納部８話者認識部９言語モデル毎の音声認識結果格納部１０音声認識結果照合部１１音声認識結果格納部１２クラスタ混合分布言語モデル格納部１３音響モデル

Claims

【特許請求の範囲】

【請求項１】多数の学習テキストをクラスタリングし
てクラスタ別言語モデルを作成する文クラスタリング部
と、入力音声と前記文クラスタリング部で得られたクラ
スタ別言語モデルから、クラスタ別言語モデル毎の音声
認識結果を出力する音声認識部と、前記音声認識部で得
られたクラスタ別言語モデル毎の音声認識結果と前記文
クラスタリング部で得られたクラスタ別言語モデルから
適切な音声認識結果を選択して出力する音声認識結果照
合部を具備することを特徴とする連続音声認識装置。
【請求項２】多数の学習テキストをクラスタリングし
てクラスタ別言語モデルを作成する文クラスタリング部
と、前記学習テキストのうち特定の話題の例文と前記文
クラスタリング部で得られたクラスタ別言語モデルか
ら、適当なクラスタ別言語モデルを選択するモデル選択
部と、入力音声と前記モデル選択部で得られたクラスタ
別言語モデルから、クラスタ別言語モデル毎の音声認識
結果を出力する音声認識部と、前記音声認識部で得られ
たクラスタ別言語モデル毎の音声認識結果と前記文クラ
スタリング部で得られたクラスタ別言語モデルから適切
な音声認識結果を選択して出力する音声認識結果照合部
を具備することを特徴とする連続音声認識装置。
【請求項３】前記文クラスタリング部は、クラスタ別
言語モデルに加え、前記学習テキスト全文から学習した
フル言語モデルを作成することを特徴とする請求項１ま
たは２記載の連続音声認識装置。
【請求項４】前記モデル選択部は、前記学習テキスト
のうち特定の話題の例文と、前記文クラスタリング部で
得られたクラスタ別言語モデルから選択した適宜なクラ
スタ別言語モデルに加えて、フル言語モデルを出力する
ことを特徴とする請求項２記載の連続音声認識装置。