JP2001100783A - 連続音声認識装置 - Google Patents
連続音声認識装置Info
- Publication number
- JP2001100783A JP2001100783A JP27422499A JP27422499A JP2001100783A JP 2001100783 A JP2001100783 A JP 2001100783A JP 27422499 A JP27422499 A JP 27422499A JP 27422499 A JP27422499 A JP 27422499A JP 2001100783 A JP2001100783 A JP 2001100783A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- language model
- cluster
- sentence
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】
【課題】 特定の文型に依存した音声認識結果を得るこ
と。 【解決手段】 多数の学習テキストをクラスタリングし
てクラスタ別言語モデルを作成する文クラスタリング部
2と、入力音声とクラスタ別言語モデルから、クラスタ
別言語モデル毎の音声認識結果を出力する音声認識部8
と、クラスタ別言語モデル毎の音声認識結果とクラスタ
別言語モデルから、適切な音声認識結果を選択して出力
する音声認識結果照合部10により、音声認識を行う。
と。 【解決手段】 多数の学習テキストをクラスタリングし
てクラスタ別言語モデルを作成する文クラスタリング部
2と、入力音声とクラスタ別言語モデルから、クラスタ
別言語モデル毎の音声認識結果を出力する音声認識部8
と、クラスタ別言語モデル毎の音声認識結果とクラスタ
別言語モデルから、適切な音声認識結果を選択して出力
する音声認識結果照合部10により、音声認識を行う。
Description
【0001】
【発明の属する技術分野】本発明は連続音声認識装置に
関し、特に、統計的言語モデル例えばN−gramモデ
ルを利用して連続音声認識する分野において、特定の文
型に依存したクラスタ別言語モデルを使用し、特定の文
型に依存した音声認識結果を出力することを可能にした
連続音声認識装置に関する。
関し、特に、統計的言語モデル例えばN−gramモデ
ルを利用して連続音声認識する分野において、特定の文
型に依存したクラスタ別言語モデルを使用し、特定の文
型に依存した音声認識結果を出力することを可能にした
連続音声認識装置に関する。
【0002】
【従来の技術】従来は、図3に示すように、格納部1内
の学習テキストを文クラスタリング部2でクラスタリン
グすることによってクラスタ混合分布言語モデルを作成
して格納部12に格納し、得られたクラスタ混合分布言
語モデルと格納部7内の入力音声と図示省略の格納部内
の音響モデル13とを使用して、音声認識部8で音声認
識を行うことによって、音声認識結果を作成している。
音声認識結果は格納部11に格納される。
の学習テキストを文クラスタリング部2でクラスタリン
グすることによってクラスタ混合分布言語モデルを作成
して格納部12に格納し、得られたクラスタ混合分布言
語モデルと格納部7内の入力音声と図示省略の格納部内
の音響モデル13とを使用して、音声認識部8で音声認
識を行うことによって、音声認識結果を作成している。
音声認識結果は格納部11に格納される。
【0003】
【発明が解決しようとする課題】しかし従来は、1つの
クラスタ混合分布言語モデルを使用して音声認識してい
たために、特定の文型に依存した音声認識結果を得るこ
とができなかった。
クラスタ混合分布言語モデルを使用して音声認識してい
たために、特定の文型に依存した音声認識結果を得るこ
とができなかった。
【0004】特定の文型に依存した音声認識結果を得る
ためには、文型に依存した言語モデルを作成した上で、
この言語モデルから音声認識結果を得る必要がある。
ためには、文型に依存した言語モデルを作成した上で、
この言語モデルから音声認識結果を得る必要がある。
【0005】しかし、一般に、入力音声の文型を只1つ
の文型に限定することは実用的でないから、文型に依存
した音声認識結果を得るためには、複数の言語モデルが
必要である。
の文型に限定することは実用的でないから、文型に依存
した音声認識結果を得るためには、複数の言語モデルが
必要である。
【0006】従って、本発明の課題は、複数の文型の可
能性がある入力音声と、文型に依存した言語モデルを使
用しながらも、複数の言語モデルを利用して特定の文型
に依存した音声認識結果を得ることができる連続音声認
識装置を提供することである。
能性がある入力音声と、文型に依存した言語モデルを使
用しながらも、複数の言語モデルを利用して特定の文型
に依存した音声認識結果を得ることができる連続音声認
識装置を提供することである。
【0007】
【課題を解決するための手段】上記課題を解決する発明
は、多数の学習テキストをクラスタリングしてクラスタ
別言語モデルを作成する文クラスタリング部と、入力音
声と前記文クラスタリング部で得られたクラスタ別言語
モデルから、クラスタ別言語モデル毎の音声認識結果を
出力する音声認識部と、前記音声認識部で得られたクラ
スタ別言語モデル毎の音声認識結果と前記文クラスタリ
ング部で得られたクラスタ別言語モデルから適切な音声
認識結果を選択して出力する音声認識結果照合部を具備
することを特徴とする連続音声認識装置である。
は、多数の学習テキストをクラスタリングしてクラスタ
別言語モデルを作成する文クラスタリング部と、入力音
声と前記文クラスタリング部で得られたクラスタ別言語
モデルから、クラスタ別言語モデル毎の音声認識結果を
出力する音声認識部と、前記音声認識部で得られたクラ
スタ別言語モデル毎の音声認識結果と前記文クラスタリ
ング部で得られたクラスタ別言語モデルから適切な音声
認識結果を選択して出力する音声認識結果照合部を具備
することを特徴とする連続音声認識装置である。
【0008】また、上記課題を解決する他の発明は、多
数の学習テキストをクラスタリングしたクラスタ別言語
モデルを作成する文クラスタリング部と、前記学習テキ
ストのうち特定の話題の例文と前記文クラスタリング部
で得られたクラスタ別言語モデルから、適当なクラスタ
別言語モデルを選択するモデル選択部と、入力音声と前
記モデル選択部で得られたクラスタ別言語モデルから、
クラスタ別言語モデル毎の音声認識結果を出力する音声
認識部と、前記音声認識部で得られたクラスタ別言語モ
デル毎の音声認識結果と前記文クラスタリング部で得ら
れたクラスタ別言語モデルから適切な音声認識結果を選
択して出力する音声認識結果照合部を具備することを特
徴とする連続音声認識装置であり、
数の学習テキストをクラスタリングしたクラスタ別言語
モデルを作成する文クラスタリング部と、前記学習テキ
ストのうち特定の話題の例文と前記文クラスタリング部
で得られたクラスタ別言語モデルから、適当なクラスタ
別言語モデルを選択するモデル選択部と、入力音声と前
記モデル選択部で得られたクラスタ別言語モデルから、
クラスタ別言語モデル毎の音声認識結果を出力する音声
認識部と、前記音声認識部で得られたクラスタ別言語モ
デル毎の音声認識結果と前記文クラスタリング部で得ら
れたクラスタ別言語モデルから適切な音声認識結果を選
択して出力する音声認識結果照合部を具備することを特
徴とする連続音声認識装置であり、
【0009】また、上記課題を解決する更に他の発明
は、前記文クラスタリング部は、クラスタ別言語モデル
に加え、前記学習テキスト全文から学習したフル言語モ
デルを作成することを特徴とし、あるいは、前記モデル
選択部は、前記学習テキストのうち特定の話題の例文
と、前記文クラスタリング部で得られたクラスタ別言語
モデルから選択した適宜なクラスタ別言語モデルに加え
て、フル言語モデルを出力することを特徴とする。
は、前記文クラスタリング部は、クラスタ別言語モデル
に加え、前記学習テキスト全文から学習したフル言語モ
デルを作成することを特徴とし、あるいは、前記モデル
選択部は、前記学習テキストのうち特定の話題の例文
と、前記文クラスタリング部で得られたクラスタ別言語
モデルから選択した適宜なクラスタ別言語モデルに加え
て、フル言語モデルを出力することを特徴とする。
【0010】
【発明の実施の形態】図1に本発明の第1実施形態例に
係る連続音声認識装置の構成を示す。この装置は学習テ
キスト格納部1と、文クラスタリング部2と、クラスタ
別言語モデル及びフル言語モデルを格納する格納部3
と、入力音声を格納する格納部7と、音声認識部8と、
言語モデル毎の音声認識結果を格納する格納部9と、音
声認識結果を照合する照合部10と、音声認識結果格納
部11を備えている。
係る連続音声認識装置の構成を示す。この装置は学習テ
キスト格納部1と、文クラスタリング部2と、クラスタ
別言語モデル及びフル言語モデルを格納する格納部3
と、入力音声を格納する格納部7と、音声認識部8と、
言語モデル毎の音声認識結果を格納する格納部9と、音
声認識結果を照合する照合部10と、音声認識結果格納
部11を備えている。
【0011】クラスタ別言語モデルに加え、本例では、
フル言語モデルも使用する。また、本例では、クラスタ
別言語モデル及びフル言語モデルの作成に、格納部1内
の多数の学習テキストを使用する。クラスタ別言語モデ
ルは、文クラスタリングによって分割された学習テキス
トから文クラスタリング部2が作成し、フル言語モデル
は学習テキストの全文から文クラスタリング部2が作成
する。フル言語モデルは他の学習テキストを用いて作成
したもの、あるいは、他の手段により作成したものであ
っても良い。
フル言語モデルも使用する。また、本例では、クラスタ
別言語モデル及びフル言語モデルの作成に、格納部1内
の多数の学習テキストを使用する。クラスタ別言語モデ
ルは、文クラスタリングによって分割された学習テキス
トから文クラスタリング部2が作成し、フル言語モデル
は学習テキストの全文から文クラスタリング部2が作成
する。フル言語モデルは他の学習テキストを用いて作成
したもの、あるいは、他の手段により作成したものであ
っても良い。
【0012】分割した学習テキストの同一クラスタ内の
テキストは文型が類似したものであり、従って、特定の
文型に依存したクラスタ別言語モデルが作成される。
テキストは文型が類似したものであり、従って、特定の
文型に依存したクラスタ別言語モデルが作成される。
【0013】そして、格納部7内の入力音声と、格納部
3内のクラスタ別言語モデル及びフル言語モデルと、図
示省略の格納部内の音響モデル13を利用して、音声認
識部8で音声認識し、クラスタ別言語モデル及びフル言
語モデル毎の音声認識結果を格納部9に格納する。
3内のクラスタ別言語モデル及びフル言語モデルと、図
示省略の格納部内の音響モデル13を利用して、音声認
識部8で音声認識し、クラスタ別言語モデル及びフル言
語モデル毎の音声認識結果を格納部9に格納する。
【0014】次に、格納部9内のクラスタ別言語モデル
及びフル別言語モデル毎の音声認識結果と、格納部3内
のクラスタ別言語モデル及びフル言語モデルとを利用し
て、照合部10で音声認識結果と言語モデル(クラスタ
別言語モデル及びフル言語モデル)との照合を行い、予
め定めた照合の条件(詳細後述)に合致した音声認識結
果を音声認識結果格納部11に格納する。
及びフル別言語モデル毎の音声認識結果と、格納部3内
のクラスタ別言語モデル及びフル言語モデルとを利用し
て、照合部10で音声認識結果と言語モデル(クラスタ
別言語モデル及びフル言語モデル)との照合を行い、予
め定めた照合の条件(詳細後述)に合致した音声認識結
果を音声認識結果格納部11に格納する。
【0015】このように、各クラスタ別言語モデル及び
フル言語モデル毎に音声認識結果を求め、こらら音声認
識結果と言語モデル(クラスタ別言語モデル及びフル言
語モデル)との照合を行うことにより、特定の文型に依
存した音声認識結果を得ることができる。
フル言語モデル毎に音声認識結果を求め、こらら音声認
識結果と言語モデル(クラスタ別言語モデル及びフル言
語モデル)との照合を行うことにより、特定の文型に依
存した音声認識結果を得ることができる。
【0016】この照合において、フル言語モデルも使用
しているのは、このモデルの方がクラスタ別言語モデル
より照合度が高い場合もあることが考えられるからであ
り、音声認識を簡便に行う場合は、フル言語モデルを利
用した音声認識及びフル言語モデルとの照合を省略する
ことができる。
しているのは、このモデルの方がクラスタ別言語モデル
より照合度が高い場合もあることが考えられるからであ
り、音声認識を簡便に行う場合は、フル言語モデルを利
用した音声認識及びフル言語モデルとの照合を省略する
ことができる。
【0017】上述の第1実施形態例では、格納部3内の
クラスタ別言語モデル及びフル言語モデルを全て音声認
識に使用するため、格納部7内の入力音声の文型と合致
しない文型をモデル化したクラスタ別言語モデルも音声
認識に使用される。
クラスタ別言語モデル及びフル言語モデルを全て音声認
識に使用するため、格納部7内の入力音声の文型と合致
しない文型をモデル化したクラスタ別言語モデルも音声
認識に使用される。
【0018】一般に、文型が著しく異なるモデルを音声
認識に利用した場合、音声認識に要する計算時間が膨大
になる。
認識に利用した場合、音声認識に要する計算時間が膨大
になる。
【0019】そこで、計算時間の短縮が可能な連続音声
認識装置を本発明の第2実施形態例として、図2を参照
して説明する。
認識装置を本発明の第2実施形態例として、図2を参照
して説明する。
【0020】図2に示す装置は、学習テキスト格納部1
と、文クラスタリング部2と、クラスタ別言語モデル及
びフル言語モデルを格納する格納部3と、例文を格納す
る格納部4と、モデル選択部5と、選択したクラスタ別
言語モデル及びフル言語モデルを格納する格納部6と、
入力音声を格納する格納部7と、音声認識部8と、言語
モデル毎の音声認識結果を格納する格納部9と、音声認
識結果を照合する照合部10と、音声認識結果格納部1
1を備えている。
と、文クラスタリング部2と、クラスタ別言語モデル及
びフル言語モデルを格納する格納部3と、例文を格納す
る格納部4と、モデル選択部5と、選択したクラスタ別
言語モデル及びフル言語モデルを格納する格納部6と、
入力音声を格納する格納部7と、音声認識部8と、言語
モデル毎の音声認識結果を格納する格納部9と、音声認
識結果を照合する照合部10と、音声認識結果格納部1
1を備えている。
【0021】文クラスタリング部2は第1実施形態例と
同様であり、格納部1内の多数の学習テキストを使用し
てクラスタ別言語モデル及びフル言語モデルを作成し、
格納部3に格納する。
同様であり、格納部1内の多数の学習テキストを使用し
てクラスタ別言語モデル及びフル言語モデルを作成し、
格納部3に格納する。
【0022】格納部4に格納する例文としては、格納部
7内の入力音声に類似した文型の文を予め格納してお
く。
7内の入力音声に類似した文型の文を予め格納してお
く。
【0023】モデル選択部5は、格納部4に格納されて
いる例文と、文クラスタリング部2で得られたクラスタ
別言語モデル及びフル言語モデルを利用して、クラスタ
別言語モデルを選択し、格納部6に格納する。併せて、
文クラスタリング部2で得られたフル言語モデルも格納
部6に格納する。
いる例文と、文クラスタリング部2で得られたクラスタ
別言語モデル及びフル言語モデルを利用して、クラスタ
別言語モデルを選択し、格納部6に格納する。併せて、
文クラスタリング部2で得られたフル言語モデルも格納
部6に格納する。
【0024】そして、格納部7内の入力音声と、格納部
6内の選択した言語モデル(クラスタ別言語モデル及び
フル言語モデル)と、図示省略の格納部内の音響モデル
13を利用して、音声認識部8で音声認識し、言語モデ
ル毎の音声認識結果を格納部9に格納する。
6内の選択した言語モデル(クラスタ別言語モデル及び
フル言語モデル)と、図示省略の格納部内の音響モデル
13を利用して、音声認識部8で音声認識し、言語モデ
ル毎の音声認識結果を格納部9に格納する。
【0025】次に、格納部9内の言語モデル(クラスタ
別言語モデル及びフル言語モデル)毎の音声認識結果
と、格納部3内のクラスタ別言語モデル及びフル言語モ
デルとを利用して、照合部10で音声認識結果と言語モ
デル(クラスタ別言語モデル及びフル言語モデル)との
照合を行い、予め定めた照合の条件(例えば照合度が最
大)に合致した音声認識結果を音声認識結果格納部11
に格納する。
別言語モデル及びフル言語モデル)毎の音声認識結果
と、格納部3内のクラスタ別言語モデル及びフル言語モ
デルとを利用して、照合部10で音声認識結果と言語モ
デル(クラスタ別言語モデル及びフル言語モデル)との
照合を行い、予め定めた照合の条件(例えば照合度が最
大)に合致した音声認識結果を音声認識結果格納部11
に格納する。
【0026】このように、格納部4に格納した例文を利
用し、モデル選択部5で選択した言語モデルのみについ
て、音声認識部8で音声認識を行うことにより、入力音
声に類似していない文型をモデル化したクラスタ別言語
モデルによる計算量の増大を抑えながら、特定の文型に
依存した音声認識結果を得ることができる。
用し、モデル選択部5で選択した言語モデルのみについ
て、音声認識部8で音声認識を行うことにより、入力音
声に類似していない文型をモデル化したクラスタ別言語
モデルによる計算量の増大を抑えながら、特定の文型に
依存した音声認識結果を得ることができる。
【0027】ここで、会話音声では、類似した文型の文
が頻繁に現れることから、文クラスタリングにより特定
の文型から作成した言語モデルは、特定の文型に対する
モデルの推定精度が高くなることが期待される。
が頻繁に現れることから、文クラスタリングにより特定
の文型から作成した言語モデルは、特定の文型に対する
モデルの推定精度が高くなることが期待される。
【0028】そこで、本発明では、前述のようにクラス
タ別言語モデルを作成し、各モデル毎の認識結果を求
め、これらの認識結果から、音声認識結果を選択するよ
うにしている。本例では、フル言語モデルも使用してい
る。
タ別言語モデルを作成し、各モデル毎の認識結果を求
め、これらの認識結果から、音声認識結果を選択するよ
うにしている。本例では、フル言語モデルも使用してい
る。
【0029】一般には、音声認識の尤もらしさは、総尤
度(音響モデル尤度+言語モデル尤度)の大きさで計ら
れる。即ち、複数の音声認識結果が得られた場合には、
総尤度の値の順に音声認識結果を並べ、最も総尤度の大
きい音声認識結果を第1の音声認識結果とする。
度(音響モデル尤度+言語モデル尤度)の大きさで計ら
れる。即ち、複数の音声認識結果が得られた場合には、
総尤度の値の順に音声認識結果を並べ、最も総尤度の大
きい音声認識結果を第1の音声認識結果とする。
【0030】しかし、前述したが、複数の文型を含むテ
キストから1つの言語モデルを学習して音声認識に利用
した場合、特定の文型に依存ない音声認識結果が出力さ
れる可能性があり、総尤度だけの大きさだけでは、果た
して正しい文型であるかどうか判断できない。
キストから1つの言語モデルを学習して音声認識に利用
した場合、特定の文型に依存ない音声認識結果が出力さ
れる可能性があり、総尤度だけの大きさだけでは、果た
して正しい文型であるかどうか判断できない。
【0031】これに対して、上述のように本発明では、
文型に依存した言語モデルを作成した上で、特定の文型
に依存した音声認識結果を得て、総尤度だけでなく、文
型を判断した上で音声認識結果を出力する。
文型に依存した言語モデルを作成した上で、特定の文型
に依存した音声認識結果を得て、総尤度だけでなく、文
型を判断した上で音声認識結果を出力する。
【0032】次に、音声認識結果照合部10の動作につ
いて説明する。作成したクラスタ別言語モデルMjとク
ラスタkに含まれる文sとの間には、クラスタ別言語モ
デルMjにおける文sの出現確率をP(s,Mj)とし
た場合、下記数1の関係がある。但し。mはクラスタ数
である。
いて説明する。作成したクラスタ別言語モデルMjとク
ラスタkに含まれる文sとの間には、クラスタ別言語モ
デルMjにおける文sの出現確率をP(s,Mj)とし
た場合、下記数1の関係がある。但し。mはクラスタ数
である。
【0033】
【数1】
【0034】一方、クラスタ別言語モデルMkから出力
された認識結果skが属するクラスタk’は下記数2を
用いて求めることができる。
された認識結果skが属するクラスタk’は下記数2を
用いて求めることができる。
【0035】
【数2】
【0036】そこで、音声認識結果照合部10では、上
記数2で求めたk’に基づいて、言語モデル毎の音声認
識結果から、尤もらしい音声認識結果を選択する。
記数2で求めたk’に基づいて、言語モデル毎の音声認
識結果から、尤もらしい音声認識結果を選択する。
【0037】具体的には、まず、クラスタ言語モデルM
kからの音声認識結果skの総尤度Prob(sk,Mk) がフル
言語モデルからの音声認識結果soの総尤度Prob(so,Mo)
を超える文で、k=k’となる文skが存在するかどう
か調べる。存在する場合は、その中で総尤度が最大の文
を音声認識結果格納部11に格納する。
kからの音声認識結果skの総尤度Prob(sk,Mk) がフル
言語モデルからの音声認識結果soの総尤度Prob(so,Mo)
を超える文で、k=k’となる文skが存在するかどう
か調べる。存在する場合は、その中で総尤度が最大の文
を音声認識結果格納部11に格納する。
【0038】もし、上記の条件を満たす文が存在しない
場合は、次に、フル言語モデルからの音声認識結果soの
総尤度Prob(so,Mo) を超える文で、Mk’が音声認識部
8で使用されたモデルである文skが存在するかどうか
調べる。存在する場合は、その中で総尤度最大の文を音
声認識結果格納部11に格納する。
場合は、次に、フル言語モデルからの音声認識結果soの
総尤度Prob(so,Mo) を超える文で、Mk’が音声認識部
8で使用されたモデルである文skが存在するかどうか
調べる。存在する場合は、その中で総尤度最大の文を音
声認識結果格納部11に格納する。
【0039】もし、上記いずの条件も満たす文が存在し
ない場合は、フル言語モデルからの音声認識結果soを音
声認識結果格納部11に格納する。
ない場合は、フル言語モデルからの音声認識結果soを音
声認識結果格納部11に格納する。
【0040】次に、モデル選択部5の詳細について説明
する。
する。
【0041】モデル選択部5では、クラスタリングに使
用した学習テキストのうちから、特定の文型の例文を取
り出す。この例文を用いて混合比を推定し、混合比の大
きいクラスタ言語モデルを選択し、フル言語モデルとと
もに格納部4に格納する。
用した学習テキストのうちから、特定の文型の例文を取
り出す。この例文を用いて混合比を推定し、混合比の大
きいクラスタ言語モデルを選択し、フル言語モデルとと
もに格納部4に格納する。
【0042】ここで、作成したクラスタ別言語モデルに
おける文sの出現確率P(s)は、クラスタ数をm、ク
ラスタjに対するモデルをMj、クラスタjにおける文
sの出現確率をP(s,mj)、クラスタjに対する混
合比をλjとした場合、下記数3で表される。
おける文sの出現確率P(s)は、クラスタ数をm、ク
ラスタjに対するモデルをMj、クラスタjにおける文
sの出現確率をP(s,mj)、クラスタjに対する混
合比をλjとした場合、下記数3で表される。
【0043】
【数3】
【0044】次に、評価実験を説明する。
【0045】評価実験は「通信に関するカスタマケアサ
ービス」タスクの國番号、地域番号の問い合わせとし、
評価音声50文(557単語)を使用した。学習テキス
トは約56,000文で、そのうち13,563文を例
文として用いた。クラスタ別言語モデルは単語トライグ
ラム(trigram) とし、クラスタ数2、4、6、11のト
ライグラムを作成した。また、学習テキスト全文から学
習した単語トライグラムMoを作成した。音声認識辞書
は各クラスタに属する語彙から作成し、最大語彙数3,
000語とした、音響モデルは性別依存の音素環境依存
音声イベントHMM(隠れマルコフモデル)を用いた。
ービス」タスクの國番号、地域番号の問い合わせとし、
評価音声50文(557単語)を使用した。学習テキス
トは約56,000文で、そのうち13,563文を例
文として用いた。クラスタ別言語モデルは単語トライグ
ラム(trigram) とし、クラスタ数2、4、6、11のト
ライグラムを作成した。また、学習テキスト全文から学
習した単語トライグラムMoを作成した。音声認識辞書
は各クラスタに属する語彙から作成し、最大語彙数3,
000語とした、音響モデルは性別依存の音素環境依存
音声イベントHMM(隠れマルコフモデル)を用いた。
【0046】まず、例文とクラスタ別言語モデルから混
合比を求めて、モデル選択部5で選択すべきモデルの数
を求めた。表1に示すように、混合比は特定のクラスタ
数を境に極端に小さくなる傾向が見られる。従って、選
択するモデルの数は、順位が1つ下がった場合に混合比
が極端に小さくならないところまでという条件で、設定
した。
合比を求めて、モデル選択部5で選択すべきモデルの数
を求めた。表1に示すように、混合比は特定のクラスタ
数を境に極端に小さくなる傾向が見られる。従って、選
択するモデルの数は、順位が1つ下がった場合に混合比
が極端に小さくならないところまでという条件で、設定
した。
【0047】
【表1】
【0048】次に、音声認識結果照合部10から出力さ
れた音声認識結果の単語誤り率WER(%)を調べた。
表2に示すように、クラスタ数が2以上において、単語
誤り率が、学習テキスト全文から作成したトライグラム
の単語誤り率を下回っている。このことから、特定の文
型に依存したクラスタ別言語モデルを利用することによ
り、音声認識性能が向上することが判る。
れた音声認識結果の単語誤り率WER(%)を調べた。
表2に示すように、クラスタ数が2以上において、単語
誤り率が、学習テキスト全文から作成したトライグラム
の単語誤り率を下回っている。このことから、特定の文
型に依存したクラスタ別言語モデルを利用することによ
り、音声認識性能が向上することが判る。
【0049】
【表2】
【0050】
【発明の効果】以上より、本発明によれば、文型に依存
したクラスタ別言語モデルを利用することによって、入
力音声の文型に合致した言語モデルを使用することが可
能であり、その結果、音声認識性能が向上する。
したクラスタ別言語モデルを利用することによって、入
力音声の文型に合致した言語モデルを使用することが可
能であり、その結果、音声認識性能が向上する。
【0051】また、入力音声の文型とは異なる文型の言
語モデルを使用しないことにより、音声認識に要する計
算時間が短縮する。
語モデルを使用しないことにより、音声認識に要する計
算時間が短縮する。
【図1】本発明の第1実施形態例に係る連続音声認識装
置の構成を示す図。
置の構成を示す図。
【図2】本発明の第2実施形態例に係る連続音声認識装
置の構成を示す図。
置の構成を示す図。
【図3】従来の連続音声認識装置の構成を示す図。
【符号の説明】 1 学習テキスト格納部 2 文クラスタリング部 3 クラスタ別言語モデル及びフル言語モデルの格納部 4 例文格納部 5 モデル選択部 6 選択されたクラスタ別言語モデル及びフル言語モデ
ルの格納部 7 入力音声格納部 8 話者認識部 9 言語モデル毎の音声認識結果格納部 10 音声認識結果照合部 11 音声認識結果格納部 12 クラスタ混合分布言語モデル格納部 13 音響モデル
ルの格納部 7 入力音声格納部 8 話者認識部 9 言語モデル毎の音声認識結果格納部 10 音声認識結果照合部 11 音声認識結果格納部 12 クラスタ混合分布言語モデル格納部 13 音響モデル
Claims (4)
- 【請求項1】 多数の学習テキストをクラスタリングし
てクラスタ別言語モデルを作成する文クラスタリング部
と、入力音声と前記文クラスタリング部で得られたクラ
スタ別言語モデルから、クラスタ別言語モデル毎の音声
認識結果を出力する音声認識部と、前記音声認識部で得
られたクラスタ別言語モデル毎の音声認識結果と前記文
クラスタリング部で得られたクラスタ別言語モデルから
適切な音声認識結果を選択して出力する音声認識結果照
合部を具備することを特徴とする連続音声認識装置。 - 【請求項2】 多数の学習テキストをクラスタリングし
てクラスタ別言語モデルを作成する文クラスタリング部
と、前記学習テキストのうち特定の話題の例文と前記文
クラスタリング部で得られたクラスタ別言語モデルか
ら、適当なクラスタ別言語モデルを選択するモデル選択
部と、入力音声と前記モデル選択部で得られたクラスタ
別言語モデルから、クラスタ別言語モデル毎の音声認識
結果を出力する音声認識部と、前記音声認識部で得られ
たクラスタ別言語モデル毎の音声認識結果と前記文クラ
スタリング部で得られたクラスタ別言語モデルから適切
な音声認識結果を選択して出力する音声認識結果照合部
を具備することを特徴とする連続音声認識装置。 - 【請求項3】 前記文クラスタリング部は、クラスタ別
言語モデルに加え、前記学習テキスト全文から学習した
フル言語モデルを作成することを特徴とする請求項1ま
たは2記載の連続音声認識装置。 - 【請求項4】 前記モデル選択部は、前記学習テキスト
のうち特定の話題の例文と、前記文クラスタリング部で
得られたクラスタ別言語モデルから選択した適宜なクラ
スタ別言語モデルに加えて、フル言語モデルを出力する
ことを特徴とする請求項2記載の連続音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27422499A JP3547350B2 (ja) | 1999-09-28 | 1999-09-28 | 連続音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27422499A JP3547350B2 (ja) | 1999-09-28 | 1999-09-28 | 連続音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001100783A true JP2001100783A (ja) | 2001-04-13 |
JP3547350B2 JP3547350B2 (ja) | 2004-07-28 |
Family
ID=17538760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP27422499A Expired - Fee Related JP3547350B2 (ja) | 1999-09-28 | 1999-09-28 | 連続音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3547350B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100445907B1 (ko) * | 2001-12-26 | 2004-08-25 | 한국전자통신연구원 | 음성언어 식별 장치 및 방법 |
CN100351775C (zh) * | 2005-01-27 | 2007-11-28 | 台达电子工业股份有限公司 | 可选择句型的语音输入方法及装置 |
US9142211B2 (en) | 2012-02-14 | 2015-09-22 | Nec Corporation | Speech recognition apparatus, speech recognition method, and computer-readable recording medium |
JP2017049612A (ja) * | 2013-01-29 | 2017-03-09 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 自動音声認識のための方法およびシステム |
-
1999
- 1999-09-28 JP JP27422499A patent/JP3547350B2/ja not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100445907B1 (ko) * | 2001-12-26 | 2004-08-25 | 한국전자통신연구원 | 음성언어 식별 장치 및 방법 |
CN100351775C (zh) * | 2005-01-27 | 2007-11-28 | 台达电子工业股份有限公司 | 可选择句型的语音输入方法及装置 |
US9142211B2 (en) | 2012-02-14 | 2015-09-22 | Nec Corporation | Speech recognition apparatus, speech recognition method, and computer-readable recording medium |
JP2017049612A (ja) * | 2013-01-29 | 2017-03-09 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 自動音声認識のための方法およびシステム |
Also Published As
Publication number | Publication date |
---|---|
JP3547350B2 (ja) | 2004-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6836760B1 (en) | Use of semantic inference and context-free grammar with speech recognition system | |
US8214213B1 (en) | Speech recognition based on pronunciation modeling | |
Vergyri et al. | Morphology-based language modeling for arabic speech recognition. | |
US6999931B2 (en) | Spoken dialog system using a best-fit language model and best-fit grammar | |
US20080147404A1 (en) | System and methods for accent classification and adaptation | |
US10832668B1 (en) | Dynamic speech processing | |
Wang et al. | Towards automatic assessment of spontaneous spoken English | |
WO2006034200A2 (en) | Method and system for the automatic generation of speech features for scoring high entropy speech | |
US10515637B1 (en) | Dynamic speech processing | |
Behravan | Dialect and accent recognition | |
Aggarwal et al. | Integration of multiple acoustic and language models for improved Hindi speech recognition system | |
US8219386B2 (en) | Arabic poetry meter identification system and method | |
US20050187767A1 (en) | Dynamic N-best algorithm to reduce speech recognition errors | |
JP5376341B2 (ja) | モデル適応装置、その方法及びそのプログラム | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
Ons et al. | Fast vocabulary acquisition in an NMF-based self-learning vocal user interface | |
JP4600706B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
Rudžionis et al. | Recognition of voice commands using hybrid approach | |
López-Cózar | Using knowledge on word-islands to improve the performance of spoken dialogue systems | |
JP3547350B2 (ja) | 連続音声認識装置 | |
US20200372110A1 (en) | Method of creating a demographic based personalized pronunciation dictionary | |
Raux | Automated lexical adaptation and speaker clustering based on pronunciation habits for non-native speech recognition | |
Beaufays et al. | Learning name pronunciations in automatic speech recognition systems | |
JP2007078943A (ja) | 音響スコア計算プログラム | |
Liu et al. | Investigation of acoustic units for LVCSR systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040323 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040413 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |