JP3547350B2 - 連続音声認識装置 - Google Patents
連続音声認識装置 Download PDFInfo
- Publication number
- JP3547350B2 JP3547350B2 JP27422499A JP27422499A JP3547350B2 JP 3547350 B2 JP3547350 B2 JP 3547350B2 JP 27422499 A JP27422499 A JP 27422499A JP 27422499 A JP27422499 A JP 27422499A JP 3547350 B2 JP3547350 B2 JP 3547350B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- cluster
- language model
- unit
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は連続音声認識装置に関し、特に、統計的言語モデル例えばN−gramモデルを利用して連続音声認識する分野において、特定の文型に依存したクラスタ別言語モデルを使用し、特定の文型に依存した音声認識結果を出力することを可能にした連続音声認識装置に関する。
【0002】
【従来の技術】
従来は、図3に示すように、格納部1内の学習テキストを文クラスタリング部2でクラスタリングすることによってクラスタ混合分布言語モデルを作成して格納部12に格納し、得られたクラスタ混合分布言語モデルと格納部7内の入力音声と図示省略の格納部内の音響モデル13とを使用して、音声認識部8で音声認識を行うことによって、音声認識結果を作成している。音声認識結果は格納部11に格納される。
【0003】
【発明が解決しようとする課題】
しかし従来は、1つのクラスタ混合分布言語モデルを使用して音声認識していたために、特定の文型に依存した音声認識結果を得ることができなかった。
【0004】
特定の文型に依存した音声認識結果を得るためには、文型に依存した言語モデルを作成した上で、この言語モデルから音声認識結果を得る必要がある。
【0005】
しかし、一般に、入力音声の文型を只1つの文型に限定することは実用的でないから、文型に依存した音声認識結果を得るためには、複数の言語モデルが必要である。
【0006】
従って、本発明の課題は、複数の文型の可能性がある入力音声と、文型に依存した言語モデルを使用しながらも、複数の言語モデルを利用して特定の文型に依存した音声認識結果を得ることができる連続音声認識装置を提供することである。
【0007】
【課題を解決するための手段】
上記課題を解決する発明は、多数の学習テキストをクラスタリングしてクラスタ別言語モデルを作成する文クラスタリング部と、入力音声と前記文クラスタリング部で得られたクラスタ別言語モデルから、クラスタ別言語モデル毎の音声認識結果の全てを出力する音声認識部と、前記音声認識部で得られたクラスタ別言語モデル毎の音声認識結果の全てと前記文クラスタリング部で得られたクラスタ別言語モデルから適切な音声認識結果を選択して出力する音声認識結果照合部を具備することを特徴とする連続音声認識装置である。
【0008】
また、上記課題を解決する他の発明は、多数の学習テキストをクラスタリングしてクラスタ別言語モデルを作成する文クラスタリング部と、前記学習テキストのうち特定の文型の例文を用いて、前記文クラスタリング部で得られたクラスタ別言語モデル全ての混合比を求め、前記クラスタ別言語モデル全ての混合比により選択すべきクラスタ別言語モデルの数を求め、その数の適当なクラスタ別言語モデルを選択するモデル選択部と、入力音声と前記モデル選択部で選択された数のクラスタ別言語モデルから、クラスタ別言語モデル毎の音声認識結果を出力する音声認識部と、前記音声認識部で得られたクラスタ別言語モデル毎の音声認識結果と前記文クラスタリング部で得られたクラスタ別言語モデルから適切な音声認識結果を選択して出力する音声認識結果照合部を具備することを特徴とする連続音声認識装置であり、
【0009】
また、上記課題を解決する更に他の発明は、前記文クラスタリング部は、クラスタ別言語モデルに加え、前記学習テキスト全文から学習したフル言語モデルを作成することを特徴とし、あるいは、前記モデル選択部は、前記学習テキストのうち特定の文型の例文を用い、前記文クラスタリング部で得られたクラスタ別言語モデルから選択した適宜な数のクラスタ別言語モデルに加えて、フル言語モデルを選択することを特徴とする。
【0010】
【発明の実施の形態】
図1に本発明の第1実施形態例に係る連続音声認識装置の構成を示す。この装置は学習テキスト格納部1と、文クラスタリング部2と、クラスタ別言語モデル及びフル言語モデルを格納する格納部3と、入力音声を格納する格納部7と、音声認識部8と、言語モデル毎の音声認識結果を格納する格納部9と、音声認識結果を照合する照合部10と、音声認識結果格納部11を備えている。
【0011】
クラスタ別言語モデルに加え、本例では、フル言語モデルも使用する。また、本例では、クラスタ別言語モデル及びフル言語モデルの作成に、格納部1内の多数の学習テキストを使用する。クラスタ別言語モデルは、文クラスタリングによって分割された学習テキストから文クラスタリング部2が作成し、フル言語モデルは学習テキストの全文から文クラスタリング部2が作成する。フル言語モデルは他の学習テキストを用いて作成したもの、あるいは、他の手段により作成したものであっても良い。
【0012】
分割した学習テキストの同一クラスタ内のテキストは文型が類似したものであり、従って、特定の文型に依存したクラスタ別言語モデルが作成される。
【0013】
そして、格納部7内の入力音声と、格納部3内のクラスタ別言語モデル及びフル言語モデルと、図示省略の格納部内の音響モデル13を利用して、音声認識部8で音声認識し、クラスタ別言語モデル及びフル言語モデル毎の音声認識結果を格納部9に格納する。
【0014】
次に、格納部9内のクラスタ別言語モデル及びフル言語モデル毎の音声認識結果と、格納部3内のクラスタ別言語モデル及びフル言語モデルとを利用して、照合部10で音声認識結果と言語モデル(クラスタ別言語モデル及びフル言語モデル)との照合を行い、予め定めた照合の条件(詳細後述)に合致した音声認識結果を音声認識結果格納部11に格納する。
【0015】
このように、各クラスタ別言語モデル及びフル言語モデル毎に音声認識結果を求め、こらら音声認識結果と言語モデル(クラスタ別言語モデル及びフル言語モデル)との照合を行うことにより、特定の文型に依存した音声認識結果を得ることができる。
【0016】
この照合において、フル言語モデルも使用しているのは、このモデルの方がクラスタ別言語モデルより照合度が高い場合もあることが考えられるからであり、音声認識を簡便に行う場合は、フル言語モデルを利用した音声認識及びフル言語モデルとの照合を省略することができる。
【0017】
上述の第1実施形態例では、格納部3内のクラスタ別言語モデル及びフル言語モデルを全て音声認識に使用するため、格納部7内の入力音声の文型と合致しない文型をモデル化したクラスタ別言語モデルも音声認識に使用される。
【0018】
一般に、文型が著しく異なるモデルを音声認識に利用した場合、音声認識に要する計算時間が膨大になる。
【0019】
そこで、計算時間の短縮が可能な連続音声認識装置を本発明の第2実施形態例として、図2を参照して説明する。
【0020】
図2に示す装置は、学習テキスト格納部1と、文クラスタリング部2と、クラスタ別言語モデル及びフル言語モデルを格納する格納部3と、例文を格納する格納部4と、モデル選択部5と、選択したクラスタ別言語モデル及びフル言語モデルを格納する格納部6と、入力音声を格納する格納部7と、音声認識部8と、言語モデル毎の音声認識結果を格納する格納部9と、音声認識結果を照合する照合部10と、音声認識結果格納部11を備えている。
【0021】
文クラスタリング部2は第1実施形態例と同様であり、格納部1内の多数の学習テキストを使用してクラスタ別言語モデル及びフル言語モデルを作成し、格納部3に格納する。
【0022】
格納部4に格納する例文としては、格納部7内の入力音声に類似した文型の文を予め格納しておく。
【0023】
モデル選択部5は、格納部4に格納されている例文と、文クラスタリング部2で得られたクラスタ別言語モデル及びフル言語モデルを利用して、クラスタ別言語モデルを選択し、格納部6に格納する。併せて、文クラスタリング部2で得られたフル言語モデルも格納部6に格納する。
【0024】
そして、格納部7内の入力音声と、格納部6内の選択した言語モデル(クラスタ別言語モデル及びフル言語モデル)と、図示省略の格納部内の音響モデル13を利用して、音声認識部8で音声認識し、言語モデル毎の音声認識結果を格納部9に格納する。
【0025】
次に、格納部9内の言語モデル(クラスタ別言語モデル及びフル言語モデル)毎の音声認識結果と、格納部3内のクラスタ別言語モデル及びフル言語モデルとを利用して、照合部10で音声認識結果と言語モデル(クラスタ別言語モデル及びフル言語モデル)との照合を行い、予め定めた照合の条件(例えば照合度が最大)に合致した音声認識結果を音声認識結果格納部11に格納する。
【0026】
このように、格納部4に格納した例文を利用し、モデル選択部5で選択した言語モデルのみについて、音声認識部8で音声認識を行うことにより、入力音声に類似していない文型をモデル化したクラスタ別言語モデルによる計算量の増大を抑えながら、特定の文型に依存した音声認識結果を得ることができる。
【0027】
ここで、会話音声では、類似した文型の文が頻繁に現れることから、文クラスタリングにより特定の文型から作成した言語モデルは、特定の文型に対するモデルの推定精度が高くなることが期待される。
【0028】
そこで、本発明では、前述のようにクラスタ別言語モデルを作成し、各モデル毎の認識結果を求め、これらの認識結果から、音声認識結果を選択するようにしている。本例では、フル言語モデルも使用している。
【0029】
一般には、音声認識の尤もらしさは、総尤度(音響モデル尤度+言語モデル尤度)の大きさで計られる。即ち、複数の音声認識結果が得られた場合には、総尤度の値の順に音声認識結果を並べ、最も総尤度の大きい音声認識結果を第1の音声認識結果とする。
【0030】
しかし、前述したが、複数の文型を含むテキストから1つの言語モデルを学習して音声認識に利用した場合、特定の文型に依存ない音声認識結果が出力される可能性があり、総尤度だけの大きさだけでは、果たして正しい文型であるかどうか判断できない。
【0031】
これに対して、上述のように本発明では、文型に依存した言語モデルを作成した上で、特定の文型に依存した音声認識結果を得て、総尤度だけでなく、文型を判断した上で音声認識結果を出力する。
【0032】
次に、音声認識結果照合部10の動作について説明する。
作成したクラスタ別言語モデルMjとクラスタkに含まれる文sとの間には、クラスタ別言語モデルMjにおける文sの出現確率をP(s,Mj)とした場合、下記数1の関係がある。但し。mはクラスタ数である。
【0033】
【数1】
【0034】
一方、クラスタ別言語モデルMkから出力された認識結果skが属するクラスタk’は下記数2を用いて求めることができる。
【0035】
【数2】
【0036】
そこで、音声認識結果照合部10では、上記数2で求めたk’に基づいて、言語モデル毎の音声認識結果から、尤もらしい音声認識結果を選択する。
【0037】
具体的には、まず、クラスタ言語モデルMkからの音声認識結果skの総尤度Prob(sk,Mk) がフル言語モデルからの音声認識結果soの総尤度Prob(so,Mo) を超える文で、k=k’となる文skが存在するかどうか調べる。存在する場合は、その中で総尤度が最大の文を音声認識結果格納部11に格納する。
【0038】
もし、上記の条件を満たす文が存在しない場合は、次に、フル言語モデルからの音声認識結果soの総尤度Prob(so,Mo) を超える文で、Mk’が音声認識部8で使用されたモデルである文skが存在するかどうか調べる。存在する場合は、その中で総尤度最大の文を音声認識結果格納部11に格納する。
【0039】
もし、上記いずの条件も満たす文が存在しない場合は、フル言語モデルからの音声認識結果soを音声認識結果格納部11に格納する。
【0040】
次に、モデル選択部5の詳細について説明する。
【0041】
モデル選択部5では、クラスタリングに使用した学習テキストのうちから、特定の文型の例文を取り出す。この例文を用いて混合比を推定し、混合比の大きいクラスタ言語モデルを選択し、フル言語モデルとともに格納部4に格納する。
【0042】
ここで、作成したクラスタ別言語モデルにおける文sの出現確率P(s)は、クラスタ数をm、クラスタjに対するモデルをMj、クラスタjにおける文sの出現確率をP(s,mj)、クラスタjに対する混合比をλjとした場合、下記数3で表される。
【0043】
【数3】
【0044】
次に、評価実験を説明する。
【0045】
評価実験は「通信に関するカスタマケアサービス」タスクの國番号、地域番号の問い合わせとし、評価音声50文(557単語)を使用した。学習テキストは約56,000文で、そのうち13,563文を例文として用いた。クラスタ別言語モデルは単語トライグラム(trigram) とし、クラスタ数2、4、6、11のトライグラムを作成した。また、学習テキスト全文から学習した単語トライグラムMoを作成した。音声認識辞書は各クラスタに属する語彙から作成し、最大語彙数3,000語とした、音響モデルは性別依存の音素環境依存音声イベントHMM(隠れマルコフモデル)を用いた。
【0046】
まず、例文とクラスタ別言語モデルから混合比を求めて、モデル選択部5で選択すべきモデルの数を求めた。表1に示すように、混合比は特定のクラスタ数を境に極端に小さくなる傾向が見られる。従って、選択するモデルの数は、順位が1つ下がった場合に混合比が極端に小さくならないところまでという条件で、設定した。
【0047】
【表1】
【0048】
次に、音声認識結果照合部10から出力された音声認識結果の単語誤り率WER(%)を調べた。表2に示すように、クラスタ数が2以上において、単語誤り率が、学習テキスト全文から作成したトライグラムの単語誤り率を下回っている。このことから、特定の文型に依存したクラスタ別言語モデルを利用することにより、音声認識性能が向上することが判る。
【0049】
【表2】
【0050】
【発明の効果】
以上より、本発明によれば、文型に依存したクラスタ別言語モデルを利用することによって、入力音声の文型に合致した言語モデルを使用することが可能であり、その結果、音声認識性能が向上する。
【0051】
また、入力音声の文型とは異なる文型の言語モデルを使用しないことにより、音声認識に要する計算時間が短縮する。
【図面の簡単な説明】
【図1】本発明の第1実施形態例に係る連続音声認識装置の構成を示す図。
【図2】本発明の第2実施形態例に係る連続音声認識装置の構成を示す図。
【図3】従来の連続音声認識装置の構成を示す図。
【符号の説明】
1 学習テキスト格納部
2 文クラスタリング部
3 クラスタ別言語モデル及びフル言語モデルの格納部
4 例文格納部
5 モデル選択部
6 選択されたクラスタ別言語モデル及びフル言語モデルの格納部
7 入力音声格納部
8 話者認識部
9 言語モデル毎の音声認識結果格納部
10 音声認識結果照合部
11 音声認識結果格納部
12 クラスタ混合分布言語モデル格納部
13 音響モデル
【発明の属する技術分野】
本発明は連続音声認識装置に関し、特に、統計的言語モデル例えばN−gramモデルを利用して連続音声認識する分野において、特定の文型に依存したクラスタ別言語モデルを使用し、特定の文型に依存した音声認識結果を出力することを可能にした連続音声認識装置に関する。
【0002】
【従来の技術】
従来は、図3に示すように、格納部1内の学習テキストを文クラスタリング部2でクラスタリングすることによってクラスタ混合分布言語モデルを作成して格納部12に格納し、得られたクラスタ混合分布言語モデルと格納部7内の入力音声と図示省略の格納部内の音響モデル13とを使用して、音声認識部8で音声認識を行うことによって、音声認識結果を作成している。音声認識結果は格納部11に格納される。
【0003】
【発明が解決しようとする課題】
しかし従来は、1つのクラスタ混合分布言語モデルを使用して音声認識していたために、特定の文型に依存した音声認識結果を得ることができなかった。
【0004】
特定の文型に依存した音声認識結果を得るためには、文型に依存した言語モデルを作成した上で、この言語モデルから音声認識結果を得る必要がある。
【0005】
しかし、一般に、入力音声の文型を只1つの文型に限定することは実用的でないから、文型に依存した音声認識結果を得るためには、複数の言語モデルが必要である。
【0006】
従って、本発明の課題は、複数の文型の可能性がある入力音声と、文型に依存した言語モデルを使用しながらも、複数の言語モデルを利用して特定の文型に依存した音声認識結果を得ることができる連続音声認識装置を提供することである。
【0007】
【課題を解決するための手段】
上記課題を解決する発明は、多数の学習テキストをクラスタリングしてクラスタ別言語モデルを作成する文クラスタリング部と、入力音声と前記文クラスタリング部で得られたクラスタ別言語モデルから、クラスタ別言語モデル毎の音声認識結果の全てを出力する音声認識部と、前記音声認識部で得られたクラスタ別言語モデル毎の音声認識結果の全てと前記文クラスタリング部で得られたクラスタ別言語モデルから適切な音声認識結果を選択して出力する音声認識結果照合部を具備することを特徴とする連続音声認識装置である。
【0008】
また、上記課題を解決する他の発明は、多数の学習テキストをクラスタリングしてクラスタ別言語モデルを作成する文クラスタリング部と、前記学習テキストのうち特定の文型の例文を用いて、前記文クラスタリング部で得られたクラスタ別言語モデル全ての混合比を求め、前記クラスタ別言語モデル全ての混合比により選択すべきクラスタ別言語モデルの数を求め、その数の適当なクラスタ別言語モデルを選択するモデル選択部と、入力音声と前記モデル選択部で選択された数のクラスタ別言語モデルから、クラスタ別言語モデル毎の音声認識結果を出力する音声認識部と、前記音声認識部で得られたクラスタ別言語モデル毎の音声認識結果と前記文クラスタリング部で得られたクラスタ別言語モデルから適切な音声認識結果を選択して出力する音声認識結果照合部を具備することを特徴とする連続音声認識装置であり、
【0009】
また、上記課題を解決する更に他の発明は、前記文クラスタリング部は、クラスタ別言語モデルに加え、前記学習テキスト全文から学習したフル言語モデルを作成することを特徴とし、あるいは、前記モデル選択部は、前記学習テキストのうち特定の文型の例文を用い、前記文クラスタリング部で得られたクラスタ別言語モデルから選択した適宜な数のクラスタ別言語モデルに加えて、フル言語モデルを選択することを特徴とする。
【0010】
【発明の実施の形態】
図1に本発明の第1実施形態例に係る連続音声認識装置の構成を示す。この装置は学習テキスト格納部1と、文クラスタリング部2と、クラスタ別言語モデル及びフル言語モデルを格納する格納部3と、入力音声を格納する格納部7と、音声認識部8と、言語モデル毎の音声認識結果を格納する格納部9と、音声認識結果を照合する照合部10と、音声認識結果格納部11を備えている。
【0011】
クラスタ別言語モデルに加え、本例では、フル言語モデルも使用する。また、本例では、クラスタ別言語モデル及びフル言語モデルの作成に、格納部1内の多数の学習テキストを使用する。クラスタ別言語モデルは、文クラスタリングによって分割された学習テキストから文クラスタリング部2が作成し、フル言語モデルは学習テキストの全文から文クラスタリング部2が作成する。フル言語モデルは他の学習テキストを用いて作成したもの、あるいは、他の手段により作成したものであっても良い。
【0012】
分割した学習テキストの同一クラスタ内のテキストは文型が類似したものであり、従って、特定の文型に依存したクラスタ別言語モデルが作成される。
【0013】
そして、格納部7内の入力音声と、格納部3内のクラスタ別言語モデル及びフル言語モデルと、図示省略の格納部内の音響モデル13を利用して、音声認識部8で音声認識し、クラスタ別言語モデル及びフル言語モデル毎の音声認識結果を格納部9に格納する。
【0014】
次に、格納部9内のクラスタ別言語モデル及びフル言語モデル毎の音声認識結果と、格納部3内のクラスタ別言語モデル及びフル言語モデルとを利用して、照合部10で音声認識結果と言語モデル(クラスタ別言語モデル及びフル言語モデル)との照合を行い、予め定めた照合の条件(詳細後述)に合致した音声認識結果を音声認識結果格納部11に格納する。
【0015】
このように、各クラスタ別言語モデル及びフル言語モデル毎に音声認識結果を求め、こらら音声認識結果と言語モデル(クラスタ別言語モデル及びフル言語モデル)との照合を行うことにより、特定の文型に依存した音声認識結果を得ることができる。
【0016】
この照合において、フル言語モデルも使用しているのは、このモデルの方がクラスタ別言語モデルより照合度が高い場合もあることが考えられるからであり、音声認識を簡便に行う場合は、フル言語モデルを利用した音声認識及びフル言語モデルとの照合を省略することができる。
【0017】
上述の第1実施形態例では、格納部3内のクラスタ別言語モデル及びフル言語モデルを全て音声認識に使用するため、格納部7内の入力音声の文型と合致しない文型をモデル化したクラスタ別言語モデルも音声認識に使用される。
【0018】
一般に、文型が著しく異なるモデルを音声認識に利用した場合、音声認識に要する計算時間が膨大になる。
【0019】
そこで、計算時間の短縮が可能な連続音声認識装置を本発明の第2実施形態例として、図2を参照して説明する。
【0020】
図2に示す装置は、学習テキスト格納部1と、文クラスタリング部2と、クラスタ別言語モデル及びフル言語モデルを格納する格納部3と、例文を格納する格納部4と、モデル選択部5と、選択したクラスタ別言語モデル及びフル言語モデルを格納する格納部6と、入力音声を格納する格納部7と、音声認識部8と、言語モデル毎の音声認識結果を格納する格納部9と、音声認識結果を照合する照合部10と、音声認識結果格納部11を備えている。
【0021】
文クラスタリング部2は第1実施形態例と同様であり、格納部1内の多数の学習テキストを使用してクラスタ別言語モデル及びフル言語モデルを作成し、格納部3に格納する。
【0022】
格納部4に格納する例文としては、格納部7内の入力音声に類似した文型の文を予め格納しておく。
【0023】
モデル選択部5は、格納部4に格納されている例文と、文クラスタリング部2で得られたクラスタ別言語モデル及びフル言語モデルを利用して、クラスタ別言語モデルを選択し、格納部6に格納する。併せて、文クラスタリング部2で得られたフル言語モデルも格納部6に格納する。
【0024】
そして、格納部7内の入力音声と、格納部6内の選択した言語モデル(クラスタ別言語モデル及びフル言語モデル)と、図示省略の格納部内の音響モデル13を利用して、音声認識部8で音声認識し、言語モデル毎の音声認識結果を格納部9に格納する。
【0025】
次に、格納部9内の言語モデル(クラスタ別言語モデル及びフル言語モデル)毎の音声認識結果と、格納部3内のクラスタ別言語モデル及びフル言語モデルとを利用して、照合部10で音声認識結果と言語モデル(クラスタ別言語モデル及びフル言語モデル)との照合を行い、予め定めた照合の条件(例えば照合度が最大)に合致した音声認識結果を音声認識結果格納部11に格納する。
【0026】
このように、格納部4に格納した例文を利用し、モデル選択部5で選択した言語モデルのみについて、音声認識部8で音声認識を行うことにより、入力音声に類似していない文型をモデル化したクラスタ別言語モデルによる計算量の増大を抑えながら、特定の文型に依存した音声認識結果を得ることができる。
【0027】
ここで、会話音声では、類似した文型の文が頻繁に現れることから、文クラスタリングにより特定の文型から作成した言語モデルは、特定の文型に対するモデルの推定精度が高くなることが期待される。
【0028】
そこで、本発明では、前述のようにクラスタ別言語モデルを作成し、各モデル毎の認識結果を求め、これらの認識結果から、音声認識結果を選択するようにしている。本例では、フル言語モデルも使用している。
【0029】
一般には、音声認識の尤もらしさは、総尤度(音響モデル尤度+言語モデル尤度)の大きさで計られる。即ち、複数の音声認識結果が得られた場合には、総尤度の値の順に音声認識結果を並べ、最も総尤度の大きい音声認識結果を第1の音声認識結果とする。
【0030】
しかし、前述したが、複数の文型を含むテキストから1つの言語モデルを学習して音声認識に利用した場合、特定の文型に依存ない音声認識結果が出力される可能性があり、総尤度だけの大きさだけでは、果たして正しい文型であるかどうか判断できない。
【0031】
これに対して、上述のように本発明では、文型に依存した言語モデルを作成した上で、特定の文型に依存した音声認識結果を得て、総尤度だけでなく、文型を判断した上で音声認識結果を出力する。
【0032】
次に、音声認識結果照合部10の動作について説明する。
作成したクラスタ別言語モデルMjとクラスタkに含まれる文sとの間には、クラスタ別言語モデルMjにおける文sの出現確率をP(s,Mj)とした場合、下記数1の関係がある。但し。mはクラスタ数である。
【0033】
【数1】
【0034】
一方、クラスタ別言語モデルMkから出力された認識結果skが属するクラスタk’は下記数2を用いて求めることができる。
【0035】
【数2】
【0036】
そこで、音声認識結果照合部10では、上記数2で求めたk’に基づいて、言語モデル毎の音声認識結果から、尤もらしい音声認識結果を選択する。
【0037】
具体的には、まず、クラスタ言語モデルMkからの音声認識結果skの総尤度Prob(sk,Mk) がフル言語モデルからの音声認識結果soの総尤度Prob(so,Mo) を超える文で、k=k’となる文skが存在するかどうか調べる。存在する場合は、その中で総尤度が最大の文を音声認識結果格納部11に格納する。
【0038】
もし、上記の条件を満たす文が存在しない場合は、次に、フル言語モデルからの音声認識結果soの総尤度Prob(so,Mo) を超える文で、Mk’が音声認識部8で使用されたモデルである文skが存在するかどうか調べる。存在する場合は、その中で総尤度最大の文を音声認識結果格納部11に格納する。
【0039】
もし、上記いずの条件も満たす文が存在しない場合は、フル言語モデルからの音声認識結果soを音声認識結果格納部11に格納する。
【0040】
次に、モデル選択部5の詳細について説明する。
【0041】
モデル選択部5では、クラスタリングに使用した学習テキストのうちから、特定の文型の例文を取り出す。この例文を用いて混合比を推定し、混合比の大きいクラスタ言語モデルを選択し、フル言語モデルとともに格納部4に格納する。
【0042】
ここで、作成したクラスタ別言語モデルにおける文sの出現確率P(s)は、クラスタ数をm、クラスタjに対するモデルをMj、クラスタjにおける文sの出現確率をP(s,mj)、クラスタjに対する混合比をλjとした場合、下記数3で表される。
【0043】
【数3】
【0044】
次に、評価実験を説明する。
【0045】
評価実験は「通信に関するカスタマケアサービス」タスクの國番号、地域番号の問い合わせとし、評価音声50文(557単語)を使用した。学習テキストは約56,000文で、そのうち13,563文を例文として用いた。クラスタ別言語モデルは単語トライグラム(trigram) とし、クラスタ数2、4、6、11のトライグラムを作成した。また、学習テキスト全文から学習した単語トライグラムMoを作成した。音声認識辞書は各クラスタに属する語彙から作成し、最大語彙数3,000語とした、音響モデルは性別依存の音素環境依存音声イベントHMM(隠れマルコフモデル)を用いた。
【0046】
まず、例文とクラスタ別言語モデルから混合比を求めて、モデル選択部5で選択すべきモデルの数を求めた。表1に示すように、混合比は特定のクラスタ数を境に極端に小さくなる傾向が見られる。従って、選択するモデルの数は、順位が1つ下がった場合に混合比が極端に小さくならないところまでという条件で、設定した。
【0047】
【表1】
【0048】
次に、音声認識結果照合部10から出力された音声認識結果の単語誤り率WER(%)を調べた。表2に示すように、クラスタ数が2以上において、単語誤り率が、学習テキスト全文から作成したトライグラムの単語誤り率を下回っている。このことから、特定の文型に依存したクラスタ別言語モデルを利用することにより、音声認識性能が向上することが判る。
【0049】
【表2】
【0050】
【発明の効果】
以上より、本発明によれば、文型に依存したクラスタ別言語モデルを利用することによって、入力音声の文型に合致した言語モデルを使用することが可能であり、その結果、音声認識性能が向上する。
【0051】
また、入力音声の文型とは異なる文型の言語モデルを使用しないことにより、音声認識に要する計算時間が短縮する。
【図面の簡単な説明】
【図1】本発明の第1実施形態例に係る連続音声認識装置の構成を示す図。
【図2】本発明の第2実施形態例に係る連続音声認識装置の構成を示す図。
【図3】従来の連続音声認識装置の構成を示す図。
【符号の説明】
1 学習テキスト格納部
2 文クラスタリング部
3 クラスタ別言語モデル及びフル言語モデルの格納部
4 例文格納部
5 モデル選択部
6 選択されたクラスタ別言語モデル及びフル言語モデルの格納部
7 入力音声格納部
8 話者認識部
9 言語モデル毎の音声認識結果格納部
10 音声認識結果照合部
11 音声認識結果格納部
12 クラスタ混合分布言語モデル格納部
13 音響モデル
Claims (4)
- 多数の学習テキストをクラスタリングしてクラスタ別言語モデルを作成する文クラスタリング部と、
入力音声と前記文クラスタリング部で得られたクラスタ別言語モデルから、クラスタ別言語モデル毎の音声認識結果の全てを出力する音声認識部と、
前記音声認識部で得られたクラスタ別言語モデル毎の音声認識結果の全てと前記文クラスタリング部で得られたクラスタ別言語モデルから適切な音声認識結果を選択して出力する音声認識結果照合部を具備することを特徴とする連続音声認識装置。 - 多数の学習テキストをクラスタリングしてクラスタ別言語モデルを作成する文クラスタリング部と、
前記学習テキストのうち特定の文型の例文を用いて、前記文クラスタリング部で得られたクラスタ別言語モデル全ての混合比を求め、前記クラスタ別言語モデル全ての混合比により選択すべきクラスタ別言語モデルの数を求め、その数の適当なクラスタ別言語モデルを選択するモデル選択部と、
入力音声と前記モデル選択部で選択された数のクラスタ別言語モデルから、クラスタ別言語モデル毎の音声認識結果を出力する音声認識部と、
前記音声認識部で得られたクラスタ別言語モデル毎の音声認識結果と前記文クラスタリング部で得られたクラスタ別言語モデルから適切な音声認識結果を選択して出力する音声認識結果照合部を具備することを特徴とする連続音声認識装置。 - 前記文クラスタリング部は、クラスタ別言語モデルに加え、前記学習テキスト全文から学習したフル言語モデルを作成することを特徴とする請求項1または2記載の連続音声認識装置。
- 前記モデル選択部は、選択された適宜な数のクラスタ別言語モデルに加えて、フル言語モデルを選択することを特徴とする請求項2記載の連続音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27422499A JP3547350B2 (ja) | 1999-09-28 | 1999-09-28 | 連続音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27422499A JP3547350B2 (ja) | 1999-09-28 | 1999-09-28 | 連続音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001100783A JP2001100783A (ja) | 2001-04-13 |
JP3547350B2 true JP3547350B2 (ja) | 2004-07-28 |
Family
ID=17538760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP27422499A Expired - Fee Related JP3547350B2 (ja) | 1999-09-28 | 1999-09-28 | 連続音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3547350B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100445907B1 (ko) * | 2001-12-26 | 2004-08-25 | 한국전자통신연구원 | 음성언어 식별 장치 및 방법 |
CN100351775C (zh) * | 2005-01-27 | 2007-11-28 | 台达电子工业股份有限公司 | 可选择句型的语音输入方法及装置 |
JP6019604B2 (ja) | 2012-02-14 | 2016-11-02 | 日本電気株式会社 | 音声認識装置、音声認識方法、及びプログラム |
CN103971675B (zh) * | 2013-01-29 | 2016-03-02 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
-
1999
- 1999-09-28 JP JP27422499A patent/JP3547350B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001100783A (ja) | 2001-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110675855B (zh) | 一种语音识别方法、电子设备及计算机可读存储介质 | |
US8532993B2 (en) | Speech recognition based on pronunciation modeling | |
US6836760B1 (en) | Use of semantic inference and context-free grammar with speech recognition system | |
Young et al. | Tree-based state tying for high accuracy modelling | |
Ganapathiraju et al. | Syllable-based large vocabulary continuous speech recognition | |
Vergyri et al. | Morphology-based language modeling for arabic speech recognition. | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
US6999931B2 (en) | Spoken dialog system using a best-fit language model and best-fit grammar | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
JP4141495B2 (ja) | 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 | |
US20080147404A1 (en) | System and methods for accent classification and adaptation | |
US10832668B1 (en) | Dynamic speech processing | |
US7031918B2 (en) | Generating a task-adapted acoustic model from one or more supervised and/or unsupervised corpora | |
JP5660441B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
Adel et al. | Features for factored language models for code-Switching speech. | |
US20020173945A1 (en) | Method and apparatus for generating multilingual transcription groups | |
Behravan | Dialect and accent recognition | |
JP2013148697A (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
Aggarwal et al. | Integration of multiple acoustic and language models for improved Hindi speech recognition system | |
Kubala et al. | Comparative experiments on large vocabulary speech recognition | |
US20100185436A1 (en) | Arabic poetry meter identification system and method | |
WO2010050414A1 (ja) | モデル適応装置、その方法及びそのプログラム | |
Thomas et al. | Data-driven posterior features for low resource speech recognition applications | |
JP3547350B2 (ja) | 連続音声認識装置 | |
US20040006469A1 (en) | Apparatus and method for updating lexicon |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040323 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040413 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |