JP3547350B2 - 連続音声認識装置 - Google Patents

連続音声認識装置 Download PDF

Info

Publication number
JP3547350B2
JP3547350B2 JP27422499A JP27422499A JP3547350B2 JP 3547350 B2 JP3547350 B2 JP 3547350B2 JP 27422499 A JP27422499 A JP 27422499A JP 27422499 A JP27422499 A JP 27422499A JP 3547350 B2 JP3547350 B2 JP 3547350B2
Authority
JP
Japan
Prior art keywords
speech recognition
cluster
language model
unit
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP27422499A
Other languages
English (en)
Other versions
JP2001100783A (ja
Inventor
徹 清水
宜男 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP27422499A priority Critical patent/JP3547350B2/ja
Publication of JP2001100783A publication Critical patent/JP2001100783A/ja
Application granted granted Critical
Publication of JP3547350B2 publication Critical patent/JP3547350B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は連続音声認識装置に関し、特に、統計的言語モデル例えばN−gramモデルを利用して連続音声認識する分野において、特定の文型に依存したクラスタ別言語モデルを使用し、特定の文型に依存した音声認識結果を出力することを可能にした連続音声認識装置に関する。
【0002】
【従来の技術】
従来は、図3に示すように、格納部1内の学習テキストを文クラスタリング部2でクラスタリングすることによってクラスタ混合分布言語モデルを作成して格納部12に格納し、得られたクラスタ混合分布言語モデルと格納部7内の入力音声と図示省略の格納部内の音響モデル13とを使用して、音声認識部8で音声認識を行うことによって、音声認識結果を作成している。音声認識結果は格納部11に格納される。
【0003】
【発明が解決しようとする課題】
しかし従来は、1つのクラスタ混合分布言語モデルを使用して音声認識していたために、特定の文型に依存した音声認識結果を得ることができなかった。
【0004】
特定の文型に依存した音声認識結果を得るためには、文型に依存した言語モデルを作成した上で、この言語モデルから音声認識結果を得る必要がある。
【0005】
しかし、一般に、入力音声の文型を只1つの文型に限定することは実用的でないから、文型に依存した音声認識結果を得るためには、複数の言語モデルが必要である。
【0006】
従って、本発明の課題は、複数の文型の可能性がある入力音声と、文型に依存した言語モデルを使用しながらも、複数の言語モデルを利用して特定の文型に依存した音声認識結果を得ることができる連続音声認識装置を提供することである。
【0007】
【課題を解決するための手段】
上記課題を解決する発明は、多数の学習テキストをクラスタリングしてクラスタ別言語モデルを作成する文クラスタリング部と、入力音声と前記文クラスタリング部で得られたクラスタ別言語モデルから、クラスタ別言語モデル毎の音声認識結果の全てを出力する音声認識部と、前記音声認識部で得られたクラスタ別言語モデル毎の音声認識結果の全てと前記文クラスタリング部で得られたクラスタ別言語モデルから適切な音声認識結果を選択して出力する音声認識結果照合部を具備することを特徴とする連続音声認識装置である。
【0008】
また、上記課題を解決する他の発明は、多数の学習テキストをクラスタリングしてクラスタ別言語モデルを作成する文クラスタリング部と、前記学習テキストのうち特定の文型の例文を用いて、前記文クラスタリング部で得られたクラスタ別言語モデル全ての混合比を求め前記クラスタ別言語モデル全ての混合比により選択すべきクラスタ別言語モデルの数を求め、その数の適当なクラスタ別言語モデルを選択するモデル選択部と、入力音声と前記モデル選択部で選択された数のクラスタ別言語モデルから、クラスタ別言語モデル毎の音声認識結果を出力する音声認識部と、前記音声認識部で得られたクラスタ別言語モデル毎の音声認識結果と前記文クラスタリング部で得られたクラスタ別言語モデルから適切な音声認識結果を選択して出力する音声認識結果照合部を具備することを特徴とする連続音声認識装置であり、
【0009】
また、上記課題を解決する更に他の発明は、前記文クラスタリング部は、クラスタ別言語モデルに加え、前記学習テキスト全文から学習したフル言語モデルを作成することを特徴とし、あるいは、前記モデル選択部は、前記学習テキストのうち特定の文型の例文を用い、前記文クラスタリング部で得られたクラスタ別言語モデルから選択した適宜な数のクラスタ別言語モデルに加えて、フル言語モデルを選択することを特徴とする。
【0010】
【発明の実施の形態】
図1に本発明の第1実施形態例に係る連続音声認識装置の構成を示す。この装置は学習テキスト格納部1と、文クラスタリング部2と、クラスタ別言語モデル及びフル言語モデルを格納する格納部3と、入力音声を格納する格納部7と、音声認識部8と、言語モデル毎の音声認識結果を格納する格納部9と、音声認識結果を照合する照合部10と、音声認識結果格納部11を備えている。
【0011】
クラスタ別言語モデルに加え、本例では、フル言語モデルも使用する。また、本例では、クラスタ別言語モデル及びフル言語モデルの作成に、格納部1内の多数の学習テキストを使用する。クラスタ別言語モデルは、文クラスタリングによって分割された学習テキストから文クラスタリング部2が作成し、フル言語モデルは学習テキストの全文から文クラスタリング部2が作成する。フル言語モデルは他の学習テキストを用いて作成したもの、あるいは、他の手段により作成したものであっても良い。
【0012】
分割した学習テキストの同一クラスタ内のテキストは文型が類似したものであり、従って、特定の文型に依存したクラスタ別言語モデルが作成される。
【0013】
そして、格納部7内の入力音声と、格納部3内のクラスタ別言語モデル及びフル言語モデルと、図示省略の格納部内の音響モデル13を利用して、音声認識部8で音声認識し、クラスタ別言語モデル及びフル言語モデル毎の音声認識結果を格納部9に格納する。
【0014】
次に、格納部9内のクラスタ別言語モデル及びフル言語モデル毎の音声認識結果と、格納部3内のクラスタ別言語モデル及びフル言語モデルとを利用して、照合部10で音声認識結果と言語モデル(クラスタ別言語モデル及びフル言語モデル)との照合を行い、予め定めた照合の条件(詳細後述)に合致した音声認識結果を音声認識結果格納部11に格納する。
【0015】
このように、各クラスタ別言語モデル及びフル言語モデル毎に音声認識結果を求め、こらら音声認識結果と言語モデル(クラスタ別言語モデル及びフル言語モデル)との照合を行うことにより、特定の文型に依存した音声認識結果を得ることができる。
【0016】
この照合において、フル言語モデルも使用しているのは、このモデルの方がクラスタ別言語モデルより照合度が高い場合もあることが考えられるからであり、音声認識を簡便に行う場合は、フル言語モデルを利用した音声認識及びフル言語モデルとの照合を省略することができる。
【0017】
上述の第1実施形態例では、格納部3内のクラスタ別言語モデル及びフル言語モデルを全て音声認識に使用するため、格納部7内の入力音声の文型と合致しない文型をモデル化したクラスタ別言語モデルも音声認識に使用される。
【0018】
一般に、文型が著しく異なるモデルを音声認識に利用した場合、音声認識に要する計算時間が膨大になる。
【0019】
そこで、計算時間の短縮が可能な連続音声認識装置を本発明の第2実施形態例として、図2を参照して説明する。
【0020】
図2に示す装置は、学習テキスト格納部1と、文クラスタリング部2と、クラスタ別言語モデル及びフル言語モデルを格納する格納部3と、例文を格納する格納部4と、モデル選択部5と、選択したクラスタ別言語モデル及びフル言語モデルを格納する格納部6と、入力音声を格納する格納部7と、音声認識部8と、言語モデル毎の音声認識結果を格納する格納部9と、音声認識結果を照合する照合部10と、音声認識結果格納部11を備えている。
【0021】
文クラスタリング部2は第1実施形態例と同様であり、格納部1内の多数の学習テキストを使用してクラスタ別言語モデル及びフル言語モデルを作成し、格納部3に格納する。
【0022】
格納部4に格納する例文としては、格納部7内の入力音声に類似した文型の文を予め格納しておく。
【0023】
モデル選択部5は、格納部4に格納されている例文と、文クラスタリング部2で得られたクラスタ別言語モデル及びフル言語モデルを利用して、クラスタ別言語モデルを選択し、格納部6に格納する。併せて、文クラスタリング部2で得られたフル言語モデルも格納部6に格納する。
【0024】
そして、格納部7内の入力音声と、格納部6内の選択した言語モデル(クラスタ別言語モデル及びフル言語モデル)と、図示省略の格納部内の音響モデル13を利用して、音声認識部8で音声認識し、言語モデル毎の音声認識結果を格納部9に格納する。
【0025】
次に、格納部9内の言語モデル(クラスタ別言語モデル及びフル言語モデル)毎の音声認識結果と、格納部3内のクラスタ別言語モデル及びフル言語モデルとを利用して、照合部10で音声認識結果と言語モデル(クラスタ別言語モデル及びフル言語モデル)との照合を行い、予め定めた照合の条件(例えば照合度が最大)に合致した音声認識結果を音声認識結果格納部11に格納する。
【0026】
このように、格納部4に格納した例文を利用し、モデル選択部5で選択した言語モデルのみについて、音声認識部8で音声認識を行うことにより、入力音声に類似していない文型をモデル化したクラスタ別言語モデルによる計算量の増大を抑えながら、特定の文型に依存した音声認識結果を得ることができる。
【0027】
ここで、会話音声では、類似した文型の文が頻繁に現れることから、文クラスタリングにより特定の文型から作成した言語モデルは、特定の文型に対するモデルの推定精度が高くなることが期待される。
【0028】
そこで、本発明では、前述のようにクラスタ別言語モデルを作成し、各モデル毎の認識結果を求め、これらの認識結果から、音声認識結果を選択するようにしている。本例では、フル言語モデルも使用している。
【0029】
一般には、音声認識の尤もらしさは、総尤度(音響モデル尤度+言語モデル尤度)の大きさで計られる。即ち、複数の音声認識結果が得られた場合には、総尤度の値の順に音声認識結果を並べ、最も総尤度の大きい音声認識結果を第1の音声認識結果とする。
【0030】
しかし、前述したが、複数の文型を含むテキストから1つの言語モデルを学習して音声認識に利用した場合、特定の文型に依存ない音声認識結果が出力される可能性があり、総尤度だけの大きさだけでは、果たして正しい文型であるかどうか判断できない。
【0031】
これに対して、上述のように本発明では、文型に依存した言語モデルを作成した上で、特定の文型に依存した音声認識結果を得て、総尤度だけでなく、文型を判断した上で音声認識結果を出力する。
【0032】
次に、音声認識結果照合部10の動作について説明する。
作成したクラスタ別言語モデルMjとクラスタkに含まれる文sとの間には、クラスタ別言語モデルMjにおける文sの出現確率をP(s,Mj)とした場合、下記数1の関係がある。但し。mはクラスタ数である。
【0033】
【数1】
Figure 0003547350
【0034】
一方、クラスタ別言語モデルMkから出力された認識結果skが属するクラスタk’は下記数2を用いて求めることができる。
【0035】
【数2】
Figure 0003547350
【0036】
そこで、音声認識結果照合部10では、上記数2で求めたk’に基づいて、言語モデル毎の音声認識結果から、尤もらしい音声認識結果を選択する。
【0037】
具体的には、まず、クラスタ言語モデルMkからの音声認識結果skの総尤度Prob(sk,Mk) がフル言語モデルからの音声認識結果soの総尤度Prob(so,Mo) を超える文で、k=k’となる文skが存在するかどうか調べる。存在する場合は、その中で総尤度が最大の文を音声認識結果格納部11に格納する。
【0038】
もし、上記の条件を満たす文が存在しない場合は、次に、フル言語モデルからの音声認識結果soの総尤度Prob(so,Mo) を超える文で、Mk’が音声認識部8で使用されたモデルである文skが存在するかどうか調べる。存在する場合は、その中で総尤度最大の文を音声認識結果格納部11に格納する。
【0039】
もし、上記いずの条件も満たす文が存在しない場合は、フル言語モデルからの音声認識結果soを音声認識結果格納部11に格納する。
【0040】
次に、モデル選択部5の詳細について説明する。
【0041】
モデル選択部5では、クラスタリングに使用した学習テキストのうちから、特定の文型の例文を取り出す。この例文を用いて混合比を推定し、混合比の大きいクラスタ言語モデルを選択し、フル言語モデルとともに格納部4に格納する。
【0042】
ここで、作成したクラスタ別言語モデルにおける文sの出現確率P(s)は、クラスタ数をm、クラスタjに対するモデルをMj、クラスタjにおける文sの出現確率をP(s,mj)、クラスタjに対する混合比をλjとした場合、下記数3で表される。
【0043】
【数3】
Figure 0003547350
【0044】
次に、評価実験を説明する。
【0045】
評価実験は「通信に関するカスタマケアサービス」タスクの國番号、地域番号の問い合わせとし、評価音声50文(557単語)を使用した。学習テキストは約56,000文で、そのうち13,563文を例文として用いた。クラスタ別言語モデルは単語トライグラム(trigram) とし、クラスタ数2、4、6、11のトライグラムを作成した。また、学習テキスト全文から学習した単語トライグラムMoを作成した。音声認識辞書は各クラスタに属する語彙から作成し、最大語彙数3,000語とした、音響モデルは性別依存の音素環境依存音声イベントHMM(隠れマルコフモデル)を用いた。
【0046】
まず、例文とクラスタ別言語モデルから混合比を求めて、モデル選択部5で選択すべきモデルの数を求めた。表1に示すように、混合比は特定のクラスタ数を境に極端に小さくなる傾向が見られる。従って、選択するモデルの数は、順位が1つ下がった場合に混合比が極端に小さくならないところまでという条件で、設定した。
【0047】
【表1】
Figure 0003547350
【0048】
次に、音声認識結果照合部10から出力された音声認識結果の単語誤り率WER(%)を調べた。表2に示すように、クラスタ数が2以上において、単語誤り率が、学習テキスト全文から作成したトライグラムの単語誤り率を下回っている。このことから、特定の文型に依存したクラスタ別言語モデルを利用することにより、音声認識性能が向上することが判る。
【0049】
【表2】
Figure 0003547350
【0050】
【発明の効果】
以上より、本発明によれば、文型に依存したクラスタ別言語モデルを利用することによって、入力音声の文型に合致した言語モデルを使用することが可能であり、その結果、音声認識性能が向上する。
【0051】
また、入力音声の文型とは異なる文型の言語モデルを使用しないことにより、音声認識に要する計算時間が短縮する。
【図面の簡単な説明】
【図1】本発明の第1実施形態例に係る連続音声認識装置の構成を示す図。
【図2】本発明の第2実施形態例に係る連続音声認識装置の構成を示す図。
【図3】従来の連続音声認識装置の構成を示す図。
【符号の説明】
1 学習テキスト格納部
2 文クラスタリング部
3 クラスタ別言語モデル及びフル言語モデルの格納部
4 例文格納部
5 モデル選択部
6 選択されたクラスタ別言語モデル及びフル言語モデルの格納部
7 入力音声格納部
8 話者認識部
9 言語モデル毎の音声認識結果格納部
10 音声認識結果照合部
11 音声認識結果格納部
12 クラスタ混合分布言語モデル格納部
13 音響モデル

Claims (4)

  1. 多数の学習テキストをクラスタリングしてクラスタ別言語モデルを作成する文クラスタリング部と、
    入力音声と前記文クラスタリング部で得られたクラスタ別言語モデルから、クラスタ別言語モデル毎の音声認識結果の全てを出力する音声認識部と、
    前記音声認識部で得られたクラスタ別言語モデル毎の音声認識結果の全てと前記文クラスタリング部で得られたクラスタ別言語モデルから適切な音声認識結果を選択して出力する音声認識結果照合部を具備することを特徴とする連続音声認識装置。
  2. 多数の学習テキストをクラスタリングしてクラスタ別言語モデルを作成する文クラスタリング部と、
    前記学習テキストのうち特定の文型の例文を用いて、前記文クラスタリング部で得られたクラスタ別言語モデル全ての混合比を求め前記クラスタ別言語モデル全ての混合比により選択すべきクラスタ別言語モデルの数を求め、その数の適当なクラスタ別言語モデルを選択するモデル選択部と、
    入力音声と前記モデル選択部で選択された数のクラスタ別言語モデルから、クラスタ別言語モデル毎の音声認識結果を出力する音声認識部と、
    前記音声認識部で得られたクラスタ別言語モデル毎の音声認識結果と前記文クラスタリング部で得られたクラスタ別言語モデルから適切な音声認識結果を選択して出力する音声認識結果照合部を具備することを特徴とする連続音声認識装置。
  3. 前記文クラスタリング部は、クラスタ別言語モデルに加え、前記学習テキスト全文から学習したフル言語モデルを作成することを特徴とする請求項1または2記載の連続音声認識装置。
  4. 前記モデル選択部は、選択された適宜な数のクラスタ別言語モデルに加えて、フル言語モデルを選択することを特徴とする請求項2記載の連続音声認識装置。
JP27422499A 1999-09-28 1999-09-28 連続音声認識装置 Expired - Fee Related JP3547350B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27422499A JP3547350B2 (ja) 1999-09-28 1999-09-28 連続音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27422499A JP3547350B2 (ja) 1999-09-28 1999-09-28 連続音声認識装置

Publications (2)

Publication Number Publication Date
JP2001100783A JP2001100783A (ja) 2001-04-13
JP3547350B2 true JP3547350B2 (ja) 2004-07-28

Family

ID=17538760

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27422499A Expired - Fee Related JP3547350B2 (ja) 1999-09-28 1999-09-28 連続音声認識装置

Country Status (1)

Country Link
JP (1) JP3547350B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100445907B1 (ko) * 2001-12-26 2004-08-25 한국전자통신연구원 음성언어 식별 장치 및 방법
CN100351775C (zh) * 2005-01-27 2007-11-28 台达电子工业股份有限公司 可选择句型的语音输入方法及装置
JP6019604B2 (ja) 2012-02-14 2016-11-02 日本電気株式会社 音声認識装置、音声認識方法、及びプログラム
CN103971675B (zh) * 2013-01-29 2016-03-02 腾讯科技(深圳)有限公司 自动语音识别方法和系统

Also Published As

Publication number Publication date
JP2001100783A (ja) 2001-04-13

Similar Documents

Publication Publication Date Title
CN110675855B (zh) 一种语音识别方法、电子设备及计算机可读存储介质
US8532993B2 (en) Speech recognition based on pronunciation modeling
US6836760B1 (en) Use of semantic inference and context-free grammar with speech recognition system
Young et al. Tree-based state tying for high accuracy modelling
Ganapathiraju et al. Syllable-based large vocabulary continuous speech recognition
Vergyri et al. Morphology-based language modeling for arabic speech recognition.
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
US6999931B2 (en) Spoken dialog system using a best-fit language model and best-fit grammar
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
US20080147404A1 (en) System and methods for accent classification and adaptation
US10832668B1 (en) Dynamic speech processing
US7031918B2 (en) Generating a task-adapted acoustic model from one or more supervised and/or unsupervised corpora
JP5660441B2 (ja) 音声認識装置、音声認識方法、及びプログラム
Adel et al. Features for factored language models for code-Switching speech.
US20020173945A1 (en) Method and apparatus for generating multilingual transcription groups
Behravan Dialect and accent recognition
JP2013148697A (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
Aggarwal et al. Integration of multiple acoustic and language models for improved Hindi speech recognition system
Kubala et al. Comparative experiments on large vocabulary speech recognition
US20100185436A1 (en) Arabic poetry meter identification system and method
WO2010050414A1 (ja) モデル適応装置、その方法及びそのプログラム
Thomas et al. Data-driven posterior features for low resource speech recognition applications
JP3547350B2 (ja) 連続音声認識装置
US20040006469A1 (en) Apparatus and method for updating lexicon

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040323

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040413

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees