JP2001100783A - 連続音声認識装置 - Google Patents

連続音声認識装置

Info

Publication number
JP2001100783A
JP2001100783A JP27422499A JP27422499A JP2001100783A JP 2001100783 A JP2001100783 A JP 2001100783A JP 27422499 A JP27422499 A JP 27422499A JP 27422499 A JP27422499 A JP 27422499A JP 2001100783 A JP2001100783 A JP 2001100783A
Authority
JP
Japan
Prior art keywords
speech recognition
language model
cluster
sentence
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP27422499A
Other languages
English (en)
Other versions
JP3547350B2 (ja
Inventor
Toru Shimizu
徹 清水
Norio Higuchi
宜男 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
DDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DDI Corp filed Critical DDI Corp
Priority to JP27422499A priority Critical patent/JP3547350B2/ja
Publication of JP2001100783A publication Critical patent/JP2001100783A/ja
Application granted granted Critical
Publication of JP3547350B2 publication Critical patent/JP3547350B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 特定の文型に依存した音声認識結果を得るこ
と。 【解決手段】 多数の学習テキストをクラスタリングし
てクラスタ別言語モデルを作成する文クラスタリング部
2と、入力音声とクラスタ別言語モデルから、クラスタ
別言語モデル毎の音声認識結果を出力する音声認識部8
と、クラスタ別言語モデル毎の音声認識結果とクラスタ
別言語モデルから、適切な音声認識結果を選択して出力
する音声認識結果照合部10により、音声認識を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は連続音声認識装置に
関し、特に、統計的言語モデル例えばN−gramモデ
ルを利用して連続音声認識する分野において、特定の文
型に依存したクラスタ別言語モデルを使用し、特定の文
型に依存した音声認識結果を出力することを可能にした
連続音声認識装置に関する。
【0002】
【従来の技術】従来は、図3に示すように、格納部1内
の学習テキストを文クラスタリング部2でクラスタリン
グすることによってクラスタ混合分布言語モデルを作成
して格納部12に格納し、得られたクラスタ混合分布言
語モデルと格納部7内の入力音声と図示省略の格納部内
の音響モデル13とを使用して、音声認識部8で音声認
識を行うことによって、音声認識結果を作成している。
音声認識結果は格納部11に格納される。
【0003】
【発明が解決しようとする課題】しかし従来は、1つの
クラスタ混合分布言語モデルを使用して音声認識してい
たために、特定の文型に依存した音声認識結果を得るこ
とができなかった。
【0004】特定の文型に依存した音声認識結果を得る
ためには、文型に依存した言語モデルを作成した上で、
この言語モデルから音声認識結果を得る必要がある。
【0005】しかし、一般に、入力音声の文型を只1つ
の文型に限定することは実用的でないから、文型に依存
した音声認識結果を得るためには、複数の言語モデルが
必要である。
【0006】従って、本発明の課題は、複数の文型の可
能性がある入力音声と、文型に依存した言語モデルを使
用しながらも、複数の言語モデルを利用して特定の文型
に依存した音声認識結果を得ることができる連続音声認
識装置を提供することである。
【0007】
【課題を解決するための手段】上記課題を解決する発明
は、多数の学習テキストをクラスタリングしてクラスタ
別言語モデルを作成する文クラスタリング部と、入力音
声と前記文クラスタリング部で得られたクラスタ別言語
モデルから、クラスタ別言語モデル毎の音声認識結果を
出力する音声認識部と、前記音声認識部で得られたクラ
スタ別言語モデル毎の音声認識結果と前記文クラスタリ
ング部で得られたクラスタ別言語モデルから適切な音声
認識結果を選択して出力する音声認識結果照合部を具備
することを特徴とする連続音声認識装置である。
【0008】また、上記課題を解決する他の発明は、多
数の学習テキストをクラスタリングしたクラスタ別言語
モデルを作成する文クラスタリング部と、前記学習テキ
ストのうち特定の話題の例文と前記文クラスタリング部
で得られたクラスタ別言語モデルから、適当なクラスタ
別言語モデルを選択するモデル選択部と、入力音声と前
記モデル選択部で得られたクラスタ別言語モデルから、
クラスタ別言語モデル毎の音声認識結果を出力する音声
認識部と、前記音声認識部で得られたクラスタ別言語モ
デル毎の音声認識結果と前記文クラスタリング部で得ら
れたクラスタ別言語モデルから適切な音声認識結果を選
択して出力する音声認識結果照合部を具備することを特
徴とする連続音声認識装置であり、
【0009】また、上記課題を解決する更に他の発明
は、前記文クラスタリング部は、クラスタ別言語モデル
に加え、前記学習テキスト全文から学習したフル言語モ
デルを作成することを特徴とし、あるいは、前記モデル
選択部は、前記学習テキストのうち特定の話題の例文
と、前記文クラスタリング部で得られたクラスタ別言語
モデルから選択した適宜なクラスタ別言語モデルに加え
て、フル言語モデルを出力することを特徴とする。
【0010】
【発明の実施の形態】図1に本発明の第1実施形態例に
係る連続音声認識装置の構成を示す。この装置は学習テ
キスト格納部1と、文クラスタリング部2と、クラスタ
別言語モデル及びフル言語モデルを格納する格納部3
と、入力音声を格納する格納部7と、音声認識部8と、
言語モデル毎の音声認識結果を格納する格納部9と、音
声認識結果を照合する照合部10と、音声認識結果格納
部11を備えている。
【0011】クラスタ別言語モデルに加え、本例では、
フル言語モデルも使用する。また、本例では、クラスタ
別言語モデル及びフル言語モデルの作成に、格納部1内
の多数の学習テキストを使用する。クラスタ別言語モデ
ルは、文クラスタリングによって分割された学習テキス
トから文クラスタリング部2が作成し、フル言語モデル
は学習テキストの全文から文クラスタリング部2が作成
する。フル言語モデルは他の学習テキストを用いて作成
したもの、あるいは、他の手段により作成したものであ
っても良い。
【0012】分割した学習テキストの同一クラスタ内の
テキストは文型が類似したものであり、従って、特定の
文型に依存したクラスタ別言語モデルが作成される。
【0013】そして、格納部7内の入力音声と、格納部
3内のクラスタ別言語モデル及びフル言語モデルと、図
示省略の格納部内の音響モデル13を利用して、音声認
識部8で音声認識し、クラスタ別言語モデル及びフル言
語モデル毎の音声認識結果を格納部9に格納する。
【0014】次に、格納部9内のクラスタ別言語モデル
及びフル別言語モデル毎の音声認識結果と、格納部3内
のクラスタ別言語モデル及びフル言語モデルとを利用し
て、照合部10で音声認識結果と言語モデル(クラスタ
別言語モデル及びフル言語モデル)との照合を行い、予
め定めた照合の条件(詳細後述)に合致した音声認識結
果を音声認識結果格納部11に格納する。
【0015】このように、各クラスタ別言語モデル及び
フル言語モデル毎に音声認識結果を求め、こらら音声認
識結果と言語モデル(クラスタ別言語モデル及びフル言
語モデル)との照合を行うことにより、特定の文型に依
存した音声認識結果を得ることができる。
【0016】この照合において、フル言語モデルも使用
しているのは、このモデルの方がクラスタ別言語モデル
より照合度が高い場合もあることが考えられるからであ
り、音声認識を簡便に行う場合は、フル言語モデルを利
用した音声認識及びフル言語モデルとの照合を省略する
ことができる。
【0017】上述の第1実施形態例では、格納部3内の
クラスタ別言語モデル及びフル言語モデルを全て音声認
識に使用するため、格納部7内の入力音声の文型と合致
しない文型をモデル化したクラスタ別言語モデルも音声
認識に使用される。
【0018】一般に、文型が著しく異なるモデルを音声
認識に利用した場合、音声認識に要する計算時間が膨大
になる。
【0019】そこで、計算時間の短縮が可能な連続音声
認識装置を本発明の第2実施形態例として、図2を参照
して説明する。
【0020】図2に示す装置は、学習テキスト格納部1
と、文クラスタリング部2と、クラスタ別言語モデル及
びフル言語モデルを格納する格納部3と、例文を格納す
る格納部4と、モデル選択部5と、選択したクラスタ別
言語モデル及びフル言語モデルを格納する格納部6と、
入力音声を格納する格納部7と、音声認識部8と、言語
モデル毎の音声認識結果を格納する格納部9と、音声認
識結果を照合する照合部10と、音声認識結果格納部1
1を備えている。
【0021】文クラスタリング部2は第1実施形態例と
同様であり、格納部1内の多数の学習テキストを使用し
てクラスタ別言語モデル及びフル言語モデルを作成し、
格納部3に格納する。
【0022】格納部4に格納する例文としては、格納部
7内の入力音声に類似した文型の文を予め格納してお
く。
【0023】モデル選択部5は、格納部4に格納されて
いる例文と、文クラスタリング部2で得られたクラスタ
別言語モデル及びフル言語モデルを利用して、クラスタ
別言語モデルを選択し、格納部6に格納する。併せて、
文クラスタリング部2で得られたフル言語モデルも格納
部6に格納する。
【0024】そして、格納部7内の入力音声と、格納部
6内の選択した言語モデル(クラスタ別言語モデル及び
フル言語モデル)と、図示省略の格納部内の音響モデル
13を利用して、音声認識部8で音声認識し、言語モデ
ル毎の音声認識結果を格納部9に格納する。
【0025】次に、格納部9内の言語モデル(クラスタ
別言語モデル及びフル言語モデル)毎の音声認識結果
と、格納部3内のクラスタ別言語モデル及びフル言語モ
デルとを利用して、照合部10で音声認識結果と言語モ
デル(クラスタ別言語モデル及びフル言語モデル)との
照合を行い、予め定めた照合の条件(例えば照合度が最
大)に合致した音声認識結果を音声認識結果格納部11
に格納する。
【0026】このように、格納部4に格納した例文を利
用し、モデル選択部5で選択した言語モデルのみについ
て、音声認識部8で音声認識を行うことにより、入力音
声に類似していない文型をモデル化したクラスタ別言語
モデルによる計算量の増大を抑えながら、特定の文型に
依存した音声認識結果を得ることができる。
【0027】ここで、会話音声では、類似した文型の文
が頻繁に現れることから、文クラスタリングにより特定
の文型から作成した言語モデルは、特定の文型に対する
モデルの推定精度が高くなることが期待される。
【0028】そこで、本発明では、前述のようにクラス
タ別言語モデルを作成し、各モデル毎の認識結果を求
め、これらの認識結果から、音声認識結果を選択するよ
うにしている。本例では、フル言語モデルも使用してい
る。
【0029】一般には、音声認識の尤もらしさは、総尤
度(音響モデル尤度+言語モデル尤度)の大きさで計ら
れる。即ち、複数の音声認識結果が得られた場合には、
総尤度の値の順に音声認識結果を並べ、最も総尤度の大
きい音声認識結果を第1の音声認識結果とする。
【0030】しかし、前述したが、複数の文型を含むテ
キストから1つの言語モデルを学習して音声認識に利用
した場合、特定の文型に依存ない音声認識結果が出力さ
れる可能性があり、総尤度だけの大きさだけでは、果た
して正しい文型であるかどうか判断できない。
【0031】これに対して、上述のように本発明では、
文型に依存した言語モデルを作成した上で、特定の文型
に依存した音声認識結果を得て、総尤度だけでなく、文
型を判断した上で音声認識結果を出力する。
【0032】次に、音声認識結果照合部10の動作につ
いて説明する。作成したクラスタ別言語モデルMjとク
ラスタkに含まれる文sとの間には、クラスタ別言語モ
デルMjにおける文sの出現確率をP(s,Mj)とし
た場合、下記数1の関係がある。但し。mはクラスタ数
である。
【0033】
【数1】
【0034】一方、クラスタ別言語モデルMkから出力
された認識結果skが属するクラスタk’は下記数2を
用いて求めることができる。
【0035】
【数2】
【0036】そこで、音声認識結果照合部10では、上
記数2で求めたk’に基づいて、言語モデル毎の音声認
識結果から、尤もらしい音声認識結果を選択する。
【0037】具体的には、まず、クラスタ言語モデルM
kからの音声認識結果skの総尤度Prob(sk,Mk) がフル
言語モデルからの音声認識結果soの総尤度Prob(so,Mo)
を超える文で、k=k’となる文skが存在するかどう
か調べる。存在する場合は、その中で総尤度が最大の文
を音声認識結果格納部11に格納する。
【0038】もし、上記の条件を満たす文が存在しない
場合は、次に、フル言語モデルからの音声認識結果soの
総尤度Prob(so,Mo) を超える文で、Mk’が音声認識部
8で使用されたモデルである文skが存在するかどうか
調べる。存在する場合は、その中で総尤度最大の文を音
声認識結果格納部11に格納する。
【0039】もし、上記いずの条件も満たす文が存在し
ない場合は、フル言語モデルからの音声認識結果soを音
声認識結果格納部11に格納する。
【0040】次に、モデル選択部5の詳細について説明
する。
【0041】モデル選択部5では、クラスタリングに使
用した学習テキストのうちから、特定の文型の例文を取
り出す。この例文を用いて混合比を推定し、混合比の大
きいクラスタ言語モデルを選択し、フル言語モデルとと
もに格納部4に格納する。
【0042】ここで、作成したクラスタ別言語モデルに
おける文sの出現確率P(s)は、クラスタ数をm、ク
ラスタjに対するモデルをMj、クラスタjにおける文
sの出現確率をP(s,mj)、クラスタjに対する混
合比をλjとした場合、下記数3で表される。
【0043】
【数3】
【0044】次に、評価実験を説明する。
【0045】評価実験は「通信に関するカスタマケアサ
ービス」タスクの國番号、地域番号の問い合わせとし、
評価音声50文(557単語)を使用した。学習テキス
トは約56,000文で、そのうち13,563文を例
文として用いた。クラスタ別言語モデルは単語トライグ
ラム(trigram) とし、クラスタ数2、4、6、11のト
ライグラムを作成した。また、学習テキスト全文から学
習した単語トライグラムMoを作成した。音声認識辞書
は各クラスタに属する語彙から作成し、最大語彙数3,
000語とした、音響モデルは性別依存の音素環境依存
音声イベントHMM(隠れマルコフモデル)を用いた。
【0046】まず、例文とクラスタ別言語モデルから混
合比を求めて、モデル選択部5で選択すべきモデルの数
を求めた。表1に示すように、混合比は特定のクラスタ
数を境に極端に小さくなる傾向が見られる。従って、選
択するモデルの数は、順位が1つ下がった場合に混合比
が極端に小さくならないところまでという条件で、設定
した。
【0047】
【表1】
【0048】次に、音声認識結果照合部10から出力さ
れた音声認識結果の単語誤り率WER(%)を調べた。
表2に示すように、クラスタ数が2以上において、単語
誤り率が、学習テキスト全文から作成したトライグラム
の単語誤り率を下回っている。このことから、特定の文
型に依存したクラスタ別言語モデルを利用することによ
り、音声認識性能が向上することが判る。
【0049】
【表2】
【0050】
【発明の効果】以上より、本発明によれば、文型に依存
したクラスタ別言語モデルを利用することによって、入
力音声の文型に合致した言語モデルを使用することが可
能であり、その結果、音声認識性能が向上する。
【0051】また、入力音声の文型とは異なる文型の言
語モデルを使用しないことにより、音声認識に要する計
算時間が短縮する。
【図面の簡単な説明】
【図1】本発明の第1実施形態例に係る連続音声認識装
置の構成を示す図。
【図2】本発明の第2実施形態例に係る連続音声認識装
置の構成を示す図。
【図3】従来の連続音声認識装置の構成を示す図。
【符号の説明】 1 学習テキスト格納部 2 文クラスタリング部 3 クラスタ別言語モデル及びフル言語モデルの格納部 4 例文格納部 5 モデル選択部 6 選択されたクラスタ別言語モデル及びフル言語モデ
ルの格納部 7 入力音声格納部 8 話者認識部 9 言語モデル毎の音声認識結果格納部 10 音声認識結果照合部 11 音声認識結果格納部 12 クラスタ混合分布言語モデル格納部 13 音響モデル

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 多数の学習テキストをクラスタリングし
    てクラスタ別言語モデルを作成する文クラスタリング部
    と、入力音声と前記文クラスタリング部で得られたクラ
    スタ別言語モデルから、クラスタ別言語モデル毎の音声
    認識結果を出力する音声認識部と、前記音声認識部で得
    られたクラスタ別言語モデル毎の音声認識結果と前記文
    クラスタリング部で得られたクラスタ別言語モデルから
    適切な音声認識結果を選択して出力する音声認識結果照
    合部を具備することを特徴とする連続音声認識装置。
  2. 【請求項2】 多数の学習テキストをクラスタリングし
    てクラスタ別言語モデルを作成する文クラスタリング部
    と、前記学習テキストのうち特定の話題の例文と前記文
    クラスタリング部で得られたクラスタ別言語モデルか
    ら、適当なクラスタ別言語モデルを選択するモデル選択
    部と、入力音声と前記モデル選択部で得られたクラスタ
    別言語モデルから、クラスタ別言語モデル毎の音声認識
    結果を出力する音声認識部と、前記音声認識部で得られ
    たクラスタ別言語モデル毎の音声認識結果と前記文クラ
    スタリング部で得られたクラスタ別言語モデルから適切
    な音声認識結果を選択して出力する音声認識結果照合部
    を具備することを特徴とする連続音声認識装置。
  3. 【請求項3】 前記文クラスタリング部は、クラスタ別
    言語モデルに加え、前記学習テキスト全文から学習した
    フル言語モデルを作成することを特徴とする請求項1ま
    たは2記載の連続音声認識装置。
  4. 【請求項4】 前記モデル選択部は、前記学習テキスト
    のうち特定の話題の例文と、前記文クラスタリング部で
    得られたクラスタ別言語モデルから選択した適宜なクラ
    スタ別言語モデルに加えて、フル言語モデルを出力する
    ことを特徴とする請求項2記載の連続音声認識装置。
JP27422499A 1999-09-28 1999-09-28 連続音声認識装置 Expired - Fee Related JP3547350B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27422499A JP3547350B2 (ja) 1999-09-28 1999-09-28 連続音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27422499A JP3547350B2 (ja) 1999-09-28 1999-09-28 連続音声認識装置

Publications (2)

Publication Number Publication Date
JP2001100783A true JP2001100783A (ja) 2001-04-13
JP3547350B2 JP3547350B2 (ja) 2004-07-28

Family

ID=17538760

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27422499A Expired - Fee Related JP3547350B2 (ja) 1999-09-28 1999-09-28 連続音声認識装置

Country Status (1)

Country Link
JP (1) JP3547350B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100445907B1 (ko) * 2001-12-26 2004-08-25 한국전자통신연구원 음성언어 식별 장치 및 방법
CN100351775C (zh) * 2005-01-27 2007-11-28 台达电子工业股份有限公司 可选择句型的语音输入方法及装置
US9142211B2 (en) 2012-02-14 2015-09-22 Nec Corporation Speech recognition apparatus, speech recognition method, and computer-readable recording medium
JP2017049612A (ja) * 2013-01-29 2017-03-09 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 自動音声認識のための方法およびシステム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100445907B1 (ko) * 2001-12-26 2004-08-25 한국전자통신연구원 음성언어 식별 장치 및 방법
CN100351775C (zh) * 2005-01-27 2007-11-28 台达电子工业股份有限公司 可选择句型的语音输入方法及装置
US9142211B2 (en) 2012-02-14 2015-09-22 Nec Corporation Speech recognition apparatus, speech recognition method, and computer-readable recording medium
JP2017049612A (ja) * 2013-01-29 2017-03-09 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 自動音声認識のための方法およびシステム

Also Published As

Publication number Publication date
JP3547350B2 (ja) 2004-07-28

Similar Documents

Publication Publication Date Title
US6836760B1 (en) Use of semantic inference and context-free grammar with speech recognition system
US8214213B1 (en) Speech recognition based on pronunciation modeling
Vergyri et al. Morphology-based language modeling for arabic speech recognition.
US6999931B2 (en) Spoken dialog system using a best-fit language model and best-fit grammar
US20080147404A1 (en) System and methods for accent classification and adaptation
US10832668B1 (en) Dynamic speech processing
Wang et al. Towards automatic assessment of spontaneous spoken English
WO2006034200A2 (en) Method and system for the automatic generation of speech features for scoring high entropy speech
US10515637B1 (en) Dynamic speech processing
Behravan Dialect and accent recognition
Aggarwal et al. Integration of multiple acoustic and language models for improved Hindi speech recognition system
US8219386B2 (en) Arabic poetry meter identification system and method
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
JP5376341B2 (ja) モデル適応装置、その方法及びそのプログラム
US20040006469A1 (en) Apparatus and method for updating lexicon
Ons et al. Fast vocabulary acquisition in an NMF-based self-learning vocal user interface
JP4600706B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
Rudžionis et al. Recognition of voice commands using hybrid approach
López-Cózar Using knowledge on word-islands to improve the performance of spoken dialogue systems
JP3547350B2 (ja) 連続音声認識装置
US20200372110A1 (en) Method of creating a demographic based personalized pronunciation dictionary
Raux Automated lexical adaptation and speaker clustering based on pronunciation habits for non-native speech recognition
Beaufays et al. Learning name pronunciations in automatic speech recognition systems
JP2007078943A (ja) 音響スコア計算プログラム
Liu et al. Investigation of acoustic units for LVCSR systems

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040323

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040413

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees