JP2005092310A

JP2005092310A - 音声キーワード認識装置

Info

Publication number: JP2005092310A
Application number: JP2003321231A
Authority: JP
Inventors: Makoto Yamada; 誠山田; Toru Shimizu; 徹清水
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2003-09-12
Filing date: 2003-09-12
Publication date: 2005-04-07

Abstract

【課題】キーワードに類似した音声が入力されても、十分な精度でキーワードを認識することができる音声キーワード認識装置を提供すること。
【解決手段】類似語生成部１１は、キーワード３に類似するキーワード類似語９を大語彙辞典１２から抽出して登録する。第１音声照合部１は、キーワード３とキーワード類似語９とキーワード・キーワード類似語音響モデル１０とガーベージモデル５とから得られる音響モデル列と入力音声とを照合し、最大の照合スコアlogＰ_Ｋを送出する。正規化計算部７は、照合スコアlogＰ_Ｋを正規化して正規化スコアＳを送出する。判定部８は、第１音声照合部１での照合がキーワードに対するものであるか否かを判定し、キーワードに対するものであると判定した場合に正規化スコアＳを有効とする。
【選択図】図１

Description

本発明は、音声キーワード認識装置に関し、特に、キーワードの入力音声をキーワードに類似した入力音声と効果的に区別して認識することができる音声キーワード認識装置に関する。

図３は、従来の音声キーワード認識装置のブロック図であり、この音声キーワード認識装置は、主としてコンピュータとソフトウエアで構成される。入力音声は、第１音声照合部１と第２音声照合部２に並列に入力される。第１音声照合部１と第２音声照合部２での照合は並行して行われる。

第１音声照合部１は、予め記憶したキーワード３とキーワード３をモデル化するキーワード音響モデル４とガベージモデル５とから得られる音響モデル列と入力音声とを照合し、最大の照合スコアlogＰ_Ｋを送出する。また、第２音声照合部２は、バックグラウンドモデル６と入力音声とを照合し、最大の照合スコアlogＰ_Ｂを送出する。

キーワード３、キーワード音響モデル４、ガベージモデル５、バックグラウンドモデル６は、照合のために予め格納されている。

正規化計算部７は、照合スコアlogＰ_Ｋ、logＰ_Ｂから正規化スコアＳを計算して送出する。判定部８は、正規化スコアＳと予め定められたしきい値εとを比較する。この比較の結果、正規化スコアＳがしきい値ε以上（Ｓ≧ε）であれば、照合区間の音声はキーワードであるとして受理され、しきい値ε未満（Ｓ＜ε）であれば、照合区間の音声はキーワードでないとして棄却される。照合区間の音声がキーワードとして受理された場合、第１音声照合部１から出された単語（キーワード）が認識結果として送出される。このような音声キーワード認識装置は、下記非特許文献１〜３に記載されている。
P.Heracleous et al.,音講論集, pp.89-90,Mar.2003 渡辺,信学論 D-2, PP.2202-2209,Dec.1992 R.C.Rose et al.,ICASSP90, PP.129-132,Apr.1990

上述のように、従来の音声キーワード認識装置における第１音声照合部１は、予め記憶したキーワード３とキーワード音響モデル３とガベージモデル４とから得られる音響モデル列と入力音声とを照合するものであるため、キーワードに類似した入力音声に対する認識精度が十分でないという課題がある。

すなわち、キーワードに類似した語（以下、キーワード類似語と称す。）の音声が入力されると、第１音声照合部１が送出する照合スコアlogＰ_Ｋが高くなるため、正規化スコアＳがしきい値εを超える場合が頻出し、キーワード類似語の音声がキーワードの音声であるとして受理されてしまう。

本発明の目的は、上記課題を解決し、キーワードに類似した音声が入力されても、十分な精度でキーワードを認識することができる音声キーワード認識装置を提供することにある。

上記課題を解決するために、本発明は、入力音声からキーワードを認識する音声キーワード認識装置において、キーワードに類似するキーワード類似語を大語彙辞典から抽出する類似語生成部と、前記キーワードと前記キーワード類似語とキーワード・キーワード類似語音響モデルとガーベージモデルとから得られる音響モデル列と入力音声とを照合して照合スコアを送出する音声照合部と、前記音声照合部から送出される照合スコアを元に正規化スコアを計算する正規化計算部と、前記音声照合部での照合がキーワードに対するものであるか否かを判定する判定部とを備え、前記音声照合部での照合がキーワードに対するものであると判定した場合に、前記正規化スコアを有効とすることを特徴とする。

また、本発明は、類似語生成部が、コンフュージョンマトリックスを用いて、キーワードに類似するキーワード類似語を大語彙辞典から抽出することを特徴とする。

本発明では、キーワードとキーワード類似語とキーワード・キーワード類似語音響モデルとガーベージモデルとから得られる音響モデル列と入力音声とを照合し、その照合結果がキーワードに対するものであるか否かを判定し、キーワードに対するものであると判定したときに正規化スコアを有効とするので、キーワード類似語の音声が入力されても、十分な精度でキーワードを認識することができる。

以下、図面を参照して本発明について説明する。図１は、本発明に係る音声キーワード認識装置の一実施形態を示すブロック図であり、図３と同一あるいは同等部分には同じ符号を付してある。

本実施形態は、キーワード３、キーワード類似語９、キーワード３およびキーワード類似語９をモデル化するキーワード・キーワード類似語モデル１０、ガーベージモデル５、バックグラウンドモデル６を有する。モデル化には、例えば、HHM(Hidden Harkov Model)を用いることができる。キーワード３は、音声認識タスクに応じて１つまたは複数設定される。キーワード３、キーワード類似語９、キーワード・キーワード類似語モデル１０、ガーベージモデル５、バックグラウンドモデル６は、照合のために予め格納されている。

キーワード類似語９は、キーワード３との類似度が一定しきい値を上回る単語であり、類似語生成部１１により音声認識実行に先立って、キーワード３と大語彙辞典１２とを用いて生成される。

入力音声は、第１音声照合部１と第２音声照合部２に並列に入力される。第１音声照合部１と第２音声照合部２での照合は並行して行われる。

第１音声照合部１は、キーワードと３とキーワード類似語９とキーワード・キーワード類似語音響モデル１０とガベージモデル５とから得られる音響モデル列と入力音声とを照合し、最大の照合スコアlogＰ_Ｋを送出する。また、第２音声照合部２は、バックグラウンドモデル６と入力音声とを照合し、最大の照合スコアlogＰ_Ｂを送出する。

正規化計算部７は、第１音声照合部１、第２音声照合部２から送出される照合スコアlogＰ_Ｋ、logＰ_Ｂを計算することにより正規化スコアＳを求める。正規化スコアＳは、下記式（１）により求めることができる。

Ｓ＝（logＰ_Ｋ−logＰ_Ｂ）／（Ｔ_ｅ−Ｔ_ｓ）・・・（１）

ここで、Ｔ_ｓ、Ｔ_ｅはそれぞれ、照合した音声の開始時刻、終了時刻であり、Ｔ_ｅ−Ｔ_ｓは、照合した音声の区間長（時間）である。

判定部８は、第１照合部１での照合がキーワードに対するものであるかキーワード類似語に対するものであるかをキーワード３およびキーワード類似語９に基づいて判定し、キーワードであると判定した場合には、正規化スコアＳを有効なものとし、キーワード類似語であると判定した場合には、正規化スコアＳを無効なものとして棄却する。なお、第１照合部１での照合がキーワードに対するものであるかキーワード類似語に対するものであるかは、第１照合部１から照合スコアlogＰ_Ｋとともに照合対象となったキーワードあるいはキーワード類似語が送出されてくるので、これとキーワード３およびキーワード類似語９とを比較することにより判定できる。

正規化計算部７から送出された正規化スコアＳのうち、判定部８で有効と判定された正規化スコアＳは、予め定められたしきい値εと比較される。この比較の結果、正規化スコアＳがしきい値ε以上（Ｓ≧ε）であれば、照合区間の音声は、キーワードであるとして受理され、しきい値ε未満（Ｓ＜ε）であれば、照合区間の音声は、キーワードでないとして棄却される。照合区間の音声がキーワードとして受理された場合、照合対象となったキーワードが認識結果として送出される。

以上の説明から明らかなように、本発明では、第１照合部１での照合がキーワードに対するものであるかキーワード類似語に対するものであるかを判定し、キーワードであると判定した場合に正規化スコアＳを有効なものとしているので、キーワード類似語の音声がキーワードの音声であるとして誤って受理されることが低減され、キーワード認識の精度を上げることができる。

次に、キーワード類似語の生成について説明する。類似語生成部１１は、予め準備された大語彙辞典１２の各語とキーワード３の各語の類似度を計算し、類似度が一定しきい値ｔｈを上回った単語をキーワード類似語９として生成する。生成されたキーワード類似語９は、音声認識実行に先立って登録される。

図２は、類似語生成部１１の一例を示すブロック図である。キーワード３は類似度計算部２１に入力される。類似度計算部２１は、入力されたキーワード３と大語彙辞典１２内の単語との間の類似度ｓｍを順次計算する。類似度ｓｍを計算するために、類似語生成部１１は、音声を構成する音素間の誤り傾向を示すコンフュージョンマトリックス２２を格納している。類似度計算部２１は、キーワード１単語と大語彙辞書１２内の各単語をそれぞれ音素系列に変換し、コンフュージョンマトリックス２２の誤り率を音素間距離としたＤＰマッチングを行うことにより類似度ｓｍを計算する。

例えば、キーワード３の先頭から始まる６音素以上の部分系列と、大語彙辞典１２内の単語の、任意の位置から始まる６音素以上の部分系列の全ての組み合わせについて類似度を求め、このうちの最大の類似度を、キーワード３と大語彙辞典１２内の単語間の類似度ｓｍとすることができる。類似語出力部２３は、計算された類似度ｓｍが一定しきい値ｔｈを上回った大語彙辞書１２内の単語をキーワード類似語として送出する。

例えば、図示のように、キーワード３が「キュウリ」であり、大語彙辞典１２内に「リンゴ」、「レモン」、「ブドウ」、「キウイ」、「マンゴー」、・・・が格納されている場合、類似度計算部３１は、コンフュージョンマトリックス２２を用いて「キュウリ」−「リンゴ」間、「キュウリ」−「レモン」間、「キュウリ」−「ブドウ」間、「キュウリ」−「キウイ」間、「キュウリ」−「マンゴー」間、・・・の類似度ｓｍを順次計算する。これらの類似度ｓｍがそれぞれ、-19.0、-22.8、-18.0、-10.6、-29.5、・・・であり、しきい値ｔｈが-20.0であるとすれば、ｓｍ≧ｔｈである「キウイ」、「ブドウ」、「リンゴ」がキーワード類似語９として生成される。同様の処理が、全てのキーワードに対して行われ、全てのキーワードに対する類似語９が生成されて登録される。

上記実施形態では、第１音声照合部１による音響モデル列と入力音声との照合の他に、第２音声照合部２によるバックグラウンドモデル６と入力音声との照合を行っているが、第２音声照合部２を省略することもできる。この場合には、下記式（２）により正規化スコアＳは求めればよい。

Ｓ＝logＰ_Ｋ／（Ｔ_ｅ−Ｔ_ｓ）・・・（２）

なお、キーワード類似語の生成は、音声認識実行に先立って１回だけ行えばよいが、キーワードを変更したり、追加したりした場合には、その都度、該キーワードに対する類似語を生成して登録する。

本発明は、携帯電話向けボイスポータルサービスの他、コールセンタ向け音声対話システムやカーナビ向け音声対話システムなどに利用して有用である。

本発明に係る音声キーワード認識装置の一実施形態を示すブロック図である。類似語生成部の一例を示すブロック図である。従来の音声キーワード認識装置のブロック図である。

符号の説明

１・・・第１音声照合部、２・・・第２音声照合部、３・・・キーワード、４・・・キーワード音響モデル、５・・・ガーベージモデル、６・・・バックグラウンドモデル、７・・・正規化計算部、８・・・判定部、９・・・キーワード類似語、１０・・・キーワード・キーワード類似語音響モデル、１２・・・大語彙辞書、２１・・・類似度計算部、２２・・・コンフュージョンマトリクス、２３・・・類似語出力部

Claims

入力音声からキーワードを認識する音声キーワード認識装置において、
キーワードに類似するキーワード類似語を大語彙辞典から抽出する類似語生成部と、
前記キーワードと前記キーワード類似語とキーワード・キーワード類似語音響モデルとガーベージモデルとから得られる音響モデル列と入力音声とを照合して照合スコアを送出する音声照合部と、
前記音声照合部から送出される照合スコアを元に正規化スコアを計算する正規化計算部と、
前記音声照合部での照合がキーワードに対するものであるか否かを判定する判定部とを備え、
前記音声照合部での照合がキーワードに対するものであると判定した場合に、前記正規化スコアを有効とすることを特徴とする音声キーワード認識装置。
前記類似語生成部は、コンフュージョンマトリックスを用いて、キーワードに類似するキーワード類似語を大語彙辞典から抽出することを特徴とする請求項１に記載の音声キーワード認識装置。