JP4213416B2

JP4213416B2 - ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム

Info

Publication number: JP4213416B2
Application number: JP2002194235A
Authority: JP
Inventors: 載小林
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2002-07-03
Filing date: 2002-07-03
Publication date: 2009-01-21
Anticipated expiration: 2022-07-03
Also published as: JP2004037797A

Description

【０００１】
【発明の属する技術分野】
本発明は、ワードスポッティング音声認識装置及びワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラムの技術分野に係り、特に、入力された発話に対して不要語モデルが高性能なものではない場合でも好適な音声認識を行うことが可能なワードスポッティング音声認識装置及びワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラムの技術分野に属する。
【０００２】
【従来の技術】
図６は、キーワードとその前後に不要語モデルを接続したキーワードモデルλの構成を示す概念図である。ここでは、類似度が尤度（確率）として表現される場合を説明する。
【０００３】
入力音声はフレーム単位で分割され、入力音声の特徴パラメータが出力される。ここで、特徴パラメータとは、周波数帯毎のエネルギなどをベクトル量子化したものをいい、より具体的には、線形予測係数やＬＰＣケプストラム、周波数帯毎のエネルギなどをベクトル量子化したものが一般的に使用される。
【０００４】
一方、キーワードデータベースからキーワードの読みデータが出力され、不要語データベースから不要語の読みデータが出力され、前後に不要語モデルを接続してキーワードモデルが生成される。そして、キーワードモデルの読みデータに対応する音響モデルと遷移確率とが音響モデルデータベースから取り出され、キーワードモデルの特徴パラメータが生成される。
【０００５】
続いて、キーワード尤度計算手段において、入力音声の特徴パラメータとキーワードモデルの特徴パラメータとの尤度を計算し、出力する。
【０００６】
具体的には、入力音声の特徴パラメータとキーワードモデルの各々の状態における特徴パラメータとをフレーム毎に比較し尤度（生起確率）を算出し、結果を各時刻におけるその状態の状態尤度として出力する。
【０００７】
実際には、音声の認識率を向上させるために、キーワードデータベースと不要語データベースの２種類のデータベースを用意し、キーワードの前後に不要語モデルを接続したキーワードモデルと、不要語の前後に不要語モデルを接続した不要語モデルとを生成し、キーワードモデルを含むルートからビタビ法によって求められるキーワード累積尤度を用いることによって、認識キーワードの判定を行う。
【０００８】
【発明が解決しようとする課題】
しかしながら、ワードスポッティング音声認識装置を用いて発話からキーワードを抽出する場合において、発話区間のうちキーワード区間外の部分が長い場合は認識性能が劣化する傾向にある。
【０００９】
発明者は、この音声認識の精度向上を阻害している要因を研究し、不要語モデルが高性能ではない場合、キーワード以外の区間（以下、「不要語区間」とする。）で発話に対して大きくマッチせず、尤度が小さくなるという現象が阻害要因であることを発見した。
【００１０】
図７に、誤ったキーワードを出力したときの最適パスにおける尤度と累積尤度の時系列変化と、本来正解として出力されるべきキーワード（以下「正解キーワード」とする。）の最適パスにおける尤度と累積尤度の時系列変化を示す。上のグラフは尤度の時系列変化を示し、下のグラフは累積尤度の時系列変化を示す。この図においては尤度を扱っているため、グラフは右下がりとなる。本来のキーワード区間（ＣＳ〜ＣＦ間）だけを比較すると尤度は正解キーワードのほうが高いが、不要語区間（ＥＳ〜ＣＳ間）において不要語尤度が極端に小さい値を出力している箇所があることが判る。実際に不要語が発話されている区間のうち不要語尤度が低く出力される区間において、発話に含まれない他のキーワードが偶然にマッチングを起こした場合は、その発話に含まれないキーワードに対する累積尤度が実際に発話に含まれているキーワードの累積尤度よりも高くなりやすい。この影響を受けて音声区間の終端（ＳＥ）におけるキーワードモデルの累積尤度が不要語モデルの累積尤度よりも小さくなり、ビタビ法において誤った結果が出力されることを発見した。
【００１１】
本願発明の課題は、不要語モデルが高性能でなく、不要語区間で発話に対してマッチしない場合であっても、この影響を受けることのないワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラムを提供することにある。
【００１２】
【課題を解決するための手段】
以下、本発明について説明する。
【００１３】
かかる課題を解決するために、請求項１に記載の発明は、入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成手段と、音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成手段と、キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成手段と、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード類似度を計算し、これを累積類似度計算手段に出力するキーワード類似度計算手段と、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語類似度を計算し、これを累積類似度計算手段に出力する不要語類似度計算手段と、前記計算された不要語類似度が予め設定した範囲から外れる場合には、予め設定した値を不要語類似度として累積類似度計算手段に出力する制限値設定手段と、前記キーワード類似度計算手段によって計算された前記キーワード類似度と、前記不要語類似度計算手段と前記制限値設定手段とによって設定された前記不要語類似度と、を用いてビタビ法又はＤＰマッチングを行うことにより、前記キーワードモデルに対する累積類似度を計算する累積類似度計算手段と、前記累積類似度計算手段によって計算された前記累積類似度が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定手段と、を有することを特徴とする。
【００１４】
これにより、不要語類似度が予め設定した範囲から外れる場合には、予め設定した値が不要語類似度として出力されるので、不要語モデルが高性能でなく、不要語区間で発話に対してマッチしない場合であっても、この影響を排除することができる。
【００１７】
かかる課題を解決するために、請求項２に記載の発明は、入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成手段と、音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成手段と、キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成手段と、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード尤度を計算し、これを累積尤度計算手段に出力するキーワード尤度計算手段と、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語尤度を計算し、これを累積尤度計算手段に出力する不要語尤度計算手段と、前記計算された不要語尤度が予め設定した範囲から外れる場合には、予め設定した値を不要語尤度として累積尤度計算手段に出力する制限値設定手段と、前記キーワード尤度計算手段によって計算された前記キーワード尤度と、前記不要語尤度計算手段と前記制限値設定手段とによって設定された前記不要語尤度と、を用いてビタビ法又はＤＰマッチングを行うことにより、前記キーワードモデルに対する累積尤度を計算する累積尤度計算手段と、前記累積尤度計算手段によって計算された前記累積尤度が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定手段と、を有することを特徴とする。
【００１８】
これにより、不要語尤度が予め設定した値よりも小さい場合には、予め設定した値が不要語尤度として出力されるので、不要語モデルが高性能でなく、不要語区間で発話に対してマッチしない場合であっても、この影響を排除することができる。
【００１９】
かかる課題を解決するために、請求項３に記載の発明は、入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成手段と、音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成手段と、キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成手段と、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード距離を計算し、これを累積距離計算手段に出力するキーワード距離計算手段と、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語距離を計算し、これを累積距離計算手段に出力する不要語距離計算手段と、前記計算された不要語距離が予め設定した範囲から外れる場合には、予め設定した値を不要語距離として累積距離計算手段に出力する制限値設定手段と、前記キーワード距離計算手段によって計算された前記キーワード距離と、前記不要語距離計算手段と前記制限値設定手段とによって設定された前記不要語距離と、を用いてビタビ法又はＤＰマッチングを行うことにより、前記キーワードモデルに対する累積距離を計算する累積距離計算手段と、前記累積距離計算手段によって計算された前記累積距離が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定手段と、を有することを特徴とする。
【００２０】
これにより、不要語距離が予め設定した値よりも大きい場合には、予め設定した値が不要語距離として出力されるので、不要語モデルが高性能でなく、不要語区間で発話に対してマッチしない場合であっても、この影響を排除することができる。
【００２１】
かかる課題を解決するために、請求項４に記載の発明は、入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成工程と、音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成工程と、キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成工程と、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード類似度を計算し、これを前記キーワードモデルに対する累積類似度を計算する累積類似度計算手段に出力するキーワード類似度計算工程と、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語類似度を計算し、これを前記キーワードモデルに対する累積類似度を計算する累積類似度計算手段に出力する不要語類似度計算工程と、前記計算された不要語類似度が予め設定した範囲から外れる場合には、予め設定した値を不要語類似度として前記キーワードモデルに対する累積類似度を計算する累積類似度計算手段に出力する制限値設定工程と、前記キーワード類似度計算工程において計算された前記キーワード類似度と、前記不要語類似度計算工程と前記制限値設定工程とにおいて設定された前記不要語類似度と、を用いてビタビ法又はＤＰマッチングを行うことにより、前記キーワードモデルに対する累積類似度を計算する累積類似度計算工程と、前記累積類似度計算工程において計算された前記累積類似度が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定工程と、を有することを特徴とする。
【００２２】
これにより、不要語類似度が予め設定した範囲から外れる場合には、予め設定した値が不要語類似度として出力されるので、不要語モデルが高性能でなく、不要語区間で発話に対してマッチしない場合であっても、この影響を排除することができる。
【００２５】
かかる課題を解決するために、請求項５に記載の発明は、入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成工程と、音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成工程と、キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成工程と、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード尤度を計算し、これを前記キーワードモデルに対する累積尤度を計算する累積尤度計算手段に出力するキーワード尤度計算工程と、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語尤度を計算し、これを前記キーワードモデルに対する累積尤度を計算する累積尤度計算手段に出力する不要語尤度計算工程と、前記計算された不要語尤度が予め設定した範囲から外れる場合には、予め設定した値を不要語尤度として前記キーワードモデルに対する累積尤度を計算する累積尤度計算手段に出力する制限値設定工程と、前記キーワード尤度計算工程において計算された前記キーワード尤度と、前記不要語尤度計算工程と前記制限値設定工程とにおいて設定された前記不要語尤度と、を用いてビタビ法又はＤＰマッチングを行うことにより、前記キーワードモデルに対する累積尤度を計算する累積尤度計算工程と、前記累積尤度計算工程において計算された前記累積尤度が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定工程と、を有することを特徴とする。
【００２６】
これにより、不要語尤度が予め設定した値よりも小さい場合には、予め設定した値が不要語尤度として出力されるので、不要語モデルが高性能でなく、不要語区間で発話に対してマッチしない場合であっても、この影響を排除することができる。
【００２７】
かかる課題を解決するために、請求項６に記載の発明は、入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成工程と、音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成工程と、キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成工程と、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード距離を計算し、これを前記キーワードモデルに対する累積距離を計算する累積距離計算手段に出力するキーワード距離計算工程と、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語距離を計算し、これを前記キーワードモデルに対する累積距離を計算する累積距離計算手段に出力する不要語距離計算工程と、前記計算された不要語距離が予め設定した範囲から外れる場合には、予め設定した値を不要語距離として前記キーワードモデルに対する累積距離を計算する累積距離計算手段に出力する制限値設定工程と、前記キーワード距離計算工程において計算された前記キーワード距離と、前記不要語距離計算工程と前記制限値設定工程とにおいて設定された前記不要語距離と、を用いてビタビ法又はＤＰマッチングを行うことにより、前記キーワードモデルに対する累積距離を計算する累積距離計算工程と、前記累積距離計算工程において計算された前記累積距離が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定工程と、を有することを特徴とする。
【００２８】
これにより、不要語距離が予め設定した値よりも大きい場合には、予め設定した値が不要語距離として出力されるので、不要語モデルが高性能でなく、不要語区間で発話に対してマッチしない場合であっても、この影響を排除することができる。
【００２９】
かかる課題を解決するために、請求項７に記載の発明は、ワードスポッティング音声認識装置に含まれるコンピュータを、入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成手段、音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベース、不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成手段、キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成手段、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード類似度を計算し、これを累積類似度計算手段に出力するキーワード類似度計算手段、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語類似度を計算し、これを累積類似度計算手段に出力する不要語類似度計算手段、前記計算された不要語類似度が予め設定した範囲から外れる場合には、予め設定した値を不要語類似度として累積類似度計算手段に出力する制限値設定手段、前記キーワード類似度計算手段によって計算された前記キーワード類似度と、前記不要語類似度計算手段と前記制限値設定手段とによって設定された前記不要語類似度と、を用いてビタビ法又はＤＰマッチングを行うことにより、前記キーワードモデルに対する累積類似度を計算する累積類似度計算手段、及び前記累積類似度計算手段によって計算された前記累積類似度が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定手段、として機能させることを特徴とする。
【００３０】
これにより、不要語類似度が予め設定した範囲から外れる場合には、予め設定した値が不要語類似度として出力されるので、不要語モデルが高性能でなく、不要語区間で発話に対してマッチしない場合であっても、この影響を排除することができる。
【００３３】
かかる課題を解決するために、請求項８に記載の発明は、ワードスポッティング音声認識装置に含まれるコンピュータを、入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成手段、音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベース、不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成手段、キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成手段、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード尤度を計算し、これを累積尤度計算手段に出力するキーワード尤度計算手段、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語尤度を計算し、これを累積尤度計算手段に出力する不要語尤度計算手段、前記計算された不要語尤度が予め設定した範囲から外れる場合には、予め設定した値を不要語尤度として累積尤度計算手段に出力する制限値設定手段、前記キーワード尤度計算手段によって計算された前記キーワード尤度と、前記不要語尤度計算手段と前記制限値設定手段とによって設定された前記不要語尤度と、を用いてビタビ法又はＤＰマッチングを行うことにより、前記キーワードモデルに対する累積尤度を計算する累積尤度計算手段、及び前記累積尤度計算手段によって計算された前記累積尤度が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定手段、として機能させることを特徴とする。
【００３４】
これにより、不要語尤度が予め設定した値よりも小さい場合には、予め設定した値が不要語尤度として出力されるので、不要語モデルが高性能でなく、不要語区間で発話に対してマッチしない場合であっても、この影響を排除することができる。
【００３５】
かかる課題を解決するために、請求項９に記載の発明は、ワードスポッティング音声認識装置に含まれるコンピュータを、入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成手段、音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベース、不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成手段、キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成手段、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード距離を計算し、これを累積距離計算手段に出力するキーワード距離計算手段、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語距離を計算し、これを累積距離計算手段に出力する不要語距離計算手段、前記計算された不要語距離が予め設定した範囲から外れる場合には、予め設定した値を不要語距離として累積距離計算手段に出力する制限値設定手段、前記キーワード距離計算手段によって計算された前記キーワード距離と、前記不要語距離計算手段と前記制限値設定手段とによって設定された前記不要語距離と、を用いてビタビ法又はＤＰマッチングを行うことにより、前記キーワードモデルに対する累積距離を計算する累積距離計算手段、及び前記累積距離計算手段によって計算された前記累積距離が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定手段、として機能させることを特徴とする。
【００３６】
これにより、不要語距離が予め設定した値よりも大きい場合には、予め設定した値が不要語距離として出力されるので、不要語モデルが高性能でなく、不要語区間で発話に対してマッチしない場合であっても、この影響を排除することができる。
【００３７】
【発明の実施の形態】
（第１の実施の形態）
以下、本発明にかかるワードスポッティング音声認識装置の第１の実施の形態について図面を用いて説明する。
【００３８】
図１は、本発明にかかるワードスポッティング音声認識装置の一実施例の構成概要を示すブロック図である。
【００３９】
この実施例では、類似度が尤度（確率）として表現される場合を説明する。図１に示すように、本発明にかかるワードスポッティング音声認識装置は、マイク１、ＬＰＦ（ＬｏｗＰａｓｓＦｉｌｔｅｒ）２、Ａ／Ｄ変換器３、音声区間切出処理部４、特徴パラメータ生成手段としての特徴パラメータ生成部５、音響モデルデータベースとしての音響モデル記憶部６、キーワードデータベースとしてのキーワード記憶部７、キーワードモデル生成手段としてのキーワードモデル生成部８、不要語データベースとしての不要語記憶部９、不要語モデル生成手段としての不要語モデル生成部１０、キーワード類似度計算手段、キーワード尤度計算手段としてのキーワード尤度計算部１１、不要語類似度計算手段、不要語尤度計算手段としての不要語尤度計算部１２、制限値設定手段としての制限値設定部１３、累積類似度計算手段、累積尤度計算手段としてのビタビ処理部１４、認識キーワード判定部１５と、を含んで構成される。
【００４０】
入力された音声信号がマイク１で電気信号に変換され出力されると、ＬＰＦ２で電気信号としての音声信号のうち高周波数成分が除去され出力される。
【００４１】
出力されたアナログ信号である音声信号はＡ／Ｄ変換器３で所定のサンプリングレートでディジタル信号に変換して出力される。
【００４２】
音声区間切出処理部４は例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）で構成され、出力されたディジタル信号としての入力信号から音声区間を切り出し、出力する。
【００４３】
特徴パラメータ生成部５は例えばＣＰＵで構成され、音声区間切出処理部４が切り出した音声区間を更にフレームに分割し、分割したフレームから入力音声の特徴パラメータを抽出し生成する。特徴パラメータは、例えば、線形予測係数やＬＰＣケプストラム、周波数帯毎のエネルギなどをベクトル量子化したものが一般的に使用される。
【００４４】
音響モデル記憶部６は例えばＨＤ（ＨａｒｄＤｉｓｋ）で構成され、音素又は音節であるサブワードの単位で音響モデルを記憶しており、読みデータが入力されると対応する音響モデルから特徴パラメータを生成し出力する。また、音響モデル記憶部６は遷移確率も記憶している。
【００４５】
キーワード記憶部７は例えばＨＤで構成され、キーワードを読みデータの形式で記憶する。
【００４６】
キーワードモデル生成部８は例えばＣＰＵで構成され、キーワード記憶部７から出力されたキーワードを抽出する。抽出したキーワードの前後に不要語モデルを接続してキーワードモデルを生成する。そして、キーワードモデルの読みデータに対応する音響モデルを音響モデル記憶部６から取り出し、キーワードモデルの特徴パラメータを生成する。
【００４７】
不要語記憶部９は例えばＨＤで構成され、不要語を読みデータの形式で記憶する。
【００４８】
不要語モデル生成部１０は例えばＣＰＵで構成され、不要語記憶部９から出力された不要語を抽出する。抽出した不要語の前後に不要語モデルを接続して不要語モデルを生成する。そして、不要語モデルの読みデータに対応する音響モデルを音響モデル記憶部６から取り出し、不要語モデルの特徴パラメータを生成する。
【００４９】
キーワード尤度計算部１１は例えばＣＰＵで構成され、入力音声の特徴パラメータとキーワードモデルの特徴パラメータとの尤度（キーワード尤度）を計算し、出力する。
【００５０】
不要語尤度計算部１２は例えばＣＰＵで構成され、入力音声の特徴パラメータと不要語モデルの特徴パラメータとの尤度（不要語尤度）を計算し、出力する。
【００５１】
制限値設定部１３は例えばＣＰＵで構成され、不要語尤度計算部１２が出力する不要語尤度が予め設定した値よりも小さい場合には、当該設定した値を不要語尤度として出力する。
【００５２】
ビタビ処理部１４は例えばＣＰＵで構成され、状態遷移の有無を示す状態遷移情報を出力しつつ、不要語モデルを接続したキーワードモデルに対する累積尤度を計算する。
【００５３】
認識キーワード判定部１５は例えばＣＰＵで構成され、累積尤度正規化部１５から出力される累積尤度を用いて音声認識を行う。
【００５４】
以上の構成を有するワードスポッティング音声認識装置の動作概要を図２を用いて以下に説明する。
【００５５】
図２は上記ワードスポッティング音声認識装置の動作概要を示すフローチャートである。
【００５６】
まず、ビタビ法を行うための初期設定工程（ＳＴＥＰ１）が行われる。
【００５７】
マイク１から入力された発話音声は、ＬＰＦ２によって低域ろ過され、Ａ／Ｄ変換器３によって所定のサンプリング周期でＡ／Ｄ変換され、音声区間切出処理部４で発話音声から音声区間を切り出し、特徴パラメータ生成部５で特徴パラメータを生成し、出力する。
【００５８】
以上のような、初期設定工程（ＳＴＥＰ１）が終了すると、次に、キーワードモデル及び不要語モデル生成工程（ＳＴＥＰ２）が行われる。
【００５９】
キーワードモデル生成部８はキーワード記憶部７及び不要語記憶部９からキーワード及び不要語を抽出し、キーワードの前後に不要語モデルを接続してキーワードモデルを生成する。また、不要語モデル生成部１０は不要語記憶部９から不要語を抽出し、不要語モデルを生成する。そして、キーワードモデル生成部８及び不要語モデル生成部１０はキーワードモデル及び不要語モデルの読みデータに対応する音響モデルと遷移確率とを音響モデル記憶部６から取り出し、キーワードモデル及び不要語モデルの特徴パラメータを生成する。
【００６０】
以上のような、キーワードモデル及び不要語モデル生成工程（ＳＴＥＰ２）が終了すると、次に、キーワード尤度計算工程（ＳＴＥＰ３）及び不要語尤度計算工程（ＳＴＥＰ４）、不要語尤度調整工程（ＳＴＥＰ５）が行われる。まず、キーワード尤度計算工程（ＳＴＥＰ３）を説明する。
【００６１】
キーワード尤度計算部１１において、入力音声の特徴パラメータとキーワードモデルの特徴パラメータからキーワード尤度を計算し、出力する。
【００６２】
具体的には、ＳＴＥＰ１において生成された入力音声の特徴パラメータとキーワードモデルの特徴パラメータとをフレーム毎に比較し類似度であるキーワード尤度を算出し、結果を各時刻におけるその状態の状態尤度Ｐとして状態尤度テーブルＰ（ｔ，ｍ）の形式でビタビ処理部１４に出力する。
【００６３】
次に、ＳＴＥＰ３と平行して処理が進行する、不要語尤度計算工程（ＳＴＥＰ４）、不要語尤度調整工程（ＳＴＥＰ５）を説明する。
【００６４】
不要語尤度計算部１２において、入力音声の特徴パラメータと不要語モデルの特徴パラメータとの尤度を計算する。不要語モデルと特徴パラメータとの尤度の算出は、ＳＴＥＰ３において説明したキーワードモデルと特徴パラメータとの尤度の算出と同様の方法による。
【００６５】
以上のような、不要語尤度計算工程（ＳＴＥＰ４）が終了すると、次に、不要語尤度調整工程（ＳＴＥＰ５）が行われる。
【００６６】
不要語尤度計算工程（ＳＴＥＰ４）において出力される不要語尤度が予め設定した値よりも小さいか否かを制限値設定部１３が判断する。そして、不要語尤度が予め設定した値以上であれば、制限値設定部１３は当該不要語尤度をそのままビタビ処理部１４に出力する。不要語尤度が予め設定した値よりも小さい場合には、制限値設定部１３は当該設定した値を不要語尤度としてビタビ処理部１４に出力する。
【００６７】
以上のような、不要語尤度調整工程（ＳＴＥＰ５）が終了し、一連のキーワード尤度計算工程（ＳＴＥＰ３）及び不要語尤度計算工程（ＳＴＥＰ４）、不要語尤度調整工程（ＳＴＥＰ５）が終了すると、次に、ビタビ処理工程（ＳＴＥＰ６）が行われる。
【００６８】
ビタビ処理部１４において、キーワード尤度計算工程（ＳＴＥＰ３）において出力された入力音声の特徴パラメータとキーワードモデルの特徴パラメータとの状態尤度Ｐを基にして、ビタビ法によって累積尤度を計算する。
【００６９】
以上のような、ビタビ処理工程（ＳＴＥＰ６）が終了すると、出力された累積尤度を用いて、続く認識キーワード判定工程（ＳＴＥＰ７）において、キーワードの認識が行われ、認識キーワードが確定する。
【００７０】
次に、本実施の形態の作用を図３を用いて説明する。図３は本願発明を適用したときの誤りキーワード（発話に含まれないキーワード）と正解キーワード（発話に含まれるキーワード）を出力したときの最適パスにおける尤度と累積尤度の時系列変化を示す図であり、図７と同じ音声モデルを使用している。また、尤度は対数尤度である。
【００７１】
不要語モデルの尤度が制限値を下回った時点で、尤度は制限値に置き換えられている。従って、正解キーワードの始端（ＣＳ）までに、誤りキーワードモデルに比して正解キーワードモデルの累積尤度が極端に小さくなることが防げている。この結果、発話終了時において（ＳＥ）、正解キーワードモデルの累積尤度が誤りキーワードモデルのそれよりも大きくなり、正解キーワードを抽出することが可能になっている。
【００７２】
この実施の形態では以下の効果を有する。
● 不要語モデルの精度が高精度でなく、発話に大きくマッチしない場合であっても、正解キーワードを出力することが可能である。
● この不要語尤度の制限値設定は処理量がごくわずかであるため、ナビ等リソースが限られた音声認識装置にも容易に組み込みが可能である。
【００７３】
なお、第１の実施の形態は、上記に限定されるものではなく、例えば以下のように変形してもよい。
○ ＳＴＥＰ３及びＳＴＥＰ４で出力される類似度を対数尤度としても良い。尤度を対数に換算するとき、累積尤度の計算（ＳＴＥＰ４）を加減算で行うことができるので、計算処理を高速化できる。
【００７４】
（第２の実施の形態）
次に、本発明にかかるワードスポッティング音声認識装置の第２の実施の形態を図面を用いて説明する。
【００７５】
図４は、本発明にかかるワードスポッティング音声認識装置の一実施例の構成概要を示すブロック図である。上記第１の実施の形態と同一部分は同一符号を付して詳しい説明を省略する。
【００７６】
上記第１の実施の形態では類似度が尤度（確率）として表現される場合を説明したが、第２の実施の形態では、類似度を距離としている点が第１の実施の形態と異なっており、その他の構成は上記第１の実施の形態と同じである。
【００７７】
図４に示すように、本発明にかかるワードスポッティング音声認識装置は、キーワード類似度計算手段、キーワード距離計算手段としてのキーワード距離計算部２１、不要語類似度計算手段、不要語距離計算手段としての不要語距離計算部２２、制限値設定手段としての制限値設定部２３、累積類似度計算手段、累積距離計算手段としてのビタビ処理部２４と、を含んで構成される。
【００７８】
キーワード距離計算部２１は例えばＣＰＵで構成され、入力音声の特徴パラメータとキーワードモデルの特徴パラメータとの距離（キーワード距離）を計算し、出力する。
【００７９】
不要語距離計算部２２は例えばＣＰＵで構成され、入力音声の特徴パラメータと不要語モデルの特徴パラメータとの距離（不要語距離）を計算し、出力する。
【００８０】
制限値設定部２３は例えばＣＰＵで構成され、不要語距離計算部２２が出力する不要語距離が予め設定した値よりも大きい場合には、当該設定した値を不要語距離として出力する。
【００８１】
ビタビ処理部２４は例えばＣＰＵで構成され、不要語モデルを接続したキーワードモデルに対する累積距離を計算する。
【００８２】
以上の構成を有するワードスポッティング音声認識装置の動作概要を図５を用いて以下に説明する。
【００８３】
図５は上記ワードスポッティング音声認識装置の第２の実施の形態にかかる動作概要を示すフローチャートである。上記第１の実施の形態と同一部分は同一符号を付して詳しい説明を省略する。
【００８４】
第１の実施の形態の場合と同じように、キーワードモデル及び不要語モデル生成工程（ＳＴＥＰ２）が終了すると、次に、キーワード距離計算工程（ＳＴＥＰ１３）及び不要語距離計算工程（ＳＴＥＰ１４）、不要語距離調整工程（ＳＴＥＰ１５）が行われる。まず、キーワード距離計算工程（ＳＴＥＰ１３）を説明する。
【００８５】
キーワード距離計算部２１において、入力音声の特徴パラメータとキーワードモデルの特徴パラメータからキーワード距離を計算し、出力する。
【００８６】
具体的には、ＳＴＥＰ１において生成された入力音声の特徴パラメータとキーワードモデルの特徴パラメータとをフレーム毎に比較しキーワード距離を算出し、結果を各時刻におけるその状態の状態距離として状態距離テーブルの形式でビタビ処理部２４に出力する。
【００８７】
次に、ＳＴＥＰ１３と平行して処理が進行する、不要語距離計算工程（ＳＴＥＰ１４）及びそれに続く不要語距離調整工程（ＳＴＥＰ１５）を説明する。
【００８８】
不要語距離計算部２２において、入力音声の特徴パラメータと不要語モデルの特徴パラメータとの距離を計算し、出力する。
【００８９】
以上のような、不要語距離計算工程（ＳＴＥＰ１４）が終了すると、次に、不要語距離調整工程（ＳＴＥＰ１５）が行われる。
【００９０】
不要語距離計算工程（ＳＴＥＰ１４）において出力される不要語距離が予め設定した値よりも大きいか否かを制限値設定部２３が判断する。そして、不要語距離が予め設定した値以下であれば、制限値設定部２３は当該不要語距離をそのままビタビ処理部２４に出力する。不要語距離が予め設定した値よりも大きい場合には、制限値設定部２３は当該設定した値を不要語距離としてビタビ処理部２４に出力する。
【００９１】
以上のような、不要語距離調整工程（ＳＴＥＰ１５）が終了し、一連のキーワード距離計算工程（ＳＴＥＰ１３）及び不要語距離計算工程（ＳＴＥＰ１４）、不要語距離調整工程（ＳＴＥＰ１５）が終了すると、次に、ビタビ処理工程（ＳＴＥＰ１６）が行われる。
【００９２】
ビタビ処理部２４において、キーワード距離計算工程（ＳＴＥＰ１３）において出力された入力音声の特徴パラメータとキーワードモデルの特徴パラメータとの状態距離を基にして、ビタビ法によって累積距離を計算する。第２の実施の形態では、類似度を距離として表現しているので、距離が小さいほど類似度が高くなり、その結果、ビタビ法において状態ｉに遷移する２本の矢印のうち累積距離の値の小さいほうが選択される。ビタビ処理部２４はこのビタビ処理を終えた時点で求められた最終フレームの最終状態の累積距離を認識キーワード判定部１５に出力する。
【００９３】
以上のような、ビタビ処理工程（ＳＴＥＰ１６）が終了すると、出力された累積距離を用いて、続く認識キーワード判定工程（ＳＴＥＰ１７）において、キーワードの認識が行われ、認識キーワードが確定する。
【００９４】
なお、第２の実施の形態は、上記に限定されるものではなく、例えば以下のように変形してもよい。
○ 上記実施例では類似度がユークリッド距離として表現される場合を説明したが、これに限らず、マハラノビス距離やハミング距離を用いても良い。即ち、類似度の相違を数値の大きさの相違で表現できれば、ユークリッド距離に限定されることなく、本発明を適用することは可能である。
【００９５】
なお、上記に記載した第１及び第２の実施の形態の他に、例えば以下のように変形してもよい。
○ 上記実施例ではマッチング処理の方法としてビタビ法を用いた場合を説明したが、これに限らず、ＤＰマッチングなどの手法を用いても良い。音声認識に用いられるモデルは、キーワードの状態と不要語の状態とに区分けがされていれば、ビタビ法に限定されることなく、本発明を適用することは可能である。
○ 上記第１の実施の形態では、キーワードモデルの累積尤度の計算を行うキーワードモデル生成部８、キーワード尤度計算部１１、ビタビ処理部１４と、不要語モデルの計算を行う不要語モデル生成部１０、不要語尤度計算部１２、制限値設定部１３とを別個独立した構成としている。上記第２の実施の形態では、キーワードモデルの累積距離の計算を行うキーワードモデル生成部８、キーワード距離計算部２１、ビタビ処理部２４と、不要語モデルの計算を行う不要語モデル生成部１０、不要語距離計算部２２、制限値設定部２３とを別個独立した構成としている。しかし、内部で行う処理は同じであるので、同一の計算手段で時間分割をして実行する構成とすることもできる。この場合、音声認識装置の構成部品が少なくなるので、装置の製造原価を低くすることが可能になる。
【００９６】
前記各実施の形態から把握できる請求項記載以外の技術思想（発明）について、以下にその効果とともに記載する。
■ 請求項１、３〜５、７〜９、１１、１２のいずれかに記載の発明において、累積類似度を計算する計算手段は、ＤＰマッチングを用いたマッチング処理を行うようにしてもよい。即ち、音声認識に用いられるモデルが、キーワードの状態と不要語の状態とに区分けがされていれば、本発明を適用することは可能である。
【００９７】
【発明の効果】
本願発明に係るワードスポッティング音声認識装置によれば、不要語類似度が予め設定した範囲から外れる場合には、予め設定した値が不要語類似度として出力されるので、不要語モデルが高精度でなく、不要語区間で発話に対してマッチしない場合であっても、この影響を排除することができる。
【図面の簡単な説明】
【図１】図１は、本発明にかかるワードスポッティング音声認識装置の一実施例の構成概要を示すブロック図である。
【図２】図２は、ワードスポッティング音声認識装置の動作概要を示すフローチャートである。
【図３】図３は、本願発明を適用したときの誤りキーワードと正解キーワードを出力したときの最適パスにおける尤度と累積尤度の時系列変化を示す図である。
【図４】図４は、第２の実施の形態に基づく構成概要を示すブロック図である。
【図５】図５は、第２の実施の形態に基づく動作概要を示すフローチャートである。
【図６】図６は、キーワードとその前後に不要語モデルを接続したキーワードモデルλの構成を示す概念図である。
【図７】図７は、従来技術を用いて、誤りキーワードと正解キーワードを出力したときの最適パスにおける尤度と累積尤度の時系列変化を示す図である。
【符号の説明】
１：マイク
２：ＬＰＦ（ＬｏｗＰａｓｓＦｉｌｔｅｒ）
３：Ａ／Ｄ変換器
４：音声区間切出処理部
５：特徴パラメータ生成部
６：音響モデル記憶部
７：キーワード記憶部
８：キーワードモデル生成部
９：不要語記憶部
１０：不要語モデル生成部
１１：キーワード尤度計算部
１２：不要語尤度計算部
１３：制限値設定部
１４：ビタビ処理部
１５：認識キーワード判定部
２１：キーワード距離計算部
２２：不要語距離計算部
２３：制限値設定部
２４：ビタビ処理部

Claims

入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成手段と、
音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、
不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成手段と、
キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成手段と、
前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード類似度を計算し、これを累積類似度計算手段に出力するキーワード類似度計算手段と、
前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語類似度を計算し、これを累積類似度計算手段に出力する不要語類似度計算手段と、
前記計算された不要語類似度が予め設定した範囲から外れる場合には、予め設定した値を不要語類似度として累積類似度計算手段に出力する制限値設定手段と、
前記キーワード類似度計算手段によって計算された前記キーワード類似度と、前記不要語類似度計算手段と前記制限値設定手段とによって設定された前記不要語類似度と、を用いてビタビ法又はＤＰマッチングを行うことにより、前記キーワードモデルに対する累積類似度を計算する累積類似度計算手段と、
前記累積類似度計算手段によって計算された前記累積類似度が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定手段と、
を有することを特徴とするワードスポッティング音声認識装置。
入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成手段と、
音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、
不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成手段と、
キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成手段と、
前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード尤度を計算し、これを累積尤度計算手段に出力するキーワード尤度計算手段と、
前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語尤度を計算し、これを累積尤度計算手段に出力する不要語尤度計算手段と、
前記計算された不要語尤度が予め設定した範囲から外れる場合には、予め設定した値を不要語尤度として累積尤度計算手段に出力する制限値設定手段と、
前記キーワード尤度計算手段によって計算された前記キーワード尤度と、前記不要語尤度計算手段と前記制限値設定手段とによって設定された前記不要語尤度と、を用いてビタビ法又はＤＰマッチングを行うことにより、前記キーワードモデルに対する累積尤度を計算する累積尤度計算手段と、
前記累積尤度計算手段によって計算された前記累積尤度が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定手段と、
を有することを特徴とするワードスポッティング音声認識装置。
入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成手段と、
音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、
不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成手段と、
キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成手段と、
前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード距離を計算し、これを累積距離計算手段に出力するキーワード距離計算手段と、
前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語距離を計算し、これを累積距離計算手段に出力する不要語距離計算手段と、
前記計算された不要語距離が予め設定した範囲から外れる場合には、予め設定した値を不要語距離として累積距離計算手段に出力する制限値設定手段と、
前記キーワード距離計算手段によって計算された前記キーワード距離と、前記不要語距離計算手段と前記制限値設定手段とによって設定された前記不要語距離と、を用いてビタビ法又はＤＰマッチングを行うことにより、前記キーワードモデルに対する累積距離を計算する累積距離計算手段と、
前記累積距離計算手段によって計算された前記累積距離が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定手段と、
を有することを特徴とするワードスポッティング音声認識装置。
入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成工程と、
音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、
不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成工程と、
キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成工程と、
前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード類似度を計算し、これを前記キーワードモデルに対する累積類似度を計算する累積類似度計算手段に出力するキーワード類似度計算工程と、
前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語類似度を計算し、これを前記キーワードモデルに対する累積類似度を計算する累積類似度計算手段に出力する不要語類似度計算工程と、
前記計算された不要語類似度が予め設定した範囲から外れる場合には、予め設定した値を不要語類似度として前記キーワードモデルに対する累積類似度を計算する累積類似度計算手段に出力する制限値設定工程と、
前記キーワード類似度計算工程において計算された前記キーワード類似度と、前記不要語類似度計算工程と前記制限値設定工程とにおいて設定された前記不要語類似度と、を用いてビタビ法又はＤＰマッチングを行うことにより、前記キーワードモデルに対する累積類似度を計算する累積類似度計算工程と、
前記累積類似度計算工程において計算された前記累積類似度が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定工程と、
を有することを特徴とするワードスポッティング音声認識方法。
入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成工程と、
音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、
不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成工程と、
キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成工程と、
前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード尤度を計算し、これを前記キーワードモデルに対する累積尤度を計算する累積尤度計算手段に出力するキーワード尤度計算工程と、
前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語尤度を計算し、これを前記キーワードモデルに対する累積尤度を計算する累積尤度計算手段に出力する不要語尤度計算工程と、
前記計算された不要語尤度が予め設定した範囲から外れる場合には、予め設定した値を不要語尤度として前記キーワードモデルに対する累積尤度を計算する累積尤度計算手段に出力する制限値設定工程と、
前記キーワード尤度計算工程において計算された前記キーワード尤度と、前記不要語尤度計算工程と前記制限値設定工程とにおいて設定された前記不要語尤度と、を用いてビタビ法又はＤＰマッチングを行うことにより、前記キーワードモデルに対する累積尤度を計算する累積尤度計算工程と、
前記累積尤度計算工程において計算された前記累積尤度が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定工程と、
を有することを特徴とするワードスポッティング音声認識方法。
入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成工程と、
音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、
不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成工程と、
キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成工程と、
前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード距離を計算し、これを前記キーワードモデルに対する累積距離を計算する累積距離計算手段に出力するキーワード距離計算工程と、
前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語距離を計算し、これを前記キーワードモデルに対する累積距離を計算する累積距離計算手段に出力する不要語距離計算工程と、
前記計算された不要語距離が予め設定した範囲から外れる場合には、予め設定した値を不要語距離として前記キーワードモデルに対する累積距離を計算する累積距離計算手段に出力する制限値設定工程と、
前記キーワード距離計算工程において計算された前記キーワード距離と、前記不要語距離計算工程と前記制限値設定工程とにおいて設定された前記不要語距離と、を用いてビタビ法又はＤＰマッチングを行うことにより、前記キーワードモデルに対する累積距離を計算する累積距離計算工程と、
前記累積距離計算工程において計算された前記累積距離が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定工程と、
を有することを特徴とするワードスポッティング音声認識方法。
ワードスポッティング音声認識装置に含まれるコンピュータを、
入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成手段、
音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベース、
不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成手段、
キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成手段、
前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード類似度を計算し、これを累積類似度計算手段に出力するキーワード類似度計算手段、
前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語類似度を計算し、これを累積類似度計算手段に出力する不要語類似度計算手段、
前記計算された不要語類似度が予め設定した範囲から外れる場合には、予め設定した値を不要語類似度として累積類似度計算手段に出力する制限値設定手段、
前記キーワード類似度計算手段によって計算された前記キーワード類似度と、前記不要語類似度計算手段と前記制限値設定手段とによって設定された前記不要語類似度と、を用いてビタビ法又はＤＰマッチングを行うことにより、前記キーワードモデルに対する累積類似度を計算する累積類似度計算手段、及び、
前記累積類似度計算手段によって計算された前記累積類似度が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定手段、
として機能させることを特徴とするワードスポッティング音声認識装置用プログラム。
ワードスポッティング音声認識装置に含まれるコンピュータを、
入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成手段、
音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベース、
不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成手段、
キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成手段、
前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード尤度を計算し、これを累積尤度計算手段に出力するキーワード尤度計算手段、
前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語尤度を計算し、これを累積尤度計算手段に出力する不要語尤度計算手段、
前記計算された不要語尤度が予め設定した範囲から外れる場合には、予め設定した値を不要語尤度として累積尤度計算手段に出力する制限値設定手段、
前記キーワード尤度計算手段によって計算された前記キーワード尤度と、前記不要語尤度計算手段と前記制限値設定手段とによって設定された前記不要語尤度と、を用いてビタビ法又はＤＰマッチングを行うことにより、前記キーワードモデルに対する累積尤度を計算する累積尤度計算手段、及び、
前記累積尤度計算手段によって計算された前記累積尤度が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定手段、
として機能させることを特徴とするワードスポッティング音声認識装置用プログラム。
ワードスポッティング音声認識装置に含まれるコンピュータを、
入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成手段、
音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベース、
不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成手段、
キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成手段、
前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード距離を計算し、これを累積距離計算手段に出力するキーワード距離計算手段、
前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語距離を計算し、これを累積距離計算手段に出力する不要語距離計算手段、
前記計算された不要語距離が予め設定した範囲から外れる場合には、予め設定した値を不要語距離として累積距離計算手段に出力する制限値設定手段、
前記キーワード距離計算手段によって計算された前記キーワード距離と、前記不要語距離計算手段と前記制限値設定手段とによって設定された前記不要語距離と、を用いてビタビ法又はＤＰマッチングを行うことにより、前記キーワードモデルに対する累積距離を計算する累積距離計算手段、及び、
前記累積距離計算手段によって計算された前記累積距離が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定手段、
として機能させることを特徴とするワードスポッティング音声認識装置用プログラム。