JP4213416B2 - ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム - Google Patents
ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム Download PDFInfo
- Publication number
- JP4213416B2 JP4213416B2 JP2002194235A JP2002194235A JP4213416B2 JP 4213416 B2 JP4213416 B2 JP 4213416B2 JP 2002194235 A JP2002194235 A JP 2002194235A JP 2002194235 A JP2002194235 A JP 2002194235A JP 4213416 B2 JP4213416 B2 JP 4213416B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- model
- unnecessary word
- cumulative
- likelihood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、ワードスポッティング音声認識装置及びワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラムの技術分野に係り、特に、入力された発話に対して不要語モデルが高性能なものではない場合でも好適な音声認識を行うことが可能なワードスポッティング音声認識装置及びワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラムの技術分野に属する。
【0002】
【従来の技術】
図6は、キーワードとその前後に不要語モデルを接続したキーワードモデルλの構成を示す概念図である。ここでは、類似度が尤度(確率)として表現される場合を説明する。
【0003】
入力音声はフレーム単位で分割され、入力音声の特徴パラメータが出力される。ここで、特徴パラメータとは、周波数帯毎のエネルギなどをベクトル量子化したものをいい、より具体的には、線形予測係数やLPCケプストラム、周波数帯毎のエネルギなどをベクトル量子化したものが一般的に使用される。
【0004】
一方、キーワードデータベースからキーワードの読みデータが出力され、不要語データベースから不要語の読みデータが出力され、前後に不要語モデルを接続してキーワードモデルが生成される。そして、キーワードモデルの読みデータに対応する音響モデルと遷移確率とが音響モデルデータベースから取り出され、キーワードモデルの特徴パラメータが生成される。
【0005】
続いて、キーワード尤度計算手段において、入力音声の特徴パラメータとキーワードモデルの特徴パラメータとの尤度を計算し、出力する。
【0006】
具体的には、入力音声の特徴パラメータとキーワードモデルの各々の状態における特徴パラメータとをフレーム毎に比較し尤度(生起確率)を算出し、結果を各時刻におけるその状態の状態尤度として出力する。
【0007】
実際には、音声の認識率を向上させるために、キーワードデータベースと不要語データベースの2種類のデータベースを用意し、キーワードの前後に不要語モデルを接続したキーワードモデルと、不要語の前後に不要語モデルを接続した不要語モデルとを生成し、キーワードモデルを含むルートからビタビ法によって求められるキーワード累積尤度を用いることによって、認識キーワードの判定を行う。
【0008】
【発明が解決しようとする課題】
しかしながら、ワードスポッティング音声認識装置を用いて発話からキーワードを抽出する場合において、発話区間のうちキーワード区間外の部分が長い場合は認識性能が劣化する傾向にある。
【0009】
発明者は、この音声認識の精度向上を阻害している要因を研究し、不要語モデルが高性能ではない場合、キーワード以外の区間(以下、「不要語区間」とする。)で発話に対して大きくマッチせず、尤度が小さくなるという現象が阻害要因であることを発見した。
【0010】
図7に、誤ったキーワードを出力したときの最適パスにおける尤度と累積尤度の時系列変化と、本来正解として出力されるべきキーワード(以下「正解キーワード」とする。)の最適パスにおける尤度と累積尤度の時系列変化を示す。上のグラフは尤度の時系列変化を示し、下のグラフは累積尤度の時系列変化を示す。この図においては尤度を扱っているため、グラフは右下がりとなる。本来のキーワード区間(CS〜CF間)だけを比較すると尤度は正解キーワードのほうが高いが、不要語区間(ES〜CS間)において不要語尤度が極端に小さい値を出力している箇所があることが判る。実際に不要語が発話されている区間のうち不要語尤度が低く出力される区間において、発話に含まれない他のキーワードが偶然にマッチングを起こした場合は、その発話に含まれないキーワードに対する累積尤度が実際に発話に含まれているキーワードの累積尤度よりも高くなりやすい。この影響を受けて音声区間の終端(SE)におけるキーワードモデルの累積尤度が不要語モデルの累積尤度よりも小さくなり、ビタビ法において誤った結果が出力されることを発見した。
【0011】
本願発明の課題は、不要語モデルが高性能でなく、不要語区間で発話に対してマッチしない場合であっても、この影響を受けることのないワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラムを提供することにある。
【0012】
【課題を解決するための手段】
以下、本発明について説明する。
【0013】
かかる課題を解決するために、請求項1に記載の発明は、入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成手段と、 音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成手段と、キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成手段と、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード類似度を計算し、これを累積類似度計算手段に出力するキーワード類似度計算手段と、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語類似度を計算し、これを累積類似度計算手段に出力する不要語類似度計算手段と、前記計算された不要語類似度が予め設定した範囲から外れる場合には、予め設定した値を不要語類似度として累積類似度計算手段に出力する制限値設定手段と、前記キーワード類似度計算手段によって計算された前記キーワード類似度と、前記不要語類似度計算手段と前記制限値設定手段とによって設定された前記不要語類似度と、を用いてビタビ法又はDPマッチングを行うことにより、前記キーワードモデルに対する累積類似度を計算する累積類似度計算手段と、前記累積類似度計算手段によって計算された前記累積類似度が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定手段と、を有することを特徴とする。
【0014】
これにより、不要語類似度が予め設定した範囲から外れる場合には、予め設定した値が不要語類似度として出力されるので、不要語モデルが高性能でなく、不要語区間で発話に対してマッチしない場合であっても、この影響を排除することができる。
【0017】
かかる課題を解決するために、請求項2に記載の発明は、入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成手段と、 音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成手段と、キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成手段と、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード尤度を計算し、これを累積尤度計算手段に出力するキーワード尤度計算手段と、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語尤度を計算し、これを累積尤度計算手段に出力する不要語尤度計算手段と、前記計算された不要語尤度が予め設定した範囲から外れる場合には、予め設定した値を不要語尤度として累積尤度計算手段に出力する制限値設定手段と、前記キーワード尤度計算手段によって計算された前記キーワード尤度と、前記不要語尤度計算手段と前記制限値設定手段とによって設定された前記不要語尤度と、を用いてビタビ法又はDPマッチングを行うことにより、前記キーワードモデルに対する累積尤度を計算する累積尤度計算手段と、前記累積尤度計算手段によって計算された前記累積尤度が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定手段と、を有することを特徴とする。
【0018】
これにより、不要語尤度が予め設定した値よりも小さい場合には、予め設定した値が不要語尤度として出力されるので、不要語モデルが高性能でなく、不要語区間で発話に対してマッチしない場合であっても、この影響を排除することができる。
【0019】
かかる課題を解決するために、請求項3に記載の発明は、入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成手段と、 音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成手段と、キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成手段と、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード距離を計算し、これを累積距離計算手段に出力するキーワード距離計算手段と、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語距離を計算し、これを累積距離計算手段に出力する不要語距離計算手段と、前記計算された不要語距離が予め設定した範囲から外れる場合には、予め設定した値を不要語距離として累積距離計算手段に出力する制限値設定手段と、前記キーワード距離計算手段によって計算された前記キーワード距離と、前記不要語距離計算手段と前記制限値設定手段とによって設定された前記不要語距離と、を用いてビタビ法又はDPマッチングを行うことにより、前記キーワードモデルに対する累積距離を計算する累積距離計算手段と、前記累積距離計算手段によって計算された前記累積距離が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定手段と、を有することを特徴とする。
【0020】
これにより、不要語距離が予め設定した値よりも大きい場合には、予め設定した値が不要語距離として出力されるので、不要語モデルが高性能でなく、不要語区間で発話に対してマッチしない場合であっても、この影響を排除することができる。
【0021】
かかる課題を解決するために、請求項4に記載の発明は、入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成工程と、 音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成工程と、キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成工程と、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード類似度を計算し、これを前記キーワードモデルに対する累積類似度を計算する累積類似度計算手段に出力するキーワード類似度計算工程と、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語類似度を計算し、これを前記キーワードモデルに対する累積類似度を計算する累積類似度計算手段に出力する不要語類似度計算工程と、前記計算された不要語類似度が予め設定した範囲から外れる場合には、予め設定した値を不要語類似度として前記キーワードモデルに対する累積類似度を計算する累積類似度計算手段に出力する制限値設定工程と、前記キーワード類似度計算工程において計算された前記キーワード類似度と、前記不要語類似度計算工程と前記制限値設定工程とにおいて設定された前記不要語類似度と、を用いてビタビ法又はDPマッチングを行うことにより、前記キーワードモデルに対する累積類似度を計算する累積類似度計算工程と、前記累積類似度計算工程において計算された前記累積類似度が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定工程と、を有することを特徴とする。
【0022】
これにより、不要語類似度が予め設定した範囲から外れる場合には、予め設定した値が不要語類似度として出力されるので、不要語モデルが高性能でなく、不要語区間で発話に対してマッチしない場合であっても、この影響を排除することができる。
【0025】
かかる課題を解決するために、請求項5に記載の発明は、入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成工程と、 音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成工程と、キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成工程と、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード尤度を計算し、これを前記キーワードモデルに対する累積尤度を計算する累積尤度計算手段に出力するキーワード尤度計算工程と、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語尤度を計算し、これを前記キーワードモデルに対する累積尤度を計算する累積尤度計算手段に出力する不要語尤度計算工程と、前記計算された不要語尤度が予め設定した範囲から外れる場合には、予め設定した値を不要語尤度として前記キーワードモデルに対する累積尤度を計算する累積尤度計算手段に出力する制限値設定工程と、前記キーワード尤度計算工程において計算された前記キーワード尤度と、前記不要語尤度計算工程と前記制限値設定工程とにおいて設定された前記不要語尤度と、を用いてビタビ法又はDPマッチングを行うことにより、前記キーワードモデルに対する累積尤度を計算する累積尤度計算工程と、前記累積尤度計算工程において計算された前記累積尤度が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定工程と、を有することを特徴とする。
【0026】
これにより、不要語尤度が予め設定した値よりも小さい場合には、予め設定した値が不要語尤度として出力されるので、不要語モデルが高性能でなく、不要語区間で発話に対してマッチしない場合であっても、この影響を排除することができる。
【0027】
かかる課題を解決するために、請求項6に記載の発明は、入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成工程と、 音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成工程と、キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成工程と、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード距離を計算し、これを前記キーワードモデルに対する累積距離を計算する累積距離計算手段に出力するキーワード距離計算工程と、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語距離を計算し、これを前記キーワードモデルに対する累積距離を計算する累積距離計算手段に出力する不要語距離計算工程と、前記計算された不要語距離が予め設定した範囲から外れる場合には、予め設定した値を不要語距離として前記キーワードモデルに対する累積距離を計算する累積距離計算手段に出力する制限値設定工程と、前記キーワード距離計算工程において計算された前記キーワード距離と、前記不要語距離計算工程と前記制限値設定工程とにおいて設定された前記不要語距離と、を用いてビタビ法又はDPマッチングを行うことにより、前記キーワードモデルに対する累積距離を計算する累積距離計算工程と、前記累積距離計算工程において計算された前記累積距離が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定工程と、を有することを特徴とする。
【0028】
これにより、不要語距離が予め設定した値よりも大きい場合には、予め設定した値が不要語距離として出力されるので、不要語モデルが高性能でなく、不要語区間で発話に対してマッチしない場合であっても、この影響を排除することができる。
【0029】
かかる課題を解決するために、請求項7に記載の発明は、ワードスポッティング音声認識装置に含まれるコンピュータを、入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成手段、音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベース、不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成手段、キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成手段、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード類似度を計算し、これを累積類似度計算手段に出力するキーワード類似度計算手段、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語類似度を計算し、これを累積類似度計算手段に出力する不要語類似度計算手段、前記計算された不要語類似度が予め設定した範囲から外れる場合には、予め設定した値を不要語類似度として累積類似度計算手段に出力する制限値設定手段、前記キーワード類似度計算手段によって計算された前記キーワード類似度と、前記不要語類似度計算手段と前記制限値設定手段とによって設定された前記不要語類似度と、を用いてビタビ法又はDPマッチングを行うことにより、前記キーワードモデルに対する累積類似度を計算する累積類似度計算手段、及び前記累積類似度計算手段によって計算された前記累積類似度が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定手段、として機能させることを特徴とする。
【0030】
これにより、不要語類似度が予め設定した範囲から外れる場合には、予め設定した値が不要語類似度として出力されるので、不要語モデルが高性能でなく、不要語区間で発話に対してマッチしない場合であっても、この影響を排除することができる。
【0033】
かかる課題を解決するために、請求項8に記載の発明は、ワードスポッティング音声認識装置に含まれるコンピュータを、入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成手段、音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベース、不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成手段、キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成手段、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード尤度を計算し、これを累積尤度計算手段に出力するキーワード尤度計算手段、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語尤度を計算し、これを累積尤度計算手段に出力する不要語尤度計算手段、前記計算された不要語尤度が予め設定した範囲から外れる場合には、予め設定した値を不要語尤度として累積尤度計算手段に出力する制限値設定手段、前記キーワード尤度計算手段によって計算された前記キーワード尤度と、前記不要語尤度計算手段と前記制限値設定手段とによって設定された前記不要語尤度と、を用いてビタビ法又はDPマッチングを行うことにより、前記キーワードモデルに対する累積尤度を計算する累積尤度計算手段、及び前記累積尤度計算手段によって計算された前記累積尤度が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定手段、として機能させることを特徴とする。
【0034】
これにより、不要語尤度が予め設定した値よりも小さい場合には、予め設定した値が不要語尤度として出力されるので、不要語モデルが高性能でなく、不要語区間で発話に対してマッチしない場合であっても、この影響を排除することができる。
【0035】
かかる課題を解決するために、請求項9に記載の発明は、ワードスポッティング音声認識装置に含まれるコンピュータを、入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成手段、音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベース、不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成手段、キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成手段、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード距離を計算し、これを累積距離計算手段に出力するキーワード距離計算手段、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語距離を計算し、これを累積距離計算手段に出力する不要語距離計算手段、前記計算された不要語距離が予め設定した範囲から外れる場合には、予め設定した値を不要語距離として累積距離計算手段に出力する制限値設定手段、前記キーワード距離計算手段によって計算された前記キーワード距離と、前記不要語距離計算手段と前記制限値設定手段とによって設定された前記不要語距離と、を用いてビタビ法又はDPマッチングを行うことにより、前記キーワードモデルに対する累積距離を計算する累積距離計算手段、及び前記累積距離計算手段によって計算された前記累積距離が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定手段、として機能させることを特徴とする。
【0036】
これにより、不要語距離が予め設定した値よりも大きい場合には、予め設定した値が不要語距離として出力されるので、不要語モデルが高性能でなく、不要語区間で発話に対してマッチしない場合であっても、この影響を排除することができる。
【0037】
【発明の実施の形態】
(第1の実施の形態)
以下、本発明にかかるワードスポッティング音声認識装置の第1の実施の形態について図面を用いて説明する。
【0038】
図1は、本発明にかかるワードスポッティング音声認識装置の一実施例の構成概要を示すブロック図である。
【0039】
この実施例では、類似度が尤度(確率)として表現される場合を説明する。図1に示すように、本発明にかかるワードスポッティング音声認識装置は、マイク1、LPF(Low Pass Filter)2、A/D変換器3、音声区間切出処理部4、特徴パラメータ生成手段としての特徴パラメータ生成部5、音響モデルデータベースとしての音響モデル記憶部6、キーワードデータベースとしてのキーワード記憶部7、キーワードモデル生成手段としてのキーワードモデル生成部8、不要語データベースとしての不要語記憶部9、不要語モデル生成手段としての不要語モデル生成部10、キーワード類似度計算手段、キーワード尤度計算手段としてのキーワード尤度計算部11、不要語類似度計算手段、不要語尤度計算手段としての不要語尤度計算部12、制限値設定手段としての制限値設定部13、累積類似度計算手段、累積尤度計算手段としてのビタビ処理部14、認識キーワード判定部15と、を含んで構成される。
【0040】
入力された音声信号がマイク1で電気信号に変換され出力されると、LPF2で電気信号としての音声信号のうち高周波数成分が除去され出力される。
【0041】
出力されたアナログ信号である音声信号はA/D変換器3で所定のサンプリングレートでディジタル信号に変換して出力される。
【0042】
音声区間切出処理部4は例えばCPU(Central Processing Unit)で構成され、出力されたディジタル信号としての入力信号から音声区間を切り出し、出力する。
【0043】
特徴パラメータ生成部5は例えばCPUで構成され、音声区間切出処理部4が切り出した音声区間を更にフレームに分割し、分割したフレームから入力音声の特徴パラメータを抽出し生成する。特徴パラメータは、例えば、線形予測係数やLPCケプストラム、周波数帯毎のエネルギなどをベクトル量子化したものが一般的に使用される。
【0044】
音響モデル記憶部6は例えばHD(Hard Disk)で構成され、音素又は音節であるサブワードの単位で音響モデルを記憶しており、読みデータが入力されると対応する音響モデルから特徴パラメータを生成し出力する。また、音響モデル記憶部6は遷移確率も記憶している。
【0045】
キーワード記憶部7は例えばHDで構成され、キーワードを読みデータの形式で記憶する。
【0046】
キーワードモデル生成部8は例えばCPUで構成され、キーワード記憶部7から出力されたキーワードを抽出する。抽出したキーワードの前後に不要語モデルを接続してキーワードモデルを生成する。そして、キーワードモデルの読みデータに対応する音響モデルを音響モデル記憶部6から取り出し、キーワードモデルの特徴パラメータを生成する。
【0047】
不要語記憶部9は例えばHDで構成され、不要語を読みデータの形式で記憶する。
【0048】
不要語モデル生成部10は例えばCPUで構成され、不要語記憶部9から出力された不要語を抽出する。抽出した不要語の前後に不要語モデルを接続して不要語モデルを生成する。そして、不要語モデルの読みデータに対応する音響モデルを音響モデル記憶部6から取り出し、不要語モデルの特徴パラメータを生成する。
【0049】
キーワード尤度計算部11は例えばCPUで構成され、入力音声の特徴パラメータとキーワードモデルの特徴パラメータとの尤度(キーワード尤度)を計算し、出力する。
【0050】
不要語尤度計算部12は例えばCPUで構成され、入力音声の特徴パラメータと不要語モデルの特徴パラメータとの尤度(不要語尤度)を計算し、出力する。
【0051】
制限値設定部13は例えばCPUで構成され、不要語尤度計算部12が出力する不要語尤度が予め設定した値よりも小さい場合には、当該設定した値を不要語尤度として出力する。
【0052】
ビタビ処理部14は例えばCPUで構成され、状態遷移の有無を示す状態遷移情報を出力しつつ、不要語モデルを接続したキーワードモデルに対する累積尤度を計算する。
【0053】
認識キーワード判定部15は例えばCPUで構成され、累積尤度正規化部15から出力される累積尤度を用いて音声認識を行う。
【0054】
以上の構成を有するワードスポッティング音声認識装置の動作概要を図2を用いて以下に説明する。
【0055】
図2は上記ワードスポッティング音声認識装置の動作概要を示すフローチャートである。
【0056】
まず、ビタビ法を行うための初期設定工程(STEP1)が行われる。
【0057】
マイク1から入力された発話音声は、LPF2によって低域ろ過され、A/D変換器3によって所定のサンプリング周期でA/D変換され、音声区間切出処理部4で発話音声から音声区間を切り出し、特徴パラメータ生成部5で特徴パラメータを生成し、出力する。
【0058】
以上のような、初期設定工程(STEP1)が終了すると、次に、キーワードモデル及び不要語モデル生成工程(STEP2)が行われる。
【0059】
キーワードモデル生成部8はキーワード記憶部7及び不要語記憶部9からキーワード及び不要語を抽出し、キーワードの前後に不要語モデルを接続してキーワードモデルを生成する。また、不要語モデル生成部10は不要語記憶部9から不要語を抽出し、不要語モデルを生成する。そして、キーワードモデル生成部8及び不要語モデル生成部10はキーワードモデル及び不要語モデルの読みデータに対応する音響モデルと遷移確率とを音響モデル記憶部6から取り出し、キーワードモデル及び不要語モデルの特徴パラメータを生成する。
【0060】
以上のような、キーワードモデル及び不要語モデル生成工程(STEP2)が終了すると、次に、キーワード尤度計算工程(STEP3)及び不要語尤度計算工程(STEP4)、不要語尤度調整工程(STEP5)が行われる。まず、キーワード尤度計算工程(STEP3)を説明する。
【0061】
キーワード尤度計算部11において、入力音声の特徴パラメータとキーワードモデルの特徴パラメータからキーワード尤度を計算し、出力する。
【0062】
具体的には、STEP1において生成された入力音声の特徴パラメータとキーワードモデルの特徴パラメータとをフレーム毎に比較し類似度であるキーワード尤度を算出し、結果を各時刻におけるその状態の状態尤度Pとして状態尤度テーブルP(t,m)の形式でビタビ処理部14に出力する。
【0063】
次に、STEP3と平行して処理が進行する、不要語尤度計算工程(STEP4)、不要語尤度調整工程(STEP5)を説明する。
【0064】
不要語尤度計算部12において、入力音声の特徴パラメータと不要語モデルの特徴パラメータとの尤度を計算する。不要語モデルと特徴パラメータとの尤度の算出は、STEP3において説明したキーワードモデルと特徴パラメータとの尤度の算出と同様の方法による。
【0065】
以上のような、不要語尤度計算工程(STEP4)が終了すると、次に、不要語尤度調整工程(STEP5)が行われる。
【0066】
不要語尤度計算工程(STEP4)において出力される不要語尤度が予め設定した値よりも小さいか否かを制限値設定部13が判断する。そして、不要語尤度が予め設定した値以上であれば、制限値設定部13は当該不要語尤度をそのままビタビ処理部14に出力する。不要語尤度が予め設定した値よりも小さい場合には、制限値設定部13は当該設定した値を不要語尤度としてビタビ処理部14に出力する。
【0067】
以上のような、不要語尤度調整工程(STEP5)が終了し、一連のキーワード尤度計算工程(STEP3)及び不要語尤度計算工程(STEP4)、不要語尤度調整工程(STEP5)が終了すると、次に、ビタビ処理工程(STEP6)が行われる。
【0068】
ビタビ処理部14において、キーワード尤度計算工程(STEP3)において出力された入力音声の特徴パラメータとキーワードモデルの特徴パラメータとの状態尤度Pを基にして、ビタビ法によって累積尤度を計算する。
【0069】
以上のような、ビタビ処理工程(STEP6)が終了すると、出力された累積尤度を用いて、続く認識キーワード判定工程(STEP7)において、キーワードの認識が行われ、認識キーワードが確定する。
【0070】
次に、本実施の形態の作用を図3を用いて説明する。図3は本願発明を適用したときの誤りキーワード(発話に含まれないキーワード)と正解キーワード(発話に含まれるキーワード)を出力したときの最適パスにおける尤度と累積尤度の時系列変化を示す図であり、図7と同じ音声モデルを使用している。また、尤度は対数尤度である。
【0071】
不要語モデルの尤度が制限値を下回った時点で、尤度は制限値に置き換えられている。従って、正解キーワードの始端(CS)までに、誤りキーワードモデルに比して正解キーワードモデルの累積尤度が極端に小さくなることが防げている。この結果、発話終了時において(SE)、正解キーワードモデルの累積尤度が誤りキーワードモデルのそれよりも大きくなり、正解キーワードを抽出することが可能になっている。
【0072】
この実施の形態では以下の効果を有する。
● 不要語モデルの精度が高精度でなく、発話に大きくマッチしない場合であっても、正解キーワードを出力することが可能である。
● この不要語尤度の制限値設定は処理量がごくわずかであるため、ナビ等リソースが限られた音声認識装置にも容易に組み込みが可能である。
【0073】
なお、第1の実施の形態は、上記に限定されるものではなく、例えば以下のように変形してもよい。
○ STEP3及びSTEP4で出力される類似度を対数尤度としても良い。尤度を対数に換算するとき、累積尤度の計算(STEP4)を加減算で行うことができるので、計算処理を高速化できる。
【0074】
(第2の実施の形態)
次に、本発明にかかるワードスポッティング音声認識装置の第2の実施の形態を図面を用いて説明する。
【0075】
図4は、本発明にかかるワードスポッティング音声認識装置の一実施例の構成概要を示すブロック図である。上記第1の実施の形態と同一部分は同一符号を付して詳しい説明を省略する。
【0076】
上記第1の実施の形態では類似度が尤度(確率)として表現される場合を説明したが、第2の実施の形態では、類似度を距離としている点が第1の実施の形態と異なっており、その他の構成は上記第1の実施の形態と同じである。
【0077】
図4に示すように、本発明にかかるワードスポッティング音声認識装置は、キーワード類似度計算手段、キーワード距離計算手段としてのキーワード距離計算部21、不要語類似度計算手段、不要語距離計算手段としての不要語距離計算部22、制限値設定手段としての制限値設定部23、累積類似度計算手段、累積距離計算手段としてのビタビ処理部24と、を含んで構成される。
【0078】
キーワード距離計算部21は例えばCPUで構成され、入力音声の特徴パラメータとキーワードモデルの特徴パラメータとの距離(キーワード距離)を計算し、出力する。
【0079】
不要語距離計算部22は例えばCPUで構成され、入力音声の特徴パラメータと不要語モデルの特徴パラメータとの距離(不要語距離)を計算し、出力する。
【0080】
制限値設定部23は例えばCPUで構成され、不要語距離計算部22が出力する不要語距離が予め設定した値よりも大きい場合には、当該設定した値を不要語距離として出力する。
【0081】
ビタビ処理部24は例えばCPUで構成され、不要語モデルを接続したキーワードモデルに対する累積距離を計算する。
【0082】
以上の構成を有するワードスポッティング音声認識装置の動作概要を図5を用いて以下に説明する。
【0083】
図5は上記ワードスポッティング音声認識装置の第2の実施の形態にかかる動作概要を示すフローチャートである。上記第1の実施の形態と同一部分は同一符号を付して詳しい説明を省略する。
【0084】
第1の実施の形態の場合と同じように、キーワードモデル及び不要語モデル生成工程(STEP2)が終了すると、次に、キーワード距離計算工程(STEP13)及び不要語距離計算工程(STEP14)、不要語距離調整工程(STEP15)が行われる。まず、キーワード距離計算工程(STEP13)を説明する。
【0085】
キーワード距離計算部21において、入力音声の特徴パラメータとキーワードモデルの特徴パラメータからキーワード距離を計算し、出力する。
【0086】
具体的には、STEP1において生成された入力音声の特徴パラメータとキーワードモデルの特徴パラメータとをフレーム毎に比較しキーワード距離を算出し、結果を各時刻におけるその状態の状態距離として状態距離テーブルの形式でビタビ処理部24に出力する。
【0087】
次に、STEP13と平行して処理が進行する、不要語距離計算工程(STEP14)及びそれに続く不要語距離調整工程(STEP15)を説明する。
【0088】
不要語距離計算部22において、入力音声の特徴パラメータと不要語モデルの特徴パラメータとの距離を計算し、出力する。
【0089】
以上のような、不要語距離計算工程(STEP14)が終了すると、次に、不要語距離調整工程(STEP15)が行われる。
【0090】
不要語距離計算工程(STEP14)において出力される不要語距離が予め設定した値よりも大きいか否かを制限値設定部23が判断する。そして、不要語距離が予め設定した値以下であれば、制限値設定部23は当該不要語距離をそのままビタビ処理部24に出力する。不要語距離が予め設定した値よりも大きい場合には、制限値設定部23は当該設定した値を不要語距離としてビタビ処理部24に出力する。
【0091】
以上のような、不要語距離調整工程(STEP15)が終了し、一連のキーワード距離計算工程(STEP13)及び不要語距離計算工程(STEP14)、不要語距離調整工程(STEP15)が終了すると、次に、ビタビ処理工程(STEP16)が行われる。
【0092】
ビタビ処理部24において、キーワード距離計算工程(STEP13)において出力された入力音声の特徴パラメータとキーワードモデルの特徴パラメータとの状態距離を基にして、ビタビ法によって累積距離を計算する。第2の実施の形態では、類似度を距離として表現しているので、距離が小さいほど類似度が高くなり、その結果、ビタビ法において状態iに遷移する2本の矢印のうち累積距離の値の小さいほうが選択される。ビタビ処理部24はこのビタビ処理を終えた時点で求められた最終フレームの最終状態の累積距離を認識キーワード判定部15に出力する。
【0093】
以上のような、ビタビ処理工程(STEP16)が終了すると、出力された累積距離を用いて、続く認識キーワード判定工程(STEP17)において、キーワードの認識が行われ、認識キーワードが確定する。
【0094】
なお、第2の実施の形態は、上記に限定されるものではなく、例えば以下のように変形してもよい。
○ 上記実施例では類似度がユークリッド距離として表現される場合を説明したが、これに限らず、マハラノビス距離やハミング距離を用いても良い。即ち、類似度の相違を数値の大きさの相違で表現できれば、ユークリッド距離に限定されることなく、本発明を適用することは可能である。
【0095】
なお、上記に記載した第1及び第2の実施の形態の他に、例えば以下のように変形してもよい。
○ 上記実施例ではマッチング処理の方法としてビタビ法を用いた場合を説明したが、これに限らず、DPマッチングなどの手法を用いても良い。音声認識に用いられるモデルは、キーワードの状態と不要語の状態とに区分けがされていれば、ビタビ法に限定されることなく、本発明を適用することは可能である。
○ 上記第1の実施の形態では、キーワードモデルの累積尤度の計算を行うキーワードモデル生成部8、キーワード尤度計算部11、ビタビ処理部14と、不要語モデルの計算を行う不要語モデル生成部10、不要語尤度計算部12、制限値設定部13とを別個独立した構成としている。上記第2の実施の形態では、キーワードモデルの累積距離の計算を行うキーワードモデル生成部8、キーワード距離計算部21、ビタビ処理部24と、不要語モデルの計算を行う不要語モデル生成部10、不要語距離計算部22、制限値設定部23とを別個独立した構成としている。しかし、内部で行う処理は同じであるので、同一の計算手段で時間分割をして実行する構成とすることもできる。この場合、音声認識装置の構成部品が少なくなるので、装置の製造原価を低くすることが可能になる。
【0096】
前記各実施の形態から把握できる請求項記載以外の技術思想(発明)について、以下にその効果とともに記載する。
■ 請求項1、3〜5、7〜9、11、12のいずれかに記載の発明において、累積類似度を計算する計算手段は、DPマッチングを用いたマッチング処理を行うようにしてもよい。即ち、音声認識に用いられるモデルが、キーワードの状態と不要語の状態とに区分けがされていれば、本発明を適用することは可能である。
【0097】
【発明の効果】
本願発明に係るワードスポッティング音声認識装置によれば、不要語類似度が予め設定した範囲から外れる場合には、予め設定した値が不要語類似度として出力されるので、不要語モデルが高精度でなく、不要語区間で発話に対してマッチしない場合であっても、この影響を排除することができる。
【図面の簡単な説明】
【図1】図1は、本発明にかかるワードスポッティング音声認識装置の一実施例の構成概要を示すブロック図である。
【図2】図2は、ワードスポッティング音声認識装置の動作概要を示すフローチャートである。
【図3】図3は、本願発明を適用したときの誤りキーワードと正解キーワードを出力したときの最適パスにおける尤度と累積尤度の時系列変化を示す図である。
【図4】図4は、第2の実施の形態に基づく構成概要を示すブロック図である。
【図5】図5は、第2の実施の形態に基づく動作概要を示すフローチャートである。
【図6】図6は、キーワードとその前後に不要語モデルを接続したキーワードモデルλの構成を示す概念図である。
【図7】図7は、従来技術を用いて、誤りキーワードと正解キーワードを出力したときの最適パスにおける尤度と累積尤度の時系列変化を示す図である。
【符号の説明】
1:マイク
2:LPF(Low Pass Filter)
3:A/D変換器
4:音声区間切出処理部
5:特徴パラメータ生成部
6:音響モデル記憶部
7:キーワード記憶部
8:キーワードモデル生成部
9:不要語記憶部
10:不要語モデル生成部
11:キーワード尤度計算部
12:不要語尤度計算部
13:制限値設定部
14:ビタビ処理部
15:認識キーワード判定部
21:キーワード距離計算部
22:不要語距離計算部
23:制限値設定部
24:ビタビ処理部
Claims (9)
- 入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成手段と、
音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、
不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成手段と、
キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成手段と、
前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード類似度を計算し、これを累積類似度計算手段に出力するキーワード類似度計算手段と、
前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語類似度を計算し、これを累積類似度計算手段に出力する不要語類似度計算手段と、
前記計算された不要語類似度が予め設定した範囲から外れる場合には、予め設定した値を不要語類似度として累積類似度計算手段に出力する制限値設定手段と、
前記キーワード類似度計算手段によって計算された前記キーワード類似度と、前記不要語類似度計算手段と前記制限値設定手段とによって設定された前記不要語類似度と、を用いてビタビ法又はDPマッチングを行うことにより、前記キーワードモデルに対する累積類似度を計算する累積類似度計算手段と、
前記累積類似度計算手段によって計算された前記累積類似度が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定手段と、
を有することを特徴とするワードスポッティング音声認識装置。 - 入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成手段と、
音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、
不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成手段と、
キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成手段と、
前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード尤度を計算し、これを累積尤度計算手段に出力するキーワード尤度計算手段と、
前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語尤度を計算し、これを累積尤度計算手段に出力する不要語尤度計算手段と、
前記計算された不要語尤度が予め設定した範囲から外れる場合には、予め設定した値を不要語尤度として累積尤度計算手段に出力する制限値設定手段と、
前記キーワード尤度計算手段によって計算された前記キーワード尤度と、前記不要語尤度計算手段と前記制限値設定手段とによって設定された前記不要語尤度と、を用いてビタビ法又はDPマッチングを行うことにより、前記キーワードモデルに対する累積尤度を計算する累積尤度計算手段と、
前記累積尤度計算手段によって計算された前記累積尤度が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定手段と、
を有することを特徴とするワードスポッティング音声認識装置。 - 入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成手段と、
音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、
不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成手段と、
キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成手段と、
前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード距離を計算し、これを累積距離計算手段に出力するキーワード距離計算手段と、
前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語距離を計算し、これを累積距離計算手段に出力する不要語距離計算手段と、
前記計算された不要語距離が予め設定した範囲から外れる場合には、予め設定した値を不要語距離として累積距離計算手段に出力する制限値設定手段と、
前記キーワード距離計算手段によって計算された前記キーワード距離と、前記不要語距離計算手段と前記制限値設定手段とによって設定された前記不要語距離と、を用いてビタビ法又はDPマッチングを行うことにより、前記キーワードモデルに対する累積距離を計算する累積距離計算手段と、
前記累積距離計算手段によって計算された前記累積距離が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定手段と、
を有することを特徴とするワードスポッティング音声認識装置。 - 入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成工程と、
音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、
不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成工程と、
キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成工程と、
前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード類似度を計算し、これを前記キーワードモデルに対する累積類似度を計算する累積類似度計算手段に出力するキーワード類似度計算工程と、
前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語類似度を計算し、これを前記キーワードモデルに対する累積類似度を計算する累積類似度計算手段に出力する不要語類似度計算工程と、
前記計算された不要語類似度が予め設定した範囲から外れる場合には、予め設定した値を不要語類似度として前記キーワードモデルに対する累積類似度を計算する累積類似度計算手段に出力する制限値設定工程と、
前記キーワード類似度計算工程において計算された前記キーワード類似度と、前記不要語類似度計算工程と前記制限値設定工程とにおいて設定された前記不要語類似度と、を用いてビタビ法又はDPマッチングを行うことにより、前記キーワードモデルに対する累積類似度を計算する累積類似度計算工程と、
前記累積類似度計算工程において計算された前記累積類似度が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定工程と、
を有することを特徴とするワードスポッティング音声認識方法。 - 入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成工程と、
音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、
不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成工程と、
キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成工程と、
前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード尤度を計算し、これを前記キーワードモデルに対する累積尤度を計算する累積尤度計算手段に出力するキーワード尤度計算工程と、
前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語尤度を計算し、これを前記キーワードモデルに対する累積尤度を計算する累積尤度計算手段に出力する不要語尤度計算工程と、
前記計算された不要語尤度が予め設定した範囲から外れる場合には、予め設定した値を不要語尤度として前記キーワードモデルに対する累積尤度を計算する累積尤度計算手段に出力する制限値設定工程と、
前記キーワード尤度計算工程において計算された前記キーワード尤度と、前記不要語尤度計算工程と前記制限値設定工程とにおいて設定された前記不要語尤度と、を用いてビタビ法又はDPマッチングを行うことにより、前記キーワードモデルに対する累積尤度を計算する累積尤度計算工程と、
前記累積尤度計算工程において計算された前記累積尤度が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定工程と、
を有することを特徴とするワードスポッティング音声認識方法。 - 入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成工程と、
音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、
不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成工程と、
キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成工程と、
前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード距離を計算し、これを前記キーワードモデルに対する累積距離を計算する累積距離計算手段に出力するキーワード距離計算工程と、
前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語距離を計算し、これを前記キーワードモデルに対する累積距離を計算する累積距離計算手段に出力する不要語距離計算工程と、
前記計算された不要語距離が予め設定した範囲から外れる場合には、予め設定した値を不要語距離として前記キーワードモデルに対する累積距離を計算する累積距離計算手段に出力する制限値設定工程と、
前記キーワード距離計算工程において計算された前記キーワード距離と、前記不要語距離計算工程と前記制限値設定工程とにおいて設定された前記不要語距離と、を用いてビタビ法又はDPマッチングを行うことにより、前記キーワードモデルに対する累積距離を計算する累積距離計算工程と、
前記累積距離計算工程において計算された前記累積距離が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定工程と、
を有することを特徴とするワードスポッティング音声認識方法。 - ワードスポッティング音声認識装置に含まれるコンピュータを、
入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成手段、
音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベース、
不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成手段、
キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成手段、
前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード類似度を計算し、これを累積類似度計算手段に出力するキーワード類似度計算手段、
前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語類似度を計算し、これを累積類似度計算手段に出力する不要語類似度計算手段、
前記計算された不要語類似度が予め設定した範囲から外れる場合には、予め設定した値を不要語類似度として累積類似度計算手段に出力する制限値設定手段、
前記キーワード類似度計算手段によって計算された前記キーワード類似度と、前記不要語類似度計算手段と前記制限値設定手段とによって設定された前記不要語類似度と、を用いてビタビ法又はDPマッチングを行うことにより、前記キーワードモデルに対する累積類似度を計算する累積類似度計算手段、及び、
前記累積類似度計算手段によって計算された前記累積類似度が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定手段、
として機能させることを特徴とするワードスポッティング音声認識装置用プログラム。 - ワードスポッティング音声認識装置に含まれるコンピュータを、
入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成手段、
音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベース、
不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成手段、
キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成手段、
前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード尤度を計算し、これを累積尤度計算手段に出力するキーワード尤度計算手段、
前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語尤度を計算し、これを累積尤度計算手段に出力する不要語尤度計算手段、
前記計算された不要語尤度が予め設定した範囲から外れる場合には、予め設定した値を不要語尤度として累積尤度計算手段に出力する制限値設定手段、
前記キーワード尤度計算手段によって計算された前記キーワード尤度と、前記不要語尤度計算手段と前記制限値設定手段とによって設定された前記不要語尤度と、を用いてビタビ法又はDPマッチングを行うことにより、前記キーワードモデルに対する累積尤度を計算する累積尤度計算手段、及び、
前記累積尤度計算手段によって計算された前記累積尤度が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定手段、
として機能させることを特徴とするワードスポッティング音声認識装置用プログラム。 - ワードスポッティング音声認識装置に含まれるコンピュータを、
入力された発話から音声区間を切り出しフレームに分割し発話の特徴パラメータを生成する特徴パラメータ生成手段、
音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベース、
不要語データベースが出力する不要語の読みデータと音響モデルデータベースが出力する特徴パラメータから不要語モデルを生成する不要語モデル生成手段、
キーワードデータベースが出力するキーワードの読みデータと音響モデルデータベースが出力する特徴パラメータから前記キーワードの前後に前記不要語モデルを接続してキーワードモデルを生成するキーワードモデル生成手段、
前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとのキーワード距離を計算し、これを累積距離計算手段に出力するキーワード距離計算手段、
前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの不要語距離を計算し、これを累積距離計算手段に出力する不要語距離計算手段、
前記計算された不要語距離が予め設定した範囲から外れる場合には、予め設定した値を不要語距離として累積距離計算手段に出力する制限値設定手段、
前記キーワード距離計算手段によって計算された前記キーワード距離と、前記不要語距離計算手段と前記制限値設定手段とによって設定された前記不要語距離と、を用いてビタビ法又はDPマッチングを行うことにより、前記キーワードモデルに対する累積距離を計算する累積距離計算手段、及び、
前記累積距離計算手段によって計算された前記累積距離が最も高い前記キーワードモデルに含まれるキーワードを、前記入力された発話に含まれるキーワードと判定する認識キーワード判定手段、
として機能させることを特徴とするワードスポッティング音声認識装置用プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002194235A JP4213416B2 (ja) | 2002-07-03 | 2002-07-03 | ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム |
US10/461,511 US20040006470A1 (en) | 2002-07-03 | 2003-06-16 | Word-spotting apparatus, word-spotting method, and word-spotting program |
EP03253913A EP1378885A3 (en) | 2002-07-03 | 2003-06-20 | Word-spotting apparatus, word-spotting method, and word-spotting program |
CNA031453031A CN1471078A (zh) | 2002-07-03 | 2003-07-03 | 字识别设备、字识别方法和字识别程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002194235A JP4213416B2 (ja) | 2002-07-03 | 2002-07-03 | ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004037797A JP2004037797A (ja) | 2004-02-05 |
JP4213416B2 true JP4213416B2 (ja) | 2009-01-21 |
Family
ID=31702976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002194235A Expired - Fee Related JP4213416B2 (ja) | 2002-07-03 | 2002-07-03 | ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4213416B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4860962B2 (ja) * | 2004-08-26 | 2012-01-25 | 旭化成株式会社 | 音声認識装置、音声認識方法、及び、プログラム |
CN102426836B (zh) * | 2011-08-25 | 2013-03-20 | 哈尔滨工业大学 | 基于分位数自适应裁剪的快速关键词检出方法 |
JP6183147B2 (ja) * | 2013-10-24 | 2017-08-23 | 富士通株式会社 | 情報処理装置、プログラム、及び方法 |
CN114372205B (zh) * | 2022-03-22 | 2022-06-10 | 腾讯科技(深圳)有限公司 | 特征量化模型的训练方法、装置以及设备 |
-
2002
- 2002-07-03 JP JP2002194235A patent/JP4213416B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004037797A (ja) | 2004-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017076222A1 (zh) | 语音识别方法及装置 | |
EP2700071B1 (en) | Speech recognition using multiple language models | |
CN110097870B (zh) | 语音处理方法、装置、设备和存储介质 | |
US20070213987A1 (en) | Codebook-less speech conversion method and system | |
US20070129943A1 (en) | Speech recognition using adaptation and prior knowledge | |
Yapanel et al. | A new perspective on feature extraction for robust in-vehicle speech recognition. | |
JPS62231997A (ja) | 音声認識システム及びその方法 | |
US20040006470A1 (en) | Word-spotting apparatus, word-spotting method, and word-spotting program | |
US20140200889A1 (en) | System and Method for Speech Recognition Using Pitch-Synchronous Spectral Parameters | |
CN112750445A (zh) | 语音转换方法、装置和系统及存储介质 | |
KR20240122776A (ko) | 뉴럴 음성 합성의 적응 및 학습 | |
JP2955297B2 (ja) | 音声認識システム | |
JP4213416B2 (ja) | ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム | |
WO2014033855A1 (ja) | 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 | |
CN111640423B (zh) | 一种词边界估计方法、装置及电子设备 | |
Zhang et al. | K-converter: An unsupervised singing voice conversion system | |
JP2005148342A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 | |
JPS58502113A (ja) | 音声認識装置 | |
JP4961565B2 (ja) | 音声検索装置及び音声検索方法 | |
CN112489646B (zh) | 语音识别方法及其装置 | |
KR101611464B1 (ko) | 데이터 패턴 분석 방법 및 분석 시스템 | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
Rebai et al. | Linto platform: A smart open voice assistant for business environments | |
JP4167014B2 (ja) | ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム | |
Santosa et al. | OOV Handling Using Partial Lemma-Based Language Model in LF-MMI Based ASR for Bahasa Indonesia |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050623 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080304 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081028 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081030 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111107 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111107 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121107 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |