JP4167014B2 - ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム - Google Patents

ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム Download PDF

Info

Publication number
JP4167014B2
JP4167014B2 JP2002194236A JP2002194236A JP4167014B2 JP 4167014 B2 JP4167014 B2 JP 4167014B2 JP 2002194236 A JP2002194236 A JP 2002194236A JP 2002194236 A JP2002194236 A JP 2002194236A JP 4167014 B2 JP4167014 B2 JP 4167014B2
Authority
JP
Japan
Prior art keywords
word
keyword
cumulative
unnecessary
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002194236A
Other languages
English (en)
Other versions
JP2004037798A (ja
Inventor
載 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corp filed Critical Pioneer Corp
Priority to JP2002194236A priority Critical patent/JP4167014B2/ja
Priority to US10/461,511 priority patent/US20040006470A1/en
Priority to EP03253913A priority patent/EP1378885A3/en
Priority to CNA031453031A priority patent/CN1471078A/zh
Publication of JP2004037798A publication Critical patent/JP2004037798A/ja
Application granted granted Critical
Publication of JP4167014B2 publication Critical patent/JP4167014B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、ワードスポッティング音声認識装置及びワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラムの技術分野に係り、特に、少ない状態数を持つキーワードモデルの音声認識に好適な、累積類似度をワード長で正規化処理を行った正規化累積類似度を用いたワードスポッティング音声認識装置及びワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラムの技術分野に属する。
【0002】
【従来の技術】
フィラーモデルのようにどの発話に対しても常に極めて小さい距離を出力するモデルを使ってビタビ法による音声認識を行う場合、キーワードの状態数が少ないほど入力された発話の特徴パラメータとキーワードの特徴パラメータとの累積距離は小さくなり、正解キーワードを抽出することが困難となる傾向がある。これを解決するために、結果がワード長に依存しないように、累積距離をワード長で正規化した正規化累積距離を認識結果を判定するためのスコアとして利用する音声認識の手法が知られている。例えば、特開平6−167994号公報の段落番号[0099]では、音声区間に対応する正規化フレーム数を用いて最終確率(累積類似度のひとつ)を正規化する手法が開示されている。
【0003】
実際には、音声の認識率を向上させるために、キーワードデータベースと不要語データベースの2種類のデータベースを用意し、キーワードの前後にワイルドカードモデルを接続したキーワードモデルと、不要語モデルとを生成し、キーワードモデルを含むルートからビタビ法によって求められるキーワード累積距離と、不要語モデルを含むルートからビタビ法によって求められる不要語累積距離をそれぞれ算出し、キーワード累積距離から不要語累積距離を差し引き、これをワード長で正規化することで正規化累積距離を出力し、結果を音声認識に利用する。
【0004】
ここで、ビタビ法によって累積類似度のひとつである累積距離を計算する方法を説明する。
【0005】
図10は、キーワードとその前後にワイルドカードモデルを接続したキーワードモデルλの構成を示す概念図である。
【0006】
図11は、図10に示すキーワードモデルλがシンボル系列{a,b,a}を出力する累積距離D(t,m)を、ビタビ法によって計算する場合に描かれるトレリスを示している。
【0007】
矢印は状態の遷移を示している。音声認識に一般的によく用いられるキーワードモデルλは、図10に示すように、現在の状態と同じ状態に遷移するか、或いは、現在の状態の次の状態に遷移するか、の2通りしか状態遷移をしないので、図11に示す矢印は、同じ状態への遷移を示す水平方向の矢印と、次の状態への遷移を示す斜め上方向の矢印のみとなっている。図11のトレリスにおいて、縦方向はモデルの状態の並びになっており、横方向はフレーム(時間)の進行を表している。
【0008】
このようなトレリスに従って、図10のキーワードモデルλがシンボル系列{a,b,a}を出力する場合の累積距離D(t,m)が計算される例を説明する。
【0009】
なお、シンボルaはワイルドカードを指し、シンボルbはキーワードモデルを指す。図11のトレリス図において、シンボルaは最上段と最下段のテーブルが表す不要語の状態を表し、シンボルbは不要語の状態を表す2つの段に挟まれた3つの段が表すキーワードそのものの状態を表す。図12にシンボル系列とキーワードモデルとの対応関係を示す。
【0010】
初期状態において、各時刻(各フレーム番号)の各状態における状態距離が計算され、状態距離テーブルP(t,m)に格納されている。ここで、状態距離は、入力された発話から所定のフレーム毎に時系列に抽出した特徴パラメータ(周波数帯毎のエネルギなどをベクトル量子化したもの)とキーワードデータベースに記憶されているキーワードの特徴パラメータとから算出される距離(例えば、ユークリッド距離)が一般的に用いられる。
【0011】
使用するモデルは初期状態が状態iS(INITIAL)となるモデルとするから、時刻t=1において、初期状態は状態iS(INITIAL)となる。よって、状態iS(INITIAL)としての状態S1の状態距離P(1,1)はP(1,1)=0である。他の状態S2,S3,S4,S5の状態距離P(1,2),P(1,3),P(1,4),P(1,5)はいずれも理論上は∞(無限大)とすることが好ましいが、数値計算では無限大を扱うことができないので、実際の計算で得られる距離値よりも充分に大きい値Rfmを代入して計算する。従って、状態S1の累積距離D(1,1)=0が書き込まれ、他の状態S2,S3,S4,S5の累積距離D(1,2),D(1,3),D(1,4),D(1,5)には、充分に大きい値Rfmが書き込まれる。
【0012】
時間が進行して時刻t=2における状態S1の累積距離D(2,1)は、時刻t=1における状態S1の累積距離D(1,1)と時刻t=2における状態S1の状態距離P(2,1)、遷移適合度b(S1,S1)の和であるから、D(2,1)=D(1,1)+P(2,1)+b(S1,S1)となり、時刻t=2における状態S1の累積距離D(2,1)には、D(2,1)=D(1,1)+P(2,1)+b(S1,S1)が書き込まれる。
【0013】
ここで、遷移適合度b(u,v)とは、状態uから状態vへの遷移がどの程度起こり得るかを示す指標をいい、音響モデルを学習する際に状態uと状態vとの接続頻度の関係から得られる値である。
【0014】
また、時刻t=2における状態S2の累積距離D(2,2)は、ビタビ法においては、時刻t=1における状態S1の累積距離D(1,1)と時刻t=2における状態S2の状態距離P(2,2)、遷移適合度b(S1,S2)の和:D(1,1)+P(2,2)+b(S1,S2)と、時刻t=1における状態S2の累積距離D(1,2)と時刻t=2における状態S2の状態距離P(2,2)、遷移適合度b(S2,S2)の和:D(1,2)+P(2,2)+b(S2,S2)とのいずれか小さいほうの値である。従って、時刻t=2における状態S2の累積距離D(2,2)には、D(2,2)=Min{D(1,1)+P(2,2)+b(S1,S2),D(1,2)+P(2,2)+b(S2,S2)}が書き込まれる。
【0015】
このとき、状態遷移の有無を示す状態遷移情報テーブルI(2,2)には状態遷移情報が書き込まれる。即ち、例えば、D(1,1)+P(2,2)+b(S1,S2)≧D(1,2)+P(2,2)+b(S2,S2)のときはD(2,2)=D(1,2)+P(2,2)+b(S2,S2)であり現在の状態D(1,2)のままであるから、状態遷移情報I(2,2)には状態遷移がなかったことを示す記号又は数値、例えばAutoが格納される。逆に、D(1,1)+P(2,2)+b(S1,S2)<D(1,2)+P(2,2)+b(S2,S2)のときは、D(2,2)=D(1,1)+P(2,2)+b(S1,S2)であり直前の状態D(1,1)から遷移したのであるから、状態遷移情報I(2,2)には状態遷移があったことを示す記号又は数値、例えばNextが格納される。
【0016】
実際には、上述の通り、D(1,2)には充分に大きい値Rfmが代入されているので、D(1,1)+P(2,2)+b(S1,S2)<D(1,2)+P(2,2)+b(S2,S2)であり、状態遷移情報I(2,2)にはD(2,2)が直前の状態D(1,1)から遷移したことを示す記号Nextが格納される。
【0017】
更に、時刻t=2における状態S3の累積距離D(2,3)は、ビタビ法においては、時刻t=1における状態S2の累積距離D(1,2)と時刻t=2における状態S3の状態距離P(2,3)、遷移適合度b(S2,S3)の和:D(1,2)+P(2,3)+b(S2,S3)と、時刻t=1における状態S3の累積距離D(1,3)と時刻t=2における状態S3の状態距離P(2,3)、遷移適合度b(S3,S3)の和:D(1,3)+P(2,3)+b(S3,S3)とのいずれか小さいほうの値である。従って、時刻t=2における状態S3の累積距離D(2,3)には、D(2,3)=Min{D(1,2)+P(2,3)+b(S2,S3),D(1,3)+P(2,3)+b(S3,S3)}が書き込まれ、状態遷移情報I(2,3)には状態遷移に応じてAuto又はNextのいずれかが書き込まれる。
【0018】
同じく、時刻t=2における状態S4の累積距離D(2,4)にはD(1,3)+P(2,4)+b(S3,S4)と、D(1,4)+P(2,4)+b(S4,S4)とのいずれか小さいほうの値が書き込まれ、状態遷移情報I(2,4)には状態遷移に応じてAuto又はNextのいずれかが書き込まれる。
【0019】
更にまた、時刻t=2における状態S5の累積距離D(2,5)にはD(1,4)+P(2,5)+b(S4,S5)と、D(1,5)+P(2,5)+b(S5,S5)とのいずれか小さいほうの値が書き込まれ、状態遷移情報I(2,5)には状態遷移に応じてAuto又はNextのいずれかが書き込まれる。
【0020】
次に、さらに状態が遷移して時刻t=3における状態S1〜状態S5の累積距離D(3,1)〜D(3,5)が同様に計算され、同時に状態遷移情報I(3,1)〜I(3,5)が確定し格納される。
【0021】
上記した累積距離D及び状態遷移情報Iの計算が時刻t=4〜12にわたって状態S1〜状態S5について同様になされ、図11中の最右端の各状態S1〜S5の累積距離D(12,m)(m=1〜5)に書き込まれる。
【0022】
トレリスにおいて、モデルがシンボル系列を出力する場合の累積距離は、最終フレームの最終状態を示す最も右上の累積距離になるので、図11のトレリスにおいては、キーワードモデルλがシンボル系列{a,b,a}を出力する累積距離はD(12,5)になる。
【0023】
また、シンボル系列λに関するビタビ処理を行う過程で、状態遷移情報Iを記録しており、そのシンボル系列λに関するビタビ処理が終了していれば、この記録された状態遷移情報Iから通過パスを得ることが可能となる。ここで最終フレームの最終状態にあたるところを起点とし、状態遷移情報Iを用いて軌跡を辿るとシンボル系列λにおける遷移過程を表す状態系列(最適パス)を得ることができる。
【0024】
一方、正規化処理に使用されるワード長は、上記先行技術文献にも開示されているように、従来は、音声区間に対応するキーワード区間であった。
【0025】
以上の処理が、キーワードデータベースに記録されているすべてのシンボル系列(例えば{a,b,b})に対して行われ、そのうちの正規化累積距離が最も小さいシンボル系列が認識結果とされる。
【0026】
【発明が解決しようとする課題】
しかしながら、累積距離をワード長で正規化した正規化累積距離をキーワードそのものの類似度として利用するワードスポッティング音声認識方法において、発話に含まれないキーワードにマッチング処理を行った場合、ビタビ法を用いて得られた最適パスは入力された発話に正しくマッチしていない。具体的にはキーワードモデルのある1つの状態に長く停留することによって現実的に考えられる現分析キーワードに対するワード長よりも長いものとして見なされた場合、音声区間に対応する正規化フレーム数をワード長として累積距離の正規化処理を行うと、出力されたキーワードのワード長が長いほどキーワードの正規化累積距離が小さくなる。この結果、正しいキーワードの正規化累積距離よりも小さい、発話に含まれないキーワードが結果として出力されることがある。特に、発話に含まれるキーワードモデルの状態数よりも少ない状態で構成されるキーワードモデルでマッチング処理を行った場合、キーワードそのものを表すある1つの状態に長い時間停留するという現象が多発する。この結果、同じ状態に長く停留した分、発話に含まれないキーワードに関する推定ワード長は、現実的に考えられるワード長よりも長く計算され、その判断に基いてキーワード区間に対応する正規化フレーム数が出力される。即ち、状態遷移を正しく検出できずワード長が非現実に長く推定される結果、正規化累積距離が小さくなり、この発話に含まれないキーワードが認識結果として出力されてしまうという問題点があった。
【0027】
正規化累積距離を使った音声認識で誤った認識結果が出力され得るという現象の原因が、状態遷移が現実的でないほど継続していてもこれに対策しないで処理をしてきた点にあることに気づいて本発明はなされたものである。本発明の課題は、非現実的に長いパスが最適パスとして選択されたキーワードが認識結果として誤って出力されることのないワードスポッティング音声認識装置及びワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラムを提供することにある。
【0028】
【課題を解決するための手段】
以下、本発明について説明する。なお、本発明の理解を容易にするために添付図面の参照符号を括弧書きにて付記するが、それにより本発明が図示の形態に限定されるものではない。
【0029】
かかる課題を解決するために、請求項1に記載の発明に係るワードスポッティング音声認識装置は、入力された発話から発話の特徴パラメータを生成する、CPU等の特徴パラメータ生成手段(4)と、音声の特徴パラメータをサブワード単位で記憶している、HD等の音響モデルデータベース(5)と、響モデルデータベース(5)が出力する特徴パラメータから、予め設定されたキーワードの音声的特徴を示すキーワードモデルを生成する、CPU等のキーワードモデル生成手段(7)と、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとの類似度を計算する、CPU等のキーワード類似度計算手段(10,20)と、状態遷移情報を出力しつつキーワード累積類似度を計算する、CPU等のキーワード累積類似度計算手段(12,22)と、前記発話のワード長を計算する、CPU等のワード長計算手段(14,24)と、前記キーワード累積類似度前記ワード長正規化し、正規化キーワード累積類似度を求める、CPU等の累積類似度正規化手段(15,25)とを、有し、前記ワード長計算手段(14,24)は、連続して自身へ状態遷移をした回数が予め設定された値を超える場合には、調整を行わなかった前記キーワード長で前記正規化した場合よりも前記正規化キーワード累積類似度が低くなるように、当該値を超えて自身へ状態遷移をした回数に相当する分前記キーワード長を調整することを特徴とする。
【0030】
これにより、入力された発話から特徴パラメータを生成し、キーワードモデルを生成し、キーワード累積類似度を計算し、ワード長計算手段が出力するワード長を用いて累積類似度の正規化処理を行うことが可能となる。
【0031】
かかる課題を解決するために、請求項2に記載の発明に係るワードスポッティング音声認識装置は、入力された発話から発話の特徴パラメータを生成する、CPU等の特徴パラメータ生成手段(4)と、音声の特徴パラメータをサブワード単位で記憶している、HD等の音響モデルデータベース(5)と、響モデルデータベース(5)が出力する特徴パラメータから、予め設定されたキーワードの前後に不要語が接続されている語の音声的特徴を示すキーワードモデルを生成する、CPU等のキーワードモデル生成手段(7)と、響モデルデータベース(5)が出力する特徴パラメータから、前記不要語の音声的特徴を示す不要語モデルを生成する、CPU等の不要語モデル生成手段(9)と、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとの類似度を計算する、CPU等のキーワード類似度計算手段(10,20)と、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの類似度を計算する、CPU等の不要語類似度計算手段(11,21)と、状態遷移情報を出力しつつキーワード累積類似度を計算する、CPU等のキーワード累積類似度計算手段(12,22)と、前記不要語モデルの不要語累積類似度を計算する、CPU等の不要語累積類似度計算手段(13,23)と、前記発話のワード長を計算する、CPU等のワード長計算手段(14,24)と、前記キーワード累積類似度前記不要語累積類似度との差を前記ワード長正規化し、正規化キーワード累積類似度を求める、CPU等の累積類似度正規化手段(15,25)とを、有し、前記ワード長計算手段(14,24)は、前記キーワードモデルにおいて連続して自身へ状態遷移をした回数が予め設定された値を超える場合には、調整を行わなかった前記キーワード長で前記正規化した場合よりも前記正規化キーワード累積類似度が低くなるように、当該値を超えて自身へ状態遷移をした回数に相当する分前記キーワード長を調整することを特徴とする。
【0032】
これにより、入力された発話から特徴パラメータを生成し、キーワードモデルと不要語モデルを生成し、キーワード累積類似度、不要語累積類似度を計算し、ワード長計算手段が出力するワード長を用いて累積類似度の正規化処理を行うことが可能となる。
【0033】
かかる課題を解決するために、請求項3に記載の発明に係るワードスポッティング音声認識装置は、請求項1又は請求項2に記載のワードスポッティング音声認識装置において、特徴パラメータ生成手段(4)は、入力された発話から音声区間を切り出しフレームに分割し特徴パラメータを生成することを特徴とする。
【0034】
これにより、入力された発話から生成される特徴パラメータは音声区間から切り出されフレームに分割されて管理されることが可能となる。
【0035】
かかる課題を解決するために、請求項4に記載の発明に係るワードスポッティング音声認識装置は、請求項に記載のワードスポッティング音声認識装置において、累積類似度正規化手段(15,25)は、前記キーワード累積類似度と前記不要語累積類似度の差を前記ワード長で除することにより累積類似度の正規化処理を行うことを特徴とする。
【0036】
これにより、キーワード累積類似度と不要語累積類似度の差をワード長で除することにより累積類似度の正規化処理を行うことが可能となる。
【0037】
かかる課題を解決するために、請求項5に記載の発明に係るワードスポッティング音声認識装置は、請求項2又は請求項4に記載のワードスポッティング音声認識装置において、キーワード累積類似度計算手段(12,22)及び不要語累積類似度計算手段(13,23)は、ビタビ法を用いて、キーワード累積類似度及び不要語累積類似度を計算することを特徴とする。
【0038】
これにより、キーワード累積類似度及び不要語累積類似度の計算がビタビ法を用いて行われる。
【0039】
かかる課題を解決するために、請求項6に記載の発明に係るワードスポッティング音声認識装置は、入力された発話から発話の特徴パラメータを生成する、CPU等特徴パラメータ生成手段(4)と、音声の特徴パラメータをサブワード単位で記憶している、HD等の音響モデルデータベース(5)と、響モデルデータベースが出力する特徴パラメータから、予め設定されたキーワードの前後に不要語が接続されている語の音声的特徴を示すキーワードモデルを生成する、CPU等キーワードモデル生成手段(7)と、響モデルデータベースが出力する特徴パラメータから、前記不要語の音声的特徴を示す不要語モデルを生成する、CPU等不要語モデル生成手段(9)と、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとの距離を計算する、CPU等キーワード距離計算手段(10)と、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの距離を計算する、CPU等不要語距離計算手段(11)と、状態遷移情報を出力しつつキーワード累積距離を計算する、CPU等キーワード累積距離計算手段(12)と、前記不要語モデルの不要語累積距離を計算する、CPU等不要語累積距離計算手段(13)と、前記状態遷移情報の入力に応じてワード長の加算を行うワード長計算手段において、前記キーワードモデルにおいて連続して自身へ状態遷移をした回数が予め設定した値を超える場合には次の状態に移るまでワード長の加算を行わない、CPU等ワード長計算手段(14)と、前記キーワード累積距離前記不要語累積距離との差を前記ワード長正規化し、正規化キーワード累積距離を求める、CPU等累積距離正規化手段(15)とを、有することを特徴とする。
【0040】
これにより、入力された発話から特徴パラメータを生成し、キーワードモデルと不要語モデルを生成し、キーワード累積距離、不要語累積距離を計算し、ワード長計算手段が出力するワード長を用いて累積距離の正規化処理を行うことが可能となる。
【0041】
かかる課題を解決するために、請求項7に記載の発明に係るワードスポッティング音声認識装置は、入力された発話から発話の特徴パラメータを生成する、CPU等の特徴パラメータ生成手段(4)と、音声の特徴パラメータをサブワード単位で記憶している、HD等の音響モデルデータベース(5)と、響モデルデータベース(5)が出力する特徴パラメータから、予め設定されたキーワードの前後に不要語が接続されている語の音声的特徴を示すキーワードモデルを生成する、CPU等のキーワードモデル生成手段(7)と、響モデルデータベース(5)が出力する特徴パラメータから、前記不要語の音声的特徴を示す不要語モデルを生成する、CPU等の不要語モデル生成手段(9)と、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとの尤度を計算する、CPU等のキーワード尤度計算手段(20)と、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの尤度を計算する、CPU等の不要語尤度計算手段(21)と、状態遷移情報を出力しつつキーワード累積尤度を計算する、CPU等のキーワード累積尤度計算手段(22)と、前記不要語モデルの不要語累積尤度を計算する、CPU等の不要語累積尤度計算手段(23)と、前記状態遷移情報の入力に応じてワード長の加算を行う、CPU等のワード長計算手段において、前記キーワードモデルにおいて連続して自身へ状態遷移をした回数が予め設定した値を超える場合には次の状態に移るまでワード長に1を超える所定値の加算を行う、CPU等のワード長計算手段(24)と、前記キーワード累積尤度前記不要語累積尤度との差を前記ワード長正規化し、正規化キーワード累積尤度を求める、CPU等の累積尤度正規化手段(25)とを、有することを特徴とする。
【0042】
これにより、入力された発話から特徴パラメータを生成し、キーワードモデルと不要語モデルを生成し、キーワード累積尤度、不要語累積尤度を計算し、ワード長計算手段が出力するワード長を用いて累積尤度の正規化処理を行うことが可能となる。
【0043】
かかる課題を解決するために、請求項8に記載の発明に係るワードスポッティング音声認識方法は、入力された発話から発話の特徴パラメータを生成する特徴パラメータ生成工程と、声の特徴パラメータをサブワード単位で記憶している音響モデルデータベース(5)が出力する特徴パラメータから、予め設定されたキーワードの音声的特徴を示すキーワードモデルを生成するキーワードモデル生成工程と、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとの類似度を計算するキーワード類似度計算工程と、状態遷移情報を出力しつつキーワード累積類似度を計算するキーワード累積類似度計算工程と、前記発話のワード長を計算するワード長計算工程と、前記キーワード累積類似度前記ワード長正規化し、正規化キーワード累積類似度を求める累積類似度正規化工程とを、し、前記ワード長計算工程においては、連続して自身へ状態遷移をした回数が予め設定された値を超える場合には、調整を行わなかった前記キーワード長で前記正規化した場合よりも前記正規化キーワード累積類似度が低くなるように、当該値を超えて自身へ状態遷移をした回数に相当する分前記キーワード長を調整することを特徴とする。
【0044】
これにより、入力された発話から特徴パラメータを生成し、キーワードモデルを生成し、キーワード累積類似度を計算し、ワード長計算手段が出力するワード長を用いて累積類似度の正規化処理を行うことが可能となる。
【0045】
かかる課題を解決するために、請求項9に記載の発明に係るワードスポッティング音声認識方法は、入力された発話から発話の特徴パラメータを生成する特徴パラメータ生成工程と、声の特徴パラメータをサブワード単位で記憶している音響モデルデータベース(5)が出力する特徴パラメータから、予め設定されたキーワードの前後に不要語が接続されている語の音声的特徴を示すキーワードモデルを生成するキーワードモデル生成工程と、響モデルデータベース(5)が出力する特徴パラメータから、前記不要語の音声的特徴を示す不要語モデルを生成する不要語モデル生成工程と、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとの類似度を計算するキーワード類似度計算工程と、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの類似度を計算する不要語類似度計算工程と、状態遷移情報を出力しつつキーワード累積類似度を計算するキーワード累積類似度計算工程と、前記不要語モデルの不要語累積類似度を計算する不要語累積類似度計算工程と、前記発話のワード長を計算するワード長計算工程と、前記キーワード累積類似度前記不要語累積類似度との差を前記ワード長正規化し、正規化キーワード累積類似度を求める累積類似度正規化工程とを、有し、前記ワード長計算工程において、前記キーワードモデルにおいて連続して自身へ状態遷移をした回数が予め設定された値を超える場合には、調整を行わなかった前記キーワード長で前記正規化した場合よりも前記正規化キーワード累積類似度が低くなるように、当該値を超えて自身へ状態遷移をした回数に相当する分前記キーワード長を調整することを特徴とする。
【0046】
これにより、入力された発話から特徴パラメータを生成し、キーワードモデルと不要語モデルを生成し、キーワード累積類似度、不要語累積類似度を計算し、ワード長計算手段が出力するワード長を用いて累積類似度の正規化処理を行うことが可能となる。
【0047】
かかる課題を解決するために、請求項10に記載の発明に係るワードスポッティング音声認識方法は、請求項8又は請求項9に記載のワードスポッティング音声認識方法において、特徴パラメータ生成工程は、入力された発話から音声区間を切り出しフレームに分割し特徴パラメータを生成することを特徴とする。
【0048】
これにより、入力された発話から生成される特徴パラメータは音声区間から切り出されフレームに分割されて管理されることが可能となる。
【0049】
かかる課題を解決するために、請求項11に記載の発明に係るワードスポッティング音声認識方法は、請求項に記載のワードスポッティング音声認識方法において、累積類似度正規化工程は、前記キーワード累積類似度と前記不要語累積類似度の差を前記ワード長で除することにより累積類似度の正規化処理を行うことを特徴とする。
【0050】
これにより、キーワード累積類似度と不要語累積類似度の差をワード長で除することにより累積類似度の正規化処理を行うことが可能となる。
【0051】
かかる課題を解決するために、請求項12に記載の発明に係るワードスポッティング音声認識方法は、請求項9又は請求項11に記載のワードスポッティング音声認識方法において、キーワード累積類似度計算工程及び不要語累積類似度計算工程は、ビタビ法を用いて、キーワード累積類似度及び不要語累積類似度を計算することを特徴とする。
【0052】
これにより、キーワード累積類似度及び不要語累積類似度の計算がビタビ法を用いて行われる。
【0053】
かかる課題を解決するために、請求項13に記載の発明に係るワードスポッティング音声認識方法は、入力された発話から発話の特徴パラメータを生成する特徴パラメータ生成工程と、音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベース(5)が出力する特徴パラメータから、予め設定されたキーワードの前後に不要語が接続されている語の音声的特徴を示すキーワードモデルを生成するキーワードモデル生成工程と、響モデルデータベース(5)が出力する特徴パラメータから、前記不要語の音声的特徴を示す不要語モデルを生成する不要語モデル生成工程と、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとの距離を計算するキーワード距離計算工程と、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの距離を計算する不要語距離計算工程と、状態遷移情報を出力しつつキーワード累積距離を計算するキーワード累積距離計算工程と、前記不要語モデルの不要語累積距離を計算する不要語累積距離計算工程と、前記状態遷移情報の入力に応じてワード長の加算を行うワード長計算工程において、前記キーワードモデルにおいて連続して自身へ状態遷移をした回数が予め設定した値を超える場合には次の状態に移るまでワード長の加算を行わない、ワード長計算工程と、前記キーワード累積距離前記不要語累積距離との差を前記ワード長正規化し、正規化キーワード累積距離を求める累積距離正規化工程とを、有することを特徴とする。
【0054】
これにより、入力された発話から特徴パラメータを生成し、キーワードモデルと不要語モデルを生成し、キーワード累積距離、不要語累積距離を計算し、ワード長計算手段が出力するワード長を用いて累積距離の正規化処理を行うことが可能となる。
【0055】
かかる課題を解決するために、請求項14に記載の発明に係るワードスポッティング音声認識方法は、入力された発話から発話の特徴パラメータを生成する特徴パラメータ生成工程と、声の特徴パラメータをサブワード単位で記憶している音響モデルデータベース(5)が出力する特徴パラメータから、予め設定されたキーワードの前後に不要語が接続されている語の音声的特徴を示すキーワードモデルを生成するキーワードモデル生成工程と、響モデルデータベース(5)が出力する特徴パラメータから、前記不要語の音声的特徴を示す不要語モデルを生成する不要語モデル生成工程と、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとの尤度を計算するキーワード尤度計算工程と、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの尤度を計算する不要語尤度計算工程と、状態遷移情報を出力しつつキーワード累積尤度を計算するキーワード累積尤度計算工程と、前記不要語モデルの不要語累積尤度を計算する不要語累積尤度計算工程と、前記状態遷移情報の入力に応じてワード長の加算を行うワード長計算工程において、前記キーワードモデルにおいて連続して自身へ状態遷移をした回数が予め設定した値を超える場合には次の状態に移るまでワード長に1を超える所定値の加算を行う、ワード長計算工程と、前記キーワード累積尤度前記不要語累積尤度との差を前記ワード長正規化し、正規化キーワード累積尤度を求める累積尤度正規化工程とを、有することを特徴とする。
【0056】
これにより、入力された発話から特徴パラメータを生成し、キーワードモデルと不要語モデルを生成し、キーワード累積尤度、不要語累積尤度を計算し、ワード長計算手段が出力するワード長を用いて累積尤度の正規化処理を行うことが可能となる。
【0057】
かかる課題を解決するために、請求項15に記載の発明に係るワードスポッティング音声認識用プログラムは、ワードスポッティング音声認識装置に含まれるコンピュータを、入力された発話から発話の特徴パラメータを生成する特徴パラメータ生成手段(4)と、音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベース(5)出力する特徴パラメータから、予め設定されたキーワードの音声的特徴を示すキーワードモデルを生成するキーワードモデル生成手段(7)と、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとの類似度を計算するキーワード類似度計算手段(10,20)と、状態遷移情報を出力しつつキーワード累積類似度を計算するキーワード累積類似度計算手段(12,22)と、前記発話のワード長を計算するワード長計算手段(14,24)と、前記キーワード累積類似度前記ワード長正規化し、正規化キーワード累積類似度を求める累積類似度正規化手段(15,25)として、機能させ、前記ワード長計算手段(14,24)としての前記コンピュータを、連続して自身へ状態遷移をした回数が予め設定された値を超える場合には、調整を行わなかった前記キーワード長で前記正規化した場合よりも前記正規化キーワード累積類似度が低くなるように、当該値を超えて自身へ状態遷移をした回数に相当する分前記キーワード長を調整するように機能させることを特徴とする。
【0058】
これにより、入力された発話から特徴パラメータを生成し、キーワードモデルを生成し、キーワード累積類似度を計算し、ワード長計算手段が出力するワード長を用いて累積類似度の正規化処理を行うことが可能となる。
【0059】
かかる課題を解決するために、請求項16に記載の発明に係るワードスポッティング音声認識用プログラムは、ワードスポッティング音声認識装置に含まれるコンピュータを、入力された発話から発話の特徴パラメータを生成する特徴パラメータ生成手段(4)と、音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベース(5)が出力する特徴パラメータから、予め設定されたキーワードの前後に不要語が接続されている語の音声的特徴を示すキーワードモデルを生成するキーワードモデル生成手段(7)と、響モデルデータベース(5)が出力する特徴パラメータから、前記不要語の音声的特徴を示す不要語モデルを生成する不要語モデル生成手段(9)と、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとの類似度を計算するキーワード類似度計算手段(10,20)と、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの類似度を計算する不要語類似度計算手段(11,21)と、状態遷移情報を出力しつつキーワード累積類似度を計算するキーワード累積類似度計算手段(12,22)と、前記不要語モデルの不要語累積類似度を計算する不要語累積類似度計算手段(13,23)と、前記発話のワード長を計算するワード長計算手段(14,24)と、前記キーワード累積類似度前記不要語累積類似度との差を前記ワード長正規化し、正規化キーワード累積類似度を求める累積類似度正規化手段(15,25)として、機能させ、前記ワード長計算手段(14,24)としての前記コンピュータを、前記キーワードモデルにおいて連続して自身へ状態遷移をした回数が予め設定された値を超える場合には、調整を行わなかった前記キーワード長で前記正規化した場合よりも前記正規化キーワード累積類似度が低くなるように、当該値を超えて自身へ状態遷移をした回数に相当する分前記キーワード長を調整するように機能させることを特徴とする。
【0060】
これにより、入力された発話から特徴パラメータを生成し、キーワードモデルと不要語モデルを生成し、キーワード累積類似度、不要語累積類似度を計算し、ワード長計算手段が出力するワード長を用いて累積類似度の正規化処理を行うことが可能となる。
【0061】
かかる課題を解決するために、請求項17に記載の発明に係るワードスポッティング音声認識用プログラムは、請求項15又は請求項16に記載のワードスポッティング音声認識用プログラムにおいて、特徴パラメータ生成手段(4)は、入力された発話から音声区間を切り出しフレームに分割し特徴パラメータを生成することを特徴とする。
【0062】
これにより、入力された発話から生成される特徴パラメータは音声区間から切り出されフレームに分割されて管理されることが可能となる。
【0063】
かかる課題を解決するために、請求項18に記載の発明に係るワードスポッティング音声認識用プログラムは、請求項16に記載のワードスポッティング音声認識用プログラムにおいて、累積類似度正規化手段(15,25)は、前記キーワード累積類似度と前記不要語累積類似度の差を前記ワード長で除することにより累積類似度の正規化処理を行うことを特徴とする。
【0064】
これにより、キーワード累積類似度と不要語累積類似度の差をワード長で除することにより累積類似度の正規化処理を行うことが可能となる。
【0065】
かかる課題を解決するために、請求項19に記載の発明に係るワードスポッティング音声認識用プログラムは、請求項16又は請求項18に記載のワードスポッティング音声認識用プログラムにおいて、キーワード累積類似度計算手段(12,22)及び不要語累積類似度計算手段(13,23)は、ビタビ法を用いて、キーワード累積類似度及び不要語累積類似度を計算することを特徴とする。
【0066】
これにより、キーワード累積類似度及び不要語累積類似度の計算がビタビ法を用いて行われる。
【0067】
かかる課題を解決するために、請求項20に記載の発明に係るワードスポッティング音声認識用プログラムは、ワードスポッティング音声認識装置に含まれるコンピュータを、入力された発話から発話の特徴パラメータを生成する特徴パラメータ生成手段(4)と、響モデルデータベース(5)が出力する特徴パラメータから、予め設定されたキーワードの前後に不要語が接続されている語の音声的特徴を示すキーワードモデルを生成するキーワードモデル生成手段(7)と、響モデルデータベース(5)が出力する特徴パラメータから、前記不要語の音声的特徴を示す不要語モデルを生成する不要語モデル生成手段(9)と、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとの距離を計算するキーワード距離計算手段(10)と、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの距離を計算する不要語距離計算手段(11)と、状態遷移情報を出力しつつキーワード累積距離を計算するキーワード累積距離計算手段(12)と、前記不要語モデルの不要語累積距離を計算する不要語累積距離計算手段(13)と、前記状態遷移情報の入力に応じてワード長の加算を行うワード長計算手段において、前記キーワードモデルにおいて連続して自身へ状態遷移をした回数が予め設定した値を超える場合には次の状態に移るまでワード長の加算を行わない、ワード長計算手段(14)と、前記キーワード累積距離前記不要語累積距離との差を前記ワード長正規化し、正規化キーワード累積距離を求める累積距離正規化手段(15)として、機能させることを特徴とする。
【0068】
これにより、入力された発話から特徴パラメータを生成し、キーワードモデルと不要語モデルを生成し、キーワード累積距離、不要語累積距離を計算し、ワード長計算手段が出力するワード長を用いて累積距離の正規化処理を行うことが可能となる。
【0069】
かかる課題を解決するために、請求項21に記載の発明に係るワードスポッティング音声認識用プログラムは、ワードスポッティング音声認識装置に含まれるコンピュータを、入力された発話から発話の特徴パラメータを生成する特徴パラメータ生成手段(4)と、響モデルデータベース(5)が出力する特徴パラメータから、予め設定されたキーワードの前後に不要語が接続されている語の音声的特徴を示すキーワードモデルを生成するキーワードモデル生成手段(7)と、響モデルデータベース(5)が出力する特徴パラメータから、前記不要語の音声的特徴を示す不要語モデルを生成する不要語モデル生成手段(9)と、前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとの尤度を計算するキーワード尤度計算手段(20)と、前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの尤度を計算する不要語尤度計算手段(21)と、状態遷移情報を出力しつつキーワード累積尤度を計算するキーワード累積尤度計算手段(22)と、前記不要語モデルの不要語累積尤度を計算する不要語累積尤度計算手段(23)と、前記状態遷移情報の入力に応じてワード長の加算を行うワード長計算手段において、前記キーワードモデルにおいて連続して自身へ状態遷移をした回数が予め設定した値を超える場合には次の状態に移るまでワード長に1を超える所定値の加算を行う、ワード長計算手段(24)と、前記キーワード累積尤度前記不要語累積尤度との差を前記ワード長正規化し、正規化キーワード累積尤度を求める累積尤度正規化手段(25)として、機能させることを特徴とする。
【0070】
これにより、入力された発話から特徴パラメータを生成し、キーワードモデルと不要語モデルを生成し、キーワード累積尤度、不要語累積尤度を計算し、ワード長計算手段が出力するワード長を用いて累積尤度の正規化処理を行うことが可能となる。
【0071】
【発明の実施の形態】
(第1の実施の形態)
以下、本発明にかかるワードスポッティング音声認識装置の第1の実施の形態について図面を用いて説明する。
【0072】
図1は、本発明にかかるワードスポッティング音声認識装置の一実施例の構成概要を示すブロック図である。
【0073】
この実施例では、類似度が距離として表現される場合を説明する。図1に示すように、本発明にかかるワードスポッティング音声認識装置は、マイク1、LPF(Low Pass Filter)2、A/D変換器3、特徴パラメータ生成手段としての特徴パラメータ生成部4、音響モデルデータベースとしての音響モデル記憶部5、キーワードデータベースとしてのキーワード記憶部6、キーワードモデル生成手段としてのキーワードモデル生成部7、不要語データベースとしての不要語記憶部8、不要語モデル生成手段としての不要語モデル生成部9、キーワード類似度計算手段、キーワード距離計算手段としてのキーワード距離計算部10、不要語類似度計算手段、不要語距離計算手段としての不要語距離計算部11、キーワード累積類似度計算手段、キーワード累積距離計算手段としてのキーワードビタビ計算部12、不要語累積類似度計算手段、不要語累積距離計算手段としての不要語ビタビ計算部13、ワード長計算手段としてのワード長計算部14、累積類似度正規化手段、累積距離正規化手段としての累積距離正規化部15、認識キーワード判定部16、を含んで構成される。
【0074】
入力された音声信号がマイク1で電気信号に変換され出力されると、LPF2で電気信号としての音声信号のうち高周波数成分が除去され出力される。
【0075】
出力されたアナログ信号である音声信号はA/D変換器3で所定のサンプリングレートでディジタル信号に変換して出力される。
【0076】
特徴パラメータ生成部4は例えばCPU(Central Processing Unit)で構成され、出力されたディジタル信号としての音声信号から音声区間を切り出し、切り出した音声区間を更にフレームに分割し、分割したフレームから入力音声の特徴パラメータを抽出し生成する。特徴パラメータは、例えば、線形予測係数やLPCケプストラム、周波数帯毎のエネルギなどをベクトル量子化したものが一般的に使用される。
【0077】
音響モデル記憶部5は例えばHD(Hard Disk)で構成され、音素又は音節であるサブワードの単位で音響モデルを記憶しており、読みデータが入力されると対応する音響モデルから特徴パラメータを生成し出力する。また、音響モデル記憶部5は遷移適合度も記憶している。
【0078】
キーワード記憶部6は例えばHDで構成され、キーワードを読みデータの形式で記憶する。
【0079】
キーワードモデル生成部7は例えばCPUで構成され、キーワード記憶部6から出力されたキーワードを抽出する。抽出したキーワードの前後にワイルドカードモデルを接続してキーワードモデルを生成する。そして、キーワードモデルの読みデータに対応する音響モデルを音響モデル記憶部5から取り出し、キーワードモデルの特徴パラメータを生成する。
【0080】
不要語記憶部8は例えばHDで構成され、不要語を読みデータの形式で記憶する。
【0081】
不要語モデル生成部9は例えばCPUで構成され、不要語記憶部8から出力された不要語を抽出し、その抽出した不要語から不要語モデルを生成する。そして、不要語モデルに対応する音響モデルを音響モデル記憶部5から取り出し、不要語モデルの特徴パラメータを生成する。
【0082】
キーワード距離計算部10は例えばCPUで構成され、入力音声の特徴パラメータとキーワードモデルの特徴パラメータとの距離を計算し、出力する。
【0083】
不要語距離計算部11は例えばCPUで構成され、入力音声の特徴パラメータと不要語モデルの特徴パラメータとの距離を計算し、出力する。
【0084】
キーワードビタビ計算部12は例えばCPUで構成され、状態遷移の有無を示す状態遷移情報を出力しつつキーワード累積距離を計算する。
【0085】
不要語ビタビ計算部13は例えばCPUで構成され、不要語モデルの不要語累積距離を計算する。
【0086】
ワード長計算部14は例えばCPUで構成され、キーワードビタビ計算部12が出力する状態遷移情報を用いてワード長の計算を行い出力する。
【0087】
累積距離正規化部15は例えばCPUで構成され、ワード長計算部14から出力されるワード長を用いて、キーワード累積距離と不要語累積距離から正規化累積距離を計算し出力する。
【0088】
認識キーワード判定部16は例えばCPUで構成され、累積距離正規化部15から出力される正規化累積距離を用いて認識キーワードの判定を行う。
【0089】
以上の構成を有するワードスポッティング音声認識装置の動作概要を図2を用いて以下に説明する。
【0090】
図2は上記ワードスポッティング音声認識装置の動作概要を示すフローチャートである。
【0091】
まず、ビタビ法を行うための初期設定工程(STEP1)が行われる。
【0092】
マイク1から入力された音声信号は、LPF2及びA/D変換器3を介して、特徴パラメータ生成部4に入力され、音声信号から音声区間を切り出し、切り出した音声区間をフレーム単位で分割しフレームにする。そして、分割したフレームから入力音声の特徴パラメータを生成し出力する。
【0093】
以上のような、初期設定工程(STEP1)が終了すると、次に、キーワードモデル及び不要語モデル生成工程(STEP2)が行われる。
【0094】
キーワード記憶部6及び不要語記憶部8からキーワード及び不要語を抽出し、キーワードの方には前後にワイルドカードモデルを接続してキーワードモデル及び不要語モデルを生成する。このとき、キーワードモデル及び不要語モデルに接続するワイルドカードモデルは同一のものとしている。そして、キーワードモデル及び不要語モデルの読みデータに対応する音響モデルと遷移適合度とを音響モデル記憶部5から取り出し、キーワードモデル及び不要語モデルの特徴パラメータを生成する。
【0095】
以上のような、キーワードモデル及び不要語モデル生成工程(STEP2)が終了すると、次に、キーワード距離計算工程(STEP3)及び不要語距離計算工程(STEP6)が行われる。まず、キーワード距離計算工程(STEP3)及びそれに続く工程(STEP4、STEP5)を説明する。
【0096】
キーワード距離計算部10において、入力音声の特徴パラメータとキーワードモデルの特徴パラメータとの距離を計算し、出力する。
【0097】
具体的には、STEP1において生成された入力音声の特徴パラメータとキーワードモデルの特徴パラメータとをフレーム毎に比較し類似度である距離を算出し、結果を各時刻におけるその状態の状態距離Pとして状態距離テーブルP(t,m)に出力する。
【0098】
以上のような、キーワード距離計算工程(STEP3)が終了すると、次に、キーワードビタビ計算工程(STEP4)が行われる。
【0099】
キーワードビタビ計算部12において、キーワード距離計算工程(STEP3)において出力された入力音声の特徴パラメータとキーワードモデルの特徴パラメータとの状態距離Pを基にして、ビタビ法によってキーワード累積距離を計算する。このとき、フレーム遷移に併せて状態遷移の有無を示す状態遷移情報I(t,m)をキーワードビタビ計算部12はワード長計算部14に出力する。
【0100】
以上のような、キーワードビタビ計算工程(STEP4)と並行して、ワード長計算工程(STEP5)が行われる。
【0101】
キーワードビタビ計算部12から出力される状態遷移情報I(t,m)を用いて、ワード長計算部14は、ワード長の計算を行い累積距離正規化部15へ出力する。
【0102】
具体的には、STEP4において出力される状態遷移情報I(t,m)から自己遷移が続くか否かを観察する。状態遷移情報の出力はフレーム遷移があったことであるから、状態遷移情報の出力にあわせてワード長の加算を行うが、連続して自身へ状態遷移をした回数(自己遷移回数)が予め設定した回数(自己遷移回数閾値)よりも大きくなった場合には、次の状態に移るまでフレーム遷移をしてもワード長加算を行わないことで、自己遷移が非現実的に続く場合のワード長加算を禁止する。
【0103】
言葉によって適切な自己遷移回数閾値が変化することが実験によって判っており、サンプリング周期その他によって変動する数値である。この適切な自己遷移回数閾値は、自然な話し方がキャンセルされないように設定される。
【0104】
以上で、ワード長計算工程(STEP5)が終了する。
【0105】
次に、STEP3〜STEP5と平行して処理が進行する、不要語距離計算工程(STEP6)及びそれに続く不要語ビタビ計算工程(STEP7)を説明する。
【0106】
不要語距離計算部11において、入力音声の特徴パラメータと不要語モデルの特徴パラメータとの距離を計算し、出力する。不要語モデルと特徴パラメータとの距離の算出は、STEP3において説明したキーワードモデルと特徴パラメータとの距離の算出と同様の方法による。
【0107】
以上のような、不要語距離計算工程(STEP6)が終了すると、次に、不要語ビタビ計算工程(STEP7)が行われる。
【0108】
不要語ビタビ計算部13において、不要語距離計算工程(STEP6)において出力された入力音声の特徴パラメータと不要語モデルの特徴パラメータとの距離を基にして、ビタビ法によって不要語累積距離を計算する。
【0109】
以上で、不要語ビタビ計算工程(STEP7)が終了する。
【0110】
次に、ワード長正規化工程(STEP8)を説明する。
【0111】
ワード長計算工程(STEP5)と不要語ビタビ計算工程(STEP7)の両方が終了すると、ワード長正規化工程(STEP8)へと移行する。
【0112】
STEP5とSTEP7が終了し、キーワード累積距離と不要語累積距離が累積距離正規化部15に入力されると、ワード長計算部14から出力されるワード長を用いて、累積距離正規化部15は、キーワード累積距離から不要語累積距離を差し引き、これをワード長で正規化して正規化累積距離を算出する。
【0113】
以上のような、ワード長正規化工程(STEP8)が終了すると、出力された正規化累積距離を用いて、続く音声認識工程(STEP9)において、音声認識が行われる。
【0114】
ここで、上記第1の実施の形態にかかるワード長制御を含むワード長計算部14のワード長計算工程(STEP5)の詳細フローチャートを図3に示す。なお、入力されるデータは遷移情報1、自己遷移カウンタR、ワード長カウンタL、分析フレーム番号n、分析状態番号mである。
【0115】
STEP21では、分析フレーム番号n、分析状態番号mにおける遷移情報I(n,m)が直前状態からの遷移であるかどうかを判定する。判定結果が真の場合(直前状態からの遷移である場合)はSTEP22に移行し、判定結果が偽の場合(自己遷移である場合)はSTEP23に移行する。
【0116】
STEP22では、判定結果が真の場合(直前状態からの遷移である場合)であるから、現分析状態から自己遷移のカウントが始まるため、自己遷移カウンタR(n,m)に0を代入する。同時に、遷移元のワード長L(n−1,m−1)を現在分析している分析フレーム番号n、分析状態番号mのワード長L(n,m)に格納する。
【0117】
STEP23では、判定結果が偽の場合(自己遷移である場合)であるから、直前フレーム番号からの自己遷移のカウントが継続するため、遷移元の自己遷移カウンタR(n−1,m)に1を加算し、分析フレーム番号n、分析状態番号mの自己遷移カウンタR(n,m)に代入する。同時に、遷移元のワード長L(n−1,m)を現在分析している分析フレーム番号n、分析状態番号mのワード長L(n,m)に格納する。STEP24に移行する。
【0118】
STEP24では、現在分析している分析フレーム番号n、分析状態番号mの自己遷移カウンタR(n,m)が予め設定された閾値Thresh以上となっているかどうかを判定する。判定結果が真の場合(自己遷移カウンタR(n,m)がThresh以上となった場合)は、ワード長カウンタL(n,m)への加算処理は行われない。判定結果が偽の場合(自己遷移カウンタR(n,m)がThresh未満となった場合)は、STEP25に処理を移す。
【0119】
STEP25は、分析状態mがキーワードを表しているかどうかを判定する。STEP25における判定結果が真の場合は、STEP26にて、現在分析している分析フレーム番号n、分析状態番号mのL(n,m)に1を加算する。判定結果が偽の場合(mが不要語の状態を表している場合)は、ワード長L(n,m)に対する加算処理は行われない。
【0120】
以上のSTEP21〜26によって求められたワード長、自己遷移カウンタをフレーム番号nかつ状態番号m毎に格納し、最終フレームNかつ最終状態Mにおけるワード長を、ワード長正規化処理へ出力する。
【0121】
この実施の形態では以下の効果を有する。
● STEP2においてキーワードモデル及び不要語モデルに接続したワイルドカードモデルは同一のものであるから、STEP8においてキーワード累積距離から不要語累積距離を差し引くことで、発話区間の初めと終わりに含まれる傾向にある不要語を排除して、キーワード自体の累積距離を抽出することができる。
● 発話に含まれない状態数の少ないキーワードモデルに発話パラメータをマッチングさせたときの最適パスが非現実的に長くなることによって、正解キーワードの正規化累積距離よりも誤りキーワードの正規化累積距離が小さくなるという現象を回避することができる。
● このワード長制御処理は、処理量がごくわずかであるため、ナビ等リソースが限られた音声認識装置にも容易に組み込みが可能である。
【0122】
(第2の実施の形態)
次に、本発明にかかるワードスポッティング音声認識装置の第2の実施の形態を図4を参照しつつ説明する。
【0123】
図4は上記ワードスポッティング音声認識装置の第2の実施の形態にかかる動作概要を示すフローチャートである。上記第1の実施の形態と同一部分は詳しい説明を省略する。
【0124】
上記第1の実施の形態では、STEP5において、ワード長計算部14は状態遷移情報I(t,m)を観察し、自己遷移回数が自己遷移回数閾値を越えた場合にはワード長加算を行わないが、第2の実施の形態では、STEP5を行わず、STEP4とSTEP7が終了した段階でワード長の計算(STEP10)を行う。
【0125】
即ち、第2の実施の形態では、STEP4とSTEP7が終了した段階でワード長計算工程(STEP10)へ移行し、STEP4にて記録されている状態遷移情報Iの中で自己遷移回数が自己遷移回数閾値を超えた回数を得る。そして、音声区間と判断された区間のフレーム数から上記自己遷移回数閾値を超えた回数を減じてワード長を算出する。
【0126】
ワード長計算工程(STEP10)が終了すると、ワード長正規化工程(STEP11)へと移行する。
【0127】
ワード長計算部14から出力されるワード長を用いて、累積距離正規化部15は、キーワード累積距離から不要語累積距離を差し引き、これをワード長で正規化して正規化累積距離を算出する。
【0128】
以上のような、ワード長正規化工程(STEP11)が終了すると、出力された正規化累積距離を用いて、続く音声認識工程(STEP9)において、音声認識が行われる。
【0129】
ここで、上記第2の実施の形態にかかるワード長制御を含むワード長計算部14のワード長計算工程(STEP10)の詳細フローチャートを図5に示す。
【0130】
まず、ワード長制御を行うための初期設定工程(STEP31)が行われる。具体的には、ワード長カウンタWordLen、自己遷移カウンタALen、過剰ワード長カウンタOverpathは0に、分析フレーム番号n、分析状態番号mはそれぞれの最大値にあたる切り出しフレーム長N、キーワードモデルの状態数Mに設定する。
【0131】
以上のような初期設定工程(STEP31)が終了すると、次に、STEP32〜40に示されるようなバックトレースを使用したワード長計算に入る。
【0132】
まず、現在分析している状態がキーワードの状態を表しているかどうかを判定する(STEP32)。分析状態がキーワードの状態を表しているならば、ワード長カウンタWordLenを1だけ加算する(STEP33)。分析状態が不要語の状態である場合は、WordLenの加算は行われない。
【0133】
次に分析フレーム番号n、分析状態番号mにおける遷移情報I(n,m)が直前遷移のものか、自己遷移のものであるかを判別する(STEP34)。遷移情報I(n,m)が直前遷移を表している場合は(YES)、分析状態mを1だけ減じ、自己遷移カウンタALenを0に初期化する(STEP35)。
【0134】
遷移情報I(n,m)が自己遷移を表している場合は(NO)、自己遷移カウンタALenに1だけ加算し(STEP36)、自己遷移カウンタが予め設定した閾値Thresh以上になっているかどうかを判別する(STEP37)。自己遷移カウンタが予め設定した閾値Thresh以上になっている場合には、過剰ワード長カウンタOverpathを1だけ加算する(STEP38)。自己遷移カウンタが予め設定した閾値Thresh未満の場合はOverpathへの加算は行われない。
【0135】
以上のように遷移情報に合わせた処理(STEP34〜STEP38)を行った後、分析フレーム番号nを1だけ減ずる(STEP39)。
【0136】
この後、分析フレーム番号が先頭フレームまで達したかどうかを判定し(STEP40)、分析フレームが先頭まで達した場合はワード長カウンタWordLenから過剰ワード長カウンタOverpathを減じ(STEP41)、それをワード長計算の結果として出力する。
【0137】
まだ分析状態が先頭まで達していない場合は、その分析フレームが先頭に達するまで、以上示した同様の処理の流れSTEP32〜40を繰り返す。
【0138】
この実施の形態では以下の効果を有する。
● バックトレースのために記録されている状態遷移情報Iを活用するので、ワード長算出の負担が軽減される。
【0139】
なお、第2の実施の形態は、上記に限定されるものではなく、例えば以下のように変形してもよい。
○ バックトレースのために記録されている状態遷移情報Iを活用して自己遷移回数が自己遷移回数閾値を超えた回数を得ているが、この方式に替えて、自己遷移回数が自己遷移回数閾値を超えた回数を別途記憶するようにしてもよい。この場合、何らかの理由で状態遷移情報Iを書き換える必要があるとき、自己遷移回数が自己遷移回数閾値を超えた回数を状態遷移情報Iとは別に求めていると、プログラムの融通性が確保される。
【0140】
(第3の実施の形態)
次に、本発明にかかるワードスポッティング音声認識装置の第3の実施の形態を図面を用いて説明する。
【0141】
図6は、本発明にかかるワードスポッティング音声認識装置の一実施例の構成概要を示すブロック図である。上記第1の実施の形態と同一部分は同一符号を付して詳しい説明を省略する。
【0142】
上記第1の実施の形態では類似度が距離として表現される場合を説明したが、第3の実施の形態では、類似度を尤度(確率)としている点が第1の実施の形態と異なっており、その他の構成は上記第1の実施の形態と同じである。
【0143】
図6に示すように、本発明にかかるワードスポッティング音声認識装置は、キーワード類似度計算手段、キーワード尤度計算手段としてのキーワード尤度計算部20、不要語類似度計算手段、不要語尤度計算手段としての不要語尤度計算部21、キーワード累積類似度計算手段、キーワード累積尤度計算手段としてのキーワードビタビ計算部22、不要語累積類似度計算手段、不要語累積尤度計算手段としての不要語ビタビ計算部23、ワード長計算手段としてのワード長計算部24、累積類似度正規化手段、累積尤度正規化手段としての累積尤度正規化部25、を含んで構成される。
【0144】
キーワード尤度計算部20は例えばCPUで構成され、入力音声の特徴パラメータとキーワードモデルの特徴パラメータとの尤度を計算し、出力する。
【0145】
不要語尤度計算部21は例えばCPUで構成され、入力音声の特徴パラメータと不要語モデルの特徴パラメータとの尤度を計算し、出力する。
【0146】
キーワードビタビ計算部22は例えばCPUで構成され、状態遷移の有無を示す状態遷移情報を出力しつつキーワード累積尤度を計算する。
【0147】
不要語ビタビ計算部23は例えばCPUで構成され、不要語モデルの不要語累積尤度を計算する。
【0148】
ワード長計算部24は例えばCPUで構成され、キーワードビタビ計算部22が出力する状態遷移情報を用いてワード長の計算を行い出力する。
【0149】
累積尤度正規化部25は例えばCPUで構成され、ワード長計算部24から出力されるワード長を用いて、キーワード累積尤度と不要語累積尤度から正規化累積尤度を計算し出力する。
【0150】
以上の構成を有するワードスポッティング音声認識装置の動作概要を図7を用いて以下に説明する。
【0151】
図7は上記ワードスポッティング音声認識装置の第3の実施の形態にかかる動作概要を示すフローチャートである。上記第1の実施の形態と同一部分は同一符号を付して詳しい説明を省略する。
【0152】
第1の実施の形態の場合と同じように、キーワードモデル及び不要語モデル生成工程(STEP2)が終了すると、次に、キーワード尤度計算工程(STEP12)及び不要語尤度計算工程(STEP15)が行われる。まず、キーワード尤度計算工程(STEP12)及びそれに続く工程(STEP13、STEP14)を説明する。
【0153】
キーワード尤度計算部20において、入力音声の特徴パラメータとキーワードモデルの特徴パラメータとの尤度を計算し、出力する。
【0154】
具体的には、STEP1において生成された入力音声の特徴パラメータとキーワードモデルの特徴パラメータとをフレーム毎に比較し尤度を算出し、結果を各時刻におけるその状態の状態尤度として状態尤度テーブルに出力する。
【0155】
以上のような、キーワード尤度計算工程(STEP12)が終了すると、次に、キーワードビタビ計算工程(STEP13)が行われる。
【0156】
キーワードビタビ計算部22において、キーワード尤度計算工程(STEP12)において出力された入力音声の特徴パラメータとキーワードモデルの特徴パラメータとの状態尤度を基にして、ビタビ法によってキーワード累積尤度を計算する。第3の実施の形態では、類似度を尤度として表現しているので、尤度が大きいほど類似度が高くなり、その結果、ビタビ法において状態iに遷移する2本の矢印のうち累積尤度の値の大きいほうが選択される。フレーム遷移に併せて状態遷移の有無を示す状態遷移情報をキーワードビタビ計算部22はワード長計算部24に出力する。
【0157】
以上のような、キーワードビタビ計算工程(STEP13)と並行して、ワード長計算工程(STEP14)が行われる。
【0158】
キーワードビタビ計算部22から出力される状態遷移情報を用いて、ワード長計算部24は、ワード長の計算を行い累積尤度正規化部25へ出力する。
【0159】
具体的には、STEP13において出力される状態遷移情報から自己遷移が続くか否かを観察する。状態遷移情報の出力はフレーム遷移があったことであるから、状態遷移情報の出力に合わせてワード長の加算を行うが、自己遷移回数が自己遷移回数閾値よりも大きくなった場合には、次の状態に移るまで状態遷移情報の出力にあわせてワード長の加算を行う他に自己遷移回数閾値を超えた回数に応じた所定値をワード長に加算する。
【0160】
ここで、所定の値は、累積尤度をワード長で正規化するときに、自己遷移の状態が非現実的に続く影響を排除できるだけの大きさの値であり、学習によって定める。
【0161】
以上のような、ワード長計算工程(STEP14)が終了する。
【0162】
次に、STEP12〜STEP14と平行して処理が進行する、不要語尤度計算工程(STEP15)及びそれに続く不要語ビタビ計算工程(STEP16)を説明する。
【0163】
不要語尤度計算部21において、入力音声の特徴パラメータと不要語モデルの特徴パラメータとの尤度を計算し、出力する。
【0164】
以上のような、不要語尤度計算工程(STEP15)が終了すると、次に、不要語ビタビ計算工程(STEP16)が行われる。
【0165】
不要語ビタビ計算部23において、不要語尤度計算工程(STEP15)において出力された入力音声の特徴パラメータと不要語モデルの特徴パラメータとの尤度を基にして、ビタビ法によって不要語累積尤度を計算する。類似度を尤度として表現しているので、尤度が大きいほど類似度が高くなり、その結果、ビタビ法において状態iに遷移する2本の矢印のうち累積尤度の値の大きいほうが選択される。
【0166】
以上で、不要語ビタビ計算工程(STEP16)が終了する。
【0167】
次に、ワード長正規化工程(STEP17)を説明する。
【0168】
ワード長計算工程(STEP14)と不要語ビタビ計算工程(STEP16)の両方が終了すると、ワード長正規化工程(STEP17)へと移行する。
【0169】
STEP14とSTEP16が終了し、キーワード累積尤度と不要語累積尤度が累積尤度正規化部25に入力されると、ワード長計算部24から出力されるワード長を用いて、累積尤度正規化部25は、キーワード累積尤度から不要語累積尤度を差し引き、これをワード長で正規化して正規化累積尤度を算出する。
【0170】
以上のような、ワード長正規化工程(STEP17)が終了すると、出力された正規化累積尤度を用いて、続く音声認識工程(STEP9)において、音声認識が行われる。
【0171】
ここで、上記第3の実施の形態にかかるワード長制御を含むワード長計算部14のワード長計算工程(STEP14)の詳細フローチャートを図8に示す。なお、入力されるデータは遷移情報1、自己遷移カウンタR、ワード長カウンタL、分析フレーム番号n、分析状態番号mである。
【0172】
STEP51では、分析フレーム番号n、分析状態番号mにおける遷移情報I(n,m)が直前状態からの遷移であるかどうかを判定する。判定結果が真の場合(直前状態からの遷移である場合)はSTEP52に移行し、判定結果が偽の場合(自己遷移である場合)はSTEP53に移行する。
【0173】
STEP52では、判定結果が真の場合(直前状態からの遷移である場合)であるから、現分析状態から自己遷移のカウントが始まるため、自己遷移カウンタR(n,m)に0を代入する。同時に、遷移元のワード長L(n−1,m−1)を現在分析している分析フレーム番号n、分析状態番号mのワード長L(n,m)に格納する。
【0174】
STEP53では、判定結果が偽の場合(自己遷移である場合)であるから、直前フレーム番号からの自己遷移のカウントが継続するため、遷移元の自己遷移カウンタR(n−1,m)に1を加算し、分析フレーム番号n、分析状態番号mの自己遷移カウンタR(n,m)に代入する。同時に、遷移元のワード長L(n−1,m)を現在分析している分析フレーム番号n、分析状態番号mのワード長L(n,m)に格納する。STEP54に移行する。
【0175】
STEP54では、現在分析している分析フレーム番号n、分析状態番号mの自己遷移カウンタR(n,m)が予め設定された閾値Thresh以上となっているかどうかを判定する。判定結果が真の場合(自己遷移カウンタR(n,m)がThresh以上となった場合)は、ワード長カウンタL(n,m)に予め設定しておいた1を超える定数ckを加算する(STEP57)。判定結果が偽の場合(自己遷移カウンタR(n,m)がThresh未満となった場合)は、STEP55に処理を移す。
【0176】
STEP55は、分析状態mがキーワードを表しているかどうかを判定する。STEP55における判定結果が真の場合は、STEP56にて、現在分析している分析フレーム番号n、分析状態番号mのL(n,m)に1を加算する。判定結果が偽の場合(mが不要語の状態を表している場合)は、ワード長L(n,m)に予め設定しておいた1を超える定数ckを加算する(STEP57)。
【0177】
以上のSTEP51〜57によって求められたワード長、自己遷移カウンタをフレーム番号nかつ状態番号m毎に格納し、最終フレームNかつ最終状態Mにおけるワード長を、ワード長正規化処理へ出力する。
【0178】
なお、第3の実施の形態は、上記に限定されるものではなく、例えば以下のように変形してもよい。
○ 類似度を対数尤度としても良い。尤度を対数に換算するとき、累積尤度の計算を加減算で行うことができるので、計算処理を高速化できる。
○ 第2の実施の形態にあるように、ワード長計算手段は、自己遷移回数が自己遷移回数閾値を超えた回数を記憶しておき、分割したフレームの数から自己遷移回数閾値を超えた回数だけ所定値をワード長に加算してもよい。また、状態遷移情報を活用して自己遷移回数が自己遷移回数閾値を超えた回数を求めてもよい。ビタビ法の実行過程におけるワード長加算の計算負担が軽減される。
【0179】
(第4の実施の形態)
次に本発明にかかるワードスポッティング音声認識装置の第4の形態を図9を参照しつつ説明する。
【0180】
図9は上記ワードスポッティング音声認識装置の第4の実施の形態にかかる動作概要を示すフローチャートである。上記第1の実施の形態では、ビタビ処理とワード長計算とが終了した後に、ビタビ処理の最終的な出力結果とワード長計算部の最終的な出力結果を用いてワード長正規化が行われる。これに対して、第4の実施の形態は、ビタビ処理の状態遷移選択過程において、その時点での累積距離をその時点でのワード長で正規化し、この正規化された出力結果を用いて状態遷移選択を行う点で相違する。
【0181】
まず、ワード長制御を行うための初期設定工程(STEP61)が行われる。具体的には、ワード長テーブルLと自己遷移カウンタのテーブルRを0に初期化し、分析フレーム番号nと分析状態番号mを1に設定する。
【0182】
次にワード長計算を含めたビタビ処理の詳細処理に入る。分析フレーム数nが切り出し音声のフレーム数Nを超えたかどうかを判定する(STEP62)。分析フレームが終端まで進んでいない場合は、終端のビタビ処理が終了するまでSTEP63〜72で示されるワード長計算を含んだビタビ処理が行われる。終端までビタビ処理が終了した場合は、STEP75で示される処理を行う。
【0183】
STEP63は、STEP62と同様にして、分析状態カウンタmがキーワードモデルの最終状態まで到達したかどうかを判定する箇所である。分析状態が最終状態の箇所まで終了した場合は、フレームカウンタnに1を加算し、状態カウンタmを1に初期化した(STEP74)後にSTEP62へ戻る。分析状態が最終状態の箇所まで終了していない場合は、STEP64〜72に示されるワード長計算を含む各状態に対するビタビ処理を行う。
【0184】
STEP64は、ビタビ処理の分析状態における累積距離の比較を行うための情報を生成する箇所である。Daは分析フレームの直前かつ分析状態にあたる正規化累積距離を表し、Dbは分析フレームの直前かつ分析状態の直前にあたる状態の正規化累積距離で表す。Da、Dbは、分析フレームの直前かつ分析状態にあたる不要語累積距離U(n−1)、およびワード長L(n−1,m)、L(n−1,m−1)を用いて計算される。具体的には、Daは遷移元の累積距離であるD(n−1,m)から直前フレームの不要語累積距離U(n−1)を差し引き、遷移元のワード長にあたるL(n−1,m)を除した値が格納される。L(n−1,m)=0の場合、Daには遷移元の累積距離であるD(n−1,m)から直前フレームの不要語累積距離U(n−1)を差し引いた値が代入される。Dbも同様に、遷移元の累積距離であるD(n−1,m−1)から直前フレームの不要語累積距離U(n−1)を差し引き、遷移元のワード長にあたるL(n−1,m−1)を除したものが格納される。L(n−1,m−1)=0の場合、Dbには遷移元の累積距離であるD(n−1,m−1)から直前フレームの不要語累積距離U(n−1)を差し引いた値が代入される。
【0185】
STEP65は、STEP64によって得られたDa、Dbの2値がDa≦Dbに関して真であるかどうかを判定する箇所である。
【0186】
このSTEP65による判定結果が真の場合は、STEP66にて現分析フレームの直前かつ現分析状態そのものにあたる累積距離D(n−1,m)に現分析フレームかつ現分析状態にあたる距離値P(n,m)を加算して、これを現分析フレームかつ現分析状態の累積距離D(n,m)に代入する。また、自己遷移を表すため、自己遷移カウンタR(n,m)にはR(n,m−1)に1を加算したものを代入する。さらに、Da≦Dbが真であるので、フレーム番号n、状態番号mの遷移元がフレーム番号n−1、状態mであることを表すため、ワード長変数であるLengthにL(n−1,m)を代入する。
【0187】
STEP67において、自己遷移カウンタR(n,m)が予め設定した閾値Thresh以下であるかどうかを判定する。このSTEP67の判定結果が真ならば、現分析状態mがキーワード区間であるかどうかを判定する(STEP69)。この判定結果が真の場合は、ワード長変数Lengthに1だけ加算を行う。STEP67における判定結果が偽の場合、もしくはSTEP69の判定結果が偽の場合はSTEP70で表されるLengthの加算を行わず、STEP71の処理へ直行する。
【0188】
STEP65の判定結果が偽の場合はSTEP68において累積距離D(n,m)の計算、自己遷移カウンタR(n,m)の初期化、ワード長変数Lengthの計算をそれぞれ行う。ここで、STEP65の判定結果が偽の場合は、フレーム番号n、状態番号mの遷移元がフレーム番号n−1、状態m−1であることを表す。つまり、遷移が直前状態からの遷移を表す。このことから、フレーム番号n、状態番号mの累積距離D(n,m)は遷移元の累積距離D(n−1,m−1)に現分析状態にあたる距離値P(n,m)を加算したものが格納される。また、直前状態からの遷移であることから、自己遷移カウンタR(n,m)は0に初期化され、Lengthも遷移元のワード長にあたるL(n−1,m−1)が格納される。この後は、前述のSTEP67の判定結果が真の場合における処理と同様にSTEP69、STEP70が行われる。
【0189】
STEP71は、一時格納されていたLengthをワード長カウンタL(n,m)に格納する箇所である。このSTEP71が行われた後、STEP72の状態カウンタmを1だけ加算する処理を行う。
【0190】
このSTEP72の状態カウンタの加算が行われた後、STEP63の最終状態判定を行う処理へ戻る。
【0191】
これらSTEP62〜74の処理が最終フレームまで終了したら、STEP75にて最終フレームかつ最終状態にあたる累積距離D(N,M)をワード長L(N,M)、不要語累積距離U(N)を用いて正規化処理を行い正規化累積距離D’(N,M)を得る。具体的には、STEP74に入る累積距離D(N,M)から不要語累積距離U(N)を差し引き、この差し引いた値をワード長L(N,M)で除算したものをD’(N,M)とする。このD’(N,M)を計算結果として出力する。
【0192】
本実施の形態の場合、ビタビ処理における各状態において、ワード長を反映させた累積距離を用いることが可能となるため、認識性能のさらなる向上が見込める。
【0193】
なお、上記に記載した第1から第4の実施の形態の他に、例えば以下のように変形してもよい。
○ 上記実施の形態ではマッチング処理の方法としてビタビ法を用いた場合を説明したが、これに限らず、DPマッチングなどの手法を用いても良い。即ち、キーワードモデルと各フレームの特徴パラメータにおけるマッチング処理さえ適用されていれば、ビタビ法に限定されることなく、本発明を適用することは可能である。
○ 上記実施の形態では、ワード長正規化とワード長計算および不要語距離を別のブロックでそれぞれ計算を行っているが、これら3つの処理をフレーム単位で同期させることによって、ビタビ処理の各状態において累積距離を比較する箇所で正規化された累積距離を利用する手段も考えられる。この場合、ビタビ処理の遷移情報を正規化された累積距離を基に生成されるため、認識性能のさらなる向上が見込める。
○ 上記実施の形態では類似度がユークリッド距離として表現される場合を説明したが、これに限らず、マハラノビス距離やハミング距離を用いても良い。即ち、類似度の相違を数値の大きさの相違で表現できれば、ユークリッド距離に限定されることなく、本発明を適用することは可能である。
○ 上記第1の実施の形態では、キーワードモデルの累積距離の計算を行うキーワードモデル生成部7、キーワード距離計算部10、キーワードビタビ計算部12と、不要語モデルの計算を行う不要語モデル生成部9、不要語距離計算部11、不要語ビタビ計算部13とを別個独立した構成としている。上記第3の実施の形態では、キーワードモデルの累積尤度の計算を行うキーワードモデル生成部7、キーワード尤度計算部20、キーワードビタビ計算部22と、不要語モデルの計算を行う不要語モデル生成部9、不要語尤度計算部21、不要語ビタビ計算部23とを別個独立した構成としている。しかし、内部で行う処理はワード長計算を除いて同じであるので、同一の計算手段で時間分割をして実行する構成とすることもできる。この場合、音声認識装置の構成部品が少なくなるので、装置の製造原価を低くすることが可能になる。
【0194】
前記各実施の形態から把握できる請求項記載以外の技術思想(発明)について、以下にその効果とともに記載する。
■ 請求項2〜7、請求項9〜14、16〜21のいずれかに記載の発明において、キーワード累積類似度及び不要語累積類似度を計算する計算手段は、DPマッチングを用いたマッチング処理を行うようにしてもよい。即ち、音声認識に用いられるモデルが、キーワードの状態と不要語の状態とに区分けがされていれば、本発明を適用することは可能である。
■ 請求項6、13、20のいずれかに記載の発明において、ビタビ法による計算過程においては、ワード長計算手段は、自己遷移回数が自己遷移回数閾値を超えた回数を記憶しておき、累積距離をワード長で正規化する前に、分割したフレームの数から自己遷移回数閾値を超えた回数を減じてワード長を得るようにしてもよい。この場合、ビタビ法の実行過程におけるワード長加算の計算負担が軽減される。
■ 請求項7、14、21のいずれかに記載の発明において、ビタビ法による計算過程においては、ワード長計算手段は、自己遷移回数が自己遷移回数閾値を超えた回数を記憶しておき、累積尤度をワード長で正規化する前に、分割したフレームの数から自己遷移回数閾値を超えた回数に応じた所定値を加算するようにしてもよい。この場合、ビタビ法の実行過程におけるワード長加算の計算負担が軽減される。
【0195】
【発明の効果】
本発明に係るワードスポッティング音声認識装置によれば、ビタビ法によって求められた最適パスの中に、1つの状態に長く停留する部分が存在しても、自己遷移回数閾値以上ワード長としてカウントしないため、ワード長の正規化をすることで、誤ったキーワードが出力されるという現象を回避することができる。
【図面の簡単な説明】
【図1】図1は、本発明にかかるワードスポッティング音声認識装置の第1の実施の形態の構成概要を示すブロック図である。
【図2】図2は、本発明にかかるワードスポッティング音声認識装置の第1の実施の形態の動作概要を示すフローチャートである。
【図3】図3は、本発明にかかるワードスポッティング音声認識装置の第1の実施の形態におけるワード長計算工程(STEP5)の詳細フローチャートである。
【図4】図4は、本発明にかかるワードスポッティング音声認識装置の第2の実施の形態にかかる動作概要を示すフローチャートである。
【図5】図5は、本発明にかかるワードスポッティング音声認識装置の第2の実施の形態にかかるワード長計算工程(STEP10)の詳細フローチャートである。
【図6】図6は、本発明にかかるワードスポッティング音声認識装置の第3の実施の形態の構成概要を示すブロック図である。
【図7】図7は、本発明にかかるワードスポッティング音声認識装置の第3の実施の形態にかかる動作概要を示すフローチャートである。
【図8】図8は、本発明にかかるワードスポッティング音声認識装置の第3の実施の形態にかかるワード長計算工程(STEP14)の詳細フローチャートである。
【図9】図9は、本発明にかかるワードスポッティング音声認識装置の第4の実施の形態にかかる動作概要を示すフローチャートである。
【図10】図10は、キーワードとその前後にワイルドカードモデルを接続したキーワードモデルλの構成図である。
【図11】図11は、累積距離をビタビ法によって計算する場合のトレリスである。
【図12】図12は、シンボル系列とキーワードモデルとの対応関係を示す図である。
【符号の説明】
1:マイク
2:LPF(Low Pass Filter)
3:A/D変換器
4:特徴パラメータ生成部
5:音響モデル記憶部
6:キーワード記憶部
7:キーワードモデル生成部
8:不要語記憶部
9:不要語モデル生成部
10:キーワード距離計算部
11:不要語距離計算部
12:キーワードビタビ計算部
13:不要語ビタビ計算部
14:ワード長計算部
15:累積距離正規化部
16:認識キーワード判定部
20:キーワード尤度計算部
21:不要語尤度計算部
22:キーワードビタビ計算部
23:不要語ビタビ計算部
24:ワード長計算部
25:累積尤度正規化部

Claims (21)

  1. 累積類似度の正規化処理を行うワードスポッティング音声認識装置において、
    入力された発話から発話の特徴パラメータを生成する特徴パラメータ生成手段と、
    音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、
    響モデルデータベースが出力する特徴パラメータから、予め設定されたキーワードの音声的特徴を示すキーワードモデルを生成するキーワードモデル生成手段と、
    前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとの類似度を計算するキーワード類似度計算手段と、
    状態遷移情報を出力しつつキーワード累積類似度を計算するキーワード累積類似度計算手段と、
    前記発話のワード長を計算するワード長計算手段と、
    前記キーワード累積類似度前記ワード長正規化し、正規化キーワード累積類似度を求める累積類似度正規化手段とを、
    し、
    前記ワード長計算手段は、連続して自身へ状態遷移をした回数が予め設定された値を超える場合には、調整を行わなかった前記キーワード長で前記正規化した場合よりも前記正規化キーワード累積類似度が低くなるように、当該値を超えて自身へ状態遷移をした回数に相当する分前記キーワード長を調整することを特徴とするワードスポッティング音声認識装置。
  2. 累積類似度の正規化処理を行うワードスポッティング音声認識装置において、
    入力された発話から発話の特徴パラメータを生成する特徴パラメータ生成手段と、
    音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、
    響モデルデータベースが出力する特徴パラメータから、予め設定されたキーワードの前後に不要語が接続されている語の音声的特徴を示すキーワードモデルを生成するキーワードモデル生成手段と、
    響モデルデータベースが出力する特徴パラメータから、前記不要語の音声的特徴を示す不要語モデルを生成する不要語モデル生成手段と、
    前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとの類似度を計算するキーワード類似度計算手段と、
    前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの類似度を計算する不要語類似度計算手段と、
    状態遷移情報を出力しつつキーワード累積類似度を計算するキーワード累積類似度計算手段と、
    前記不要語モデルの不要語累積類似度を計算する不要語累積類似度計算手段と、
    前記発話のワード長を計算するワード長計算手段と、
    前記キーワード累積類似度前記不要語累積類似度との差を前記ワード長正規化し、正規化キーワード累積類似度を求める累積類似度正規化手段とを、
    し、
    前記ワード長計算手段は、前記キーワードモデルにおいて連続して自身へ状態遷移をした回数が予め設定された値を超える場合には、調整を行わなかった前記キーワード長で前記正規化した場合よりも前記正規化キーワード累積類似度が低くなるように、当該値を超えて自身へ状態遷移をした回数に相当する分前記キーワード長を調整することを特徴とするワードスポッティング音声認識装置。
  3. 請求項1又は請求項2に記載のワードスポッティング音声認識装置において、
    特徴パラメータ生成手段は、入力された発話から音声区間を切り出しフレームに分割し特徴パラメータを生成する
    ことを特徴とするワードスポッティング音声認識装置。
  4. 請求項に記載のワードスポッティング音声認識装置において、
    累積類似度正規化手段は、前記キーワード累積類似度と前記不要語累積類似度の差を前記ワード長で除することにより累積類似度の正規化処理を行う
    ことを特徴とするワードスポッティング音声認識装置。
  5. 請求項2又は請求項4に記載のワードスポッティング音声認識装置において、
    キーワード累積類似度計算手段及び不要語累積類似度計算手段は、ビタビ法を用いて、キーワード累積類似度及び不要語累積類似度を計算する
    ことを特徴とするワードスポッティング音声認識装置。
  6. 累積距離の正規化処理を行うワードスポッティング音声認識装置において、
    入力された発話から発話の特徴パラメータを生成する特徴パラメータ生成手段と、
    音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、
    響モデルデータベースが出力する特徴パラメータから、予め設定されたキーワードの前後に不要語が接続されている語の音声的特徴を示すキーワードモデルを生成するキーワードモデル生成手段と、
    響モデルデータベースが出力する特徴パラメータから、前記不要語の音声的特徴を示す不要語モデルを生成する不要語モデル生成手段と、
    前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとの距離を計算するキーワード距離計算手段と、
    前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの距離を計算する不要語距離計算手段と、
    状態遷移情報を出力しつつキーワード累積距離を計算するキーワード累積距離計算手段と、
    前記不要語モデルの不要語累積距離を計算する不要語累積距離計算手段と、
    前記状態遷移情報の入力に応じてワード長の加算を行うワード長計算手段において、前記キーワードモデルにおいて連続して自身へ状態遷移をした回数が予め設定した値を超える場合には次の状態に移るまでワード長の加算を行わない、ワード長計算手段と、
    前記キーワード累積距離前記不要語累積距離との差を前記ワード長正規化し、正規化キーワード累積距離を求める累積距離正規化手段とを、
    有することを特徴とするワードスポッティング音声認識装置。
  7. 累積尤度の正規化処理を行うワードスポッティング音声認識装置において、
    入力された発話から発話の特徴パラメータを生成する特徴パラメータ生成手段と、
    音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースと、
    響モデルデータベースが出力する特徴パラメータから、予め設定されたキーワードの前後に不要語が接続されている語の音声的特徴を示すキーワードモデルを生成するキーワードモデル生成手段と、
    響モデルデータベースが出力する特徴パラメータから、前記不要語の音声的特徴を示す不要語モデルを生成する不要語モデル生成手段と、
    前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとの尤度を計算するキーワード尤度計算手段と、
    前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの尤度を計算する不要語尤度計算手段と、
    状態遷移情報を出力しつつキーワード累積尤度を計算するキーワード累積尤度計算手段と、
    前記不要語モデルの不要語累積尤度を計算する不要語累積尤度計算手段と、
    前記状態遷移情報の入力に応じてワード長の加算を行うワード長計算手段において、前記キーワードモデルにおいて連続して自身へ状態遷移をした回数が予め設定した値を超える場合には次の状態に移るまでワード長に1を超える所定値の加算を行う、ワード長計算手段と、
    前記キーワード累積尤度前記不要語累積尤度との差を前記ワード長正規化し、正規化キーワード累積尤度を求める累積尤度正規化手段とを、
    有することを特徴とするワードスポッティング音声認識装置。
  8. 累積類似度の正規化処理を行うワードスポッティング音声認識方法において、
    入力された発話から発話の特徴パラメータを生成する特徴パラメータ生成工程と、
    声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースが出力する特徴パラメータから、予め設定されたキーワードの音声的特徴を示すキーワードモデルを生成するキーワードモデル生成工程と、
    前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとの類似度を計算するキーワード類似度計算工程と、
    状態遷移情報を出力しつつキーワード累積類似度を計算するキーワード累積類似度計算工程と、
    前記発話のワード長を計算するワード長計算工程と、
    前記キーワード累積類似度前記ワード長正規化し、正規化キーワード累積類似度を求める累積類似度正規化工程とを、
    し、
    前記ワード長計算工程においては、連続して自身へ状態遷移をした回数が予め設定された値を超える場合には、調整を行わなかった前記キーワード長で前記正規化した場合よりも前記正規化キーワード累積類似度が低くなるように、当該値を超えて自身へ状態遷移をした回数に相当する分前記キーワード長を調整することを特徴とするワードスポッティング音声認識方法。
  9. 累積類似度の正規化処理を行うワードスポッティング音声認識方法において、
    入力された発話から発話の特徴パラメータを生成する特徴パラメータ生成工程と、
    声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースが出力する特徴パラメータから、予め設定されたキーワードの前後に不要語が接続されている語の音声的特徴を示すキーワードモデルを生成するキーワードモデル生成工程と、
    響モデルデータベースが出力する特徴パラメータから、前記不要語の音声的特徴を示す不要語モデルを生成する不要語モデル生成工程と、
    前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとの類似度を計算するキーワード類似度計算工程と、
    前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの類似度を計算する不要語類似度計算工程と、
    状態遷移情報を出力しつつキーワード累積類似度を計算するキーワード累積類似度計算工程と、
    前記不要語モデルの不要語累積類似度を計算する不要語累積類似度計算工程と、
    前記発話のワード長を計算するワード長計算工程と、
    前記キーワード累積類似度前記不要語累積類似度との差を前記ワード長正規化し、正規化キーワード累積類似度を求める累積類似度正規化工程とを、
    し、
    前記ワード長計算工程において、前記キーワードモデルにおいて連続して自身へ状態遷移をした回数が予め設定された値を超える場合には、調整を行わなかった前記キーワード長で前記正規化した場合よりも前記正規化キーワード累積類似度が低くなるように、当該値を超えて自身へ状態遷移をした回数に相当する分前記キーワード長を調整することを特徴とするワードスポッティング音声認識方法。
  10. 請求項8又は請求項9に記載のワードスポッティング音声認識方法において、
    特徴パラメータ生成工程は、入力された発話から音声区間を切り出しフレームに分割し特徴パラメータを生成する
    ことを特徴とするワードスポッティング音声認識方法。
  11. 請求項に記載のワードスポッティング音声認識方法において、
    累積類似度正規化工程は、前記キーワード累積類似度と前記不要語累積類似度の差を前記ワード長で除することにより累積類似度の正規化処理を行う
    ことを特徴とするワードスポッティング音声認識方法。
  12. 請求項9又は請求項11に記載のワードスポッティング音声認識方法において、
    キーワード累積類似度計算工程及び不要語累積類似度計算工程は、ビタビ法を用いて、キーワード累積類似度及び不要語累積類似度を計算する
    ことを特徴とするワードスポッティング音声認識方法。
  13. 累積距離の正規化処理を行うワードスポッティング音声認識方法において、
    入力された発話から発話の特徴パラメータを生成する特徴パラメータ生成工程と、
    音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースが出力する特徴パラメータから、予め設定されたキーワードの前後に不要語が接続されている語の音声的特徴を示すキーワードモデルを生成するキーワードモデル生成工程と、
    響モデルデータベースが出力する特徴パラメータから、前記不要語の音声的特徴を示す不要語モデルを生成する不要語モデル生成工程と、
    前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとの距離を計算するキーワード距離計算工程と、
    前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの距離を計算する不要語距離計算工程と、
    状態遷移情報を出力しつつキーワード累積距離を計算するキーワード累積距離計算工程と、
    前記不要語モデルの不要語累積距離を計算する不要語累積距離計算工程と、
    前記状態遷移情報の入力に応じてワード長の加算を行うワード長計算工程において、前記キーワードモデルにおいて連続して自身へ状態遷移をした回数が予め設定した値を超える場合には次の状態に移るまでワード長の加算を行わない、ワード長計算工程と、
    前記キーワード累積距離前記不要語累積距離との差を前記ワード長正規化し、正規化キーワード累積距離を求める累積距離正規化工程とを、
    有することを特徴とするワードスポッティング音声認識方法。
  14. 累積尤度の正規化処理を行うワードスポッティング音声認識方法において、
    入力された発話から発話の特徴パラメータを生成する特徴パラメータ生成工程と、
    声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースが出力する特徴パラメータから、予め設定されたキーワードの前後に不要語が接続されている語の音声的特徴を示すキーワードモデルを生成するキーワードモデル生成工程と、
    響モデルデータベースが出力する特徴パラメータから、前記不要語の音声的特徴を示す不要語モデルを生成する不要語モデル生成工程と、
    前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとの尤度を計算するキーワード尤度計算工程と、
    前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの尤度を計算する不要語尤度計算工程と、
    状態遷移情報を出力しつつキーワード累積尤度を計算するキーワード累積尤度計算工程と、
    前記不要語モデルの不要語累積尤度を計算する不要語累積尤度計算工程と、
    前記状態遷移情報の入力に応じてワード長の加算を行うワード長計算工程において、前記キーワードモデルにおいて連続して自身へ状態遷移をした回数が予め設定した値を超える場合には次の状態に移るまでワード長に1を超える所定値の加算を行う、ワード長計算工程と、
    前記キーワード累積尤度前記不要語累積尤度との差を前記ワード長正規化し、正規化キーワード累積尤度を求める累積尤度正規化工程とを、
    有することを特徴とするワードスポッティング音声認識方法。
  15. 累積類似度の正規化処理を行うワードスポッティング音声認識装置に含まれるコンピュータを、
    入力された発話から発話の特徴パラメータを生成する特徴パラメータ生成手段と、
    音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベース出力する特徴パラメータから、予め設定されたキーワードの音声的特徴を示すキーワードモデルを生成するキーワードモデル生成手段と、
    前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとの類似度を計算するキーワード類似度計算手段と、
    状態遷移情報を出力しつつキーワード累積類似度を計算するキーワード累積類似度計算手段と、
    前記発話のワード長を計算するワード長計算手段と、
    前記キーワード累積類似度前記ワード長正規化し、正規化キーワード累積類似度を求める累積類似度正規化手段として、
    機能させ
    前記ワード長計算手段としての前記コンピュータを、連続して自身へ状態遷移をした回数が予め設定された値を超える場合には、調整を行わなかった前記キーワード長で前記正規化した場合よりも前記正規化キーワード累積類似度が低くなるように、当該値を超えて自身へ状態遷移をした回数に相当する分前記キーワード長を調整するように機能させることを特徴とするワードスポッティング音声認識用プログラム。
  16. 累積類似度の正規化処理を行うワードスポッティング音声認識装置に含まれるコンピュータを、
    入力された発話から発話の特徴パラメータを生成する特徴パラメータ生成手段と、
    音声の特徴パラメータをサブワード単位で記憶している音響モデルデータベースが出力する特徴パラメータから、予め設定されたキーワードの前後に不要語が接続されている語の音声的特徴を示すキーワードモデルを生成するキーワードモデル生成手段と、
    響モデルデータベースが出力する特徴パラメータから、前記不要語の音声的特徴を示す不要語モデルを生成する不要語モデル生成手段と、
    前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとの類似度を計算するキーワード類似度計算手段と、
    前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの類似度を計算する不要語類似度計算手段と、
    状態遷移情報を出力しつつキーワード累積類似度を計算するキーワード累積類似度計算手段と、
    前記不要語モデルの不要語累積類似度を計算する不要語累積類似度計算手段と、
    前記発話のワード長を計算するワード長計算手段と、
    前記キーワード累積類似度前記不要語累積類似度との差を前記ワード長正規化し、正規化キーワード累積類似度を求める累積類似度正規化手段として、
    機能させ
    前記ワード長計算手段としての前記コンピュータを、前記キーワードモデルにおいて連続して自身へ状態遷移をした回数が予め設定された値を超える場合には、調整を行わなかった前記キーワード長で前記正規化した場合よりも前記正規化キーワード累積類似度が低くなるように、当該値を超えて自身へ状態遷移をした回数に相当する分前記キーワード長を調整するように機能させることを特徴とするワードスポッティング音声認識用プログラム。
  17. 請求項15又は請求項16に記載のワードスポッティング音声認識用プログラムにおいて、
    特徴パラメータ生成手段は、入力された発話から音声区間を切り出しフレームに分割し特徴パラメータを生成する
    ことを特徴とするワードスポッティング音声認識用プログラム。
  18. 請求項16に記載のワードスポッティング音声認識用プログラムにおいて、
    累積類似度正規化手段は、前記キーワード累積類似度と前記不要語累積類似度の差を前記ワード長で除することにより累積類似度の正規化処理を行う
    ことを特徴とするワードスポッティング音声認識用プログラム。
  19. 請求項16又は請求項18に記載のワードスポッティング音声認識用プログラムにおいて、
    キーワード累積類似度計算手段及び不要語累積類似度計算手段は、ビタビ法を用いて、キーワード累積類似度及び不要語累積類似度を計算する
    ことを特徴とするワードスポッティング音声認識用プログラム。
  20. 累積距離の正規化処理を行うワードスポッティング音声認識装置に含まれるコンピュータを、
    入力された発話から発話の特徴パラメータを生成する特徴パラメータ生成手段と、響モデルデータベースが出力する特徴パラメータから、予め設定されたキーワードの前後に不要語が接続されている語の音声的特徴を示すキーワードモデルを生成するキーワードモデル生成手段と、
    響モデルデータベースが出力する特徴パラメータから、前記不要語の音声的特徴を示す不要語モデルを生成する不要語モデル生成手段と、
    前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとの距離を計算するキーワード距離計算手段と、
    前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの距離を計算する不要語距離計算手段と、
    状態遷移情報を出力しつつキーワード累積距離を計算するキーワード累積距離計算手段と、
    前記不要語モデルの不要語累積距離を計算する不要語累積距離計算手段と、
    前記状態遷移情報の入力に応じてワード長の加算を行うワード長計算手段において、前記キーワードモデルにおいて連続して自身へ状態遷移をした回数が予め設定した値を超える場合には次の状態に移るまでワード長の加算を行わない、ワード長計算手段と、
    前記キーワード累積距離前記不要語累積距離との差を前記ワード長正規化し、正規化キーワード累積距離を求める累積距離正規化手段として、
    機能させることを特徴とするワードスポッティング音声認識用プログラム。
  21. 累積尤度の正規化処理を行うワードスポッティング音声認識装置に含まれるコンピュータを、
    入力された発話から発話の特徴パラメータを生成する特徴パラメータ生成手段と、
    響モデルデータベースが出力する特徴パラメータから、予め設定されたキーワードの前後に不要語が接続されている語の音声的特徴を示すキーワードモデルを生成するキーワードモデル生成手段と、
    響モデルデータベースが出力する特徴パラメータから、前記不要語の音声的特徴を示す不要語モデルを生成する不要語モデル生成手段と、
    前記発話の特徴パラメータと前記キーワードモデルの特徴パラメータとの尤度を計算するキーワード尤度計算手段と、
    前記発話の特徴パラメータと前記不要語モデルの特徴パラメータとの尤度を計算する不要語尤度計算手段と、
    状態遷移情報を出力しつつキーワード累積尤度を計算するキーワード累積尤度計算手段と、
    前記不要語モデルの不要語累積尤度を計算する不要語累積尤度計算手段と、
    前記状態遷移情報の入力に応じてワード長の加算を行うワード長計算手段において、 記キーワードモデルにおいて連続して自身へ状態遷移をした回数が予め設定した値を超える場合には次の状態に移るまでワード長に1を超える所定値の加算を行う、ワード長計算手段と、
    前記キーワード累積尤度前記不要語累積尤度との差を前記ワード長正規化し、正規化キーワード累積尤度を求める累積尤度正規化手段として、
    機能させることを特徴とするワードスポッティング音声認識用プログラム。
JP2002194236A 2002-07-03 2002-07-03 ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム Expired - Fee Related JP4167014B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2002194236A JP4167014B2 (ja) 2002-07-03 2002-07-03 ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム
US10/461,511 US20040006470A1 (en) 2002-07-03 2003-06-16 Word-spotting apparatus, word-spotting method, and word-spotting program
EP03253913A EP1378885A3 (en) 2002-07-03 2003-06-20 Word-spotting apparatus, word-spotting method, and word-spotting program
CNA031453031A CN1471078A (zh) 2002-07-03 2003-07-03 字识别设备、字识别方法和字识别程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002194236A JP4167014B2 (ja) 2002-07-03 2002-07-03 ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム

Publications (2)

Publication Number Publication Date
JP2004037798A JP2004037798A (ja) 2004-02-05
JP4167014B2 true JP4167014B2 (ja) 2008-10-15

Family

ID=31702977

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002194236A Expired - Fee Related JP4167014B2 (ja) 2002-07-03 2002-07-03 ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム

Country Status (1)

Country Link
JP (1) JP4167014B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101154379B (zh) 2006-09-27 2011-11-23 夏普株式会社 定位语音中的关键词的方法和设备以及语音识别系统

Also Published As

Publication number Publication date
JP2004037798A (ja) 2004-02-05

Similar Documents

Publication Publication Date Title
US8019602B2 (en) Automatic speech recognition learning using user corrections
US20030200086A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
US20040006470A1 (en) Word-spotting apparatus, word-spotting method, and word-spotting program
US20140114663A1 (en) Guided speaker adaptive speech synthesis system and method and computer program product
WO2011070972A1 (ja) 音声認識システム、音声認識方法および音声認識プログラム
JP2005043666A (ja) 音声認識装置
JPS62231997A (ja) 音声認識システム及びその方法
EP1355295A2 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JP6578049B2 (ja) 学習データ生成装置及びそのプログラム
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
Shaneh et al. Voice command recognition system based on MFCC and VQ algorithms
EP1376537A2 (en) Apparatus, method, and computer-readable recording medium for recognition of keywords from spontaneous speech
CN112489692B (zh) 语音端点检测方法和装置
JP4225128B2 (ja) 規則音声合成装置及び規則音声合成方法
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP4847581B2 (ja) 話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラム
JP4167014B2 (ja) ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム
JP5326546B2 (ja) 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
JP4213416B2 (ja) ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム
US20100305948A1 (en) Phoneme Model for Speech Recognition
JP5914119B2 (ja) 音響モデル性能評価装置とその方法とプログラム
JP4239479B2 (ja) 音声認識装置、音声認識方法、および、音声認識プログラム
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
JP3912089B2 (ja) 音声認識方法および音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050623

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080311

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080729

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080731

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110808

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110808

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120808

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130808

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees