JP3252802B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP3252802B2 JP3252802B2 JP20257098A JP20257098A JP3252802B2 JP 3252802 B2 JP3252802 B2 JP 3252802B2 JP 20257098 A JP20257098 A JP 20257098A JP 20257098 A JP20257098 A JP 20257098A JP 3252802 B2 JP3252802 B2 JP 3252802B2
- Authority
- JP
- Japan
- Prior art keywords
- cumulative
- cumulative distance
- distance
- storage unit
- nth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【0001】
【発明の属する技術分野】本発明は音声認識装置に関
し、特に木構造化された辞書を用いてビームサーチを行
なうことにより、効率よく単語の探索を行なう音声認識
装置に関する。
し、特に木構造化された辞書を用いてビームサーチを行
なうことにより、効率よく単語の探索を行なう音声認識
装置に関する。
【0002】
【従来の技術】従来の音声認識装置の一例として、服部
他による「ビームサーチを用いた大語彙音声認識方式の
検討」と題する論文(音響学会論文集、I、pp53−
pp54)(以下「文献1」という)に示される方法が
知られている。
他による「ビームサーチを用いた大語彙音声認識方式の
検討」と題する論文(音響学会論文集、I、pp53−
pp54)(以下「文献1」という)に示される方法が
知られている。
【0003】この従来の音声認識方式は、図5に示すよ
うな木構造(ツリー構造)化された辞書を用いてビーム
サーチを行なうことにより、効率よく単語の探索を行な
う。
うな木構造(ツリー構造)化された辞書を用いてビーム
サーチを行なうことにより、効率よく単語の探索を行な
う。
【0004】このため、大語彙の認識を行なう場合で
も、発声後直ちに認識結果を得ることができ、音声認識
による快適なヒューマンインタフェースの構築が可能に
なる。
も、発声後直ちに認識結果を得ることができ、音声認識
による快適なヒューマンインタフェースの構築が可能に
なる。
【0005】図6は、従来の音声認識装置の構成の一例
を示す図である。図6を参照すると、この従来の音声認
識装置は、分析部20、累積距離計算部10A、認識結
果出力部30、閾値記憶部70、閾値計算部60、辞書
記憶部40、および累積距離記憶部50を備えて構成さ
れている。
を示す図である。図6を参照すると、この従来の音声認
識装置は、分析部20、累積距離計算部10A、認識結
果出力部30、閾値記憶部70、閾値計算部60、辞書
記憶部40、および累積距離記憶部50を備えて構成さ
れている。
【0006】辞書記憶部40は、認識対象単語に関する
情報を、例えば図5に示すような木構造化された形式で
記憶する。
情報を、例えば図5に示すような木構造化された形式で
記憶する。
【0007】分析部20は、一定時間(フレーム)毎に
音声信号を分析し特徴ベクトルを出力する。
音声信号を分析し特徴ベクトルを出力する。
【0008】累積距離計算部10Aは、比較部11、漸
化式計算部12、閾値計算部60から構成されている。
比較部11は、累積距離記憶部50の累積距離と閾値記
億部70の閾値を用い、累積距離を出力する。
化式計算部12、閾値計算部60から構成されている。
比較部11は、累積距離記憶部50の累積距離と閾値記
億部70の閾値を用い、累積距離を出力する。
【0009】漸化式計算部12は、累積距離と、認識対
象単語の情報と、分析部20からの特徴ベクトルを用
い、累積距離を求め累積距離記憶部50に格納する。
象単語の情報と、分析部20からの特徴ベクトルを用
い、累積距離を求め累積距離記憶部50に格納する。
【0010】閾値計算部60は、累積距離記憶部50に
記憶される累積距離を用い、次のフレームで計算する累
積距離の数が適当な量になるように、閾値を求め、閾値
記億部70に格納する。
記憶される累積距離を用い、次のフレームで計算する累
積距離の数が適当な量になるように、閾値を求め、閾値
記億部70に格納する。
【0011】閾値記憶部70は、閾値を記憶する。累積
距離記憶部50は、累積距離を記憶する。
距離記憶部50は、累積距離を記憶する。
【0012】認識結果出力部40は、発声が終わった
後、累積距離記憶部50に記憶される累積距離を用いて
認識結果を出力する。
後、累積距離記憶部50に記憶される累積距離を用いて
認識結果を出力する。
【0013】次に、図6に示した従来の音声認識装置の
動作について説明する。音声認識を始める前に、前もっ
て作成された認識対象単語の情報の入った辞書を、辞書
記憶部40に記憶させる。
動作について説明する。音声認識を始める前に、前もっ
て作成された認識対象単語の情報の入った辞書を、辞書
記憶部40に記憶させる。
【0014】分析部20は、入力された音声信号を分析
して特徴ベクトルを出力する。累積距離計算部10A
は、閾値によって絞られた認識対象単語の情報と特徴ベ
クトルの累積距離を計算し、累積距離を出力する。これ
らの動作を発声が終わるまで繰り返す。発声終了後、認
識結果出力部30が累積距離から認識結果を出力する。
して特徴ベクトルを出力する。累積距離計算部10A
は、閾値によって絞られた認識対象単語の情報と特徴ベ
クトルの累積距離を計算し、累積距離を出力する。これ
らの動作を発声が終わるまで繰り返す。発声終了後、認
識結果出力部30が累積距離から認識結果を出力する。
【0015】このような音声認識装置の利用方法とし
て、例えば音声による地名検索を考えることができる。
この場合、上記の例では全国の地名を1つの辞書に登録
して音声認識を行なう。
て、例えば音声による地名検索を考えることができる。
この場合、上記の例では全国の地名を1つの辞書に登録
して音声認識を行なう。
【0016】
【発明が解決しようとする課題】ところで、データ管理
を容易化するため、もしくは辞書を小さくする等の理由
で、地名を関東、関西、東北等のカテゴリーに分けて辞
書を作成し、これらを適当に組み合わせて音声認識を行
うことのできる機能が望まれる。
を容易化するため、もしくは辞書を小さくする等の理由
で、地名を関東、関西、東北等のカテゴリーに分けて辞
書を作成し、これらを適当に組み合わせて音声認識を行
うことのできる機能が望まれる。
【0017】このような機能を、従来の技術で実現する
場合、例えば辞書を2つ扱う場合には、図7に示すよう
な構成が考えられる。図7に示す構成は、図6に示した
構成に、辞書記憶部40−2の累積距離を計算するため
の累積距離計算部10−2と、閾値記憶部70−2、閾
値計算部60−2、累積距離記憶部50−2を付け加え
たものである。
場合、例えば辞書を2つ扱う場合には、図7に示すよう
な構成が考えられる。図7に示す構成は、図6に示した
構成に、辞書記憶部40−2の累積距離を計算するため
の累積距離計算部10−2と、閾値記憶部70−2、閾
値計算部60−2、累積距離記憶部50−2を付け加え
たものである。
【0018】この場合、それぞれの辞書40−1、40
−2に対する累積距離を記憶しておく、累積距離記憶部
50−1と累積距離記憶部50−2が必要とされてお
り、メモリ容量は、図5に示した構成の2倍となる。
−2に対する累積距離を記憶しておく、累積距離記憶部
50−1と累積距離記憶部50−2が必要とされてお
り、メモリ容量は、図5に示した構成の2倍となる。
【0019】また、それぞれ辞書記憶部40−1と辞書
記憶部40−2の認識対象単語の情報で、累積距離を計
算する量を絞るための閾値を、閾値計算部60−1と閾
値計算部60−2とで独立に計算し、これらを用いて独
立に累積距離計算部10A−1、累積距離計算部10A
−2が累積距離の計算を行なう。
記憶部40−2の認識対象単語の情報で、累積距離を計
算する量を絞るための閾値を、閾値計算部60−1と閾
値計算部60−2とで独立に計算し、これらを用いて独
立に累積距離計算部10A−1、累積距離計算部10A
−2が累積距離の計算を行なう。
【0020】そのため、辞書が1つの場合と比較して、
演算量が倍増する。このように、メモリ量、演算量は、
辞書の数に比例して増加する。
演算量が倍増する。このように、メモリ量、演算量は、
辞書の数に比例して増加する。
【0021】一方、図7に示す構成例とは別に、複数の
辞書を用いて音声認識を行なう場合、図8に示すような
構成が考えられる。図8を参照すると、この構成は、図
6に示した構成に、複数の辞書を1つの辞書に統合する
辞書統合部41を加えたものである。
辞書を用いて音声認識を行なう場合、図8に示すような
構成が考えられる。図8を参照すると、この構成は、図
6に示した構成に、複数の辞書を1つの辞書に統合する
辞書統合部41を加えたものである。
【0022】この辞書統合部41は、複数の辞書を1つ
の辞書にして出力する。音声認識中の演算量、メモリ量
は、図6に示す構成例と同様であるが、音声認識を始め
る前に、辞書を1つに統合する必要がある。辞書を統合
するには、多くの演算量が必要である。例えば、発声毎
に辞書の統合を行なう場合、辞書の統合に時間がかか
り、発声直後に認識結果を出力できないことが考えられ
る。
の辞書にして出力する。音声認識中の演算量、メモリ量
は、図6に示す構成例と同様であるが、音声認識を始め
る前に、辞書を1つに統合する必要がある。辞書を統合
するには、多くの演算量が必要である。例えば、発声毎
に辞書の統合を行なう場合、辞書の統合に時間がかか
り、発声直後に認識結果を出力できないことが考えられ
る。
【0023】したがって、本発明は、上記技術的課題の
認識に基づき創案されたものであって、その目的は、ビ
ームサーチを用いた音声認識装置において、一度に複数
の辞書を認識対象とした場合でも、演算量、メモリ量共
に、1つの辞書を認識対象とした場合と同等となるよう
な音声認識装置を提供することにある。
認識に基づき創案されたものであって、その目的は、ビ
ームサーチを用いた音声認識装置において、一度に複数
の辞書を認識対象とした場合でも、演算量、メモリ量共
に、1つの辞書を認識対象とした場合と同等となるよう
な音声認識装置を提供することにある。
【0024】
【課題を解決するための手段】前記目的を達成する本発
明は、音声認識を行なう前に予め用意された木構造の辞
書をそれぞれ記憶する複数の辞書記憶部に対応して、前
記辞書記憶部の認識対象単語の情報と、発声に対しフレ
ーム毎に音声信号を分析し特徴ベクトルを出力する分析
手段からの特徴ベクトルと閾値と前フレームの累積距離
とを入力し、累積距離をそれぞれ出力する複数の累積距
離計算手段を備え、前記複数の累積距離計算手段からそ
れぞれ出力される累積距離を用いて、前記複数の累積距
離計算手段にて次のフレームで計算する累積距離の総量
を適切に制御するような閾値を計算する閾値計算手段を
前記複数の累積距離計算手段に対して一つ備えたもので
ある。
明は、音声認識を行なう前に予め用意された木構造の辞
書をそれぞれ記憶する複数の辞書記憶部に対応して、前
記辞書記憶部の認識対象単語の情報と、発声に対しフレ
ーム毎に音声信号を分析し特徴ベクトルを出力する分析
手段からの特徴ベクトルと閾値と前フレームの累積距離
とを入力し、累積距離をそれぞれ出力する複数の累積距
離計算手段を備え、前記複数の累積距離計算手段からそ
れぞれ出力される累積距離を用いて、前記複数の累積距
離計算手段にて次のフレームで計算する累積距離の総量
を適切に制御するような閾値を計算する閾値計算手段を
前記複数の累積距離計算手段に対して一つ備えたもので
ある。
【0025】本発明は、音声認識を行なう前に予め用意
された木構造の辞書をそれぞれ記憶する第1乃至第Nの
辞書記憶部と、累積距離を記憶する累積距離記憶部と、
閾値を記憶する閾値記億部と、発声に対しフレーム毎に
音声信号を分析し特徴ベクトルを出力する分析手段と、
前記累積距離記憶部に記憶されている第1乃至第Nの累
積距離と前記閾値記憶部に記憶されている閾値を用いて
計算すべき累積距離を選択し該選択された累積距離を用
い、前記特徴ベクトルと第1乃至第N辞書記憶部にそれ
ぞれ記憶されている認識対象単語の情報との第1乃至第
N累積距離をそれぞれ計算し前記累積距離記憶部に出力
する第1乃至第Nの累積距離計算手段と、前記第1乃至
第Nの累積距離を用いて、前記第1乃至第Nの累積距離
計算手段が次のフレームで計算する累積距離の総量を適
当に制御するような閾値を計算する閾値計算手段と、前
記累積距離記憶部に記憶されている前記第1乃至第Nの
累積距離から認識結果を出力する認識結果出力手段と、
を備える。
された木構造の辞書をそれぞれ記憶する第1乃至第Nの
辞書記憶部と、累積距離を記憶する累積距離記憶部と、
閾値を記憶する閾値記億部と、発声に対しフレーム毎に
音声信号を分析し特徴ベクトルを出力する分析手段と、
前記累積距離記憶部に記憶されている第1乃至第Nの累
積距離と前記閾値記憶部に記憶されている閾値を用いて
計算すべき累積距離を選択し該選択された累積距離を用
い、前記特徴ベクトルと第1乃至第N辞書記憶部にそれ
ぞれ記憶されている認識対象単語の情報との第1乃至第
N累積距離をそれぞれ計算し前記累積距離記憶部に出力
する第1乃至第Nの累積距離計算手段と、前記第1乃至
第Nの累積距離を用いて、前記第1乃至第Nの累積距離
計算手段が次のフレームで計算する累積距離の総量を適
当に制御するような閾値を計算する閾値計算手段と、前
記累積距離記憶部に記憶されている前記第1乃至第Nの
累積距離から認識結果を出力する認識結果出力手段と、
を備える。
【0026】
【発明の実施の形態】本発明の実施の形態について以下
に説明する。図1は、本発明を適用した音声認識装置の
一実施の形態の構成を示すブロック図である。図1を参
照すると、分析部20は、一定時間(フレーム)毎に音
声信号を分析し、特徴ベクトルを出力する。
に説明する。図1は、本発明を適用した音声認識装置の
一実施の形態の構成を示すブロック図である。図1を参
照すると、分析部20は、一定時間(フレーム)毎に音
声信号を分析し、特徴ベクトルを出力する。
【0027】辞書記憶部40は、それぞれ認識対象単語
に関する情報を記憶する。
に関する情報を記憶する。
【0028】累積距離計算部10は、比較部11と漸化
式計算部12とから構成されている。比較部11は、閾
値記憶部70に記憶されている閾値と累積距離記憶部5
0に記憶さている累積距離を比較し、累積距離1aを決
定する。漸化式計算部12は、累積距離1aを用い、特
徴ベクトルと辞書記憶部40に記憶されている認識対象
単語の情報の累積距離1を計算する。
式計算部12とから構成されている。比較部11は、閾
値記憶部70に記憶されている閾値と累積距離記憶部5
0に記憶さている累積距離を比較し、累積距離1aを決
定する。漸化式計算部12は、累積距離1aを用い、特
徴ベクトルと辞書記憶部40に記憶されている認識対象
単語の情報の累積距離1を計算する。
【0029】閾値計算部60は、累積距離記憶部50に
記憶されている累積距離1を用いて、次のフレームで累
積距離1aが適当な量になるように、閾値1を計算す
る。
記憶されている累積距離1を用いて、次のフレームで累
積距離1aが適当な量になるように、閾値1を計算す
る。
【0030】累積距離記憶部50は、漸化式計算部12
から出力された累積距離1を一時記憶する。
から出力された累積距離1を一時記憶する。
【0031】閾値記憶部70は、閾値計算部60で計算
された閾値1を一時記憶する。
された閾値1を一時記憶する。
【0032】認識結果出力部30は、発声終了後、累積
距離記憶部50に記憶されている累積距離1を用いて、
認識結果を出力する。
距離記憶部50に記憶されている累積距離1を用いて、
認識結果を出力する。
【0033】上記の構成は、累積距離計算の前に、比較
しているが、累積距離の計算の後に比較を行ない、累積
距離1aを、累積距離記憶部50に記憶させる構成とし
てもよい。なお、累積距離計算部10、閾値計算部60
は、コンピュータ上で実行されるプログラム制御により
その機能を実現するように構成してもよく、本発明はこ
れらのプログラムを記録した記録媒体も含む。
しているが、累積距離の計算の後に比較を行ない、累積
距離1aを、累積距離記憶部50に記憶させる構成とし
てもよい。なお、累積距離計算部10、閾値計算部60
は、コンピュータ上で実行されるプログラム制御により
その機能を実現するように構成してもよく、本発明はこ
れらのプログラムを記録した記録媒体も含む。
【0034】図1を参照すると、本発明の実施の形態に
おいては、辞書の数が1つの場合、例えば図6に示した
従来の音声認識装置と同等のものであるが、辞書の数が
2つ以上の場合、演算量、メモリ量共に、辞書の数が1
つ場合と同等の性能になる。上記のような効果が得られ
る理由は、閾値計算部60を累積距離計算部10の構成
要素から外したことによる。
おいては、辞書の数が1つの場合、例えば図6に示した
従来の音声認識装置と同等のものであるが、辞書の数が
2つ以上の場合、演算量、メモリ量共に、辞書の数が1
つ場合と同等の性能になる。上記のような効果が得られ
る理由は、閾値計算部60を累積距離計算部10の構成
要素から外したことによる。
【0035】これにより、累積距離の計算の量を決定す
る閾値を、辞書の数だけ用意するのではなく、全ての辞
書に対して1つの閾値で累積距離計算の量を制御するこ
とが可能になる。このため、辞書の数が複数の場合で
も、辞書の数が1つの場合と累積距離の計算の量が同等
になる。
る閾値を、辞書の数だけ用意するのではなく、全ての辞
書に対して1つの閾値で累積距離計算の量を制御するこ
とが可能になる。このため、辞書の数が複数の場合で
も、辞書の数が1つの場合と累積距離の計算の量が同等
になる。
【0036】また、辞書の数によらず全体の累積距離の
量として制御するため、記憶すべき累積距離の量が辞書
の数が1つの場合と同等になり、メモリ量が辞書に比例
して増加することがなくなる。
量として制御するため、記憶すべき累積距離の量が辞書
の数が1つの場合と同等になり、メモリ量が辞書に比例
して増加することがなくなる。
【0037】また、音声認識の前に、複数の辞書を統合
する必要もないため、統合に必要な演算量やメモリ量も
節約できる。以下実施例に即して詳細に説明する。
する必要もないため、統合に必要な演算量やメモリ量も
節約できる。以下実施例に即して詳細に説明する。
【0038】
【実施例】図2は、本発明の一実施例の構成を示すブロ
ック図である。以下では、辞書の数が2つの場合につい
て説明するが、本発明はかかる構成に限定されるもので
ないことは勿論である。
ック図である。以下では、辞書の数が2つの場合につい
て説明するが、本発明はかかる構成に限定されるもので
ないことは勿論である。
【0039】図2を参照すると、本実施例は、分析部2
0、第1辞書記憶部40−1、第1累積距離計算部10
−1、閾値記憶部70、閾値計算部60、累積距離記憶
部50、第2累積距離計算部10−2、第2辞書記憶部
40−2、及び結果出力部30を備えて構成されてい
る。
0、第1辞書記憶部40−1、第1累積距離計算部10
−1、閾値記憶部70、閾値計算部60、累積距離記憶
部50、第2累積距離計算部10−2、第2辞書記憶部
40−2、及び結果出力部30を備えて構成されてい
る。
【0040】分析部20は、フレーム毎に音声信号を分
析し、特徴ベクトルを出力する。
析し、特徴ベクトルを出力する。
【0041】第1辞書記憶部40−1、第2辞書記憶部
402−は、認識対象単語の情報を、例えば図5に示す
ような木構造の形式で記憶する。
402−は、認識対象単語の情報を、例えば図5に示す
ような木構造の形式で記憶する。
【0042】第1累積距離計算部10−1は、第1辞書
記憶部40−1の認識対象単語の情報と特徴ベクトルと
閾値と前フレームの累積距離を入力し、累積距離1を出
力する。この第1累積距離計算部10−1は、第1比較
部11−1と第1漸化式計算部12−1とから構成され
ており、第1比較部11−1は、閾値記億部70に記憶
されている閾値と累積距離記億部50に記憶されている
累積距離を比較し、累積距離1aを出力する。第1漸化
式計算部12−1は、累積距離1aと特徴ベクトルと辞
書記億部401−からの認識対象単語の情報を用い、累
積距離1を求め、出力する。
記憶部40−1の認識対象単語の情報と特徴ベクトルと
閾値と前フレームの累積距離を入力し、累積距離1を出
力する。この第1累積距離計算部10−1は、第1比較
部11−1と第1漸化式計算部12−1とから構成され
ており、第1比較部11−1は、閾値記億部70に記憶
されている閾値と累積距離記億部50に記憶されている
累積距離を比較し、累積距離1aを出力する。第1漸化
式計算部12−1は、累積距離1aと特徴ベクトルと辞
書記億部401−からの認識対象単語の情報を用い、累
積距離1を求め、出力する。
【0043】第2累積距離計算部10−2では、第2辞
書記憶部40−2の認識対象単語の情報と特徴ベクトル
と、閾値と前フレームの累積距離が入力され、累積距離
1を出力する。第2累積距離計算部10−2は、第1比
較部11−1と同機能を有する第2比較部11−2と、
第1漸化式計算部12−1と同機能を有する第2漸化式
計算部12−2と、を備えて構成されている。第2比較
部11−2は、閾値記億部70に記憶されている閾値
と、累積距離記億部50に記憶されている累積距離2を
比較し累積距離2aを出力する。第2漸化式計算部12
−2は、累積距離2aと特徴ベクトルと辞書記億部40
−2からの認識対象単語の情報を用い累積距離2を求
め、出力する。
書記憶部40−2の認識対象単語の情報と特徴ベクトル
と、閾値と前フレームの累積距離が入力され、累積距離
1を出力する。第2累積距離計算部10−2は、第1比
較部11−1と同機能を有する第2比較部11−2と、
第1漸化式計算部12−1と同機能を有する第2漸化式
計算部12−2と、を備えて構成されている。第2比較
部11−2は、閾値記億部70に記憶されている閾値
と、累積距離記億部50に記憶されている累積距離2を
比較し累積距離2aを出力する。第2漸化式計算部12
−2は、累積距離2aと特徴ベクトルと辞書記億部40
−2からの認識対象単語の情報を用い累積距離2を求
め、出力する。
【0044】累積距離記憶部50は、累積距離1と累積
距離2を次のフレームまで記憶する。
距離2を次のフレームまで記憶する。
【0045】閾値計算部60は、累積距離1と累積距離
2から、閾値を計算する。
2から、閾値を計算する。
【0046】閾値記憶部70は、閾値計算部60で計算
された閾値を次のフレームまで記憶する。
された閾値を次のフレームまで記憶する。
【0047】認識結果出力部30は、累積距離記憶部5
0に記憶された累積距離1と累積距離2から結果を出力
する。
0に記憶された累積距離1と累積距離2から結果を出力
する。
【0048】次に、図2を参照して、本発明の一実施例
の動作を説明する。第1辞書記憶部40−1、第2辞書
記憶部40−2は、音声認識を行なう前に予め用意され
た、図5に示すような木構造の辞書をそれぞれ記憶す
る。
の動作を説明する。第1辞書記憶部40−1、第2辞書
記憶部40−2は、音声認識を行なう前に予め用意され
た、図5に示すような木構造の辞書をそれぞれ記憶す
る。
【0049】分析部20は、発声に対しフレーム毎に音
声信号を分析し、特徴ベクトルを出力する。まず、出力
された特徴ベクトルに対し、第1辞書記憶部40−1に
記憶されている認識対象単語の情報との累積距離1を求
める。累積距離1を求めるのは、第1累積距離計算部1
0−1である。
声信号を分析し、特徴ベクトルを出力する。まず、出力
された特徴ベクトルに対し、第1辞書記憶部40−1に
記憶されている認識対象単語の情報との累積距離1を求
める。累積距離1を求めるのは、第1累積距離計算部1
0−1である。
【0050】第1累積距離計算部10−1の第1比較部
11−1は、累積距離記憶部50に記憶されている累積
距離1と閾値記憶部70に記憶されている閾値を用い
て、計算すべき累積距離1aを選択する。第1漸化式計
算部12−1は、累積距離1aを用い、特徴ベクトルと
第1辞書記憶部40−1に記憶されている認識対象単語
の情報との累積距離1を計算する。
11−1は、累積距離記憶部50に記憶されている累積
距離1と閾値記憶部70に記憶されている閾値を用い
て、計算すべき累積距離1aを選択する。第1漸化式計
算部12−1は、累積距離1aを用い、特徴ベクトルと
第1辞書記憶部40−1に記憶されている認識対象単語
の情報との累積距離1を計算する。
【0051】第2累積距離計算部10−2は、第1累積
距離計算部10−1の構成要素と同等の機能をもつ第2
比較部11−2と第2漸化式計算部12−2からなり、
第2比較部11−2は、累積距離記憶部50に記憶され
ている累積距離2と閾値記億部70に記憶されている閾
値を用いて、累積距離2aを選択する。第2漸化式計算
部12−2は、累積距離2aを用い、特徴ベクトルと第
2辞書記憶部40−2に記憶されている認識対象単語の
情報との累積距離2を計算する。
距離計算部10−1の構成要素と同等の機能をもつ第2
比較部11−2と第2漸化式計算部12−2からなり、
第2比較部11−2は、累積距離記憶部50に記憶され
ている累積距離2と閾値記億部70に記憶されている閾
値を用いて、累積距離2aを選択する。第2漸化式計算
部12−2は、累積距離2aを用い、特徴ベクトルと第
2辞書記憶部40−2に記憶されている認識対象単語の
情報との累積距離2を計算する。
【0052】閾値計算部60は、累積距離1、累積距離
2を用いて、第1累積距離計算部10−1、第2累積距
離計算部10−2が次のフレームで計算する累積距離の
総量を適当に制御するような閾値を計算する。
2を用いて、第1累積距離計算部10−1、第2累積距
離計算部10−2が次のフレームで計算する累積距離の
総量を適当に制御するような閾値を計算する。
【0053】図3は、本発明の一実施例における閾値計
算部60の構成の一例を示す図である。図3を参照する
と、閾値計算部60は、累積距離分析部61、マージン
制御部62、及び計算部63を備えて構成されている。
算部60の構成の一例を示す図である。図3を参照する
と、閾値計算部60は、累積距離分析部61、マージン
制御部62、及び計算部63を備えて構成されている。
【0054】累積距離分析部61は、累積距離1、累積
距離2から双方に共通する最小値(最小累積距離)と、
累積距離の総数(累積距離数)を求める。
距離2から双方に共通する最小値(最小累積距離)と、
累積距離の総数(累積距離数)を求める。
【0055】マージン制御部62は、累積距離数を用い
て制御する数に応じたマージンを求める。
て制御する数に応じたマージンを求める。
【0056】計算部63は、最小累積距離とマージンを
用いて閾値1を求める。この閾値1は、図2の閾値記憶
部70に一時記憶される。
用いて閾値1を求める。この閾値1は、図2の閾値記憶
部70に一時記憶される。
【0057】認識結果出力部30は、発声の終了後、累
積距離記憶部50に記憶されている累積距離1、累積距
離2を用いて認識結果を出力する。
積距離記憶部50に記憶されている累積距離1、累積距
離2を用いて認識結果を出力する。
【0058】次に、本発明の他の実施例について説明す
る。前記第1の実施例では、2つの辞書について説明し
たが、辞書の数に制約は無く、N(Nは自然数)個でも
良い。
る。前記第1の実施例では、2つの辞書について説明し
たが、辞書の数に制約は無く、N(Nは自然数)個でも
良い。
【0059】また、前記第1の実施例では、辞書2つの
場合、累積距離計算部10−1、累積距離計算部10−
2の様な構成をとったが、累積距離計算部10−1で、
辞書記憶部40−1、辞書記憶部40−2に対する累積
距離1、累積距離2を求めても同等の効果が得られる。
場合、累積距離計算部10−1、累積距離計算部10−
2の様な構成をとったが、累積距離計算部10−1で、
辞書記憶部40−1、辞書記憶部40−2に対する累積
距離1、累積距離2を求めても同等の効果が得られる。
【0060】また、前記第1の実施例の閾値計算部の構
成を、図4に示すように、入れ替えることが出来る。図
4は、本発明の別の実施例の閾値計算部の構成を示す図
である。
成を、図4に示すように、入れ替えることが出来る。図
4は、本発明の別の実施例の閾値計算部の構成を示す図
である。
【0061】図4を参照すると、この閾値計算部60
は、第1累積距離分析部61、第2累積距離分析部6
4、第1マージン制御部62、第2マージン制御部6
5、第1計算部63、第2計算部64、及び閾値統合部
67を備えて構成されている。
は、第1累積距離分析部61、第2累積距離分析部6
4、第1マージン制御部62、第2マージン制御部6
5、第1計算部63、第2計算部64、及び閾値統合部
67を備えて構成されている。
【0062】累積距離1、累積距離2は、第1累積距離
分析部61、第2累積距離分析部64でそれぞれ分析さ
れ、それぞれの最小値である最小累積距離1、最小累積
距離2、それぞれの数である累積距離数1、累積距離数
2を求める。
分析部61、第2累積距離分析部64でそれぞれ分析さ
れ、それぞれの最小値である最小累積距離1、最小累積
距離2、それぞれの数である累積距離数1、累積距離数
2を求める。
【0063】第1マージン制御部62、及び第2マージ
ン制御部65は、それぞれ、累積距離数1、累積距離数
2から、マージン1、及びマージン2を求める。
ン制御部65は、それぞれ、累積距離数1、累積距離数
2から、マージン1、及びマージン2を求める。
【0064】第1計算部63、及び第2計算部66は、
最小累積距離1とマージン1、最小累積距離2とマージ
ン2とから、それぞれ閾値a、及び閾値bを求める。
最小累積距離1とマージン1、最小累積距離2とマージ
ン2とから、それぞれ閾値a、及び閾値bを求める。
【0065】閾値統合部67は、閾値a、閾値bから適当
な条件の値を選択し、閾値1として出力する。
な条件の値を選択し、閾値1として出力する。
【0066】このような構成の閾値計算部60を用いた
場合でも、同等の効果を得ることが出来る。
場合でも、同等の効果を得ることが出来る。
【0067】
【発明の効果】以上説明したように、本発明によれば下
記記載の効果を奏する。
記記載の効果を奏する。
【0068】本発明の第1の効果は、辞書を複数にした
場合でも、辞書の数が1つの時と同等の演算量で音声認
識を行なうことが出来る、ということである。
場合でも、辞書の数が1つの時と同等の演算量で音声認
識を行なうことが出来る、ということである。
【0069】本発明の第2の効果は、辞書を複数にした
場合でも、辞書の数が1つの時と同等のメモリ量で音声
認識を行なうことが出来る、ということである。
場合でも、辞書の数が1つの時と同等のメモリ量で音声
認識を行なうことが出来る、ということである。
【0070】本発明の第3の効果は、辞書を複数に分け
て音声認識を行なう場合でも、分けた辞書を1つに統合
して音声認識を行なう場合でも、同等の認識率が得られ
る、ということである。
て音声認識を行なう場合でも、分けた辞書を1つに統合
して音声認識を行なう場合でも、同等の認識率が得られ
る、ということである。
【0071】その理由は、全ての辞書に対して累積距離
を計算した後、閾値の計算を行なうことにより、複数の
辞書でも1つの辞書と同等に扱っているのと同等の効果
を得ることが出来るためである。
を計算した後、閾値の計算を行なうことにより、複数の
辞書でも1つの辞書と同等に扱っているのと同等の効果
を得ることが出来るためである。
【図1】本発明の実施の形態を説明するための図であ
る。
る。
【図2】本発明の一実施例の構成を示す図である。
【図3】本発明の一実施例における閾値計算部の構成を
示す図である。
示す図である。
【図4】本発明の第二の実施例における閾値計算部の構
成を示す図である。
成を示す図である。
【図5】本発明の一実施例を説明するための図である。
【図6】従来の音声認識装置の構成を示す図である。
【図7】従来の音声認識装置の構成を示す図である。
【図8】従来の音声認識装置の構成を示す図である。
10、10−1、10−2、10A、10A−1、10
A−2 累積距離計算部 11、11−1、11−2 比較部 12、12−1、12−2 漸化式計算部 20 分析部 30 認識結果出力部部 40、40−1、40−2 辞書記億部 50 累積距離記億部 60 閾値計算部 70 閾値記億部 61、64 累積距離分析部 62、66 マージン制御部 63、66 計算部 67 閾値統合部
A−2 累積距離計算部 11、11−1、11−2 比較部 12、12−1、12−2 漸化式計算部 20 分析部 30 認識結果出力部部 40、40−1、40−2 辞書記億部 50 累積距離記億部 60 閾値計算部 70 閾値記億部 61、64 累積距離分析部 62、66 マージン制御部 63、66 計算部 67 閾値統合部
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 15/28 G10L 15/08 G10L 15/18
Claims (5)
- 【請求項1】音声認識を行なう前に予め用意された木構
造の辞書をそれぞれ記憶する複数の辞書記憶部に対応し
て、前記辞書記憶部の認識対象単語の情報と、発声に対
しフレーム毎に音声信号を分析し特徴ベクトルを出力す
る分析手段からの特徴ベクトルと、閾値と、前フレーム
の累積距離とを入力し、累積距離をそれぞれ出力する複
数の累積距離計算手段を備え、前記複数の辞書記憶部に対応して設けられる前記複数の
累積距離計算手段に対して1つ設けられており、 前記複
数の累積距離計算手段からそれぞれ出力される複数の累
積距離を入力し、前記複数の累積距離を用いて、前記複
数の累積距離計算手段にて次のフレームで計算する累積
距離の総量を適切に制御するような閾値を計算する閾値
計算手段であって、 前記複数の累積距離に共通する最小累積距離と、累積距
離の総数である累積距離数を求める累積距離分析手段
と、 累積距離数を用いて制御する数に応じたマージンを求め
るマージン制御手段と、 最小累積距離とマージンを用いて閾値を算出する計算手
段と、 を有する閾値計算手段を備え、複数の辞書の場合に、演
算量、メモリ量共に、辞書の数が1つの場合と累積距離
の計算の量が同等とされる、 ことを特徴とする音声認識
装置。 - 【請求項2】音声認識を行なう前に予め用意された木構
造の辞書をそれぞれ記憶する第1乃至第N(但しNは二
以上の所定数)の辞書記憶部と、 累積距離を記憶する累積距離記憶部と、 閾値を記憶する閾値記億部と、 発声に対しフレーム毎に音声信号を分析し特徴ベクトル
を出力する分析手段と、 前記累積距離記憶部に記憶されている第1乃至第Nの累
積距離と、前記閾値記憶部に記憶されている閾値と、を
用いて計算すべき累積距離を選択し、該選択された累積
距離を用い、前記特徴ベクトルと第1乃至第Nの辞書記
憶部にそれぞれ記憶されている認識対象単語の情報との
第1乃至第Nの累積距離をそれぞれ計算し前記累積距離
記憶部に出力する第1乃至第Nの累積距離計算手段と、 前記第1乃至第Nの累積距離を用いて、前記第1乃至第
Nの累積距離計算手段が次のフレームで計算する累積距
離の総量を適当に制御するような閾値を計算する閾値計
算手段であって、 前記第1乃至第Nの累積距離に共通する最小累積距離と
累積距離の総数である累積距離数を求める累積距離分析
手段と、 累積距離数を用いて制御する数に応じたマージンを求め
るマージン制御手段と、 最小累積距離とマージンを用いて閾値を算出する計算手
段と、 を有する閾値計算手段と、 前記累積距離記憶部に記憶されている前記第1乃至第N
の累積距離から認識結果を出力する認識結果出力手段
と、 を備えたことを特徴とする音声認識装置。 - 【請求項3】前記第1乃至第Nの累積距離計算手段が、
前記累積距離記憶部に記憶されている第1乃至第Nの累
積距離と、前記閾値記憶部に記憶されている閾値と、を
用いて計算すべき第1乃至第Nの累積距離を選択する第
1乃至第Nの比較手段と、 該選択された第1乃至第Nの累積距離を用い、前記特徴
ベクトルと、第1乃至第N辞書記憶部にそれぞれ記憶さ
れている認識対象単語の情報との第1乃至第N累積距離
をそれぞれ計算する第1乃至第Nの漸化式計算手段と、 を備えたことを特徴とする請求項2記載の音声認識装
置。 - 【請求項4】音声認識を行なう前に予め用意された木構
造の辞書をそれぞれ記憶する第1乃至第N(但しNは二
以上の所定数)の辞書記憶部と、 累積距離を記憶する累積距離記憶部と、 閾値を記憶する閾値記億部と、 発声に対しフレーム毎に音声信号を分析し特徴ベクトル
を出力する分析手段と 、 前記累積距離記憶部に記憶されている第1乃至第Nの累
積距離と、前記閾値記憶部に記憶されている閾値と、を
用いて計算すべき累積距離を選択し、該選択された累積
距離を用い、前記特徴ベクトルと第1乃至第Nの辞書記
憶部にそれぞれ記憶されている認識対象単語の情報との
第1乃至第Nの累積距離をそれぞれ計算し前記累積距離
記憶部に出力する第1乃至第Nの累積距離計算手段と、 前記第1乃至第Nの累積距離を用いて、前記第1乃至第
Nの累積距離計算手段が次のフレームで計算する累積距
離の総量を適当に制御するような閾値を計算する閾値計
算手段であって、 前記累積距離記億部に記憶されている
第1乃至第Nの累積距離をそれぞれ分析し、それぞれの
最小値である第1乃至第Nの最小累積距離、それぞれの
累積距離の総数である第1乃至第Nの累積距離数を求め
る第1乃至第Nの累積距離分析手段と、 第1乃至第Nの累積距離数から第1乃至第Nのマージン
を求める第1乃至第Nのマージン制御手段と、 第1乃至第Nの最小累積距離と第1乃至第Nのマージン
とから、それぞれ第1乃至第Nの閾値を求める第1乃至
第Nの計算手段と、 前記第1乃至第Nの閾値から適当な条件のものを選択し
て閾値として出力する閾値統合手段と、を備えて構成さ
れていることを特徴とする音声認識装置。 - 【請求項5】ビームサーチを用いる音声認識装置におい
て、音声認識を行なう前に予め用意された木構造の辞書
をそれぞれ記憶する第1乃至第Nの辞書記憶部と、 累積距離を記憶する累積距離記憶部と、 閾値を記憶する閾値記億部と、 を備え、 (a)前記累積距離記憶部に記憶されている第1乃至第
Nの累積距離と前記閾値記憶部に記憶されている閾値を
用いて計算すべき累積距離を選択し該選択された累積距
離を用い、フレーム毎に音声信号を分析し特徴ベクトル
を出力する分析部からの特徴ベクトルと第1乃至第N辞
書記憶部にそれぞれ記憶されている認識対象単語の情報
との第1乃至第N累積距離をそれぞれ計算し前記累積距
離記憶部に出力する第1乃至第Nの累積距離計算手段
と、 (b)前記第1乃至第Nの累積距離を用いて、前記第1
乃至第Nの累積距離計算手段が次のフレームで計算する
累積距離の総量を適当に制御するような閾値を計算する
閾値計算手段であって、 前記第1乃至第Nの累積距離に共通する最小累積距離
と、累積距離の総数である累積距離数を求める累積距離
分析手段と、 累積距離数を用いて制御する数に応じたマージンを求め
るマージン制御手段と、 最小累積距離とマージンを用いて閾値を算出する計算手
段と、を有する閾値計算手段と、を含む 閾値計算手段
と、 (c)前記累積距離記憶部に記憶されている前記第1乃
至第Nの累積距離から認識結果を出力する認識結果出力
手段と、 を備え、上記(a)乃至(d)の手段を音声認識装置を
構成するコンピュータ上で機能させるためのプログラム
を記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20257098A JP3252802B2 (ja) | 1998-07-17 | 1998-07-17 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20257098A JP3252802B2 (ja) | 1998-07-17 | 1998-07-17 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000035797A JP2000035797A (ja) | 2000-02-02 |
JP3252802B2 true JP3252802B2 (ja) | 2002-02-04 |
Family
ID=16459695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP20257098A Expired - Fee Related JP3252802B2 (ja) | 1998-07-17 | 1998-07-17 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3252802B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4104313B2 (ja) | 2001-10-03 | 2008-06-18 | 株式会社デンソー | 音声認識装置、プログラム及びナビゲーションシステム |
JP4623920B2 (ja) * | 2002-07-09 | 2011-02-02 | ソニー株式会社 | 類似度算出方法及び装置、並びにプログラム及び記録媒体 |
JP2010072081A (ja) * | 2008-09-16 | 2010-04-02 | Denso Corp | 音声認識用辞書作成装置 |
JP5465926B2 (ja) * | 2009-05-22 | 2014-04-09 | アルパイン株式会社 | 音声認識辞書作成装置及び音声認識辞書作成方法 |
-
1998
- 1998-07-17 JP JP20257098A patent/JP3252802B2/ja not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
日本音響学会講演論文集 平成9年3月 パート▲I▼ 53−54頁「ビームサーチを用いた大語彙音声認識方法の検討」 |
Also Published As
Publication number | Publication date |
---|---|
JP2000035797A (ja) | 2000-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3114975B2 (ja) | 音素推定を用いた音声認識回路 | |
US4718093A (en) | Speech recognition method including biased principal components | |
US6151575A (en) | Rapid adaptation of speech models | |
US4713778A (en) | Speech recognition method | |
US4713777A (en) | Speech recognition method having noise immunity | |
US5073939A (en) | Dynamic time warping (DTW) apparatus for use in speech recognition systems | |
EP0617827B1 (en) | Composite expert | |
US4718088A (en) | Speech recognition training method | |
US20130158999A1 (en) | Voice recognition apparatus and navigation system | |
US6038535A (en) | Speech classifier and method using delay elements | |
US6224636B1 (en) | Speech recognition using nonparametric speech models | |
US20170256253A1 (en) | Phonetic distance measurement system and related methods | |
KR101026632B1 (ko) | 포먼트 트랙킹 방법 및 컴퓨터 판독가능 기록 매체 | |
JP2980026B2 (ja) | 音声認識装置 | |
JP3252802B2 (ja) | 音声認識装置 | |
JP2898568B2 (ja) | 声質変換音声合成装置 | |
KR100510399B1 (ko) | 고정 코드북내의 최적 벡터의 고속 결정 방법 및 장치 | |
EP1369846A2 (en) | Speech synthesis | |
US6195638B1 (en) | Pattern recognition system | |
US6192336B1 (en) | Method and system for searching for an optimal codevector | |
JP3148322B2 (ja) | 音声認識装置 | |
JP3050180B2 (ja) | 音声認識装置 | |
EP0139642B1 (en) | Speech recognition methods and apparatus | |
US20060047506A1 (en) | Greedy algorithm for identifying values for vocal tract resonance vectors | |
JP2734828B2 (ja) | 確率演算装置及び確率演算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20011023 |
|
LAPS | Cancellation because of no payment of annual fees |