JP2969663B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP2969663B2 JP2969663B2 JP1206622A JP20662289A JP2969663B2 JP 2969663 B2 JP2969663 B2 JP 2969663B2 JP 1206622 A JP1206622 A JP 1206622A JP 20662289 A JP20662289 A JP 20662289A JP 2969663 B2 JP2969663 B2 JP 2969663B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- compressed
- compression
- power spectrum
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
【発明の詳細な説明】 〔産業上の利用分野〕 本発明は人の声を認識する音声認識装置に関する。
所定の情報を手作業によらずに、例えばコンピュータ
に入力することのできる装置として音声認識装置が開発
されている。
に入力することのできる装置として音声認識装置が開発
されている。
第4図は従来一般的に使用されている音声認識装置の
構成を示したものである。
構成を示したものである。
従来の音声認識装置は、供給される入力信号11を分析
して音声パワーPiと特徴パラメータaa iとを抽出する音
響分析部12を備えている。音声区間検出部13はこの音声
パワーPiに基づいて音声の区間を検出してパターン比較
部14に供給する。パターン比較部14は、この音声区間内
の音響分析部12から供給される特徴パラメータaa iと、
標準パターンメモリ16に記憶された各単語の標準パター
ンDD3とを比較して該当する単語の番号を出力するよう
になっている。ここで「i」は現時刻を示すフレーム番
号である。
して音声パワーPiと特徴パラメータaa iとを抽出する音
響分析部12を備えている。音声区間検出部13はこの音声
パワーPiに基づいて音声の区間を検出してパターン比較
部14に供給する。パターン比較部14は、この音声区間内
の音響分析部12から供給される特徴パラメータaa iと、
標準パターンメモリ16に記憶された各単語の標準パター
ンDD3とを比較して該当する単語の番号を出力するよう
になっている。ここで「i」は現時刻を示すフレーム番
号である。
このような従来の音声認識装置で、音声区間検出部12
は、音声パワーPPとしきい値TS1、TS2、TS3、TSおよびT
Eとを用いて音声の区間検出を行う。この音声区間の検
出は、音声の始端tsと終端teを次のようにして検出する
ことによって行われている。
は、音声パワーPPとしきい値TS1、TS2、TS3、TSおよびT
Eとを用いて音声の区間検出を行う。この音声区間の検
出は、音声の始端tsと終端teを次のようにして検出する
ことによって行われている。
音声の始端tsの検出は次の手順で行われる。
(i)TSフレーム区間内の音声パワーPiの総和PSを算出
し、この総和PSが次の第(1)式に示すように、しきい
値TS2以上となったときに(ii)以降の処理を行う。
し、この総和PSが次の第(1)式に示すように、しきい
値TS2以上となったときに(ii)以降の処理を行う。
(ii)(i)でPSを算出した区間内の各音声パワーP
の値がTS1より小さくなる時刻′を求め、始端tsを次
の第(2)式により算出する。
の値がTS1より小さくなる時刻′を求め、始端tsを次
の第(2)式により算出する。
音声の終端teの検出は次の手順で行われる。
(i)音声パワーPの値がTS3以下(Pi≦TS3)のとき
に(ii)以降の処理を行う。
に(ii)以降の処理を行う。
(ii)音声パワーPiがTS3以下となる区間が連続してTE
フレーム以上継続したとき、最初に音声パワーPがTS
3以下になった時刻を終端teとする。
フレーム以上継続したとき、最初に音声パワーPがTS
3以下になった時刻を終端teとする。
このようにして音声区間の始端tsと終端teが求まる
と、次のようにして音声の認識が行われる。
と、次のようにして音声の認識が行われる。
音声区間検出部13は、検出した始端tsと終端teとをパ
ターン比較部14に供給する。パターン比較部14は、音響
分析部12から送られてくる特徴パラメータ系列aa iから
始端tsと終端teの音声区間に存在する特徴パラメータ系
列を切り出し、入力パターンAAとする。ここでAAはベク
トルで、その要素は(aats、aats+1、……、aate)で
ある。パターン比較部14は、入力パターンAAと予め標準
パターンメモリ16に記憶されている全ての標準パターン
DDnとの照合を行い、それぞれの距離値を算出する。パ
ターン比較部14は、算出の結果、入力パターンAAとの距
離値が最小となった標準パターンDDnに対応する単語番
号nを外部に出力する。ここでDDnはベクトルで、その
要素は(dd1n、dd2n、……、ddJnn)である。Jnは単語
nの標準パターンの長さであり、nは標準パターンであ
る。
ターン比較部14に供給する。パターン比較部14は、音響
分析部12から送られてくる特徴パラメータ系列aa iから
始端tsと終端teの音声区間に存在する特徴パラメータ系
列を切り出し、入力パターンAAとする。ここでAAはベク
トルで、その要素は(aats、aats+1、……、aate)で
ある。パターン比較部14は、入力パターンAAと予め標準
パターンメモリ16に記憶されている全ての標準パターン
DDnとの照合を行い、それぞれの距離値を算出する。パ
ターン比較部14は、算出の結果、入力パターンAAとの距
離値が最小となった標準パターンDDnに対応する単語番
号nを外部に出力する。ここでDDnはベクトルで、その
要素は(dd1n、dd2n、……、ddJnn)である。Jnは単語
nの標準パターンの長さであり、nは標準パターンであ
る。
このように従来の音声認識装置では、音声区間の検出
を音声パワーPiに基づいて行っている。このため、音声
区間の前後に付加される雑音によっては音声区間の始端
tsと終端teを誤検出してしまうという欠点があった。
を音声パワーPiに基づいて行っている。このため、音声
区間の前後に付加される雑音によっては音声区間の始端
tsと終端teを誤検出してしまうという欠点があった。
第5図はその様子を示したものである。この図に示さ
れるように、実際に発せられた音声の語頭に第(1)式
を満足する雑音が付加されると、その雑音に従って始端
tsを誤検出してしまう。また、音声の語尾にしきい値TS
3より大きいパワーPiの雑音が付加されている場合に
も、この雑音に従って終端teを誤検出してしまう。
れるように、実際に発せられた音声の語頭に第(1)式
を満足する雑音が付加されると、その雑音に従って始端
tsを誤検出してしまう。また、音声の語尾にしきい値TS
3より大きいパワーPiの雑音が付加されている場合に
も、この雑音に従って終端teを誤検出してしまう。
このように音声区間の誤検出により標準パターンメモ
リ44に記憶されている全ての標準パターンとの距離値が
大きくなり、入力された音声は誤認識され、または認識
不能によりリジェクトされてしまう可能性があった。
リ44に記憶されている全ての標準パターンとの距離値が
大きくなり、入力された音声は誤認識され、または認識
不能によりリジェクトされてしまう可能性があった。
そこで本発明の目的は、雑音の存在に左右されずに音
声区間を正確に検出することができる音声認識装置を提
供することにある。
声区間を正確に検出することができる音声認識装置を提
供することにある。
本発明の音声認識装置は、(i)入力信号を分析して
特徴パラメータを抽出する音響分析手段と、(ii)認識
すべき単語のそれぞれについて予め抽出された特徴パラ
メータを標準パターンとして記憶した第1の記憶手段
と、(iii)音響分析手段で抽出された特徴パラメータ
からそのパワースペクトラムが最大である点を抽出して
圧縮パワースペクトラムを求めるスペクトラム圧縮手段
と、(iv)認識すべき単語のそれぞれについて予め求め
た圧縮パワースペクトラムを圧縮標準パターンとして記
憶する第2の記憶手段と、(v)スペクトラム圧縮手段
で圧縮パワースペクトラムが求められる各時刻を始端と
し、この始端から複数の所定時間長だけ離れた点を終端
とした各区間を設定する区間設定手段と、(vi)この区
間設定手段で設定されたそれぞれの区間に存在する圧縮
パワースペクトラムを、第2の記憶手段に記憶された全
ての圧縮標準パターンと比較し、その距離値が所定のし
きい値以下となる圧縮標準パターンの単語番号および、
比較された圧縮パワースペクトラムの始端と終端を出力
する圧縮パターン比較手段と、(vii)この圧縮パター
ン比較手段から供給される始端と終端で定まる区間に含
まれる音響分析手段で抽出された特徴パラメータと、圧
縮パターン比較手段から供給される単語番号nに対応す
る第1の記憶手段に記憶された標準パターンとの比較を
行い、その距離値が最小となる単語を認識結果として出
力するパターン比較手段とを具備している。
特徴パラメータを抽出する音響分析手段と、(ii)認識
すべき単語のそれぞれについて予め抽出された特徴パラ
メータを標準パターンとして記憶した第1の記憶手段
と、(iii)音響分析手段で抽出された特徴パラメータ
からそのパワースペクトラムが最大である点を抽出して
圧縮パワースペクトラムを求めるスペクトラム圧縮手段
と、(iv)認識すべき単語のそれぞれについて予め求め
た圧縮パワースペクトラムを圧縮標準パターンとして記
憶する第2の記憶手段と、(v)スペクトラム圧縮手段
で圧縮パワースペクトラムが求められる各時刻を始端と
し、この始端から複数の所定時間長だけ離れた点を終端
とした各区間を設定する区間設定手段と、(vi)この区
間設定手段で設定されたそれぞれの区間に存在する圧縮
パワースペクトラムを、第2の記憶手段に記憶された全
ての圧縮標準パターンと比較し、その距離値が所定のし
きい値以下となる圧縮標準パターンの単語番号および、
比較された圧縮パワースペクトラムの始端と終端を出力
する圧縮パターン比較手段と、(vii)この圧縮パター
ン比較手段から供給される始端と終端で定まる区間に含
まれる音響分析手段で抽出された特徴パラメータと、圧
縮パターン比較手段から供給される単語番号nに対応す
る第1の記憶手段に記憶された標準パターンとの比較を
行い、その距離値が最小となる単語を認識結果として出
力するパターン比較手段とを具備している。
すなわち本発明の音声認識装置は、入力信号の全ての
区間を音声区間と仮定する。この仮定した音声区間に存
在する特徴パラメータから求めた圧縮パワースペクトラ
ムによって、音声区間と単番号を推定する。そして、推
定されるこの音声区間の特徴パラメータと単語番号の標
準パターンから音声を認識するようにしたものである。
区間を音声区間と仮定する。この仮定した音声区間に存
在する特徴パラメータから求めた圧縮パワースペクトラ
ムによって、音声区間と単番号を推定する。そして、推
定されるこの音声区間の特徴パラメータと単語番号の標
準パターンから音声を認識するようにしたものである。
以下、実施例につき本発明を詳細に説明する。なお、
本明細書中において、表記aa、AA、bb、BB、CC、dd、D
D、EEおよびeeはベクトルを表示するものとする。
本明細書中において、表記aa、AA、bb、BB、CC、dd、D
D、EEおよびeeはベクトルを表示するものとする。
第1図は、本発明の一実施例における音声認識装置の
構成を示したものである。
構成を示したものである。
音声認識装置は供給される入力信号21から特徴パラメ
ータaa iを抽出してスペクトラム圧縮部22とパターン比
較部23に供給する音響分析部24を備えている。スペクト
ラム圧縮部22は、供給された特徴パラメータaa iからそ
のパワースペクトラムが最大となる点から圧縮パワース
ペクトラムbb iを求めて圧縮パターン比較部26に供給す
るようになっている。
ータaa iを抽出してスペクトラム圧縮部22とパターン比
較部23に供給する音響分析部24を備えている。スペクト
ラム圧縮部22は、供給された特徴パラメータaa iからそ
のパワースペクトラムが最大となる点から圧縮パワース
ペクトラムbb iを求めて圧縮パターン比較部26に供給す
るようになっている。
音声認識装置は、認識すべき単語のそれぞれについて
予め求めた圧縮パワースペクトラムを圧縮標準パターン
CCnとして格納した圧縮標準パターンメモリ27を備えて
いる。圧縮パターン比較部26は、入力信号21の全ての区
間を音声区間と仮定し、仮定した各区間に存在する圧縮
パワースペクトラムbb iと圧縮標準パターンCCnとの距
離値を求める。圧縮パターン比較部26は、求めた距離値
が所定のしきい値Dth以下となる単語の番号nと、比較
した区間の始端ts、終端teをパターン比較部23に供給す
る。しきい値Dthはしきい値レジスタ28に設定されてお
り、予め外部から所定の値を設定できるようになってい
る。
予め求めた圧縮パワースペクトラムを圧縮標準パターン
CCnとして格納した圧縮標準パターンメモリ27を備えて
いる。圧縮パターン比較部26は、入力信号21の全ての区
間を音声区間と仮定し、仮定した各区間に存在する圧縮
パワースペクトラムbb iと圧縮標準パターンCCnとの距
離値を求める。圧縮パターン比較部26は、求めた距離値
が所定のしきい値Dth以下となる単語の番号nと、比較
した区間の始端ts、終端teをパターン比較部23に供給す
る。しきい値Dthはしきい値レジスタ28に設定されてお
り、予め外部から所定の値を設定できるようになってい
る。
パターン比較部23は、この始端tsと終端teの区間に存
在する音響分析部24から供給された特徴パラメータaa i
と、パターン比較部23から供給される単語番号nに該当
する標準パターンEEnとを比較してその距離値を求め
る。パターン比較部23は、求めた距離値が最小となる標
準パターンに対応する単語を認識結果として出力するよ
うになっている。標準パターンEEnは、認識すべき単語
のそれぞれについて予め抽出された特徴パラメータの系
列で構成され、標準パターンメモリ29に格納されてい
る。
在する音響分析部24から供給された特徴パラメータaa i
と、パターン比較部23から供給される単語番号nに該当
する標準パターンEEnとを比較してその距離値を求め
る。パターン比較部23は、求めた距離値が最小となる標
準パターンに対応する単語を認識結果として出力するよ
うになっている。標準パターンEEnは、認識すべき単語
のそれぞれについて予め抽出された特徴パラメータの系
列で構成され、標準パターンメモリ29に格納されてい
る。
次に、このように構成された音声認識装置の動作につ
いて説明する。
いて説明する。
入力信号21が供給されると、音声分析部24はその信号
を分析して特徴パラメータaa iを抽出し、スペクトラム
圧縮部22とパターン比較部23にこれを供給する。
を分析して特徴パラメータaa iを抽出し、スペクトラム
圧縮部22とパターン比較部23にこれを供給する。
スペクトラム圧縮部22は、供給された特徴パラメータ
aa iからパワースペクトラムxx iの各要素の最大値xirm
axを求める。ここでパワースペクトラムxx iはベクトル
で、その要素は(xi1、xi2、……、xi r、……、xiR)
であり、Rは次元数である。スペクトラム圧縮部22は、
パワースペクトラムxx iの最大値xirmaxを“1"とし、そ
れ以外の全ての要素を“0"として圧縮パワースペクトラ
ムbb iを求める。この圧縮パワースペクトラムbb iは圧
縮パターン比較部26に供給される。
aa iからパワースペクトラムxx iの各要素の最大値xirm
axを求める。ここでパワースペクトラムxx iはベクトル
で、その要素は(xi1、xi2、……、xi r、……、xiR)
であり、Rは次元数である。スペクトラム圧縮部22は、
パワースペクトラムxx iの最大値xirmaxを“1"とし、そ
れ以外の全ての要素を“0"として圧縮パワースペクトラ
ムbb iを求める。この圧縮パワースペクトラムbb iは圧
縮パターン比較部26に供給される。
圧縮パターン比較部26は、圧縮パワースペクトラムbb
iの系列の現時刻iを始端tsとし、それから所定の時間
長L1およびL2(L1>L2)離れた点l1、l2(ts>l1>l2)
を設定し、始端tsとl1からl2の間に複数の区間を仮定す
る。ここでL1とL2は次の式によって決定する。
iの系列の現時刻iを始端tsとし、それから所定の時間
長L1およびL2(L1>L2)離れた点l1、l2(ts>l1>l2)
を設定し、始端tsとl1からl2の間に複数の区間を仮定す
る。ここでL1とL2は次の式によって決定する。
ただし、Jnは圧縮標準パターンCCnのパターン長、max
〔Jn〕はJnの最大値を与える関数、min〔Jn〕はJnの最
小値を与える関数、nは単語番号を示す1からNまでの
自然数、Nは単語数、Wは整合窓の幅をそれぞれ示して
いる。整合窓の幅wは、極端な対応対を防止するための
ものである。
〔Jn〕はJnの最大値を与える関数、min〔Jn〕はJnの最
小値を与える関数、nは単語番号を示す1からNまでの
自然数、Nは単語数、Wは整合窓の幅をそれぞれ示して
いる。整合窓の幅wは、極端な対応対を防止するための
ものである。
圧縮パターン比較部26は、L1、L2で仮定された複数の
区間に含まれるそれぞれの圧縮パターン系列BB()
と、圧縮標準パターンメモリ14に記憶されている全ての
圧縮標準パターンCCnとの距離値D(BB()、CCn)を
算出する。圧縮標準パターン系列BB()はベクトル
で、その要素は(bb、bb+1、……bbts)である。
は、l1とl2の区間内に仮定した時刻である。
区間に含まれるそれぞれの圧縮パターン系列BB()
と、圧縮標準パターンメモリ14に記憶されている全ての
圧縮標準パターンCCnとの距離値D(BB()、CCn)を
算出する。圧縮標準パターン系列BB()はベクトル
で、その要素は(bb、bb+1、……bbts)である。
は、l1とl2の区間内に仮定した時刻である。
距離値D(BB()、CCn)は次のようにして求め
る。
る。
圧縮パターン系列BB()と圧縮標準パターンCCnと
の照合は、第2図に示すように圧縮標準パターンCCnを
一定時間伸縮しながら点Sから点Tの方向にマッチング
を行い、パターン間の距離値D(BB()、CCn)を算
出する。
の照合は、第2図に示すように圧縮標準パターンCCnを
一定時間伸縮しながら点Sから点Tの方向にマッチング
を行い、パターン間の距離値D(BB()、CCn)を算
出する。
ここで、j=j(i)は歪み関数(warpingfunctio
n)で、圧縮標準パターンCCnの時間軸を変換して圧縮パ
ターン系列BB()の時間軸iにそろえるための関数で
ある。jは圧縮標準パターンCCnの時刻を示し、圧縮標
準パターンメモリCCnは次の第(5)式で表わされる。
n)で、圧縮標準パターンCCnの時間軸を変換して圧縮パ
ターン系列BB()の時間軸iにそろえるための関数で
ある。jは圧縮標準パターンCCnの時刻を示し、圧縮標
準パターンメモリCCnは次の第(5)式で表わされる。
CCn=CC1n、CC2n、……、CC jn、……、CCJnn ……
(5) CC jnは時刻jにおける圧縮パワースペクトラム、Jn
は圧縮標準パターンCCnのパターン長である。
(5) CC jnは時刻jにおける圧縮パワースペクトラム、Jn
は圧縮標準パターンCCnのパターン長である。
この圧縮標準パターンCCnは、歪関数j(i)によっ
て次の第(6)式に示すパターンCCn′に変換される。
て次の第(6)式に示すパターンCCn′に変換される。
CCn′=CCj(1)n、CCj(2)n、 ……、CCj(i)n、……、 CCj()n ……(6) 第(4)式に示されるj(i)には、実際の音声の時
間歪み現象から次の制約を与えることができる。
間歪み現象から次の制約を与えることができる。
また第(4)式の、d(i、j)はbb iとCC jnとの
ベクトル間距離を示し、次の式で算出される。
ベクトル間距離を示し、次の式で算出される。
ただし、rはbb iとCC jnの要素番号を示す1からR
までの自然数、Rは要素数、birはbb iの第r番目の要
素、Cj rnはCC jnの第r番目の要素をそれぞれ示す。
までの自然数、Rは要素数、birはbb iの第r番目の要
素、Cj rnはCC jnの第r番目の要素をそれぞれ示す。
第(4)式の計算は、最小化する目的関数が加法的に
なるので、以下に説明するように、最小化はダイナミッ
クプログラミング(動的計画法)の手法により、漸化式
の計算となる。
なるので、以下に説明するように、最小化はダイナミッ
クプログラミング(動的計画法)の手法により、漸化式
の計算となる。
初期条件は次の第(9)式による。
g(ts、Jn)=d(ts、Jn) ……(9) 漸化式は次の第(10)式による。
パターン間の距離値は次の第(11)式による。
圧縮パターン比較部26は、第(4)式によって算出し
た全ての距離値D(BB()、CCn)からしきい値レジ
スタ28に設定されているしきい値Dth以下となる全ての
時刻および単語番号nを求める。圧縮パターン比較部
26はこの時刻を終端teとし、始端tsと単語番号nと共
にパターン比較部23に供給する。
た全ての距離値D(BB()、CCn)からしきい値レジ
スタ28に設定されているしきい値Dth以下となる全ての
時刻および単語番号nを求める。圧縮パターン比較部
26はこの時刻を終端teとし、始端tsと単語番号nと共
にパターン比較部23に供給する。
パターン比較部23は、この始端tsと終端teで定まる区
間に存在する音響分析部24から供給された特徴パラメー
タaa iの系列を切り出し、入力パターンAAを作成する。
入力パターンAAはベクトルで、その要素は(aats、aats
+1、……、aate)である。パターン比較部23は、圧縮
パターン比較部26から供給される単語番号nの標準パタ
ーンEEnを標準パターンメモリ29から読み出し、これと
入力パターンAAとのパターン間の距離値D(AA、EEn)
を算出する。パターン比較部23は、圧縮パターン比較部
26から供給される全ての始端ts、終端te、単語番号nに
基づいて距離値D(AA、EEn)を算出し、その値が最小
となる単語番号nを音声の認識結果として出力する。
間に存在する音響分析部24から供給された特徴パラメー
タaa iの系列を切り出し、入力パターンAAを作成する。
入力パターンAAはベクトルで、その要素は(aats、aats
+1、……、aate)である。パターン比較部23は、圧縮
パターン比較部26から供給される単語番号nの標準パタ
ーンEEnを標準パターンメモリ29から読み出し、これと
入力パターンAAとのパターン間の距離値D(AA、EEn)
を算出する。パターン比較部23は、圧縮パターン比較部
26から供給される全ての始端ts、終端te、単語番号nに
基づいて距離値D(AA、EEn)を算出し、その値が最小
となる単語番号nを音声の認識結果として出力する。
以上説明した実施例において、始端と終端を固定して
第(4)式により距離値を計算したが、第3図に示すよ
うに終端を1から2の範囲で開放して求めてもよ
い。この場合には、1から2の範囲に仮定したパタ
ーンと圧縮標準パターンとのパターン間の距離を1回の
計算で全て求めることが可能となる。
第(4)式により距離値を計算したが、第3図に示すよ
うに終端を1から2の範囲で開放して求めてもよ
い。この場合には、1から2の範囲に仮定したパタ
ーンと圧縮標準パターンとのパターン間の距離を1回の
計算で全て求めることが可能となる。
このように本発明の音声認識装置は、予め抽出した認
識すべき単語の圧縮パワースペクトラムと、入力信号の
全ての区間を音声区間と仮定して抽出した圧縮パワース
ペクトラムとを比較して音声区間と単語番号を求めるこ
ととしたので、音声の語頭や語尾に発声レベルと同等な
パワーの雑音が付加されても音声区間を正確に切り出す
ことができる。従って、高騒音下でも高い認識性能を有
する音声認識装置を提供することができる。また、圧縮
パワースペクトラムを用いて音声区間を推定しているの
で、圧縮しないパワースペクトラムを用いた場合に比べ
て演算量を減らすことができる。
識すべき単語の圧縮パワースペクトラムと、入力信号の
全ての区間を音声区間と仮定して抽出した圧縮パワース
ペクトラムとを比較して音声区間と単語番号を求めるこ
ととしたので、音声の語頭や語尾に発声レベルと同等な
パワーの雑音が付加されても音声区間を正確に切り出す
ことができる。従って、高騒音下でも高い認識性能を有
する音声認識装置を提供することができる。また、圧縮
パワースペクトラムを用いて音声区間を推定しているの
で、圧縮しないパワースペクトラムを用いた場合に比べ
て演算量を減らすことができる。
第1図〜第3図は本発明の一実施例を説明するためのも
ので、このうち第1図は音声認識装置の構成図、第2図
は仮定した所定の音声区間と圧縮標準パターンとの照合
方法を説明する説明図、第3図は仮定した音声区間の始
端のみ固定して照合する方法を説明する説明図、第4図
は従来の音声認識装置の構成図、第5図は従来の音声認
識装置で雑音による音声区間の語検出する様子を示した
状態図である。 22……スペクトラム圧縮部、 23……パターン比較部、24……音響分析部、 26……圧縮パターン比較部、 27……圧縮標準パターンメモリ、 28……しきい値レジスタ、 29……標準パターンメモリ。
ので、このうち第1図は音声認識装置の構成図、第2図
は仮定した所定の音声区間と圧縮標準パターンとの照合
方法を説明する説明図、第3図は仮定した音声区間の始
端のみ固定して照合する方法を説明する説明図、第4図
は従来の音声認識装置の構成図、第5図は従来の音声認
識装置で雑音による音声区間の語検出する様子を示した
状態図である。 22……スペクトラム圧縮部、 23……パターン比較部、24……音響分析部、 26……圧縮パターン比較部、 27……圧縮標準パターンメモリ、 28……しきい値レジスタ、 29……標準パターンメモリ。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI G10L 9/06 G10L 9/06 B (56)参考文献 特開 昭61−133995(JP,A) 特開 昭61−233797(JP,A) 特開 昭57−161900(JP,A) 特開 昭62−100799(JP,A) 特開 昭59−93499(JP,A) 特開 昭60−181799(JP,A) 特開 昭63−291100(JP,A) 特開 昭57−53799(JP,A) 特開 昭53−63802(JP,A) 特開 昭62−279400(JP,A) 特公 平1−17159(JP,B2) 特公 昭56−13955(JP,B2) 昭和63年電子情報通信学会秋季全国大 会,「B−339 産業用音声認識ボード」 p.B−2−217 (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 - 9/20 JICST科学技術技術ファイル
Claims (1)
- 【請求項1】入力信号を分析して特徴パラメータを抽出
する音響分析手段と、 認識すべき単語のそれぞれについて予め抽出された特徴
パラメータを標準パターンとして記憶した第1の記憶手
段と、 前記音響分析手段で抽出された特徴パラメータからその
パワースペクトラムが最大である点を抽出して圧縮パワ
ースペクトラムを求めるスペクトラム圧縮手段と、 認識すべき単語のそれぞれについて予め求めた圧縮パワ
ースペクトラムを圧縮標準パターンとして記憶する第2
の記憶手段と、 前記スペクトラム圧縮手段で圧縮パワースペクトラムが
求められる各時刻を始端とし、この始端から複数の所定
時間長だけ離れた点を終端とした各区間を設定する区間
設定手段と、 この区間設定手段で設定されたそれぞれの区間に存在す
る圧縮パワースペクトラムを、前記第2の記憶手段に記
憶された全ての圧縮標準パターンと比較し、その距離値
が所定のしきい値以下となる圧縮標準パターンの単語番
号および、比較された圧縮パワースペクトラムの始端と
終端を出力する圧縮パターン比較手段と、 この圧縮パターン比較手段から供給される始端と終端で
定まる区間に含まれる前記音響分析手段で抽出された特
徴パラメータと、前記圧縮パターン比較手段から供給さ
れる単語番号nに対応する前記第1の記憶手段に記憶さ
れた標準パターンとの比較を行い、その距離値が最小と
なる単語を認識結果として出力するパターン比較手段 とを具備することを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1206622A JP2969663B2 (ja) | 1989-08-11 | 1989-08-11 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1206622A JP2969663B2 (ja) | 1989-08-11 | 1989-08-11 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0371200A JPH0371200A (ja) | 1991-03-26 |
JP2969663B2 true JP2969663B2 (ja) | 1999-11-02 |
Family
ID=16526426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1206622A Expired - Lifetime JP2969663B2 (ja) | 1989-08-11 | 1989-08-11 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2969663B2 (ja) |
-
1989
- 1989-08-11 JP JP1206622A patent/JP2969663B2/ja not_active Expired - Lifetime
Non-Patent Citations (1)
Title |
---|
昭和63年電子情報通信学会秋季全国大会,「B−339 産業用音声認識ボード」p.B−2−217 |
Also Published As
Publication number | Publication date |
---|---|
JPH0371200A (ja) | 1991-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0077194B1 (en) | Speech recognition system | |
US4918735A (en) | Speech recognition apparatus for recognizing the category of an input speech pattern | |
US5692097A (en) | Voice recognition method for recognizing a word in speech | |
US4881266A (en) | Speech recognition system | |
JPH09325790A (ja) | 音声処理方法および装置 | |
JP2808906B2 (ja) | 音声認識装置 | |
JP3069531B2 (ja) | 音声認識方法 | |
JP2969663B2 (ja) | 音声認識装置 | |
JP2975772B2 (ja) | 音声認識装置 | |
JP3474949B2 (ja) | 音声認識装置 | |
JP2997007B2 (ja) | 音声パターンマッチング方法 | |
JP2666296B2 (ja) | 音声認識装置 | |
JP2966460B2 (ja) | 音声切り出し方法及び音声認識装置 | |
JPS59105697A (ja) | 音声認識装置 | |
JPH09127982A (ja) | 音声認識装置 | |
JPH0754434B2 (ja) | 音声認識装置 | |
JPS6131880B2 (ja) | ||
JPS63278100A (ja) | 音声認識装置 | |
JP3439602B2 (ja) | 音声認識装置 | |
JPS62255999A (ja) | 単語音声認識装置 | |
JP2901976B2 (ja) | パターン照合予備選択方式 | |
JP3008404B2 (ja) | 音声認識装置 | |
JPS59189398A (ja) | 連続音声認識方式 | |
JPS58159598A (ja) | 単音節音声認識方式 | |
JPS59211098A (ja) | 音声認識装置 |