JPH0585918B2 - - Google Patents
Info
- Publication number
- JPH0585918B2 JPH0585918B2 JP58143181A JP14318183A JPH0585918B2 JP H0585918 B2 JPH0585918 B2 JP H0585918B2 JP 58143181 A JP58143181 A JP 58143181A JP 14318183 A JP14318183 A JP 14318183A JP H0585918 B2 JPH0585918 B2 JP H0585918B2
- Authority
- JP
- Japan
- Prior art keywords
- syllable
- vowel
- word
- pattern
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 239000013598 vector Substances 0.000 claims description 21
- 230000001186 cumulative effect Effects 0.000 claims 1
- 238000000034 method Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241001417093 Moridae Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Description
産業上の利用分野
本発明は音声認識装置、特に単音節音声を認識
することにより、任意の文章の入力が可能な音声
認識装置に関する。 従来例の構成とその問題点 人間にとつて最も自然な情報発生手段である音
声が、人間−機械系の入力手段として使用できれ
ば、その効果は非常に大きい。 従来、音声認識装置としては特定話者登録方式
によるものが実用化されている。即ち、認識装置
を使用しようとする話者が、予め、認識すべきす
べての単語を自分の声で特徴ベクトルの系列に変
換し単語辞書に標準パターンとして登録してお
き、認識時に発声された音声を、同様に特徴ベク
トルの系列に変換し、前記単語辞書中のどの単語
に最も近いかを予め定められた規則によつて計算
し、最も類似している単語を認識結果とするもの
である。 ところが、この方法によると、認識単語数が少
いときは良いが、数百、数千単語といつたように
増加してくると、主として次の三つの問題が無視
し得なくなる。 (1) 登録時における話者の負担が著しく増大す
る。 (2) 認識時に発声された音声と標準パターンとの
類似度あるいは距離を計算するのに要する時間
が著しく増大し、認識装置の応答速度が遅くな
る。 (3) 前記単語辞書のために要するメモリが非常に
大きくなる。 以上の欠点を回避するための方法として認識の
単位を子音+母音および母音の単音節(以後それ
ぞれCV,Vで表す。Cは子音、Vは母音を意味
する。)とする方法がある。即ち、標準パターン
として単音節を特徴ベクトルの系列として登録し
ておき、認識時に特徴ベクトルの系列に変換され
た入力音声を、前記単音節の標準パターンとマツ
チングすることにより、単音節の系列に変換する
ものである。日本語の場合、単音節はたかだか
101種類であり、単音節は仮名文字に対応してい
るから、この方法によれば、日本語の任意の単語
あるいは文章を単音節列に変換する(認識する)
ことができ、前記(1)〜(3)の問題はすべて解決され
ることになる。しかし、この場合の問題として調
音結合とセグメンテーシヨンがある。調音結合
は、音節を連続して発声すると各音節は前後の音
節の影響を受け、スペクトル構造が前後に接続さ
れる音節によつて変化する現象である。セグメン
テーシヨンは、連続して発声された音声を単音節
単位に区切ることであるが、これを確実に行うの
は現在の技術では困難である。この2つの問題を
解決するために、現在のところ各単音節を区切つ
て、発声することが行われており、実用化されて
いる装置もある。 第1図は単音節音声認識をパターンマツチング
で行う装置の一般的な構成である。1は音声信号
の入力端子である。2は特徴抽出部であつて、入
力音声信号を、フイルタバンクやFET,LPCな
どにより分析し、数ミリ秒毎に特徴ベクトルの系
列A=a1,a2……ai……aIに変換する。3は標準
パターン記憶部であつて予め認識すべき単音節音
声を同様な手段によつて特徴ベクトルの系列に変
換したものを各音節に対する標準パターンRn=
bn 1bn 2……bn j……bn Jo(ただし、n=1,2,……,
N;Nは標準パターンの数)として記憶する部分
である。4はパターン比較部であつて、特徴抽出
部2の出力である入力パターンAと、標準パター
ン記憶部3に記憶されている夫々の標準パターン
Rnを比較し、両者の距離D(A,Rn)を算出す
る。5は判定部であつて、 n^= min n〔D(A,Rn)〕 により、入力パターンに最も近い標準パターン
Roを判定する。6は判定結果を単音節認識結果
として出力する出力端子である。パターン比較部
4におけるパターン比較は、動的計画法を用いた
所謂DPマツチングや線形シフトマツチング等が
よく用いられる。また、先ず母音を認識して候補
母音段を決定してから、その母音段に属する標準
パターンを用いて子音部を認識することにより、
認識率とマツチングの速度を向上させているので
一般的である。 しかし、単音節音声は、持続時間が短かく、
「シ」、「チ」等子音部の微妙な差によつて区別し
なければならないものが多く、単語音声のように
高い認識率を得るのが困難である。 この問題を解決するために、単語辞書を用いる
方法が考えられている。第2図はその例である。
同図において、第1図と同一の番号を付したブロ
ツクは、第1図と同一の動作を行う。7は単語辞
書で、認識すべき単語Wl(l=1,2,……,
L;Lは登録単語数)が単音節に対応する記号列
Wl=Cl 1Cl 2……Cl k……Cl Kl(Cl kは単語Wlのk番目の
音節)として記憶されている。8は単語比較部で
あつて、入力単音節列T=A1A2……An……AM
(Mは入力単語の音節数)であるとき、入力単語
の音節数に等しい音節数の単語辞書7に記憶され
ている単語Wl′=Cl′=Cl′1Cl′2……Cl′M(Wl′は
音節数
Mの単語)に対し、パターン比較部4で算出され
た距離D(An,Cl′n)から各l′について DW(T,Wl′)=M 〓m=1 D(An,Cl′n) を算出する。9は判定部であつて、 l^′= min l′〔T(S,Wl′)〕 なるl^′を求め、Wl′を認識単語と判定する。10
は認識された単語を出力する出力端子である。 以上のように、単語辞書の知識を用いれば認識
率は向上する。またワードプロセサへの入力を考
えるとき、前記単語辞書は仮名漢字変換を行うた
めの辞書を共用することができ、単語辞書は音声
認識用として特別に準備する必要はない。 しかし、単語辞書の単語数は通常3万以上にも
および、単語比較部8における計算量が無視でき
なくなる。 発明の目的 本発明は、単語辞書を用いて、単音節の認識率
の向上を図つた単音節音声認識装置に関し、より
詳細には、単語辞書とのマツチングの速度を向上
せしめたことを特徴とする音声認識装置に関す
る。 発明の構成 本発明は、入力音声信号を特徴ベクトルの系列
に変換する手段と、入力音声信号を音節毎に区切
る手段と、前記特徴ベクトルの系列から前記各音
節の後続母音を認識する手段と、前記後続母音列
と同じ後続母音列を有する単語あるいは文節の音
節列を記号列として得る手段と、前記記号列と前
記入力音声信号から得られた音節列とをマツチン
グする手段と、このマツチングの結果、前記入力
音声信号に最も近い前記単語あるいは文節を前記
入力音声に対応する認識結果と判定する判定手段
とを備えた音声認識装置である。 本発明の基本的な考え方について、以下、説明
する。 単音節音声の認識において、母音の認識はほぼ
確実に行われる。従つて、入力単音節CVまたは
V(Cは子音、Vは母音)の後続母音の系列がV1
V2……VMであつたとき、照合すべき単語辞書の
単語として、その単語を構成する単音節の後続母
音の系列がV1V2……VMとなる単語のみを選べば
よいことになる。例えば、入力単音節列の後続母
音が|o||o||a||a|であつたとすれ
ば、照合すべき単語としては「oosaka」
「toyonaka」……等が選ばれることになる。 このようにすると、例えば、4音節の単語の場
合、母音の出現確率が等しいとすれば、ある特定
の母音列の生ずる確率は(1/5)4=1/625となり4
音節の単語が1万語あるとすれば、ある特定の母
音列に対応する4音節語は16語となり、実際に比
較計算をしなければならない単語は激減する。余
裕をみて、第2候補の母音も勘定に入れるとして
も(2/5)4≒1/39となり、同様に4音節の単語が
1万語あるとすれば、比較計算をすべき4音節語
は256語となり、大幅に減少する。さらに促音や
撥音も上記母音同様に処理することにすれば、さ
らに比較計算を減少させることができる。これら
母音や促音、撥音等の認識はほぼ完全に行われる
ので、計算量の減少のみでなく認識率自体も向上
する。 実施例の説明 第3図は本発明の一実施例の音声認識装置の構
成を示すブロツク図である。11は音声信号の入
力端子で、単音節の連鎖として単語が入力され
る。12は従来例において説明したと同様の特徴
抽出部であつて、前記の如く入力音声を特徴ベク
トルの系列に変換する。13はパワー計算部であ
つて、特徴抽出部12の出力ベクトル系列をa1a2
……ai……aIとするとき、第iフレームのパワー
Piは、例えばai=(ai1,ai2,……,ai〓)とすれば、
Pi=√i1 2+i2 2+……+i〓2として求められ得る
。
14は音節区間検出部であつて、パワー計算部1
3の出力から、入力音声を音節毎に区切り各音節
の開始フレームと終了フレームとを検出する。第
4図はその例であつて、パワーが閾値29を越える
時点を音節の開始フレーム、閾値29以下になる時
点を音節の終了フレームとし、閾値29以上の区間
を音節の存在区間とする。また閾値29以下の区間
が一定値tc以上あるときは、その区間を促音とみ
なす。同図は「sapporo」と発声したときの様子
を示すもので、Qは促音を意味する。15は音節
数計数部であつて、促音も一音節とみなして音節
数(従つてモーラ数)を計数する。16は母音標
準パターン記憶部であつて、母音|a|,|i|,
|v|,|e|,|o|および撥音|N|の標準パ
ターンが予め登録されている。17は母音フレー
ム検出部であつて、音節区間検出部14で検出さ
れた各音節の開始、終了フレームと特徴抽出部1
2で抽出された特徴ベクトルの系列から母音に相
当するフレーム位置を検出する。母音部は定常で
あるから、求めるべきフレームは、第i−rフレ
ームから第i+rフレーム(rは定数)までの特
徴ベクトルの各成分の分散の総和が極小となるフ
レームiとして検出することができる。即ち、第
iフレームの入力の特徴ベクトルをai=(ai1,ai2,
……,aij,……,ai〓)とするとき mij=1/2r+1i+r 〓k=i-r akj vi=〓 〓l=1 i+r 〓k=i-r (aoj−mij)2 において、各単音節の最終フレームから逆にviを
求めてゆき、viが極小になつたフレームを母音定
常部中心フレームとすることができる。18はバ
ツフアメモリであつて、単音節毎に特徴抽出部1
2で抽出された特徴ベクトルの系列を音声区間検
出部14で検出された単音節開始フレームから終
了フレームまでにわたつて記憶する。19は母音
パターン比較部であつて、母音フレーム検出部1
7で検出されたフレームに対応する特徴ベクトル
をバツフアメモリ18から読み出し、母音標準パ
ターン記憶部16の各母音標準パターンと比較を
行いそれぞれに対する距離を算出する。例えば、
ai=(ai1,ai2,……,ai〓)が入力単音節の母音フ
レームに対応する特徴ベクトルであるとき、ν番
目の母音標準パターン(撥音も含む)v〓=(v〓1,
v〓2,……,v〓〓)(ただし、ν=1,2,……,)
との距離は
することにより、任意の文章の入力が可能な音声
認識装置に関する。 従来例の構成とその問題点 人間にとつて最も自然な情報発生手段である音
声が、人間−機械系の入力手段として使用できれ
ば、その効果は非常に大きい。 従来、音声認識装置としては特定話者登録方式
によるものが実用化されている。即ち、認識装置
を使用しようとする話者が、予め、認識すべきす
べての単語を自分の声で特徴ベクトルの系列に変
換し単語辞書に標準パターンとして登録してお
き、認識時に発声された音声を、同様に特徴ベク
トルの系列に変換し、前記単語辞書中のどの単語
に最も近いかを予め定められた規則によつて計算
し、最も類似している単語を認識結果とするもの
である。 ところが、この方法によると、認識単語数が少
いときは良いが、数百、数千単語といつたように
増加してくると、主として次の三つの問題が無視
し得なくなる。 (1) 登録時における話者の負担が著しく増大す
る。 (2) 認識時に発声された音声と標準パターンとの
類似度あるいは距離を計算するのに要する時間
が著しく増大し、認識装置の応答速度が遅くな
る。 (3) 前記単語辞書のために要するメモリが非常に
大きくなる。 以上の欠点を回避するための方法として認識の
単位を子音+母音および母音の単音節(以後それ
ぞれCV,Vで表す。Cは子音、Vは母音を意味
する。)とする方法がある。即ち、標準パターン
として単音節を特徴ベクトルの系列として登録し
ておき、認識時に特徴ベクトルの系列に変換され
た入力音声を、前記単音節の標準パターンとマツ
チングすることにより、単音節の系列に変換する
ものである。日本語の場合、単音節はたかだか
101種類であり、単音節は仮名文字に対応してい
るから、この方法によれば、日本語の任意の単語
あるいは文章を単音節列に変換する(認識する)
ことができ、前記(1)〜(3)の問題はすべて解決され
ることになる。しかし、この場合の問題として調
音結合とセグメンテーシヨンがある。調音結合
は、音節を連続して発声すると各音節は前後の音
節の影響を受け、スペクトル構造が前後に接続さ
れる音節によつて変化する現象である。セグメン
テーシヨンは、連続して発声された音声を単音節
単位に区切ることであるが、これを確実に行うの
は現在の技術では困難である。この2つの問題を
解決するために、現在のところ各単音節を区切つ
て、発声することが行われており、実用化されて
いる装置もある。 第1図は単音節音声認識をパターンマツチング
で行う装置の一般的な構成である。1は音声信号
の入力端子である。2は特徴抽出部であつて、入
力音声信号を、フイルタバンクやFET,LPCな
どにより分析し、数ミリ秒毎に特徴ベクトルの系
列A=a1,a2……ai……aIに変換する。3は標準
パターン記憶部であつて予め認識すべき単音節音
声を同様な手段によつて特徴ベクトルの系列に変
換したものを各音節に対する標準パターンRn=
bn 1bn 2……bn j……bn Jo(ただし、n=1,2,……,
N;Nは標準パターンの数)として記憶する部分
である。4はパターン比較部であつて、特徴抽出
部2の出力である入力パターンAと、標準パター
ン記憶部3に記憶されている夫々の標準パターン
Rnを比較し、両者の距離D(A,Rn)を算出す
る。5は判定部であつて、 n^= min n〔D(A,Rn)〕 により、入力パターンに最も近い標準パターン
Roを判定する。6は判定結果を単音節認識結果
として出力する出力端子である。パターン比較部
4におけるパターン比較は、動的計画法を用いた
所謂DPマツチングや線形シフトマツチング等が
よく用いられる。また、先ず母音を認識して候補
母音段を決定してから、その母音段に属する標準
パターンを用いて子音部を認識することにより、
認識率とマツチングの速度を向上させているので
一般的である。 しかし、単音節音声は、持続時間が短かく、
「シ」、「チ」等子音部の微妙な差によつて区別し
なければならないものが多く、単語音声のように
高い認識率を得るのが困難である。 この問題を解決するために、単語辞書を用いる
方法が考えられている。第2図はその例である。
同図において、第1図と同一の番号を付したブロ
ツクは、第1図と同一の動作を行う。7は単語辞
書で、認識すべき単語Wl(l=1,2,……,
L;Lは登録単語数)が単音節に対応する記号列
Wl=Cl 1Cl 2……Cl k……Cl Kl(Cl kは単語Wlのk番目の
音節)として記憶されている。8は単語比較部で
あつて、入力単音節列T=A1A2……An……AM
(Mは入力単語の音節数)であるとき、入力単語
の音節数に等しい音節数の単語辞書7に記憶され
ている単語Wl′=Cl′=Cl′1Cl′2……Cl′M(Wl′は
音節数
Mの単語)に対し、パターン比較部4で算出され
た距離D(An,Cl′n)から各l′について DW(T,Wl′)=M 〓m=1 D(An,Cl′n) を算出する。9は判定部であつて、 l^′= min l′〔T(S,Wl′)〕 なるl^′を求め、Wl′を認識単語と判定する。10
は認識された単語を出力する出力端子である。 以上のように、単語辞書の知識を用いれば認識
率は向上する。またワードプロセサへの入力を考
えるとき、前記単語辞書は仮名漢字変換を行うた
めの辞書を共用することができ、単語辞書は音声
認識用として特別に準備する必要はない。 しかし、単語辞書の単語数は通常3万以上にも
および、単語比較部8における計算量が無視でき
なくなる。 発明の目的 本発明は、単語辞書を用いて、単音節の認識率
の向上を図つた単音節音声認識装置に関し、より
詳細には、単語辞書とのマツチングの速度を向上
せしめたことを特徴とする音声認識装置に関す
る。 発明の構成 本発明は、入力音声信号を特徴ベクトルの系列
に変換する手段と、入力音声信号を音節毎に区切
る手段と、前記特徴ベクトルの系列から前記各音
節の後続母音を認識する手段と、前記後続母音列
と同じ後続母音列を有する単語あるいは文節の音
節列を記号列として得る手段と、前記記号列と前
記入力音声信号から得られた音節列とをマツチン
グする手段と、このマツチングの結果、前記入力
音声信号に最も近い前記単語あるいは文節を前記
入力音声に対応する認識結果と判定する判定手段
とを備えた音声認識装置である。 本発明の基本的な考え方について、以下、説明
する。 単音節音声の認識において、母音の認識はほぼ
確実に行われる。従つて、入力単音節CVまたは
V(Cは子音、Vは母音)の後続母音の系列がV1
V2……VMであつたとき、照合すべき単語辞書の
単語として、その単語を構成する単音節の後続母
音の系列がV1V2……VMとなる単語のみを選べば
よいことになる。例えば、入力単音節列の後続母
音が|o||o||a||a|であつたとすれ
ば、照合すべき単語としては「oosaka」
「toyonaka」……等が選ばれることになる。 このようにすると、例えば、4音節の単語の場
合、母音の出現確率が等しいとすれば、ある特定
の母音列の生ずる確率は(1/5)4=1/625となり4
音節の単語が1万語あるとすれば、ある特定の母
音列に対応する4音節語は16語となり、実際に比
較計算をしなければならない単語は激減する。余
裕をみて、第2候補の母音も勘定に入れるとして
も(2/5)4≒1/39となり、同様に4音節の単語が
1万語あるとすれば、比較計算をすべき4音節語
は256語となり、大幅に減少する。さらに促音や
撥音も上記母音同様に処理することにすれば、さ
らに比較計算を減少させることができる。これら
母音や促音、撥音等の認識はほぼ完全に行われる
ので、計算量の減少のみでなく認識率自体も向上
する。 実施例の説明 第3図は本発明の一実施例の音声認識装置の構
成を示すブロツク図である。11は音声信号の入
力端子で、単音節の連鎖として単語が入力され
る。12は従来例において説明したと同様の特徴
抽出部であつて、前記の如く入力音声を特徴ベク
トルの系列に変換する。13はパワー計算部であ
つて、特徴抽出部12の出力ベクトル系列をa1a2
……ai……aIとするとき、第iフレームのパワー
Piは、例えばai=(ai1,ai2,……,ai〓)とすれば、
Pi=√i1 2+i2 2+……+i〓2として求められ得る
。
14は音節区間検出部であつて、パワー計算部1
3の出力から、入力音声を音節毎に区切り各音節
の開始フレームと終了フレームとを検出する。第
4図はその例であつて、パワーが閾値29を越える
時点を音節の開始フレーム、閾値29以下になる時
点を音節の終了フレームとし、閾値29以上の区間
を音節の存在区間とする。また閾値29以下の区間
が一定値tc以上あるときは、その区間を促音とみ
なす。同図は「sapporo」と発声したときの様子
を示すもので、Qは促音を意味する。15は音節
数計数部であつて、促音も一音節とみなして音節
数(従つてモーラ数)を計数する。16は母音標
準パターン記憶部であつて、母音|a|,|i|,
|v|,|e|,|o|および撥音|N|の標準パ
ターンが予め登録されている。17は母音フレー
ム検出部であつて、音節区間検出部14で検出さ
れた各音節の開始、終了フレームと特徴抽出部1
2で抽出された特徴ベクトルの系列から母音に相
当するフレーム位置を検出する。母音部は定常で
あるから、求めるべきフレームは、第i−rフレ
ームから第i+rフレーム(rは定数)までの特
徴ベクトルの各成分の分散の総和が極小となるフ
レームiとして検出することができる。即ち、第
iフレームの入力の特徴ベクトルをai=(ai1,ai2,
……,aij,……,ai〓)とするとき mij=1/2r+1i+r 〓k=i-r akj vi=〓 〓l=1 i+r 〓k=i-r (aoj−mij)2 において、各単音節の最終フレームから逆にviを
求めてゆき、viが極小になつたフレームを母音定
常部中心フレームとすることができる。18はバ
ツフアメモリであつて、単音節毎に特徴抽出部1
2で抽出された特徴ベクトルの系列を音声区間検
出部14で検出された単音節開始フレームから終
了フレームまでにわたつて記憶する。19は母音
パターン比較部であつて、母音フレーム検出部1
7で検出されたフレームに対応する特徴ベクトル
をバツフアメモリ18から読み出し、母音標準パ
ターン記憶部16の各母音標準パターンと比較を
行いそれぞれに対する距離を算出する。例えば、
ai=(ai1,ai2,……,ai〓)が入力単音節の母音フ
レームに対応する特徴ベクトルであるとき、ν番
目の母音標準パターン(撥音も含む)v〓=(v〓1,
v〓2,……,v〓〓)(ただし、ν=1,2,……,)
との距離は
【化】
とすることができる。20は母音判定部であつ
て、 ν^= min ν〔di〓〕 を求めv〓に対する母音を母音認識結果とする。2
1は母音・促音判定結果記憶部であつて、母音判
定部20で判定された母音と音節区間検出部14
で検出された促音とを発生順序に従つて記憶す
る。22は単音節標準パターン記憶部であつて、
特徴ベクトルの系列に変換された、それぞれの単
音節に対応する標準パターンが記憶されている。
23は単音節パターン比較部であつて、バツフア
メモリ18に蓄えられている入力パターンと単音
節標準パターン記憶部22に蓄えられている単音
節標準パターンとを比較し、前記入力パターンの
それぞれの単音節標準パターンに対する距離を計
算するものである。このとき、照合すべき単音節
標準パターンは、母音判定部20で判定された母
音を後続母音としてもつ単音節に限られる。ま
た、各単音節に対し比較する範囲はその単音節の
開始フレームから母音の定常部までとする。これ
は、丁度、子音の情報が含まれている部分であ
る。比較照合の方法は線形シフトマツチングや
DPマツチング等周知の方法が用いられ得る。DP
マツチングを用いることにすれば次のようにな
る。n番目の単音節標準パターンをRn=bn 1bn 2…
…bn i……bn J n、単音節入力パターンをA=a1a2…
…ai……aI(ただしI,Jnはそれぞれ入力パター
ン、標準パターンの母音定常部中心フレーム)、
dn(i,j)をaiとbn jのベクトル間距離とすると
き g(i,j)=ming(i−2,j−1)+dn(i−
1,j)dn(i,j) g(i−1,j−1)+dn(i,j) g(i−1,j−2)+dn(i,j) なる漸化式をg(1,1)=2dn(1,1)として解
けば、AとRnの距離D(A,Rn)は D(A,Rn)=g(I,J) となる。ここでdn(i,j)はai=(ai1,ai2,……
ai〓)bn j=(bn j1,bn i2,……,bn j〓)とするとき dn(i,j)=〓 〓k=1 |aik−bn jk| とするのが、一般的である。また上記漸化式も
種々の形が提案されておりここではその一例を示
したにすぎない。24は距離記憶部であつて、単
音節パターン比較部23で計算された距離を記憶
するものである。単音節列A1A2……An……AM
からなる単語が入力されたときは、距離記憶部2
4はD(An,Rn)を1mM,Rn∈SAnのすべ
てについて記憶する。ただしAnと同じ後続母音
をもつ単音節標準パターンの集合をSAnとする。
25は単語辞書であつて、認識すべき単語が音節
記号列で表現された形で記憶されている。26は
単語間距離計算部であつて、単音節列として入力
された単語と単語辞書25の単語との距離を距離
記憶部24に記憶されている距離から計算する。
単語辞書25に対し、比較照合されるべき単語は
音節数計数部15における値、即ち、入力単語の
音節数と、母音・促音判定結果記憶部21で示さ
れる後続母音(撥音・促音を含む)列と同じ後続
母音列をもつ単語に限定される。いま、この限定
された単語の集合をSWとし、Wl∈SWなる単語Wl
がCl 1Cl 2……Cl n……Cl Mなる音節列からなつている
とすれば、前記説明によつて単音節AnとCl nとの
単音節間距離D(An,Cl n)は距離記憶部24に記
憶されているので、入力単語T=A1A2……An…
…AMと単語辞書の単語Wl=Cl 1Cl 2……Cl n……Cl Mと
の距離DW(T,Wl)は DW(T,Wl)=M 〓m=1 D(An,Cl n) として求めることができる。27は単語判定部で
あつて l^=min〔DW(T,Wl)〕 Wl∈SW なるl^を求め、Wlを認識単語と判定する。28は
認識結果の出力端子である。 なお、本実施例においては、単語単位で認識す
るとして説明したが、これは勿論、文節単位で行
うこともできる。その場合は、名詞に付属語を付
加したものや動詞、形容詞、形容動詞等の活用形
までも含めて前記単語とみなして単語辞書に登録
しておく方法も考えられるが、この方法では、単
語辞書のメモリ量が大幅に増えるので、単語辞書
には語幹や、付属語のつかない形で名詞を登録し
ておき、単語間距離計算部26で比較照合を行う
とき、種々の文節を規則で作り出すようにするこ
ともできる。特に、仮名漢字変換機能付のワード
プロセツサの入力として本発明装置を用いるとき
は、単語辞書は仮名漢字変換用のものが共用で
き、前記付属語を作る機能ももともと備わつてい
るのですこぶる好都合である。 また、本実施例では促音を無音区間長から検出
するとしたが、「つ」と発声することにより、促
音を入力するようにもできる。このときは、単語
辞書において促音を「つ」に置き換えておけばよ
く、実際は「つ」であるのか促音であるのかの区
別は言語処理の問題として簡単に行い得る。 さらに、本発明は発声を単音節毎に区切つて発
声する場合について述べたが、単音節の区切りが
行えれば良いのであつて、連続的に発声してもこ
の区切りが行える場合は、本発明の原理はそのま
ま適用可能である。 発明の効果 本発明によれば、単音節のみの認識でなく、単
語全体としての認識を行つており、また、比較照
合すべき単語を母音列で限定することにより、認
識率、照合速度において大幅な改善が得られたも
のである。
て、 ν^= min ν〔di〓〕 を求めv〓に対する母音を母音認識結果とする。2
1は母音・促音判定結果記憶部であつて、母音判
定部20で判定された母音と音節区間検出部14
で検出された促音とを発生順序に従つて記憶す
る。22は単音節標準パターン記憶部であつて、
特徴ベクトルの系列に変換された、それぞれの単
音節に対応する標準パターンが記憶されている。
23は単音節パターン比較部であつて、バツフア
メモリ18に蓄えられている入力パターンと単音
節標準パターン記憶部22に蓄えられている単音
節標準パターンとを比較し、前記入力パターンの
それぞれの単音節標準パターンに対する距離を計
算するものである。このとき、照合すべき単音節
標準パターンは、母音判定部20で判定された母
音を後続母音としてもつ単音節に限られる。ま
た、各単音節に対し比較する範囲はその単音節の
開始フレームから母音の定常部までとする。これ
は、丁度、子音の情報が含まれている部分であ
る。比較照合の方法は線形シフトマツチングや
DPマツチング等周知の方法が用いられ得る。DP
マツチングを用いることにすれば次のようにな
る。n番目の単音節標準パターンをRn=bn 1bn 2…
…bn i……bn J n、単音節入力パターンをA=a1a2…
…ai……aI(ただしI,Jnはそれぞれ入力パター
ン、標準パターンの母音定常部中心フレーム)、
dn(i,j)をaiとbn jのベクトル間距離とすると
き g(i,j)=ming(i−2,j−1)+dn(i−
1,j)dn(i,j) g(i−1,j−1)+dn(i,j) g(i−1,j−2)+dn(i,j) なる漸化式をg(1,1)=2dn(1,1)として解
けば、AとRnの距離D(A,Rn)は D(A,Rn)=g(I,J) となる。ここでdn(i,j)はai=(ai1,ai2,……
ai〓)bn j=(bn j1,bn i2,……,bn j〓)とするとき dn(i,j)=〓 〓k=1 |aik−bn jk| とするのが、一般的である。また上記漸化式も
種々の形が提案されておりここではその一例を示
したにすぎない。24は距離記憶部であつて、単
音節パターン比較部23で計算された距離を記憶
するものである。単音節列A1A2……An……AM
からなる単語が入力されたときは、距離記憶部2
4はD(An,Rn)を1mM,Rn∈SAnのすべ
てについて記憶する。ただしAnと同じ後続母音
をもつ単音節標準パターンの集合をSAnとする。
25は単語辞書であつて、認識すべき単語が音節
記号列で表現された形で記憶されている。26は
単語間距離計算部であつて、単音節列として入力
された単語と単語辞書25の単語との距離を距離
記憶部24に記憶されている距離から計算する。
単語辞書25に対し、比較照合されるべき単語は
音節数計数部15における値、即ち、入力単語の
音節数と、母音・促音判定結果記憶部21で示さ
れる後続母音(撥音・促音を含む)列と同じ後続
母音列をもつ単語に限定される。いま、この限定
された単語の集合をSWとし、Wl∈SWなる単語Wl
がCl 1Cl 2……Cl n……Cl Mなる音節列からなつている
とすれば、前記説明によつて単音節AnとCl nとの
単音節間距離D(An,Cl n)は距離記憶部24に記
憶されているので、入力単語T=A1A2……An…
…AMと単語辞書の単語Wl=Cl 1Cl 2……Cl n……Cl Mと
の距離DW(T,Wl)は DW(T,Wl)=M 〓m=1 D(An,Cl n) として求めることができる。27は単語判定部で
あつて l^=min〔DW(T,Wl)〕 Wl∈SW なるl^を求め、Wlを認識単語と判定する。28は
認識結果の出力端子である。 なお、本実施例においては、単語単位で認識す
るとして説明したが、これは勿論、文節単位で行
うこともできる。その場合は、名詞に付属語を付
加したものや動詞、形容詞、形容動詞等の活用形
までも含めて前記単語とみなして単語辞書に登録
しておく方法も考えられるが、この方法では、単
語辞書のメモリ量が大幅に増えるので、単語辞書
には語幹や、付属語のつかない形で名詞を登録し
ておき、単語間距離計算部26で比較照合を行う
とき、種々の文節を規則で作り出すようにするこ
ともできる。特に、仮名漢字変換機能付のワード
プロセツサの入力として本発明装置を用いるとき
は、単語辞書は仮名漢字変換用のものが共用で
き、前記付属語を作る機能ももともと備わつてい
るのですこぶる好都合である。 また、本実施例では促音を無音区間長から検出
するとしたが、「つ」と発声することにより、促
音を入力するようにもできる。このときは、単語
辞書において促音を「つ」に置き換えておけばよ
く、実際は「つ」であるのか促音であるのかの区
別は言語処理の問題として簡単に行い得る。 さらに、本発明は発声を単音節毎に区切つて発
声する場合について述べたが、単音節の区切りが
行えれば良いのであつて、連続的に発声してもこ
の区切りが行える場合は、本発明の原理はそのま
ま適用可能である。 発明の効果 本発明によれば、単音節のみの認識でなく、単
語全体としての認識を行つており、また、比較照
合すべき単語を母音列で限定することにより、認
識率、照合速度において大幅な改善が得られたも
のである。
第1図は従来の単音節音声認識装置を示すブロ
ツク図、第2図は前記従来例を改良した例を示す
ブロツク図、第3図は本発明の一実施例における
音声認識装置を示すブロツク図、第4図は本発明
装置の一部の動作を説明する波形図である。 11……音声信号入力端子、12……特徴抽出
部、13……パワー計算部、14……音声区間検
出部、15……音節数計数部、16……母音標準
パターン記憶部、17……母音フレーム検出部、
18……バツフアメモリ、19……母音パターン
比較部、20……母音判定部、21……母音・促
音判定結果記憶部、22……単音節標準パターン
記憶部、23……単音節パターン比較部、24…
…距離記憶部、25……単語辞書、26……単語
間距離計算部、27……単語判定部、28……認
識結果出力端子。
ツク図、第2図は前記従来例を改良した例を示す
ブロツク図、第3図は本発明の一実施例における
音声認識装置を示すブロツク図、第4図は本発明
装置の一部の動作を説明する波形図である。 11……音声信号入力端子、12……特徴抽出
部、13……パワー計算部、14……音声区間検
出部、15……音節数計数部、16……母音標準
パターン記憶部、17……母音フレーム検出部、
18……バツフアメモリ、19……母音パターン
比較部、20……母音判定部、21……母音・促
音判定結果記憶部、22……単音節標準パターン
記憶部、23……単音節パターン比較部、24…
…距離記憶部、25……単語辞書、26……単語
間距離計算部、27……単語判定部、28……認
識結果出力端子。
Claims (1)
- 1 母音ラベル、音節ラベルで検索可能な形で記
憶された母音標準パターンおよび音節標準パター
ンと、認識すべき単語がラベル列で表された単語
辞書と、入力音声信号を特徴ベクトルの系列に変
換する手段と、前記特徴ベクトルの系列を音節毎
に区切る手段と、前記区切られた音節の後続母音
パターンと前記母音標準パターンとから前記区切
られた各音節の後続母音(含撥音、促音)を認識
する手段と、前記各音節の特徴ベクトル系列と、
該音節の後続母音を同じくする音節標準パターン
とを照合し、両者の間の距離あるいは類似度を算
出する音節パターン比較手段と、その結果を記憶
する距離記憶手段と、前記距離記憶手段が記憶す
るパターンの後続母音列と同じ後続母音列を有す
る単語あるいは文節の音節列を前記単語辞書から
記号列として得る手段と、前記記号列の示す各音
節と前記入力音声信号の対応する音節との距離ま
たは類似度を前記距離帰国手段から読み出して前
記記号列に従つて累積する手段と、この累積照合
の結果、前記入力音声信号に最も近い前記単語あ
るいは文節を前記入力音声に対応する認識結果と
判定する判定手段とを有することを特徴とする音
声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58143181A JPS6033599A (ja) | 1983-08-04 | 1983-08-04 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58143181A JPS6033599A (ja) | 1983-08-04 | 1983-08-04 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6033599A JPS6033599A (ja) | 1985-02-20 |
JPH0585918B2 true JPH0585918B2 (ja) | 1993-12-09 |
Family
ID=15332768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58143181A Granted JPS6033599A (ja) | 1983-08-04 | 1983-08-04 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS6033599A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2572753B2 (ja) * | 1986-09-19 | 1997-01-16 | 富士通株式会社 | 不特定話者子音識別装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5786899A (en) * | 1980-11-18 | 1982-05-31 | Mitsubishi Electric Corp | Voice recognition apparatus |
JPS5859498A (ja) * | 1981-10-05 | 1983-04-08 | 日本電信電話株式会社 | 音声認識装置 |
JPS5887599A (ja) * | 1981-11-20 | 1983-05-25 | 株式会社ピーエフーユー | 音声単語認識装置 |
-
1983
- 1983-08-04 JP JP58143181A patent/JPS6033599A/ja active Granted
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5786899A (en) * | 1980-11-18 | 1982-05-31 | Mitsubishi Electric Corp | Voice recognition apparatus |
JPS5859498A (ja) * | 1981-10-05 | 1983-04-08 | 日本電信電話株式会社 | 音声認識装置 |
JPS5887599A (ja) * | 1981-11-20 | 1983-05-25 | 株式会社ピーエフーユー | 音声単語認識装置 |
Also Published As
Publication number | Publication date |
---|---|
JPS6033599A (ja) | 1985-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6553342B1 (en) | Tone based speech recognition | |
JPS63220298A (ja) | 音声認識における単語候補削減装置 | |
JPS6138479B2 (ja) | ||
JP5300000B2 (ja) | 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム | |
JPH0585918B2 (ja) | ||
Can et al. | A syllable-based Turkish speech recognition system by using time delay neural networks (TDNNs) | |
JP2002372988A (ja) | 認識辞書作成装置及び棄却辞書及び棄却辞書の生成方法 | |
Kertkeidkachorn et al. | Using tone information in Thai spelling speech recognition | |
JP3039453B2 (ja) | 音声認識装置 | |
JP3110025B2 (ja) | 発声変形検出装置 | |
JPH08314490A (ja) | ワードスポッティング型音声認識方法と装置 | |
JPH0736481A (ja) | 補完音声認識装置 | |
JPS6180298A (ja) | 音声認識装置 | |
JPS60182499A (ja) | 音声認識装置 | |
JPS60164800A (ja) | 音声認識装置 | |
JP2760096B2 (ja) | 音声認識方式 | |
JPH0695684A (ja) | 音声認識システム | |
JP2578771B2 (ja) | 音声認識装置 | |
Akila et al. | WORD BASED TAMIL SPEECH RECOGNITION USING TEMPORAL FEATURE BASED SEGMENTATION. | |
Sugamura | Continuous speech recognition using large vocabulary word spotting and CV syllable spotting | |
JPH0827640B2 (ja) | 音声認識装置 | |
JPH0719159B2 (ja) | 音声認識装置 | |
JPH0554678B2 (ja) | ||
JPS607492A (ja) | 単音節音声認識方式 | |
JPH067359B2 (ja) | 音声認識装置 |