JPS59204897A - 音声認識辞書登録方式 - Google Patents
音声認識辞書登録方式Info
- Publication number
- JPS59204897A JPS59204897A JP58080651A JP8065183A JPS59204897A JP S59204897 A JPS59204897 A JP S59204897A JP 58080651 A JP58080651 A JP 58080651A JP 8065183 A JP8065183 A JP 8065183A JP S59204897 A JPS59204897 A JP S59204897A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- frequency
- dictionary
- patterns
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
艮皇公互
本発明は音声認識装置の辞書登録方式に関する。
灸米援4
近年、音声認識装置のようにパターンの類似度又はそれ
に準するものを計算し、それによって認識結果を選出す
る装置が種々考えられている。ところで音声を取り扱う
場合、このようなパターンの類似度を計算する上で二つ
の問題点がある。一つは発声速度の相違から同じ単語音
声パターンでも時間長が異なり、そのままパターンの比
較をして類似度の計算ができないこと、他は話者が変わ
るとホルマント周波数が変化するため話者間の差が大き
くなってしまうことである。現在前者に対して最も広く
使われている方法として動的計画法(DP)によるパタ
ーンマツチングがある。第1図によりDPマツチングに
ついて簡単に説明する。
に準するものを計算し、それによって認識結果を選出す
る装置が種々考えられている。ところで音声を取り扱う
場合、このようなパターンの類似度を計算する上で二つ
の問題点がある。一つは発声速度の相違から同じ単語音
声パターンでも時間長が異なり、そのままパターンの比
較をして類似度の計算ができないこと、他は話者が変わ
るとホルマント周波数が変化するため話者間の差が大き
くなってしまうことである。現在前者に対して最も広く
使われている方法として動的計画法(DP)によるパタ
ーンマツチングがある。第1図によりDPマツチングに
ついて簡単に説明する。
パターンf(t)とg(t)の始端、終端を一致させ、
かつ非線形な時間軸方向の伸縮をゆるしてマツチングを
行ない類似度を求める場合である。f(−t)。
かつ非線形な時間軸方向の伸縮をゆるしてマツチングを
行ない類似度を求める場合である。f(−t)。
g(t)は一定間隔でサンプリングされたディスクリー
トな量となっており、各々のサンプル点をml y m
2 t ”’mN + ni j n、21 ”’n/
7とすると、二つのパターンはf (mu )、 f
(mz )、 −f (mzrLg(nuoL g(n
z)、”’g(nN)で表わされる。パターンの始端f
(mx)とg(niL及び終端f(mN)とg(nN)
が対応づけられるものとし、他の点は両パターン間の距
離が最小になるように対応づける。そのためにはf(m
)の中の一点f(mi)はg(ni)近傍の全ての点に
対応づけてみてその中から距離を最小にするような点を
選んで対応づける。その結果第1図にAにて示すような
傾斜が求まり、これに従ってf(t)をg (t、)に
写影して類似度が計算できる。ところがこの方法は、演
算量が非常に多く、またパターンの時間長の変動は吸収
することができるが周波数上の変動を吸収することがで
きないという欠点がある。
トな量となっており、各々のサンプル点をml y m
2 t ”’mN + ni j n、21 ”’n/
7とすると、二つのパターンはf (mu )、 f
(mz )、 −f (mzrLg(nuoL g(n
z)、”’g(nN)で表わされる。パターンの始端f
(mx)とg(niL及び終端f(mN)とg(nN)
が対応づけられるものとし、他の点は両パターン間の距
離が最小になるように対応づける。そのためにはf(m
)の中の一点f(mi)はg(ni)近傍の全ての点に
対応づけてみてその中から距離を最小にするような点を
選んで対応づける。その結果第1図にAにて示すような
傾斜が求まり、これに従ってf(t)をg (t、)に
写影して類似度が計算できる。ところがこの方法は、演
算量が非常に多く、またパターンの時間長の変動は吸収
することができるが周波数上の変動を吸収することがで
きないという欠点がある。
このように、周波数軸と時間軸が形成する2次元面上の
パターンが両軸に対する変動を有するような場合、従来
少ない計算量でこれを吸収できる方法がない。なお、こ
のような変動を吸収して音声認識を行なう方法として後
述のもので考えられる。いずれの方法を用いるにせよ、
辞書の登録は1回の発声で行なうと誤認識が増すので、
何回かの平均をとって良質な辞書を作成して認識率を向
上させる試みが報告されている(例えば特開昭56−5
1799号公報参照)。しかし、平均をとる場合、発声
回毎に時間長が変動するため長さがバラバラで平均をと
ることができず、そのため、DPマツチング等でこれら
の音声長を一定にしてから平均をとらねばならないとい
う欠点がある。
パターンが両軸に対する変動を有するような場合、従来
少ない計算量でこれを吸収できる方法がない。なお、こ
のような変動を吸収して音声認識を行なう方法として後
述のもので考えられる。いずれの方法を用いるにせよ、
辞書の登録は1回の発声で行なうと誤認識が増すので、
何回かの平均をとって良質な辞書を作成して認識率を向
上させる試みが報告されている(例えば特開昭56−5
1799号公報参照)。しかし、平均をとる場合、発声
回毎に時間長が変動するため長さがバラバラで平均をと
ることができず、そのため、DPマツチング等でこれら
の音声長を一定にしてから平均をとらねばならないとい
う欠点がある。
月−一一昨
本発明は゛、上述のごとき実情に鑑みてなされたもめで
、特に音声長を一致させることなく簡易に辞書を作成す
ることができ、しかも認識率を向上させることのできる
音声認識辞書作成方式を提供しようとするものである。
、特に音声長を一致させることなく簡易に辞書を作成す
ることができ、しかも認識率を向上させることのできる
音声認識辞書作成方式を提供しようとするものである。
碧−一一戒、
本発明の構成について、以下、実施例に基づいて説明す
る。
る。
先ず、例を引きながら本発明の詳細な説明する。
ある話者が発声した単語”5ize”のパターンを第2
図に示す。この図は横軸に周波数、縦軸に時間をとって
”5ize”と発声した時のスペクトル分布を濃淡で表
わしたものであり黒く見える程レベルが大きい。周波数
は左側から右へ高くなり、250Hz〜6.3KHzを
対数等間隔で15等分しである。同じ話者が同じ単語を
別の機会に発声した例を第3図に示す。図から明らかな
ように両者は時間軸方向への長さが異なっている。
図に示す。この図は横軸に周波数、縦軸に時間をとって
”5ize”と発声した時のスペクトル分布を濃淡で表
わしたものであり黒く見える程レベルが大きい。周波数
は左側から右へ高くなり、250Hz〜6.3KHzを
対数等間隔で15等分しである。同じ話者が同じ単語を
別の機会に発声した例を第3図に示す。図から明らかな
ように両者は時間軸方向への長さが異なっている。
我々が発する音声を特徴づけるものにホルマントがある
。或いはスペクトルのローカルピークという概念〔音響
学会誌第32巻1号(197,6)第12〜23頁〕を
用いても良いが、いずれにしても言語を発声するために
我々は声道の形態を変化させ、その影響が音声スペクト
ル上にローカルピークとして現われる。従って、このよ
うなローカルピークの時間変化には発せられた言語の特
徴が現われている。そこでローカルピークの時間変化を
表わす時間−周波数パターン(以下time−8pec
trum pattern、略してT。
。或いはスペクトルのローカルピークという概念〔音響
学会誌第32巻1号(197,6)第12〜23頁〕を
用いても良いが、いずれにしても言語を発声するために
我々は声道の形態を変化させ、その影響が音声スペクト
ル上にローカルピークとして現われる。従って、このよ
うなローカルピークの時間変化には発せられた言語の特
徴が現われている。そこでローカルピークの時間変化を
表わす時間−周波数パターン(以下time−8pec
trum pattern、略してT。
S、Pと称する)の比較によって発せられた言語を認識
することを考える。第2図、第3図に示したどちらのT
、S、Pも冒頭の1010−l5が/S/、次の100
m s位が/ a /、続<10m5弱が/i/でそ
の後の数msが/ z /、最後が短く/u/を表わす
パターンである。ところで図に示されたような時間長の
変化の他に発声者の差がピークの周波数変化として現わ
れるが、そのどちらも極端なものではない。そこで二つ
のパターンを照合する場合に、周波数変動ε時間変動の
幅を考慮して、一方のパターンの幅は広くとっておき、
他方のパタ゛−ンは1幅のある線図形から線の特徴を取
り出す手法の一つである細線化法によって幅のほぼ中央
近傍の点又は中心線を取り出してから照合を行なう。こ
の際、時間軸方向も幅を狭めておくことが望ましい。こ
うすることによって、一方のパターンの時間、周波数の
両軸が変動しても細線化した細い線パターンは幅の広い
パターンからはみ出すことなくマツチングがとれる。
することを考える。第2図、第3図に示したどちらのT
、S、Pも冒頭の1010−l5が/S/、次の100
m s位が/ a /、続<10m5弱が/i/でそ
の後の数msが/ z /、最後が短く/u/を表わす
パターンである。ところで図に示されたような時間長の
変化の他に発声者の差がピークの周波数変化として現わ
れるが、そのどちらも極端なものではない。そこで二つ
のパターンを照合する場合に、周波数変動ε時間変動の
幅を考慮して、一方のパターンの幅は広くとっておき、
他方のパタ゛−ンは1幅のある線図形から線の特徴を取
り出す手法の一つである細線化法によって幅のほぼ中央
近傍の点又は中心線を取り出してから照合を行なう。こ
の際、時間軸方向も幅を狭めておくことが望ましい。こ
うすることによって、一方のパターンの時間、周波数の
両軸が変動しても細線化した細い線パターンは幅の広い
パターンからはみ出すことなくマツチングがとれる。
以上のような原理に基づく本発明のパターン比較装置の
一実施例を第4図に示す。
一実施例を第4図に示す。
第4図において、マイク1から入力された音声信号はフ
ィルターバンク2を通り、周波数一時間パターンとなる
。その中から音声区間切り出し部3で音声部を切り出し
、ある閾値を設定するーEとにより2値化部4で2値化
する。この2値化は情報量低減のためであって、勿論2
値化をしなくても良い。これを細線化部5によってほぼ
中央らしい点又は中心線として辞書部6シこ格納してお
く。
ィルターバンク2を通り、周波数一時間パターンとなる
。その中から音声区間切り出し部3で音声部を切り出し
、ある閾値を設定するーEとにより2値化部4で2値化
する。この2値化は情報量低減のためであって、勿論2
値化をしなくても良い。これを細線化部5によってほぼ
中央らしい点又は中心線として辞書部6シこ格納してお
く。
次に、スイッチ7を照合部8側にし、入力音声の周波数
一時間パターンを2値化した後、辞書部6に格納しであ
る各単語と照合した時すなわち二つのパターンを重ねた
時、細線化パターンがどの程度型なるかを求め類似度を
計算する。この照合を辞書部に格納された各パターンに
対し行ない、最も類似度の大きい単語を認識結果9とす
る。なお、例として第3図に示すパターンを細線化した
ものを第5図に、第2図に示すパターンを2値化したも
のを第6図に示す。
一時間パターンを2値化した後、辞書部6に格納しであ
る各単語と照合した時すなわち二つのパターンを重ねた
時、細線化パターンがどの程度型なるかを求め類似度を
計算する。この照合を辞書部に格納された各パターンに
対し行ない、最も類似度の大きい単語を認識結果9とす
る。なお、例として第3図に示すパターンを細線化した
ものを第5図に、第2図に示すパターンを2値化したも
のを第6図に示す。
本発明は、上述のごとき音声認識装置の辞書登録に関す
るもので、先例とは逆に辞書パターンの幅を広くし、認
識用のパターンを細線化してマツチングをとるためのも
のである。人の発声時の音声長の変化、発声者の違いに
よる周波数変化を十分吸収するためには、多くの人の多
くの発声の平均をとらねばならない。而して、前記の音
声認識方式では幅の広いパターンと幅の狭いパターンを
利用し、幅の広いパターンは狭いパターンが存在しそう
な場所を表わしていることになる。そこで発声に応じて
音声長を合致させることなく足し合ワセテ行けば、多く
の人にとっての狭いパターンが存在しそうな場所が示さ
れることになる。
るもので、先例とは逆に辞書パターンの幅を広くし、認
識用のパターンを細線化してマツチングをとるためのも
のである。人の発声時の音声長の変化、発声者の違いに
よる周波数変化を十分吸収するためには、多くの人の多
くの発声の平均をとらねばならない。而して、前記の音
声認識方式では幅の広いパターンと幅の狭いパターンを
利用し、幅の広いパターンは狭いパターンが存在しそう
な場所を表わしていることになる。そこで発声に応じて
音声長を合致させることなく足し合ワセテ行けば、多く
の人にとっての狭いパターンが存在しそうな場所が示さ
れることになる。
第7図は、本発明の一実施例を説明するための図で、図
中、1はマイク、2は音声区間切り出し部、6は辞書、
10.11はレジスタ、12はFFT (Fast
Fourier Transform)、13は加算
器で、まずマイク1から入力された信号中から音声区間
の切り出しを行ない、レジスタ10に登録する。第1回
目の発声の際はこれをそのままレジスタ11に転送し、
第2の発声をする。この発声に対しても同様の操作がく
り返されレジスタ10に記録される。その後、レジスタ
10とレジスタ11の値が加えられ、その結果がレジス
タ11に格納される。第3の発声以後はこれをくり返し
、適当な回数くり返したところでFFT12により周波
数変換して辞書登録する。
中、1はマイク、2は音声区間切り出し部、6は辞書、
10.11はレジスタ、12はFFT (Fast
Fourier Transform)、13は加算
器で、まずマイク1から入力された信号中から音声区間
の切り出しを行ない、レジスタ10に登録する。第1回
目の発声の際はこれをそのままレジスタ11に転送し、
第2の発声をする。この発声に対しても同様の操作がく
り返されレジスタ10に記録される。その後、レジスタ
10とレジスタ11の値が加えられ、その結果がレジス
タ11に格納される。第3の発声以後はこれをくり返し
、適当な回数くり返したところでFFT12により周波
数変換して辞書登録する。
なお、図示例においては、周波数変換する手段としてF
FTを用いる例を示したが、本発明はFFTに限定され
るものではなく、例えば、フィルターを用いてもよい。
FTを用いる例を示したが、本発明はFFTに限定され
るものではなく、例えば、フィルターを用いてもよい。
匁−一一釆
以上の説明から明らかなように、本発明によると、認識
率のよい辞書を作成することができる。
率のよい辞書を作成することができる。
第1図はDPマツチングの説明図、第2図、第3図は時
間−周波数パターンを示す図、第4図は本発明によるパ
ターン比較装置の一実施例を示す図、第5図は第3図の
パターンを細線、化した図、第6図は第2図のパターン
を2値化した図、第7図は本発明の一実施例を示す図で
ある。 1・・・マイク、2・・・フィルターバンク、3・・・
音声区間切り出し部、4・・・2値化部、5・・・細線
化部、6・・・辞書部、7・・・スイッチ、8・・・照
合部、10,11・・・レジスタ、12・・・FFT演
算部、13・・・加算器。
間−周波数パターンを示す図、第4図は本発明によるパ
ターン比較装置の一実施例を示す図、第5図は第3図の
パターンを細線、化した図、第6図は第2図のパターン
を2値化した図、第7図は本発明の一実施例を示す図で
ある。 1・・・マイク、2・・・フィルターバンク、3・・・
音声区間切り出し部、4・・・2値化部、5・・・細線
化部、6・・・辞書部、7・・・スイッチ、8・・・照
合部、10,11・・・レジスタ、12・・・FFT演
算部、13・・・加算器。
Claims (1)
- 音声認識装置の辞書登録において、1単語について複数
回の発声を行ない、その時の時間波形を時間軸上の1点
を規準として重ね合わせた後に周波数変換して登録する
ようにしたことを特徴とする音声認識辞書登録方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58080651A JPS59204897A (ja) | 1983-05-09 | 1983-05-09 | 音声認識辞書登録方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58080651A JPS59204897A (ja) | 1983-05-09 | 1983-05-09 | 音声認識辞書登録方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS59204897A true JPS59204897A (ja) | 1984-11-20 |
Family
ID=13724264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58080651A Pending JPS59204897A (ja) | 1983-05-09 | 1983-05-09 | 音声認識辞書登録方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS59204897A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6256999A (ja) * | 1985-09-06 | 1987-03-12 | 株式会社リコー | パタ−ン登録方式 |
-
1983
- 1983-05-09 JP JP58080651A patent/JPS59204897A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6256999A (ja) * | 1985-09-06 | 1987-03-12 | 株式会社リコー | パタ−ン登録方式 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6922668B1 (en) | Speaker recognition | |
JPH1083194A (ja) | 話し手照合システムのための2段階群選択方法 | |
JPS62232691A (ja) | 音声認識装置 | |
US10706867B1 (en) | Global frequency-warping transformation estimation for voice timbre approximation | |
Ravinder | Comparison of hmm and dtw for isolated word recognition system of punjabi language | |
Karthikeyan et al. | Hybrid machine learning classification scheme for speaker identification | |
JP2002236494A (ja) | 音声区間判別装置、音声認識装置、プログラム及び記録媒体 | |
JPH0222960B2 (ja) | ||
Jayanna et al. | Fuzzy vector quantization for speaker recognition under limited data conditions | |
US8229739B2 (en) | Speech processing apparatus and method | |
US5765124A (en) | Time-varying feature space preprocessing procedure for telephone based speech recognition | |
JPS59204897A (ja) | 音声認識辞書登録方式 | |
JPS59195295A (ja) | 音声認識辞書登録方式 | |
Seman et al. | Evaluating endpoint detection algorithms for isolated word from Malay parliamentary speech | |
JPH04324499A (ja) | 音声認識装置 | |
JPS59205680A (ja) | 音声パターン比較方法 | |
Higgins et al. | A multi-spectral data-fusion approach to speaker recognition | |
JP2000148187A (ja) | 話者認識方法、その方法を用いた装置及びそのプログラム記録媒体 | |
JPH0316038B2 (ja) | ||
JPH0534679B2 (ja) | ||
JPS59195297A (ja) | 音声認識装置 | |
JPS6061800A (ja) | 音声認識方式 | |
JPS59186073A (ja) | 音声パターン比較方法 | |
JPS59204898A (ja) | 音声認識装置 | |
JPS59195296A (ja) | 音声認識装置 |