JPS58136097A - 認識パタ−ン照合方式 - Google Patents
認識パタ−ン照合方式Info
- Publication number
- JPS58136097A JPS58136097A JP57018661A JP1866182A JPS58136097A JP S58136097 A JPS58136097 A JP S58136097A JP 57018661 A JP57018661 A JP 57018661A JP 1866182 A JP1866182 A JP 1866182A JP S58136097 A JPS58136097 A JP S58136097A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- value
- sample
- input speech
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
本発明は音声認識用の認識パターン照合方式に関するも
のである。 従来、音声の白服1認識のための認識パターン照合方式
は種々のものが提案されているが、その内容は認識パタ
ーン自体の内容によって決定でれる。 一般に、音声の自動認識を行うにFしては、入力音声が
話者の異同を問わず語9句、音韻の長さおよび音量等の
時間変化を伴うものであるため、これらの変什要因があ
っても精度良く入力音声を認識する幻策が要求さiする
。 そこで、この発明の出願人は最近、スペクトル分析フィ
ルタを用いてサンプリングした各周波数帯域にふ・ける
入力用ンブル情報を入力音声の飴。 句、音韻の長さおよび発声の時間変化、’fLIlの時
間変化に関係々〈一定数のセグメントにグlレープ化し
た士、各セグメントにおける周波数帯域別→tサンプル
情報総和を求め、各セグメント内の総和のうち最大値に
対!−2で正規什のための基準数値を与え、他の総和に
は最大総和との比に比例した数値を与えることにより人
力音声のサンプル情報を正規化して認識パターンを作成
する方式を提案している。 一方、入力音声の長さに関係左<、一定のセグメントに
符号化圧縮する手段は、照合パターンと入力音声の認識
パターンの照合距離計貴に極めて都合よく、容易に行な
えるという優れた長所を持つが、短かい用語でも長い用
語でも同じセクメント数のパターンにrTEfl?iさ
れるため短かい音声の入力が長い用語と距離計算で近い
という結果をもたらすことがあり州る。 例えは、「コウーベ」という言葉は、「オ」という母音
が比較的長ぐ発生され、符号化圧縮したパターンに「オ
」のfft−u情報が多く含1れることになる。贅だ、
単音の[第1を入力する場合には、言葉が短かいのにか
かわらず、上記の用語と同じ長さのパターンにEF:縮
される結果、類似度か高く々ることがあり得る。そ
のである。 従来、音声の白服1認識のための認識パターン照合方式
は種々のものが提案されているが、その内容は認識パタ
ーン自体の内容によって決定でれる。 一般に、音声の自動認識を行うにFしては、入力音声が
話者の異同を問わず語9句、音韻の長さおよび音量等の
時間変化を伴うものであるため、これらの変什要因があ
っても精度良く入力音声を認識する幻策が要求さiする
。 そこで、この発明の出願人は最近、スペクトル分析フィ
ルタを用いてサンプリングした各周波数帯域にふ・ける
入力用ンブル情報を入力音声の飴。 句、音韻の長さおよび発声の時間変化、’fLIlの時
間変化に関係々〈一定数のセグメントにグlレープ化し
た士、各セグメントにおける周波数帯域別→tサンプル
情報総和を求め、各セグメント内の総和のうち最大値に
対!−2で正規什のための基準数値を与え、他の総和に
は最大総和との比に比例した数値を与えることにより人
力音声のサンプル情報を正規化して認識パターンを作成
する方式を提案している。 一方、入力音声の長さに関係左<、一定のセグメントに
符号化圧縮する手段は、照合パターンと入力音声の認識
パターンの照合距離計貴に極めて都合よく、容易に行な
えるという優れた長所を持つが、短かい用語でも長い用
語でも同じセクメント数のパターンにrTEfl?iさ
れるため短かい音声の入力が長い用語と距離計算で近い
という結果をもたらすことがあり州る。 例えは、「コウーベ」という言葉は、「オ」という母音
が比較的長ぐ発生され、符号化圧縮したパターンに「オ
」のfft−u情報が多く含1れることになる。贅だ、
単音の[第1を入力する場合には、言葉が短かいのにか
かわらず、上記の用語と同じ長さのパターンにEF:縮
される結果、類似度か高く々ることがあり得る。そ
【1
.て、本来、「オ」という単音が用語の中にがければ、
「オ」に対する照合パターンは々いので、類似度の近い
用語である「二1ウーベ」が一番近い用語として認識さ
)1.る危険がある。 本発明は以上の点に鑑み、このよう力問題を解決すべく
力された認識パターン照合力式を提供するもので、入力
音声のサンプル引数仙を照合パターン情報の一部に加え
、入力音声との照合側■において選ばれた類似語に対(
7、このサンプル計数値を比較せしめ、許容の範囲内に
あるかどうかを調べ、一定のセグメントに正規什する場
合に発生する異方った長さの用語の不正認識を防止する
ようKしたものである。 以下、図面に基づき本発明の実施例を詳細に説明する。 まず、本発明の理解を容易にするため、本発明に用いる
認識パターン作成方式について説明する。 第1図はこの認識パターン作成方式を適用した音声自動
認識装置の一笑施例を示すブロック図である。図におい
て、入力音声はマイクロフォンMICによって収集され
た後、増幅iRAにより適当なレベルに増幅されてスペ
クトル分析器SAに供給される。このスペクトル分析器
SAは例えば、16チヤンネルの帯域フィルタBPF
1〜BPF]6を有し、人力音声はこのスペクトル分析
器SAによって所?周波数帯域別のエネルギー量として
分解される。 ぞして、各帯域フィルタBPFI〜BPF]6の出力は
それぞ7L整流器REC1〜REC】aによって直流信
号に変捗!されてアナ「コグマルチプレクサMPを介し
てAD変換器kDcV(供給される。このアナログマル
チプレクヤMPは整流器RECI〜REC16の出力信
号を時分割でAD変排器ADCに供給し、AD変換器A
DCに各帯域別の直流信号を所定時間間隔でサンプリン
グしてディジタル1直に便換させるものである。 これにより、AD変換器ADCからは入力音声に含渣れ
る各帯域別のエネルギーを表わすサンプル情報が得られ
る。そして、このサンプル情報は語領域検出器DETの
制御によシ原始データメモリMEMに一時記憶される。 との場合、語領域検出器DETMEMには語の始まりか
ら終り丑でのサンプル情報が記憶されることになる。 そして、この語領域検出器DETは、例えば罰回のサン
プリング時における全帯域のサンプル情報を Fc=lft(tc)、f2(tc)、・=・−・ f
+6(tc))=(+1とし、今回のサンプリング時に
おける全帯域のサンプル情報を pL=lf1(tr、)、+2(tb)・・・・・・
f゛6(tr、)) ・・・ (21とした時、 da−Σ fj(tc)−fj(tLl −−−−
f31j=1 (j=1,2.・・・・・・・・・・・・ 16’)を
劃算し、dc がある変化限界Tを越えている条件(
da)T)においては入力音声が持続し”Cいるものと
見做し、各ザンプリング動作毎のサンプル情報を原始デ
ータメモIJMEMに記憶させるように構成されるもの
である。 原始データメモIJMEMに記憶された入力音声のサン
プル情報は、本発明を適用する認識パターン作成方式を
利用l−7/こ認識パターン作成部CPDにおいて正規
化圧縮処理されて音声認識用の認識パターンに変換され
る。ぞして、この認識パターンは、認識パターンメモリ
CI)・MEMに記憶されるが、この稜、照合パターン
メモリRF−MEMに予め配憶されている複数の飴に関
する照合パターン(す7アレンスパターン)と照合R5
RE; F において照合され、入力音声に該当する語
の判定がかされる。 この飴の判定結果の出力部OUTを介して文字情報等の
形態で出力される。これによって、マイクロフォンMI
Cから収集される入力音声の自動認識を行うことができ
る。 さて、詔識バクー7′?/l:成部CPDは次のように
して認識パターンを作成する3、 壕ず、原始データメモIJMEMには、第2図のデータ
マツプに示すように入力音声の時間長に比例して1個の
サンプル情報がスペクトル分析器SAの各周波数帯域別
に?41られる。々お、第2図において、S1〜5ik
lザンプリングタイノ・スロットの番号、fr〜fn
(n :実施例では16)ilスペクトル分析器SAに
おけるフィルタチャンネル、 (’132゜028・・
・の数字はサンプル情報を表わし、ている。この場合、
入力音声のサンプリング間Is U ?11メp’、j
5m8程度に選ばれるが、短い語や単音節の場合に0約
1.(’tom11程度の発声時間となり、通常使用さ
f+る語句は約1程度度の発声時間となるだめ、約20
〜200個程贋のサンプル情報が得られる。 そこで、このように入力音声の時間長に応じて情報数が
変化するサンプル情報を、入力音白の時間長に関係々〈
正規化するため、i個のサンプリング情報は第3図に示
すように所?数単位で均一にfllえは8個のセグメン
)Tl〜T8にグループ什され、各セグメント内でのサ
ンプル情報の総和が求められる。この場合、セグメント
数は認識精度を勘案して沈黛されるが、飴の長さに関係
& < 一定とすれば照合パターンとの照合処理が簡単
に力る。 ここで、セグメントTN(N=1〜8)に、1−、−け
るフィルタチャンネルfn(n””1〜16)のサンプ
ル情報総和を’11で表わすと、各セグメン)TJ〜T
8におけるサンプル情報総和のデータ群F゛〜Fは\ F −(fl、第2 、 ・・・・・・・ 第16
)p” = l f? 、 f: # ・・・・・・・
・・fl:)F8 == (x ?、弓、・・・・・・
・・・第1箕)として嵌わすことができる。これにより
、1個のサンプル情報の時間軸上での正規化が行なわれ
たことにかる。 次に、各セグメン)Tl〜T8のそれぞれにおいてエネ
ルギーの正規化を行うため、各セグメント内のサンプル
情報総和f のうち最大値を基準に正規化の数値が各総
和f に与えられる。この場合の数値は例えば4ビツト
のパイナリテータにより構成され、10進表示の基準数
値「15」がげの最大値に対して割当てられ、最大値以
下の総和f には基準数値に当該総和と最大峠和との比
を乗じた数値「0〜】5」が割当てられる。例えば、セ
グメン)TIにおけるザンフ″ル情報総牙[1のデータ
群F]の各総和%1.・・・・・・fll が第3図に
示すようガものでちった場合、最大経1第11はf、1
σ〕r432jであるからこれに正規化用の基準I(/
仙1−15」が割当てら第1る。また、第14−259
の総・和テラレ、同様に、f 2−291 ” ]
29 ノlj第11v(け「1」の正規化用の数帥
が割当てら11乙1、と11. +、’(’ 、iシ、
名セグメントT1〜T8におけるり′ング71情報総和
のデータ群は基量P値「15」に比例し゛r正規化され
たことに々る。この結果、認識パターンメモリCP−M
EMには、第4図に示すよう彦正却化数値「θ〜15」
で表わされた認識パターンが?ηられる。 すなわち、入力音声が 8(セグメント)X16(フィルタグヤンネル)×4(
ビット)=512 (ビット) に圧縮された認識パターンが伺られる。 このように、i個のサンプル情報をN個のセグメントに
グループ化し、各セグメント内の各フィルタチャンネル
別の一+2ンブル情報の総和を求めることにより、時間
軸−りでの正規化を行い、との往各セグメント内の総和
の最大値を基準にしてエネルギーの正規化を行うことに
より、入力音声の時間長、音量の時間変化に関係なく、
時間軸に泊ったNセグメントから寿る正規化情報、すガ
わち認識パターンを得るととができる。特に、エネルギ
ー面での正規化により、各セグメントの正月化情報は入
力音声のフォルマント情報をほぼ忠実に反映【7たもの
と々す、人力音声のピッチが若干ずれた。場合でを)つ
てもフォルマントの傾向を調べることによυλ人力音声
該当する語を簡単に判?することができる。さらFlこ
のような照合処理は認識パターンのビット長が知いため
、汎用の演算装部を利用して実時間で処理することが可
能に々る。 なお、り上の説明においては、各セグメントの最大総和
を基準として比例的に小さくなる正帰化用の数値を割当
でる場合を例にとって説明したが、照合処理の都合によ
っては比例的に大きく々る正規化用の数@を割当てるよ
うにしても構わない1、さて、本発明は次のようにして
実施さiする1、まず、本来「オ」と「コウベ」は詔の
長さに犬き々差があゆ、この差を利用して不正に認識さ
れろことがないようにすることができる。す々わち、「
コウーペ」という用語が)・1/−ニングにより作成さ
れるどき、サンプリングの計嘗値を照合パターンの一部
として記憶しておき、入力音声のサンプリングni算値
と比較し、許容限度外の用語が誤って認識されることを
防ぐことができる。 本発明は入力音声のサンプル引数値を照合パターン情報
の一部に加え、入力音声との照合帽着において選ばれた
類似語に効1し、このサンプル=t a値を比較せしめ
、許容の範囲内にあるかどうかを調、べ、一定のセグメ
ントに正炸化する嚇合に発生する異方った長官の用語の
不正認識を防11−する手段゛を付へするようにしたも
のである。 そして、人力音声は語の始甘りから定yノらねた間隔ご
とにサンプリングされ、語の終りtで続けられる。そし
て、入力音声のサンプリング間隔は、例えば5m−(8
)ごとに行な七・ねるが、この場合、単音の「オ」け平
均値に0・1〜0.12SeC程度の長さと々るので、
サンプリング回数は20〜24回位となる。また、言葉
の「コウーベ」の場合には0.4〜0.6(8)位の語
の長官となり、サンプリング回数は80〜120回位と
なる。 そして、人間の発声はその、都度微妙に変化し、長さも
一定では々いが±30%位の変動幅を交へれば経験上十
分と云える。ここで、言葉「コウーベ」のトレーニング
時のサンプリング回数を第1図に示す照合パターンメモ
リRF−11Mに付加記憶しておき、語[オー1が入力
され、もし照合パターンの距離!11算が一雇近いとさ
れた場合でも前記サンプリング回数を比較すれば、明ら
かに選別することができる。 いマ、言葉の「コウーベ」のトレーニング時のサンプリ
ング回数f’pJKとし、入力音声のサンプリング回数
N×とじ、 1.5Nx(Nx((1,67N+(−−(4)の条件
を満足ず/、かどうかをチェックするようにする。ここ
で、もし、入力音声が単音の「オ」の如き短かいB葉の
場合には、入力音声のサンプリング回数NXは24以下
位であり、トl/−ニング時のサンプリング回数NKが
例えば80としても0.67X80>53 であり、明らかに上記(4)式の範囲外とカリ、不正に
認識されるという弊害から救うことができる3゜以上説
明したように、本発明は入力音声のサンプル計数値を照
合パターン情報の一部に加え、入力音声との照合計aに
おいて選ばれた類似語に対し、このサンプル計数値を比
較せしめ、許容の範囲内にあるかどうかを調べ、異々つ
た長さの用語の不正認識を防止するようにしたものであ
るから、許容限度外の用語が誤って認識されることを防
+Lすることができるので、実用上の効果は極めて大で
ある。
.て、本来、「オ」という単音が用語の中にがければ、
「オ」に対する照合パターンは々いので、類似度の近い
用語である「二1ウーベ」が一番近い用語として認識さ
)1.る危険がある。 本発明は以上の点に鑑み、このよう力問題を解決すべく
力された認識パターン照合力式を提供するもので、入力
音声のサンプル引数仙を照合パターン情報の一部に加え
、入力音声との照合側■において選ばれた類似語に対(
7、このサンプル計数値を比較せしめ、許容の範囲内に
あるかどうかを調べ、一定のセグメントに正規什する場
合に発生する異方った長さの用語の不正認識を防止する
ようKしたものである。 以下、図面に基づき本発明の実施例を詳細に説明する。 まず、本発明の理解を容易にするため、本発明に用いる
認識パターン作成方式について説明する。 第1図はこの認識パターン作成方式を適用した音声自動
認識装置の一笑施例を示すブロック図である。図におい
て、入力音声はマイクロフォンMICによって収集され
た後、増幅iRAにより適当なレベルに増幅されてスペ
クトル分析器SAに供給される。このスペクトル分析器
SAは例えば、16チヤンネルの帯域フィルタBPF
1〜BPF]6を有し、人力音声はこのスペクトル分析
器SAによって所?周波数帯域別のエネルギー量として
分解される。 ぞして、各帯域フィルタBPFI〜BPF]6の出力は
それぞ7L整流器REC1〜REC】aによって直流信
号に変捗!されてアナ「コグマルチプレクサMPを介し
てAD変換器kDcV(供給される。このアナログマル
チプレクヤMPは整流器RECI〜REC16の出力信
号を時分割でAD変排器ADCに供給し、AD変換器A
DCに各帯域別の直流信号を所定時間間隔でサンプリン
グしてディジタル1直に便換させるものである。 これにより、AD変換器ADCからは入力音声に含渣れ
る各帯域別のエネルギーを表わすサンプル情報が得られ
る。そして、このサンプル情報は語領域検出器DETの
制御によシ原始データメモリMEMに一時記憶される。 との場合、語領域検出器DETMEMには語の始まりか
ら終り丑でのサンプル情報が記憶されることになる。 そして、この語領域検出器DETは、例えば罰回のサン
プリング時における全帯域のサンプル情報を Fc=lft(tc)、f2(tc)、・=・−・ f
+6(tc))=(+1とし、今回のサンプリング時に
おける全帯域のサンプル情報を pL=lf1(tr、)、+2(tb)・・・・・・
f゛6(tr、)) ・・・ (21とした時、 da−Σ fj(tc)−fj(tLl −−−−
f31j=1 (j=1,2.・・・・・・・・・・・・ 16’)を
劃算し、dc がある変化限界Tを越えている条件(
da)T)においては入力音声が持続し”Cいるものと
見做し、各ザンプリング動作毎のサンプル情報を原始デ
ータメモIJMEMに記憶させるように構成されるもの
である。 原始データメモIJMEMに記憶された入力音声のサン
プル情報は、本発明を適用する認識パターン作成方式を
利用l−7/こ認識パターン作成部CPDにおいて正規
化圧縮処理されて音声認識用の認識パターンに変換され
る。ぞして、この認識パターンは、認識パターンメモリ
CI)・MEMに記憶されるが、この稜、照合パターン
メモリRF−MEMに予め配憶されている複数の飴に関
する照合パターン(す7アレンスパターン)と照合R5
RE; F において照合され、入力音声に該当する語
の判定がかされる。 この飴の判定結果の出力部OUTを介して文字情報等の
形態で出力される。これによって、マイクロフォンMI
Cから収集される入力音声の自動認識を行うことができ
る。 さて、詔識バクー7′?/l:成部CPDは次のように
して認識パターンを作成する3、 壕ず、原始データメモIJMEMには、第2図のデータ
マツプに示すように入力音声の時間長に比例して1個の
サンプル情報がスペクトル分析器SAの各周波数帯域別
に?41られる。々お、第2図において、S1〜5ik
lザンプリングタイノ・スロットの番号、fr〜fn
(n :実施例では16)ilスペクトル分析器SAに
おけるフィルタチャンネル、 (’132゜028・・
・の数字はサンプル情報を表わし、ている。この場合、
入力音声のサンプリング間Is U ?11メp’、j
5m8程度に選ばれるが、短い語や単音節の場合に0約
1.(’tom11程度の発声時間となり、通常使用さ
f+る語句は約1程度度の発声時間となるだめ、約20
〜200個程贋のサンプル情報が得られる。 そこで、このように入力音声の時間長に応じて情報数が
変化するサンプル情報を、入力音白の時間長に関係々〈
正規化するため、i個のサンプリング情報は第3図に示
すように所?数単位で均一にfllえは8個のセグメン
)Tl〜T8にグループ什され、各セグメント内でのサ
ンプル情報の総和が求められる。この場合、セグメント
数は認識精度を勘案して沈黛されるが、飴の長さに関係
& < 一定とすれば照合パターンとの照合処理が簡単
に力る。 ここで、セグメントTN(N=1〜8)に、1−、−け
るフィルタチャンネルfn(n””1〜16)のサンプ
ル情報総和を’11で表わすと、各セグメン)TJ〜T
8におけるサンプル情報総和のデータ群F゛〜Fは\ F −(fl、第2 、 ・・・・・・・ 第16
)p” = l f? 、 f: # ・・・・・・・
・・fl:)F8 == (x ?、弓、・・・・・・
・・・第1箕)として嵌わすことができる。これにより
、1個のサンプル情報の時間軸上での正規化が行なわれ
たことにかる。 次に、各セグメン)Tl〜T8のそれぞれにおいてエネ
ルギーの正規化を行うため、各セグメント内のサンプル
情報総和f のうち最大値を基準に正規化の数値が各総
和f に与えられる。この場合の数値は例えば4ビツト
のパイナリテータにより構成され、10進表示の基準数
値「15」がげの最大値に対して割当てられ、最大値以
下の総和f には基準数値に当該総和と最大峠和との比
を乗じた数値「0〜】5」が割当てられる。例えば、セ
グメン)TIにおけるザンフ″ル情報総牙[1のデータ
群F]の各総和%1.・・・・・・fll が第3図に
示すようガものでちった場合、最大経1第11はf、1
σ〕r432jであるからこれに正規化用の基準I(/
仙1−15」が割当てら第1る。また、第14−259
の総・和テラレ、同様に、f 2−291 ” ]
29 ノlj第11v(け「1」の正規化用の数帥
が割当てら11乙1、と11. +、’(’ 、iシ、
名セグメントT1〜T8におけるり′ング71情報総和
のデータ群は基量P値「15」に比例し゛r正規化され
たことに々る。この結果、認識パターンメモリCP−M
EMには、第4図に示すよう彦正却化数値「θ〜15」
で表わされた認識パターンが?ηられる。 すなわち、入力音声が 8(セグメント)X16(フィルタグヤンネル)×4(
ビット)=512 (ビット) に圧縮された認識パターンが伺られる。 このように、i個のサンプル情報をN個のセグメントに
グループ化し、各セグメント内の各フィルタチャンネル
別の一+2ンブル情報の総和を求めることにより、時間
軸−りでの正規化を行い、との往各セグメント内の総和
の最大値を基準にしてエネルギーの正規化を行うことに
より、入力音声の時間長、音量の時間変化に関係なく、
時間軸に泊ったNセグメントから寿る正規化情報、すガ
わち認識パターンを得るととができる。特に、エネルギ
ー面での正規化により、各セグメントの正月化情報は入
力音声のフォルマント情報をほぼ忠実に反映【7たもの
と々す、人力音声のピッチが若干ずれた。場合でを)つ
てもフォルマントの傾向を調べることによυλ人力音声
該当する語を簡単に判?することができる。さらFlこ
のような照合処理は認識パターンのビット長が知いため
、汎用の演算装部を利用して実時間で処理することが可
能に々る。 なお、り上の説明においては、各セグメントの最大総和
を基準として比例的に小さくなる正帰化用の数値を割当
でる場合を例にとって説明したが、照合処理の都合によ
っては比例的に大きく々る正規化用の数@を割当てるよ
うにしても構わない1、さて、本発明は次のようにして
実施さiする1、まず、本来「オ」と「コウベ」は詔の
長さに犬き々差があゆ、この差を利用して不正に認識さ
れろことがないようにすることができる。す々わち、「
コウーペ」という用語が)・1/−ニングにより作成さ
れるどき、サンプリングの計嘗値を照合パターンの一部
として記憶しておき、入力音声のサンプリングni算値
と比較し、許容限度外の用語が誤って認識されることを
防ぐことができる。 本発明は入力音声のサンプル引数値を照合パターン情報
の一部に加え、入力音声との照合帽着において選ばれた
類似語に効1し、このサンプル=t a値を比較せしめ
、許容の範囲内にあるかどうかを調、べ、一定のセグメ
ントに正炸化する嚇合に発生する異方った長官の用語の
不正認識を防11−する手段゛を付へするようにしたも
のである。 そして、人力音声は語の始甘りから定yノらねた間隔ご
とにサンプリングされ、語の終りtで続けられる。そし
て、入力音声のサンプリング間隔は、例えば5m−(8
)ごとに行な七・ねるが、この場合、単音の「オ」け平
均値に0・1〜0.12SeC程度の長さと々るので、
サンプリング回数は20〜24回位となる。また、言葉
の「コウーベ」の場合には0.4〜0.6(8)位の語
の長官となり、サンプリング回数は80〜120回位と
なる。 そして、人間の発声はその、都度微妙に変化し、長さも
一定では々いが±30%位の変動幅を交へれば経験上十
分と云える。ここで、言葉「コウーベ」のトレーニング
時のサンプリング回数を第1図に示す照合パターンメモ
リRF−11Mに付加記憶しておき、語[オー1が入力
され、もし照合パターンの距離!11算が一雇近いとさ
れた場合でも前記サンプリング回数を比較すれば、明ら
かに選別することができる。 いマ、言葉の「コウーベ」のトレーニング時のサンプリ
ング回数f’pJKとし、入力音声のサンプリング回数
N×とじ、 1.5Nx(Nx((1,67N+(−−(4)の条件
を満足ず/、かどうかをチェックするようにする。ここ
で、もし、入力音声が単音の「オ」の如き短かいB葉の
場合には、入力音声のサンプリング回数NXは24以下
位であり、トl/−ニング時のサンプリング回数NKが
例えば80としても0.67X80>53 であり、明らかに上記(4)式の範囲外とカリ、不正に
認識されるという弊害から救うことができる3゜以上説
明したように、本発明は入力音声のサンプル計数値を照
合パターン情報の一部に加え、入力音声との照合計aに
おいて選ばれた類似語に対し、このサンプル計数値を比
較せしめ、許容の範囲内にあるかどうかを調べ、異々つ
た長さの用語の不正認識を防止するようにしたものであ
るから、許容限度外の用語が誤って認識されることを防
+Lすることができるので、実用上の効果は極めて大で
ある。
第1図は本発明によZ)認識パターン照合方式に用いる
認識パターン作成方式の一実施例を示すブロック図、第
2図−第4図は認識パターン作成方法の説明に供するデ
ータマツプである。 MICIllle・マイクロフォン、SA・・・φスペ
クトル分析器、ADC・・・・AD変換器、r)ET・
・・・語領域検出器、MEM・・−・原始データメモリ
、CPD・・−・認識パターン作成部、CP・MEM−
−−−認識パターンメモリ、RF−MEM−−・・照合
パターンメモlJ、REF・・・−照合部。 特許出願人 株式会社 京三製作煕 代理人 山川数位((ほか1名) −1へ− 639− + −−−−−−Sζ
認識パターン作成方式の一実施例を示すブロック図、第
2図−第4図は認識パターン作成方法の説明に供するデ
ータマツプである。 MICIllle・マイクロフォン、SA・・・φスペ
クトル分析器、ADC・・・・AD変換器、r)ET・
・・・語領域検出器、MEM・・−・原始データメモリ
、CPD・・−・認識パターン作成部、CP・MEM−
−−−認識パターンメモリ、RF−MEM−−・・照合
パターンメモlJ、REF・・・−照合部。 特許出願人 株式会社 京三製作煕 代理人 山川数位((ほか1名) −1へ− 639− + −−−−−−Sζ
Claims (1)
- 入力音声をスペクトル分析フィルタを用いて所定周波数
帯域別にサンプリングした彼、そのサンプル情報を入力
音声の語2句、音韻の長さおよび発声の時間変化、音量
の時間変化に関係なく一定のセグメントにグループ分け
した上、各セグメントにおける周波数帯域別サンプル情
報の総和を求め、その総和のうち最大値に正規化のため
の基準値を与え、他の総和には前記基漁の数値に比例し
た数値を与えることにより入力音声のサンプル情報を正
規化して認識パターンを作成する方式において、前記入
力音声のサンプル計数値を照合パターン情報の一部に加
え、入力音声との照合計算において選ばれた類似語に対
し、このサンプル計数を比較せしめ、許容の範囲にある
か否かを調べ一定のセグメントに正規化する場合に発生
する異なった長さの用語の不正認識を防止する手段を付
与するように17たことを特徴と」−る認識パターン照
合方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57018661A JPS58136097A (ja) | 1982-02-08 | 1982-02-08 | 認識パタ−ン照合方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57018661A JPS58136097A (ja) | 1982-02-08 | 1982-02-08 | 認識パタ−ン照合方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS58136097A true JPS58136097A (ja) | 1983-08-12 |
Family
ID=11977790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP57018661A Pending JPS58136097A (ja) | 1982-02-08 | 1982-02-08 | 認識パタ−ン照合方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS58136097A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60263277A (ja) * | 1984-06-07 | 1985-12-26 | ロ−ルス・ロイス・ピ−エルシ− | 筆跡鑑定装置 |
JPS61294500A (ja) * | 1985-06-21 | 1986-12-25 | シャープ株式会社 | 音声認識装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS4919324A (ja) * | 1972-06-14 | 1974-02-20 | ||
JPS5688199A (en) * | 1979-12-21 | 1981-07-17 | Hitachi Ltd | Pattern pretreatment method in voice identifier |
JPS56113199A (en) * | 1980-02-12 | 1981-09-05 | Tokyo Shibaura Electric Co | Voice recognizing apparatus |
JPS5713498A (en) * | 1980-06-28 | 1982-01-23 | Tokyo Shibaura Electric Co | Voice recognition device |
-
1982
- 1982-02-08 JP JP57018661A patent/JPS58136097A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS4919324A (ja) * | 1972-06-14 | 1974-02-20 | ||
JPS5688199A (en) * | 1979-12-21 | 1981-07-17 | Hitachi Ltd | Pattern pretreatment method in voice identifier |
JPS56113199A (en) * | 1980-02-12 | 1981-09-05 | Tokyo Shibaura Electric Co | Voice recognizing apparatus |
JPS5713498A (en) * | 1980-06-28 | 1982-01-23 | Tokyo Shibaura Electric Co | Voice recognition device |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60263277A (ja) * | 1984-06-07 | 1985-12-26 | ロ−ルス・ロイス・ピ−エルシ− | 筆跡鑑定装置 |
JPH0514943B2 (ja) * | 1984-06-07 | 1993-02-26 | Rolls Royce Plc | |
JPS61294500A (ja) * | 1985-06-21 | 1986-12-25 | シャープ株式会社 | 音声認識装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8842844B2 (en) | Segmenting audio signals into auditory events | |
CA2448182C (en) | Segmenting audio signals into auditory events | |
US4833713A (en) | Voice recognition system | |
JPS58130393A (ja) | 音声認識装置 | |
US4817155A (en) | Method and apparatus for speech analysis | |
US4509186A (en) | Method and apparatus for speech message recognition | |
JPS59121100A (ja) | 連続音声認識装置 | |
US4947436A (en) | Speaker verification using memory address | |
US5522013A (en) | Method for speaker recognition using a lossless tube model of the speaker's | |
JPS58136097A (ja) | 認識パタ−ン照合方式 | |
Geckinli et al. | Algorithm for pitch extraction using zero-crossing interval sequence | |
JPS58136096A (ja) | 認識パタ−ン作成方式 | |
US7392178B2 (en) | Chaos theoretical diagnosis sensitizer | |
Niederjohn et al. | Computer recognition of the continuant phonemes in connected English speech | |
JP3061912B2 (ja) | 音声認識装置 | |
JPS58145996A (ja) | 音声認識方式 | |
JPS58123598A (ja) | 音声認識装置 | |
JPS60254100A (ja) | 音声認識方式 | |
JP2557497B2 (ja) | 男女声の識別方法 | |
JPS61180297A (ja) | 話者照合装置 | |
JPS6126680B2 (ja) | ||
JPS60115996A (ja) | 音声認識装置 | |
JPS62100799A (ja) | 音声認識方法 | |
JPS63226692A (ja) | パターン比較方式 | |
JPS61278896A (ja) | 話者照合装置 |