JPS58136097A - 認識パタ−ン照合方式 - Google Patents

認識パタ−ン照合方式

Info

Publication number
JPS58136097A
JPS58136097A JP57018661A JP1866182A JPS58136097A JP S58136097 A JPS58136097 A JP S58136097A JP 57018661 A JP57018661 A JP 57018661A JP 1866182 A JP1866182 A JP 1866182A JP S58136097 A JPS58136097 A JP S58136097A
Authority
JP
Japan
Prior art keywords
recognition
value
sample
input speech
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57018661A
Other languages
English (en)
Inventor
加地 正幹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyosan Electric Manufacturing Co Ltd
Original Assignee
Kyosan Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyosan Electric Manufacturing Co Ltd filed Critical Kyosan Electric Manufacturing Co Ltd
Priority to JP57018661A priority Critical patent/JPS58136097A/ja
Publication of JPS58136097A publication Critical patent/JPS58136097A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
本発明は音声認識用の認識パターン照合方式に関するも
のである。 従来、音声の白服1認識のための認識パターン照合方式
は種々のものが提案されているが、その内容は認識パタ
ーン自体の内容によって決定でれる。 一般に、音声の自動認識を行うにFしては、入力音声が
話者の異同を問わず語9句、音韻の長さおよび音量等の
時間変化を伴うものであるため、これらの変什要因があ
っても精度良く入力音声を認識する幻策が要求さiする
。 そこで、この発明の出願人は最近、スペクトル分析フィ
ルタを用いてサンプリングした各周波数帯域にふ・ける
入力用ンブル情報を入力音声の飴。 句、音韻の長さおよび発声の時間変化、’fLIlの時
間変化に関係々〈一定数のセグメントにグlレープ化し
た士、各セグメントにおける周波数帯域別→tサンプル
情報総和を求め、各セグメント内の総和のうち最大値に
対!−2で正規什のための基準数値を与え、他の総和に
は最大総和との比に比例した数値を与えることにより人
力音声のサンプル情報を正規化して認識パターンを作成
する方式を提案している。 一方、入力音声の長さに関係左<、一定のセグメントに
符号化圧縮する手段は、照合パターンと入力音声の認識
パターンの照合距離計貴に極めて都合よく、容易に行な
えるという優れた長所を持つが、短かい用語でも長い用
語でも同じセクメント数のパターンにrTEfl?iさ
れるため短かい音声の入力が長い用語と距離計算で近い
という結果をもたらすことがあり州る。 例えは、「コウーベ」という言葉は、「オ」という母音
が比較的長ぐ発生され、符号化圧縮したパターンに「オ
」のfft−u情報が多く含1れることになる。贅だ、
単音の[第1を入力する場合には、言葉が短かいのにか
かわらず、上記の用語と同じ長さのパターンにEF:縮
される結果、類似度か高く々ることがあり得る。そ
【1
.て、本来、「オ」という単音が用語の中にがければ、
「オ」に対する照合パターンは々いので、類似度の近い
用語である「二1ウーベ」が一番近い用語として認識さ
)1.る危険がある。 本発明は以上の点に鑑み、このよう力問題を解決すべく
力された認識パターン照合力式を提供するもので、入力
音声のサンプル引数仙を照合パターン情報の一部に加え
、入力音声との照合側■において選ばれた類似語に対(
7、このサンプル計数値を比較せしめ、許容の範囲内に
あるかどうかを調べ、一定のセグメントに正規什する場
合に発生する異方った長さの用語の不正認識を防止する
ようKしたものである。 以下、図面に基づき本発明の実施例を詳細に説明する。 まず、本発明の理解を容易にするため、本発明に用いる
認識パターン作成方式について説明する。 第1図はこの認識パターン作成方式を適用した音声自動
認識装置の一笑施例を示すブロック図である。図におい
て、入力音声はマイクロフォンMICによって収集され
た後、増幅iRAにより適当なレベルに増幅されてスペ
クトル分析器SAに供給される。このスペクトル分析器
SAは例えば、16チヤンネルの帯域フィルタBPF 
1〜BPF]6を有し、人力音声はこのスペクトル分析
器SAによって所?周波数帯域別のエネルギー量として
分解される。 ぞして、各帯域フィルタBPFI〜BPF]6の出力は
それぞ7L整流器REC1〜REC】aによって直流信
号に変捗!されてアナ「コグマルチプレクサMPを介し
てAD変換器kDcV(供給される。このアナログマル
チプレクヤMPは整流器RECI〜REC16の出力信
号を時分割でAD変排器ADCに供給し、AD変換器A
DCに各帯域別の直流信号を所定時間間隔でサンプリン
グしてディジタル1直に便換させるものである。 これにより、AD変換器ADCからは入力音声に含渣れ
る各帯域別のエネルギーを表わすサンプル情報が得られ
る。そして、このサンプル情報は語領域検出器DETの
制御によシ原始データメモリMEMに一時記憶される。 との場合、語領域検出器DETMEMには語の始まりか
ら終り丑でのサンプル情報が記憶されることになる。 そして、この語領域検出器DETは、例えば罰回のサン
プリング時における全帯域のサンプル情報を Fc=lft(tc)、f2(tc)、・=・−・ f
+6(tc))=(+1とし、今回のサンプリング時に
おける全帯域のサンプル情報を pL=lf1(tr、)、+2(tb)・・・・・・ 
f゛6(tr、))  ・・・ (21とした時、 da−Σ fj(tc)−fj(tLl   −−−−
f31j=1 (j=1,2.・・・・・・・・・・・・ 16’)を
劃算し、dc  がある変化限界Tを越えている条件(
da)T)においては入力音声が持続し”Cいるものと
見做し、各ザンプリング動作毎のサンプル情報を原始デ
ータメモIJMEMに記憶させるように構成されるもの
である。 原始データメモIJMEMに記憶された入力音声のサン
プル情報は、本発明を適用する認識パターン作成方式を
利用l−7/こ認識パターン作成部CPDにおいて正規
化圧縮処理されて音声認識用の認識パターンに変換され
る。ぞして、この認識パターンは、認識パターンメモリ
CI)・MEMに記憶されるが、この稜、照合パターン
メモリRF−MEMに予め配憶されている複数の飴に関
する照合パターン(す7アレンスパターン)と照合R5
RE; F において照合され、入力音声に該当する語
の判定がかされる。 この飴の判定結果の出力部OUTを介して文字情報等の
形態で出力される。これによって、マイクロフォンMI
Cから収集される入力音声の自動認識を行うことができ
る。 さて、詔識バクー7′?/l:成部CPDは次のように
して認識パターンを作成する3、 壕ず、原始データメモIJMEMには、第2図のデータ
マツプに示すように入力音声の時間長に比例して1個の
サンプル情報がスペクトル分析器SAの各周波数帯域別
に?41られる。々お、第2図において、S1〜5ik
lザンプリングタイノ・スロットの番号、fr〜fn 
(n :実施例では16)ilスペクトル分析器SAに
おけるフィルタチャンネル、 (’132゜028・・
・の数字はサンプル情報を表わし、ている。この場合、
入力音声のサンプリング間Is U ?11メp’、j
5m8程度に選ばれるが、短い語や単音節の場合に0約
1.(’tom11程度の発声時間となり、通常使用さ
f+る語句は約1程度度の発声時間となるだめ、約20
〜200個程贋のサンプル情報が得られる。 そこで、このように入力音声の時間長に応じて情報数が
変化するサンプル情報を、入力音白の時間長に関係々〈
正規化するため、i個のサンプリング情報は第3図に示
すように所?数単位で均一にfllえは8個のセグメン
)Tl〜T8にグループ什され、各セグメント内でのサ
ンプル情報の総和が求められる。この場合、セグメント
数は認識精度を勘案して沈黛されるが、飴の長さに関係
& < 一定とすれば照合パターンとの照合処理が簡単
に力る。 ここで、セグメントTN(N=1〜8)に、1−、−け
るフィルタチャンネルfn(n””1〜16)のサンプ
ル情報総和を’11で表わすと、各セグメン)TJ〜T
8におけるサンプル情報総和のデータ群F゛〜Fは\ F  −(fl、第2 、  ・・・・・・・ 第16
)p” = l f? 、 f: # ・・・・・・・
・・fl:)F8 == (x ?、弓、・・・・・・
・・・第1箕)として嵌わすことができる。これにより
、1個のサンプル情報の時間軸上での正規化が行なわれ
たことにかる。 次に、各セグメン)Tl〜T8のそれぞれにおいてエネ
ルギーの正規化を行うため、各セグメント内のサンプル
情報総和f のうち最大値を基準に正規化の数値が各総
和f に与えられる。この場合の数値は例えば4ビツト
のパイナリテータにより構成され、10進表示の基準数
値「15」がげの最大値に対して割当てられ、最大値以
下の総和f には基準数値に当該総和と最大峠和との比
を乗じた数値「0〜】5」が割当てられる。例えば、セ
グメン)TIにおけるザンフ″ル情報総牙[1のデータ
群F]の各総和%1.・・・・・・fll が第3図に
示すようガものでちった場合、最大経1第11はf、1
σ〕r432jであるからこれに正規化用の基準I(/
仙1−15」が割当てら第1る。また、第14−259
  の総・和テラレ、同様に、f 2−291 ” ]
  29 ノlj第11v(け「1」の正規化用の数帥
が割当てら11乙1、と11. +、’(’ 、iシ、
名セグメントT1〜T8におけるり′ング71情報総和
のデータ群は基量P値「15」に比例し゛r正規化され
たことに々る。この結果、認識パターンメモリCP−M
EMには、第4図に示すよう彦正却化数値「θ〜15」
で表わされた認識パターンが?ηられる。 すなわち、入力音声が 8(セグメント)X16(フィルタグヤンネル)×4(
ビット)=512 (ビット) に圧縮された認識パターンが伺られる。 このように、i個のサンプル情報をN個のセグメントに
グループ化し、各セグメント内の各フィルタチャンネル
別の一+2ンブル情報の総和を求めることにより、時間
軸−りでの正規化を行い、との往各セグメント内の総和
の最大値を基準にしてエネルギーの正規化を行うことに
より、入力音声の時間長、音量の時間変化に関係なく、
時間軸に泊ったNセグメントから寿る正規化情報、すガ
わち認識パターンを得るととができる。特に、エネルギ
ー面での正規化により、各セグメントの正月化情報は入
力音声のフォルマント情報をほぼ忠実に反映【7たもの
と々す、人力音声のピッチが若干ずれた。場合でを)つ
てもフォルマントの傾向を調べることによυλ人力音声
該当する語を簡単に判?することができる。さらFlこ
のような照合処理は認識パターンのビット長が知いため
、汎用の演算装部を利用して実時間で処理することが可
能に々る。 なお、り上の説明においては、各セグメントの最大総和
を基準として比例的に小さくなる正帰化用の数値を割当
でる場合を例にとって説明したが、照合処理の都合によ
っては比例的に大きく々る正規化用の数@を割当てるよ
うにしても構わない1、さて、本発明は次のようにして
実施さiする1、まず、本来「オ」と「コウベ」は詔の
長さに犬き々差があゆ、この差を利用して不正に認識さ
れろことがないようにすることができる。す々わち、「
コウーペ」という用語が)・1/−ニングにより作成さ
れるどき、サンプリングの計嘗値を照合パターンの一部
として記憶しておき、入力音声のサンプリングni算値
と比較し、許容限度外の用語が誤って認識されることを
防ぐことができる。 本発明は入力音声のサンプル引数値を照合パターン情報
の一部に加え、入力音声との照合帽着において選ばれた
類似語に効1し、このサンプル=t a値を比較せしめ
、許容の範囲内にあるかどうかを調、べ、一定のセグメ
ントに正炸化する嚇合に発生する異方った長官の用語の
不正認識を防11−する手段゛を付へするようにしたも
のである。 そして、人力音声は語の始甘りから定yノらねた間隔ご
とにサンプリングされ、語の終りtで続けられる。そし
て、入力音声のサンプリング間隔は、例えば5m−(8
)ごとに行な七・ねるが、この場合、単音の「オ」け平
均値に0・1〜0.12SeC程度の長さと々るので、
サンプリング回数は20〜24回位となる。また、言葉
の「コウーベ」の場合には0.4〜0.6(8)位の語
の長官となり、サンプリング回数は80〜120回位と
なる。 そして、人間の発声はその、都度微妙に変化し、長さも
一定では々いが±30%位の変動幅を交へれば経験上十
分と云える。ここで、言葉「コウーベ」のトレーニング
時のサンプリング回数を第1図に示す照合パターンメモ
リRF−11Mに付加記憶しておき、語[オー1が入力
され、もし照合パターンの距離!11算が一雇近いとさ
れた場合でも前記サンプリング回数を比較すれば、明ら
かに選別することができる。 いマ、言葉の「コウーベ」のトレーニング時のサンプリ
ング回数f’pJKとし、入力音声のサンプリング回数
N×とじ、 1.5Nx(Nx((1,67N+(−−(4)の条件
を満足ず/、かどうかをチェックするようにする。ここ
で、もし、入力音声が単音の「オ」の如き短かいB葉の
場合には、入力音声のサンプリング回数NXは24以下
位であり、トl/−ニング時のサンプリング回数NKが
例えば80としても0.67X80>53 であり、明らかに上記(4)式の範囲外とカリ、不正に
認識されるという弊害から救うことができる3゜以上説
明したように、本発明は入力音声のサンプル計数値を照
合パターン情報の一部に加え、入力音声との照合計aに
おいて選ばれた類似語に対し、このサンプル計数値を比
較せしめ、許容の範囲内にあるかどうかを調べ、異々つ
た長さの用語の不正認識を防止するようにしたものであ
るから、許容限度外の用語が誤って認識されることを防
+Lすることができるので、実用上の効果は極めて大で
ある。
【図面の簡単な説明】
第1図は本発明によZ)認識パターン照合方式に用いる
認識パターン作成方式の一実施例を示すブロック図、第
2図−第4図は認識パターン作成方法の説明に供するデ
ータマツプである。 MICIllle・マイクロフォン、SA・・・φスペ
クトル分析器、ADC・・・・AD変換器、r)ET・
・・・語領域検出器、MEM・・−・原始データメモリ
、CPD・・−・認識パターン作成部、CP・MEM−
−−−認識パターンメモリ、RF−MEM−−・・照合
パターンメモlJ、REF・・・−照合部。 特許出願人  株式会社 京三製作煕 代理人 山川数位((ほか1名) −1へ− 639− + −−−−−−Sζ

Claims (1)

    【特許請求の範囲】
  1. 入力音声をスペクトル分析フィルタを用いて所定周波数
    帯域別にサンプリングした彼、そのサンプル情報を入力
    音声の語2句、音韻の長さおよび発声の時間変化、音量
    の時間変化に関係なく一定のセグメントにグループ分け
    した上、各セグメントにおける周波数帯域別サンプル情
    報の総和を求め、その総和のうち最大値に正規化のため
    の基準値を与え、他の総和には前記基漁の数値に比例し
    た数値を与えることにより入力音声のサンプル情報を正
    規化して認識パターンを作成する方式において、前記入
    力音声のサンプル計数値を照合パターン情報の一部に加
    え、入力音声との照合計算において選ばれた類似語に対
    し、このサンプル計数を比較せしめ、許容の範囲にある
    か否かを調べ一定のセグメントに正規化する場合に発生
    する異なった長さの用語の不正認識を防止する手段を付
    与するように17たことを特徴と」−る認識パターン照
    合方式。
JP57018661A 1982-02-08 1982-02-08 認識パタ−ン照合方式 Pending JPS58136097A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57018661A JPS58136097A (ja) 1982-02-08 1982-02-08 認識パタ−ン照合方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57018661A JPS58136097A (ja) 1982-02-08 1982-02-08 認識パタ−ン照合方式

Publications (1)

Publication Number Publication Date
JPS58136097A true JPS58136097A (ja) 1983-08-12

Family

ID=11977790

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57018661A Pending JPS58136097A (ja) 1982-02-08 1982-02-08 認識パタ−ン照合方式

Country Status (1)

Country Link
JP (1) JPS58136097A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60263277A (ja) * 1984-06-07 1985-12-26 ロ−ルス・ロイス・ピ−エルシ− 筆跡鑑定装置
JPS61294500A (ja) * 1985-06-21 1986-12-25 シャープ株式会社 音声認識装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4919324A (ja) * 1972-06-14 1974-02-20
JPS5688199A (en) * 1979-12-21 1981-07-17 Hitachi Ltd Pattern pretreatment method in voice identifier
JPS56113199A (en) * 1980-02-12 1981-09-05 Tokyo Shibaura Electric Co Voice recognizing apparatus
JPS5713498A (en) * 1980-06-28 1982-01-23 Tokyo Shibaura Electric Co Voice recognition device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4919324A (ja) * 1972-06-14 1974-02-20
JPS5688199A (en) * 1979-12-21 1981-07-17 Hitachi Ltd Pattern pretreatment method in voice identifier
JPS56113199A (en) * 1980-02-12 1981-09-05 Tokyo Shibaura Electric Co Voice recognizing apparatus
JPS5713498A (en) * 1980-06-28 1982-01-23 Tokyo Shibaura Electric Co Voice recognition device

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60263277A (ja) * 1984-06-07 1985-12-26 ロ−ルス・ロイス・ピ−エルシ− 筆跡鑑定装置
JPH0514943B2 (ja) * 1984-06-07 1993-02-26 Rolls Royce Plc
JPS61294500A (ja) * 1985-06-21 1986-12-25 シャープ株式会社 音声認識装置

Similar Documents

Publication Publication Date Title
US8842844B2 (en) Segmenting audio signals into auditory events
CA2448182C (en) Segmenting audio signals into auditory events
US4833713A (en) Voice recognition system
JPS58130393A (ja) 音声認識装置
US4817155A (en) Method and apparatus for speech analysis
US4509186A (en) Method and apparatus for speech message recognition
JPS59121100A (ja) 連続音声認識装置
US4947436A (en) Speaker verification using memory address
US5522013A (en) Method for speaker recognition using a lossless tube model of the speaker's
JPS58136097A (ja) 認識パタ−ン照合方式
Geckinli et al. Algorithm for pitch extraction using zero-crossing interval sequence
JPS58136096A (ja) 認識パタ−ン作成方式
US7392178B2 (en) Chaos theoretical diagnosis sensitizer
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
JP3061912B2 (ja) 音声認識装置
JPS58145996A (ja) 音声認識方式
JPS58123598A (ja) 音声認識装置
JPS60254100A (ja) 音声認識方式
JP2557497B2 (ja) 男女声の識別方法
JPS61180297A (ja) 話者照合装置
JPS6126680B2 (ja)
JPS60115996A (ja) 音声認識装置
JPS62100799A (ja) 音声認識方法
JPS63226692A (ja) パターン比較方式
JPS61278896A (ja) 話者照合装置