JPS58136097A

JPS58136097A - 認識パタ−ン照合方式

Info

Publication number: JPS58136097A
Application number: JP57018661A
Authority: JP
Inventors: 加地　正幹
Original assignee: Kyosan Electric Manufacturing Co Ltd
Current assignee: Kyosan Electric Manufacturing Co Ltd
Priority date: 1982-02-08
Filing date: 1982-02-08
Publication date: 1983-08-12

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

本発明は音声認識用の認識パターン照合方式に関するも
のである。従来、音声の白服１認識のための認識パターン照合方式
は種々のものが提案されているが、その内容は認識パタ
ーン自体の内容によって決定でれる。一般に、音声の自動認識を行うにＦしては、入力音声が
話者の異同を問わず語９句、音韻の長さおよび音量等の
時間変化を伴うものであるため、これらの変什要因があ
っても精度良く入力音声を認識する幻策が要求さｉする
。そこで、この発明の出願人は最近、スペクトル分析フィ
ルタを用いてサンプリングした各周波数帯域にふ・ける
入力用ンブル情報を入力音声の飴。句、音韻の長さおよび発声の時間変化、’ｆＬＩｌの時
間変化に関係々〈一定数のセグメントにグｌレープ化し
た士、各セグメントにおける周波数帯域別→ｔサンプル
情報総和を求め、各セグメント内の総和のうち最大値に
対！−２で正規什のための基準数値を与え、他の総和に
は最大総和との比に比例した数値を与えることにより人
力音声のサンプル情報を正規化して認識パターンを作成
する方式を提案している。一方、入力音声の長さに関係左＜、一定のセグメントに
符号化圧縮する手段は、照合パターンと入力音声の認識
パターンの照合距離計貴に極めて都合よく、容易に行な
えるという優れた長所を持つが、短かい用語でも長い用
語でも同じセクメント数のパターンにｒＴＥｆｌ？ｉさ
れるため短かい音声の入力が長い用語と距離計算で近い
という結果をもたらすことがあり州る。例えは、「コウーベ」という言葉は、「オ」という母音
が比較的長ぐ発生され、符号化圧縮したパターンに「オ
」のｆｆｔ−ｕ情報が多く含１れることになる。贅だ、
単音の［第１を入力する場合には、言葉が短かいのにか
かわらず、上記の用語と同じ長さのパターンにＥＦ：縮
される結果、類似度か高く々ることがあり得る。そ

【１
．て、本来、「オ」という単音が用語の中にがければ、
「オ」に対する照合パターンは々いので、類似度の近い
用語である「二１ウーベ」が一番近い用語として認識さ
）１．る危険がある。本発明は以上の点に鑑み、このよう力問題を解決すべく
力された認識パターン照合力式を提供するもので、入力
音声のサンプル引数仙を照合パターン情報の一部に加え
、入力音声との照合側■において選ばれた類似語に対（
７、このサンプル計数値を比較せしめ、許容の範囲内に
あるかどうかを調べ、一定のセグメントに正規什する場
合に発生する異方った長さの用語の不正認識を防止する
ようＫしたものである。以下、図面に基づき本発明の実施例を詳細に説明する。まず、本発明の理解を容易にするため、本発明に用いる
認識パターン作成方式について説明する。第１図はこの認識パターン作成方式を適用した音声自動
認識装置の一笑施例を示すブロック図である。図におい
て、入力音声はマイクロフォンＭＩＣによって収集され
た後、増幅ｉＲＡにより適当なレベルに増幅されてスペ
クトル分析器ＳＡに供給される。このスペクトル分析器
ＳＡは例えば、１６チヤンネルの帯域フィルタＢＰＦ　
１〜ＢＰＦ］６を有し、人力音声はこのスペクトル分析
器ＳＡによって所？周波数帯域別のエネルギー量として
分解される。ぞして、各帯域フィルタＢＰＦＩ〜ＢＰＦ］６の出力は
それぞ７Ｌ整流器ＲＥＣ１〜ＲＥＣ】ａによって直流信
号に変捗！されてアナ「コグマルチプレクサＭＰを介し
てＡＤ変換器ｋＤｃＶ（供給される。このアナログマル
チプレクヤＭＰは整流器ＲＥＣＩ〜ＲＥＣ１６の出力信
号を時分割でＡＤ変排器ＡＤＣに供給し、ＡＤ変換器Ａ
ＤＣに各帯域別の直流信号を所定時間間隔でサンプリン
グしてディジタル１直に便換させるものである。これにより、ＡＤ変換器ＡＤＣからは入力音声に含渣れ
る各帯域別のエネルギーを表わすサンプル情報が得られ
る。そして、このサンプル情報は語領域検出器ＤＥＴの
制御によシ原始データメモリＭＥＭに一時記憶される。との場合、語領域検出器ＤＥＴＭＥＭには語の始まりか
ら終り丑でのサンプル情報が記憶されることになる。そして、この語領域検出器ＤＥＴは、例えば罰回のサン
プリング時における全帯域のサンプル情報をＦｃ＝ｌｆｔ（ｔｃ）、ｆ２（ｔｃ）、・＝・−・　ｆ
＋６（ｔｃ））＝（＋１とし、今回のサンプリング時に
おける全帯域のサンプル情報をｐＬ＝ｌｆ１（ｔｒ、）、＋２（ｔｂ）・・・・・・　
ｆ゛６（ｔｒ、））　　・・・　（２１とした時、ｄａ−Σ　ｆｊ（ｔｃ）−ｆｊ（ｔＬｌ　　　−−−−
ｆ３１ｊ＝１（ｊ＝１，２．・・・・・・・・・・・・　１６’）を
劃算し、ｄｃ　　がある変化限界Ｔを越えている条件（
ｄａ）Ｔ）においては入力音声が持続し”Ｃいるものと
見做し、各ザンプリング動作毎のサンプル情報を原始デ
ータメモＩＪＭＥＭに記憶させるように構成されるもの
である。原始データメモＩＪＭＥＭに記憶された入力音声のサン
プル情報は、本発明を適用する認識パターン作成方式を
利用ｌ−７／こ認識パターン作成部ＣＰＤにおいて正規
化圧縮処理されて音声認識用の認識パターンに変換され
る。ぞして、この認識パターンは、認識パターンメモリ
ＣＩ）・ＭＥＭに記憶されるが、この稜、照合パターン
メモリＲＦ−ＭＥＭに予め配憶されている複数の飴に関
する照合パターン（す７アレンスパターン）と照合Ｒ５
ＲＥ；　Ｆ　において照合され、入力音声に該当する語
の判定がかされる。この飴の判定結果の出力部ＯＵＴを介して文字情報等の
形態で出力される。これによって、マイクロフォンＭＩ
Ｃから収集される入力音声の自動認識を行うことができ
る。さて、詔識バクー７′？／ｌ：成部ＣＰＤは次のように
して認識パターンを作成する３、壕ず、原始データメモＩＪＭＥＭには、第２図のデータ
マツプに示すように入力音声の時間長に比例して１個の
サンプル情報がスペクトル分析器ＳＡの各周波数帯域別
に？４１られる。々お、第２図において、Ｓ１〜５ｉｋ
ｌザンプリングタイノ・スロットの番号、ｆｒ〜ｆｎ　
（ｎ　：実施例では１６）ｉｌスペクトル分析器ＳＡに
おけるフィルタチャンネル、　（’１３２゜０２８・・
・の数字はサンプル情報を表わし、ている。この場合、
入力音声のサンプリング間Ｉｓ　Ｕ　？１１メｐ’、ｊ
５ｍ８程度に選ばれるが、短い語や単音節の場合に０約
１．（’ｔｏｍ１１程度の発声時間となり、通常使用さ
ｆ＋る語句は約１程度度の発声時間となるだめ、約２０
〜２００個程贋のサンプル情報が得られる。そこで、このように入力音声の時間長に応じて情報数が
変化するサンプル情報を、入力音白の時間長に関係々〈
正規化するため、ｉ個のサンプリング情報は第３図に示
すように所？数単位で均一にｆｌｌえは８個のセグメン
）Ｔｌ〜Ｔ８にグループ什され、各セグメント内でのサ
ンプル情報の総和が求められる。この場合、セグメント
数は認識精度を勘案して沈黛されるが、飴の長さに関係
＆　＜　一定とすれば照合パターンとの照合処理が簡単
に力る。ここで、セグメントＴＮ（Ｎ＝１〜８）に、１−、−け
るフィルタチャンネルｆｎ（ｎ””１〜１６）のサンプ
ル情報総和を’１１で表わすと、各セグメン）ＴＪ〜Ｔ
８におけるサンプル情報総和のデータ群Ｆ゛〜Ｆは＼Ｆ　　−（ｆｌ、第２　、　　・・・・・・・　第１６
）ｐ”　＝　ｌ　ｆ？　、　ｆ：　＃　・・・・・・・
・・ｆｌ：）Ｆ８　＝＝　（ｘ　？、弓、・・・・・・
・・・第１箕）として嵌わすことができる。これにより
、１個のサンプル情報の時間軸上での正規化が行なわれ
たことにかる。次に、各セグメン）Ｔｌ〜Ｔ８のそれぞれにおいてエネ
ルギーの正規化を行うため、各セグメント内のサンプル
情報総和ｆ　のうち最大値を基準に正規化の数値が各総
和ｆ　に与えられる。この場合の数値は例えば４ビツト
のパイナリテータにより構成され、１０進表示の基準数
値「１５」がげの最大値に対して割当てられ、最大値以
下の総和ｆ　には基準数値に当該総和と最大峠和との比
を乗じた数値「０〜】５」が割当てられる。例えば、セ
グメン）ＴＩにおけるザンフ″ル情報総牙［１のデータ
群Ｆ］の各総和％１．・・・・・・ｆｌｌ　が第３図に
示すようガものでちった場合、最大経１第１１はｆ、１
σ〕ｒ４３２ｊであるからこれに正規化用の基準Ｉ（／
仙１−１５」が割当てら第１る。また、第１４−２５９
　　の総・和テラレ、同様に、ｆ　２−２９１　”　］
　　２９　ノｌｊ第１１ｖ（け「１」の正規化用の数帥
が割当てら１１乙１、と１１．　＋、’（’　、ｉシ、
名セグメントＴ１〜Ｔ８におけるり′ング７１情報総和
のデータ群は基量Ｐ値「１５」に比例し゛ｒ正規化され
たことに々る。この結果、認識パターンメモリＣＰ−Ｍ
ＥＭには、第４図に示すよう彦正却化数値「θ〜１５」
で表わされた認識パターンが？ηられる。すなわち、入力音声が８（セグメント）Ｘ１６（フィルタグヤンネル）×４（
ビット）＝５１２　（ビット）に圧縮された認識パターンが伺られる。このように、ｉ個のサンプル情報をＮ個のセグメントに
グループ化し、各セグメント内の各フィルタチャンネル
別の一＋２ンブル情報の総和を求めることにより、時間
軸−りでの正規化を行い、との往各セグメント内の総和
の最大値を基準にしてエネルギーの正規化を行うことに
より、入力音声の時間長、音量の時間変化に関係なく、
時間軸に泊ったＮセグメントから寿る正規化情報、すガ
わち認識パターンを得るととができる。特に、エネルギ
ー面での正規化により、各セグメントの正月化情報は入
力音声のフォルマント情報をほぼ忠実に反映【７たもの
と々す、人力音声のピッチが若干ずれた。場合でを）つ
てもフォルマントの傾向を調べることによυλ人力音声
該当する語を簡単に判？することができる。さらＦｌこ
のような照合処理は認識パターンのビット長が知いため
、汎用の演算装部を利用して実時間で処理することが可
能に々る。なお、り上の説明においては、各セグメントの最大総和
を基準として比例的に小さくなる正帰化用の数値を割当
でる場合を例にとって説明したが、照合処理の都合によ
っては比例的に大きく々る正規化用の数＠を割当てるよ
うにしても構わない１、さて、本発明は次のようにして
実施さｉする１、まず、本来「オ」と「コウベ」は詔の
長さに犬き々差があゆ、この差を利用して不正に認識さ
れろことがないようにすることができる。す々わち、「
コウーペ」という用語が）・１／−ニングにより作成さ
れるどき、サンプリングの計嘗値を照合パターンの一部
として記憶しておき、入力音声のサンプリングｎｉ算値
と比較し、許容限度外の用語が誤って認識されることを
防ぐことができる。本発明は入力音声のサンプル引数値を照合パターン情報
の一部に加え、入力音声との照合帽着において選ばれた
類似語に効１し、このサンプル＝ｔ　ａ値を比較せしめ
、許容の範囲内にあるかどうかを調、べ、一定のセグメ
ントに正炸化する嚇合に発生する異方った長官の用語の
不正認識を防１１−する手段゛を付へするようにしたも
のである。そして、人力音声は語の始甘りから定ｙノらねた間隔ご
とにサンプリングされ、語の終りｔで続けられる。そし
て、入力音声のサンプリング間隔は、例えば５ｍ−（８
）ごとに行な七・ねるが、この場合、単音の「オ」け平
均値に０・１〜０．１２ＳｅＣ程度の長さと々るので、
サンプリング回数は２０〜２４回位となる。また、言葉
の「コウーベ」の場合には０．４〜０．６（８）位の語
の長官となり、サンプリング回数は８０〜１２０回位と
なる。そして、人間の発声はその、都度微妙に変化し、長さも
一定では々いが±３０％位の変動幅を交へれば経験上十
分と云える。ここで、言葉「コウーベ」のトレーニング
時のサンプリング回数を第１図に示す照合パターンメモ
リＲＦ−１１Ｍに付加記憶しておき、語［オー１が入力
され、もし照合パターンの距離！１１算が一雇近いとさ
れた場合でも前記サンプリング回数を比較すれば、明ら
かに選別することができる。いマ、言葉の「コウーベ」のトレーニング時のサンプリ
ング回数ｆ’ｐＪＫとし、入力音声のサンプリング回数
Ｎ×とじ、１．５Ｎｘ（Ｎｘ（（１，６７Ｎ＋（−−（４）の条件
を満足ず／、かどうかをチェックするようにする。ここ
で、もし、入力音声が単音の「オ」の如き短かいＢ葉の
場合には、入力音声のサンプリング回数ＮＸは２４以下
位であり、トｌ／−ニング時のサンプリング回数ＮＫが
例えば８０としても０．６７Ｘ８０＞５３であり、明らかに上記（４）式の範囲外とカリ、不正に
認識されるという弊害から救うことができる３゜以上説
明したように、本発明は入力音声のサンプル計数値を照
合パターン情報の一部に加え、入力音声との照合計ａに
おいて選ばれた類似語に対し、このサンプル計数値を比
較せしめ、許容の範囲内にあるかどうかを調べ、異々つ
た長さの用語の不正認識を防止するようにしたものであ
るから、許容限度外の用語が誤って認識されることを防
＋Ｌすることができるので、実用上の効果は極めて大で
ある。

【図面の簡単な説明】

第１図は本発明によＺ）認識パターン照合方式に用いる
認識パターン作成方式の一実施例を示すブロック図、第
２図−第４図は認識パターン作成方法の説明に供するデ
ータマツプである。ＭＩＣＩｌｌｌｅ・マイクロフォン、ＳＡ・・・φスペ
クトル分析器、ＡＤＣ・・・・ＡＤ変換器、ｒ）ＥＴ・
・・・語領域検出器、ＭＥＭ・・−・原始データメモリ
、ＣＰＤ・・−・認識パターン作成部、ＣＰ・ＭＥＭ−
−−−認識パターンメモリ、ＲＦ−ＭＥＭ−−・・照合
パターンメモｌＪ、ＲＥＦ・・・−照合部。特許出願人　　株式会社　京三製作煕代理人　山川数位（（ほか１名） −１へ− ６３９− ＋　−−−−−−Ｓζ

Claims

【特許請求の範囲】

入力音声をスペクトル分析フィルタを用いて所定周波数
帯域別にサンプリングした彼、そのサンプル情報を入力
音声の語２句、音韻の長さおよび発声の時間変化、音量
の時間変化に関係なく一定のセグメントにグループ分け
した上、各セグメントにおける周波数帯域別サンプル情
報の総和を求め、その総和のうち最大値に正規化のため
の基準値を与え、他の総和には前記基漁の数値に比例し
た数値を与えることにより入力音声のサンプル情報を正
規化して認識パターンを作成する方式において、前記入
力音声のサンプル計数値を照合パターン情報の一部に加
え、入力音声との照合計算において選ばれた類似語に対
し、このサンプル計数を比較せしめ、許容の範囲にある
か否かを調べ一定のセグメントに正規化する場合に発生
する異なった長さの用語の不正認識を防止する手段を付
与するように１７たことを特徴と」−る認識パターン照
合方式。