JPS58136098A

JPS58136098A - 認識パタ−ン学習方式

Info

Publication number: JPS58136098A
Application number: JP57018662A
Authority: JP
Inventors: 加地　正幹
Original assignee: Kyosan Electric Manufacturing Co Ltd
Current assignee: Kyosan Electric Manufacturing Co Ltd
Priority date: 1982-02-08
Filing date: 1982-02-08
Publication date: 1983-08-12

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

本ず１゛明は音声認識装置における認識パターン学習方
式に係り、特に使用する各用語ごとに作成される照合パ
ターントレーニングのために入力される音声により加１
平均化学習せしめ、より安定した認識結果を得ることが
できる認識パターン学習方式に関するものでを〕る。従来、入力音声をスペクトル分析フィルタを用いて所定
周波数帯域別にサンプリングした後正知化して所定の情
報−リイズに圧縮し、音声認識のだめの認識パターンを
作成する方式としては種々のものが提案されている。そして、この発明の出願人は最近、スペクトル分析フィ
ルタを用いてサンプリングした各周波数帯域における入
カザンプル情報を入力音声の語。句、音韻の長さおよび発声の時間変化、音量の時間変化
に関係なく一定数のセグメントにグループ化した上、各
セグメントにおける周波数帯域別サンプル情報の総和を
求め、各セグメント内の総和のうち最大値に刻

【７て正
規化のための基準数価を与え、他の総和にれ１最人総和
との比に比例し、た数値を与えることにより人力音声の
サンプル情報を正規什して認識バタ一二／を作成する１
１式を榔案し。ている。この方店によりｙ川内な極めて優れ六認識装置が得られ
ているが、本来の発明の方式におしするｊｌ（１合パタ
ーンは各用語ごとに１回だけの発声人力によって作成さ
れるだめ、作成時の入力音声が史ｆ′９：に使用される
Ｗ）台の発声と異なるＳ＠も考メ亡１れ、また、夕１来
Ｍ音が滑入し、悪い認識パターンを作成することもあり
イ１１ろ。！？＃、％　ｆｉｓｔ合パターン作成時と実
際に使用すＺ）どきが時間的に舒過１．てＢ声のｊｐｉ
が相当変ることもあり得る。このようが場合、最新の入ノ）音声のパターンを重ねて
学習するとどにより、より安定した良好なパターンに改
良する必要７５１　ｌｔｇじてくる３、ぞ【７１、実際
に使用する場合、ｈ、２識装楢はこのよう庁パターンの
学習機能を持っていた方がより安定した認識性能を発揮
することができる。本発明は１臥土の点に鑑み、このようｈ問題を解決しか
かる？望ｆθ〜足すべくなされた認識パターン学習方式
を提供するもので、学習のための人力音声の開繊パター
ンを７１応するエレメントごとに加重平均１ＨＪｌ−て
学習パターンを作りソするようにしたものである。」ソ下、図面に基づき庫発明の実施例を詳細に説明する
。まず、実施例を酪）３明する前に本発明の理解を容易に
するため、本発明に用いる認識パターン作成方式につい
て説明−４乙。第１図はこの認識パターン作成方式を適用した音声自ｖ
Ｉ認識装置の一例を示すブロック図である。図において、入力音声はマイクロフォンＭＩＣによって
収集された拶、増幅器Ａにより適当々レベルに増幅され
てスペクトル分析器ＳＡに供給される。このスペクトル分析器ＳＡケｆ／１１えば、１６チヤン
ネルの帯域フィルタ旧’Ｆ＋−ＢＰＦ］６を有し、入力
音声はこのスペクトル分析器ＳＡによって所定周波数帯
域別のエネルギーｌとして分解される。そして、各帯域フィルタＢＰＦＩ〜ＢＰＦ］６　　の出
力けぞれぞれ整流器ＲＥＣ］　］ヘーＲＥＣ１６によっ
て直流信号に唆捗されてアナログマルチプレクサＭＰを
介してＡｎ変換器ＡＤＣに伊、給される。このアリログ
マルチプレクサＭＰはｆ流器ＲＥＣ１−ＲＥＣ１６の出
力信号を＋Ｉ：１分割でＡＤ変換器Ａｒ）Ｃに供給り２
、ＡＤ＜σ中黒Ａｔ）Ｃに各帯域別の直流信局を所定時
間間隔でサンプリングしてテイジタル値に変検させるも
のである。こねにより、ＡＤ変捧器ＡＤＣからは入力音
声に含まれる各帯域別のエネルギーを表わすサンプル情
報が得られる。そして、このサンプル情報は語領域検出
器ＤＩＤＴの制御により原始テ・−タメモリＭＥＭに一
時記惰される。この場合は、原始データメモリＭｇＭに
は藺の始１りからｐＶ）ｔでのサンプル情報が記・隠さ
れることに々るそシテ、こｏｇ領域検出器ＤＥＴは、秒
１１えＶ、丁Ｍ　ｌ！］ｌのサンプリング時における全
帯域のサンプノド情報をＦｃ＝（ｆｌ（ｔｃ）、ｆｚ（ｔｃ）、　＋＋＋＋＋　
ｆｌ６（ｔｅ））−ｆｔｌとし、今回のサンプリング時
に」、・け乙全帝城の″！Ｊンプル情報をＦＬ＝（ｆｌ（ｔＴＪ）、ｆｚ（ｔＬ）・・・・・・ｆ
ｌ６（ｔＬ））・・・　（２１とした時、（ｊ＝１．２．　　・・・・・・・・・・・・１６）を
計算し、ｄＣがある変化限界Ｔを越えている条件（ｄａ
＞Ｔ）においては入力音声が持続しているものと見做し
、各サンブリンク動作毎のサンプル情報を原始データメ
モリＭＥＭに記憶させるように構成されるものである。原始データメモＱＭＥＭＫ配憶された入力音声のサンプ
ル情報は、本発明による認識パターン作成方式を利用し
た認識パターン作成部ＣＰＤにおいて正規化圧縮処理さ
れて音声認識用の認識パターンに質請される。・ぞし、
−Ｃ１この認識パターンは、認ｍパターンメモリＣＰ−
ＭＥＭに配憶されるが、この後、照合パターンメモＩＪ
ＲＦ・ＭＩＥＭに予め記憶されている複数の語に関する
照合パターン（リファレンスパターン）と照合部ＲＥＦ
において照合され、入力音声に該当する飴の判定がなさ
ハる。この藺の判定結栄は出力部ＯＵＴを介して文字情
報等の形態で出力される。これによって、マイクロフォ
ンＭＩＣから収集さ第１る入力音声の目脂ｒｉｉＪ！Ｆ
＃を行うことができる。さて＼認識パターン作成部ＣＰＤはまず次のようにして
認識パターンを作成する。まず、原始データメモリＭＥＭには、第２図のデータマ
ツプに示すように入力音声の時間長に１−１′例してｉ
個のサンプル情報がスペクトル分析器ＳＡの各周６Ｑ数
帯域別に？すられる。なお、第２図において、８１〜Ｓ
ｉはザンブリングタイムスロットの番号、ｆｌ〜ｆｎ（
ｎ：実施例では１６）ｌｄスペクトル分析器ＳＡにおけ
るフィルタチャンネル、０３２゜０２８　・・・の数字
はサンプル情報を表わしている。この場合、入力音声のザンブリング間隔は例えば５ｍｓ
程度に選ばれるが、畑い語や単音節の場合には約１００
ｍ５程度の発声時間となり、＞ｒｒ＋常使用される語句
は約１秒程度の発声時間と庁るため、約２０〜２００側
根度のサンプル情報が得られる。そこで、このように入力音声の時間長に応じて情報数が
変化すＺ）サンプル情報を、入力音声の時間長に関係力
〈正規化するため、１個のサンプリング情報は第３図に
示すように所定数却位で均一に例えば８個のセグメン）
Ｔｌ〜Ｔ８にグループ化され、各セグメント内でのサン
プル情報の総和が求められる。この場合、セグメント数
は認識ｙｒＲ度を勘案して決定されるが、飴の長さに関
係々く一定とすれば照合パターンとの照合処理が簡単に
なる。ここで、セグメン）ＴＮ（Ｎ＝１〜８）におけるフィル
タチャンネルｆｎ（ｎ＝１〜１６）のサンプル情報総和
を　ｆ−７”表わすと、各セグメントＴ１〜Ｔ８　にお
けるサンプル情報総和のデータ群１ｉ’　−Ｆに。Ｆ−（ｆ、、ｆ　２≧・・・・・・・ｆ１６）として表
わすことができる。これにより、１個のサンプル情報の
時間軸上での正規化が行表われたことに々る。次に−もセグメン）Ｔｌ〜Ｔ８のそれぞれに卦いてエネ
ルギーの正規化を行うため、各セグメント内のザンブル
情報縫和ｆ　のうち最大値を基準に正規化の数値が各総
和ｆ　に与えられる。この場１合の数値は例えば４ビツトのバイナリデータによ’）４
９成され、１０ｉ１ｆｉ衣示の基準数値「１５」がｆ０
の最大値に幻し２て割当てられ、最大値Ｊ〕ノ下の総和
ｆ　には基準数値に当該総和と最大総和とのｉｔｆ：乗
じた数値「Ｏ〜１５」が割当てられる。例えば、セグメ
ントＴ】におけるザンブル情報総２＋１のデータ群Ｆｌ
の各総和ｆ　　、ｆ　　・・・・・・ｆ　が第３図に示
ｊ　　　　２　　　　　　１６すようなものであった場合、最大総和はｆ　の「６４３２」であるからこれに正規化用の基準数値「１５」
の正規化用の数値が割当てられる。とれにより、各セグ
メントＴ１〜Ｔ８におけるサンプル情報総和のデータ群
は基準数値「】５」に比ｆ！ｌ　して正規化されたこと
になる。この結果、認識パターンメモリＣＰ−ＭＥＭＶ
Ｃは、第４図に示すような正規化数値「０〜１５」で表
わされた認識パターンが少られる。すなわち、入力音声が８（セグメント）　Ｘ　］、　６　（フィルタチャンネ
ル）×４（ピッ１−）＝５１２（ビット）に圧縮された認識パターンがイ信らノする。このように、ｉ個のづンプル情報をＮ個のセグメントに
グループ什し、各セグメント内の各フィルタチャンネル
別のサンプル情報の総和を求めることにより、時間１１
４１＋−上でのＨ１ｔｌ化を行い、この後裔セグメント
内の総和の最大値ｆ基準にし、てエネルギーの正規化を
行うことにより、入力音声の時間長、音１０時間変化に
関係なく、時間軸に泊ったＮセグメントから力る正帰化
情報、す彦わち認識パターンを得ることができる。特に
、エネルギ−面での正規化によシ、各セグメントの正帰
化情報は入力音声のフォルマント情報をほぼ忠実に反映
したものとなり、入力音声のビッグが若干ずわた場合で
あってもフォルマン１の顔向を調べるととにより入力音
声に該当する語を簡単に判定することができる。さらに
、このような照合処理は認識パターンのビット長が短い
ため、汎用の演ａ装置を利用して央時間で処理すること
が可能に々る。女お、以上の説明においては、各セグメントの最大総和
を基準として比例的に小さく々る正月化用の数値を割当
てる場合を例にとって説明したが、照合処理の都合によ
っては比例的に大きく々る１規化用の数値を割当てるよ
うにしても構わ彦い。さて、本発明は次のように実施される。第５図は本発明による認識パターン学習方式の一実施例
を示すブロック図で、説明に必要々部分のみを示す。図
において、ＲＦＰは用語ＮＫγＩする照合パターン、Ｃ
Ｐは学習時に得られる人力音声の認識パターン、ＡＤＤ
は照合パターンＲＦＰと認識パターンｃｐとを加重する
加重計算機部である。そ［７応するエレメント毎に加重
平均計算して学習パターンを作成するようにｍ成されて
いる。つぎにこの第５図に左す実施例の動作を説明する。捷ず
、実際にこのよう力学習方式を使用すると、在来の方デ
ーに較べ相当の認識性能の改善が期待できる。いま、Ｒ１は用語Ｎに対して配憶されている照合パター
ン、Ｒｐに］学習時に入力された音声の認識パターンと
する。そして、第５図の照合パターンＲＦＰに対応する照合パ
ターンＲＰＮはＲＰＮ：（Ｅｌｌ　、Ｅ］２・・・・・・Ｅｉｊ　・・
・・・・Ｅ８．１６）で表わされ、第５図の認識パター
ンＣＰＫ対応する認識パターンＲＰ’ＮはＲＰ’Ｎ＝（Ｅ’１］　、Ｅ’＋　２・・・・・・Ｅ’
ｉｊ　・叩・Ｅ’８．１６）で表わされる。ただし、ｉ
＝１・・・８．ｊ＝１・・・１６である。上記式でＢｉ　ｊ　ｓｉ’ｌｊ　はそれぞれのパターン
の各エレメントであり、ｌはセグメントを示し、ｊは周
波数チャンネルを示す。そして、学習の加重引算は第５図に示す加重計嘗機部Ａ
Ｉ）Ｄにおいて、の引算式により行なわれ、新らしいｎｌ・算値Ｅｉｊが
配憶されることになる。なお上記式、において、ｎは力
０重値で経験上゛３″が使用されているが、これはパ２
”でも”′４”でも弗支４ない。以上薄明したように、本発明は認識バ・ターンを作成す
る方式において、学習のための入力音声の認識パターン
を対応するエレメント毎に加重平均計ａして学習パター
ンを作成するようにしたものであるから、従来のこの種
の方式に辻し７て相当の認識性能を改善することができ
るので、実用上の効果は極めて犬である。また、よシ安
ｔピＩ７た開織結果を得ることができるという点におい
て極めて有効である。

【図面の簡単な説明】

第１図は本発明に用いる認識パターン作成方式の一例を
示すブロック図、第２図〜第４図は認識パターン作威力
法の説明に供するデータマツプ、第５図は本発明による
認識パターン学習方式の一実施例を示すブロック図であ
る。ＭＩＣ・・・愉マイクロフォン、５Ａ−−・・スペクト
ル分析器、ＡＤＣ−・・・ＡＤ変換器、ＤＥＴ−−・・
語領域検出器、ＭＥＭ・・・・原始データメモリ、ＣＰ
Ｄ・・・・認識パターン作成部、Ｃｐ−ＭＥＭ＃　＠　
６　ａ　Ｂｉ＆ハターンメモリ、ＲＦ・ＭＥＭ・・・・
照合パターンメモＩＪ、ＲＥＦ・・・・照合部、ＲＦＰ
・・−０照合パターン、ｃＰｅ・、・認識パターン、Ａ
ＤＤ・・・・加１ｉ計舅磯部。特許出願人　　株式会社　京三製作所代理人　山川政樹（ほか１名）第１図第２図第３図第４図６４５−

Claims

【特許請求の範囲】

入力音声をスペクトル分析フィルタを用いて所定周波数
帯域別にサンプリングした拶、そのサンプル情報を入力
音声の語１句、音韻の長さおよび発声の時間変化、音量
の時間変化に関係なく一定のセグメントにグループ分け
した上、各セグメントにおける周波数帯域別サンプル情
報の総和を求め、その総和のうち最大値に正規化のため
の基準値を与え、他の総和には前記基準の数値に比例し
た数値を与えることによ多入力音声のサンプル情報を正
規化して認識パターンを作成する方式において、学習の
ための入力音声の認識パターン今対応するエレメント毎
に加重平均計算して学習パターンを作成し得るようにし
たことを性徴とする認識パターン学習方式。