JPS58136098A - 認識パタ−ン学習方式 - Google Patents

認識パタ−ン学習方式

Info

Publication number
JPS58136098A
JPS58136098A JP57018662A JP1866282A JPS58136098A JP S58136098 A JPS58136098 A JP S58136098A JP 57018662 A JP57018662 A JP 57018662A JP 1866282 A JP1866282 A JP 1866282A JP S58136098 A JPS58136098 A JP S58136098A
Authority
JP
Japan
Prior art keywords
pattern
recognition pattern
recognition
sample information
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57018662A
Other languages
English (en)
Inventor
加地 正幹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyosan Electric Manufacturing Co Ltd
Original Assignee
Kyosan Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyosan Electric Manufacturing Co Ltd filed Critical Kyosan Electric Manufacturing Co Ltd
Priority to JP57018662A priority Critical patent/JPS58136098A/ja
Publication of JPS58136098A publication Critical patent/JPS58136098A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
本ず1゛明は音声認識装置における認識パターン学習方
式に係り、特に使用する各用語ごとに作成される照合パ
ターントレーニングのために入力される音声により加1
平均化学習せしめ、より安定した認識結果を得ることが
できる認識パターン学習方式に関するものでを〕る。 従来、入力音声をスペクトル分析フィルタを用いて所定
周波数帯域別にサンプリングした後正知化して所定の情
報−リイズに圧縮し、音声認識のだめの認識パターンを
作成する方式としては種々のものが提案されている。 そして、この発明の出願人は最近、スペクトル分析フィ
ルタを用いてサンプリングした各周波数帯域における入
カザンプル情報を入力音声の語。 句、音韻の長さおよび発声の時間変化、音量の時間変化
に関係なく一定数のセグメントにグループ化した上、各
セグメントにおける周波数帯域別サンプル情報の総和を
求め、各セグメント内の総和のうち最大値に刻
【7て正
規化のための基準数価を与え、他の総和にれ1最人総和
との比に比例し、た数値を与えることにより人力音声の
サンプル情報を正規什して認識バタ一二/を作成する1
1式を榔案し。 ている。 この方店によりy川内な極めて優れ六認識装置が得られ
ているが、本来の発明の方式におしするjl(1合パタ
ーンは各用語ごとに1回だけの発声人力によって作成さ
れるだめ、作成時の入力音声が史f′9:に使用される
W)台の発声と異なるS@も考メ亡1れ、また、夕1来
M音が滑入し、悪い認識パターンを作成することもあり
イ11ろ。!?#、% fist合パターン作成時と実
際に使用すZ)どきが時間的に舒過1.てB声のjpi
が相当変ることもあり得る。 このようが場合、最新の入ノ)音声のパターンを重ねて
学習するとどにより、より安定した良好なパターンに改
良する必要751 ltgじてくる3、ぞ【71、実際
に使用する場合、h、2識装楢はこのよう庁パターンの
学習機能を持っていた方がより安定した認識性能を発揮
することができる。 本発明は1臥土の点に鑑み、このようh問題を解決しか
かる?望fθ〜足すべくなされた認識パターン学習方式
を提供するもので、学習のための人力音声の開繊パター
ンを71応するエレメントごとに加重平均1HJl−て
学習パターンを作りソするようにしたものである。 」ソ下、図面に基づき庫発明の実施例を詳細に説明する
。 まず、実施例を酪)3明する前に本発明の理解を容易に
するため、本発明に用いる認識パターン作成方式につい
て説明−4乙。 第1図はこの認識パターン作成方式を適用した音声自v
I認識装置の一例を示すブロック図である。 図において、入力音声はマイクロフォンMICによって
収集された拶、増幅器Aにより適当々レベルに増幅され
てスペクトル分析器SAに供給される。 このスペクトル分析器SAケf/11えば、16チヤン
ネルの帯域フィルタ旧’F+−BPF]6を有し、入力
音声はこのスペクトル分析器SAによって所定周波数帯
域別のエネルギーlとして分解される。 そして、各帯域フィルタBPFI〜BPF]6  の出
力けぞれぞれ整流器REC] ]ヘーREC16によっ
て直流信号に唆捗されてアナログマルチプレクサMPを
介してAn変換器ADCに伊、給される。このアリログ
マルチプレクサMPはf流器REC1−REC16の出
力信号を+I:1分割でAD変換器Ar)Cに供給り2
、AD<σ中黒At)Cに各帯域別の直流信局を所定時
間間隔でサンプリングしてテイジタル値に変検させるも
のである。こねにより、AD変捧器ADCからは入力音
声に含まれる各帯域別のエネルギーを表わすサンプル情
報が得られる。そして、このサンプル情報は語領域検出
器DIDTの制御により原始テ・−タメモリMEMに一
時記惰される。この場合は、原始データメモリMgMに
は藺の始1りからpV)tでのサンプル情報が記・隠さ
れることに々るそシテ、こog領域検出器DETは、秒
11えV、丁M l!]lのサンプリング時における全
帯域のサンプノド情報を Fc=(fl(tc)、fz(tc)、 +++++ 
fl6(te))−ftlとし、今回のサンプリング時
に」、・け乙全帝城の″!Jンプル情報を FL=(fl(tTJ)、fz(tL)・・・・・・f
l6(tL))・・・ (21とした時、 (j=1.2.  ・・・・・・・・・・・・16)を
計算し、dCがある変化限界Tを越えている条件(da
>T)においては入力音声が持続しているものと見做し
、各サンブリンク動作毎のサンプル情報を原始データメ
モリMEMに記憶させるように構成されるものである。 原始データメモQMEMK配憶された入力音声のサンプ
ル情報は、本発明による認識パターン作成方式を利用し
た認識パターン作成部CPDにおいて正規化圧縮処理さ
れて音声認識用の認識パターンに質請される。・ぞし、
−C1この認識パターンは、認mパターンメモリCP−
MEMに配憶されるが、この後、照合パターンメモIJ
RF・MIEMに予め記憶されている複数の語に関する
照合パターン(リファレンスパターン)と照合部REF
において照合され、入力音声に該当する飴の判定がなさ
ハる。この藺の判定結栄は出力部OUTを介して文字情
報等の形態で出力される。これによって、マイクロフォ
ンMICから収集さ第1る入力音声の目脂riiJ!F
#を行うことができる。 さて\認識パターン作成部CPDはまず次のようにして
認識パターンを作成する。 まず、原始データメモリMEMには、第2図のデータマ
ツプに示すように入力音声の時間長に1−1′例してi
個のサンプル情報がスペクトル分析器SAの各周6Q数
帯域別に?すられる。なお、第2図において、81〜S
iはザンブリングタイムスロットの番号、fl〜fn(
n:実施例では16)ldスペクトル分析器SAにおけ
るフィルタチャンネル、032゜028 ・・・の数字
はサンプル情報を表わしている。 この場合、入力音声のザンブリング間隔は例えば5ms
程度に選ばれるが、畑い語や単音節の場合には約100
m5程度の発声時間となり、>rr+常使用される語句
は約1秒程度の発声時間と庁るため、約20〜200側
根度のサンプル情報が得られる。 そこで、このように入力音声の時間長に応じて情報数が
変化すZ)サンプル情報を、入力音声の時間長に関係力
〈正規化するため、1個のサンプリング情報は第3図に
示すように所定数却位で均一に例えば8個のセグメン)
Tl〜T8にグループ化され、各セグメント内でのサン
プル情報の総和が求められる。この場合、セグメント数
は認識yrR度を勘案して決定されるが、飴の長さに関
係々く一定とすれば照合パターンとの照合処理が簡単に
なる。 ここで、セグメン)TN(N=1〜8)におけるフィル
タチャンネルfn(n=1〜16)のサンプル情報総和
を f−7”表わすと、各セグメントT1〜T8 にお
けるサンプル情報総和のデータ群1i’ −Fに。 F−(f、、f 2≧・・・・・・・f16)として表
わすことができる。これにより、1個のサンプル情報の
時間軸上での正規化が行表われたことに々る。 次に−もセグメン)Tl〜T8のそれぞれに卦いてエネ
ルギーの正規化を行うため、各セグメント内のザンブル
情報縫和f のうち最大値を基準に正規化の数値が各総
和f に与えられる。この場1 合の数値は例えば4ビツトのバイナリデータによ’)4
9成され、10i1fi衣示の基準数値「15」がf0
の最大値に幻し2て割当てられ、最大値J〕ノ下の総和
f には基準数値に当該総和と最大総和とのitf:乗
じた数値「O〜15」が割当てられる。例えば、セグメ
ントT】におけるザンブル情報総2+1のデータ群Fl
の各総和f  、f  ・・・・・・f が第3図に示
j    2      16 すようなものであった場合、最大総和はf の「6 432」であるからこれに正規化用の基準数値「15」
の正規化用の数値が割当てられる。とれにより、各セグ
メントT1〜T8におけるサンプル情報総和のデータ群
は基準数値「】5」に比f!l して正規化されたこと
になる。この結果、認識パターンメモリCP−MEMV
Cは、第4図に示すような正規化数値「0〜15」で表
わされた認識パターンが少られる。 すなわち、入力音声が 8(セグメント) X ]、 6 (フィルタチャンネ
ル)×4(ピッ1−)=512(ビット) に圧縮された認識パターンがイ信らノする。 このように、i個のづンプル情報をN個のセグメントに
グループ什し、各セグメント内の各フィルタチャンネル
別のサンプル情報の総和を求めることにより、時間11
41+−上でのH1tl化を行い、この後裔セグメント
内の総和の最大値f基準にし、てエネルギーの正規化を
行うことにより、入力音声の時間長、音10時間変化に
関係なく、時間軸に泊ったNセグメントから力る正帰化
情報、す彦わち認識パターンを得ることができる。特に
、エネルギ−面での正規化によシ、各セグメントの正帰
化情報は入力音声のフォルマント情報をほぼ忠実に反映
したものとなり、入力音声のビッグが若干ずわた場合で
あってもフォルマン1の顔向を調べるととにより入力音
声に該当する語を簡単に判定することができる。さらに
、このような照合処理は認識パターンのビット長が短い
ため、汎用の演a装置を利用して央時間で処理すること
が可能に々る。 女お、以上の説明においては、各セグメントの最大総和
を基準として比例的に小さく々る正月化用の数値を割当
てる場合を例にとって説明したが、照合処理の都合によ
っては比例的に大きく々る1規化用の数値を割当てるよ
うにしても構わ彦い。 さて、本発明は次のように実施される。 第5図は本発明による認識パターン学習方式の一実施例
を示すブロック図で、説明に必要々部分のみを示す。図
において、RFPは用語NKγIする照合パターン、C
Pは学習時に得られる人力音声の認識パターン、ADD
は照合パターンRFPと認識パターンcpとを加重する
加重計算機部である。そ[7応するエレメント毎に加重
平均計算して学習パターンを作成するようにm成されて
いる。 つぎにこの第5図に左す実施例の動作を説明する。捷ず
、実際にこのよう力学習方式を使用すると、在来の方デ
ーに較べ相当の認識性能の改善が期待できる。 いま、R1は用語Nに対して配憶されている照合パター
ン、Rpに]学習時に入力された音声の認識パターンと
する。 そして、第5図の照合パターンRFPに対応する照合パ
ターンRPNは RPN:(Ell 、E]2・・・・・・Eij ・・
・・・・E8.16)で表わされ、第5図の認識パター
ンCPK対応する認識パターンRP’Nは RP’N=(E’1] 、E’+ 2・・・・・・E’
ij ・叩・E’8.16)で表わされる。ただし、i
=1・・・8.j=1・・・16である。 上記式でBi j si’lj はそれぞれのパターン
の各エレメントであり、lはセグメントを示し、jは周
波数チャンネルを示す。 そして、学習の加重引算は第5図に示す加重計嘗機部A
I)Dにおいて、 の引算式により行なわれ、新らしいnl・算値Eijが
配憶されることになる。なお上記式、において、nは力
0重値で経験上゛3″が使用されているが、これはパ2
”でも”′4”でも弗支4ない。 以上薄明したように、本発明は認識バ・ターンを作成す
る方式において、学習のための入力音声の認識パターン
を対応するエレメント毎に加重平均計aして学習パター
ンを作成するようにしたものであるから、従来のこの種
の方式に辻し7て相当の認識性能を改善することができ
るので、実用上の効果は極めて犬である。また、よシ安
tピI7た開織結果を得ることができるという点におい
て極めて有効である。
【図面の簡単な説明】
第1図は本発明に用いる認識パターン作成方式の一例を
示すブロック図、第2図〜第4図は認識パターン作威力
法の説明に供するデータマツプ、第5図は本発明による
認識パターン学習方式の一実施例を示すブロック図であ
る。 MIC・・・愉マイクロフォン、5A−−・・スペクト
ル分析器、ADC−・・・AD変換器、DET−−・・
語領域検出器、MEM・・・・原始データメモリ、CP
D・・・・認識パターン作成部、Cp−MEM# @ 
6 a Bi&ハターンメモリ、RF・MEM・・・・
照合パターンメモIJ、REF・・・・照合部、RFP
・・−0照合パターン、cPe・、・認識パターン、A
DD・・・・加1i計舅磯部。 特許出願人  株式会社 京三製作所 代理人 山川政樹(ほか1名) 第1図 第2図 第3図 第4図 645−

Claims (1)

    【特許請求の範囲】
  1. 入力音声をスペクトル分析フィルタを用いて所定周波数
    帯域別にサンプリングした拶、そのサンプル情報を入力
    音声の語1句、音韻の長さおよび発声の時間変化、音量
    の時間変化に関係なく一定のセグメントにグループ分け
    した上、各セグメントにおける周波数帯域別サンプル情
    報の総和を求め、その総和のうち最大値に正規化のため
    の基準値を与え、他の総和には前記基準の数値に比例し
    た数値を与えることによ多入力音声のサンプル情報を正
    規化して認識パターンを作成する方式において、学習の
    ための入力音声の認識パターン今対応するエレメント毎
    に加重平均計算して学習パターンを作成し得るようにし
    たことを性徴とする認識パターン学習方式。
JP57018662A 1982-02-08 1982-02-08 認識パタ−ン学習方式 Pending JPS58136098A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57018662A JPS58136098A (ja) 1982-02-08 1982-02-08 認識パタ−ン学習方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57018662A JPS58136098A (ja) 1982-02-08 1982-02-08 認識パタ−ン学習方式

Publications (1)

Publication Number Publication Date
JPS58136098A true JPS58136098A (ja) 1983-08-12

Family

ID=11977818

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57018662A Pending JPS58136098A (ja) 1982-02-08 1982-02-08 認識パタ−ン学習方式

Country Status (1)

Country Link
JP (1) JPS58136098A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6227798A (ja) * 1985-07-29 1987-02-05 株式会社日立製作所 音声認識装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4919324A (ja) * 1972-06-14 1974-02-20
JPS53114601A (en) * 1977-03-17 1978-10-06 Fujitsu Ltd Voice recognition system
JPS5651799A (en) * 1979-10-04 1981-05-09 Sanyo Electric Co Sound signal handling system in acoustic device
JPS5683800A (en) * 1979-12-11 1981-07-08 Sanyo Electric Co Voice handler
JPS5688199A (en) * 1979-12-21 1981-07-17 Hitachi Ltd Pattern pretreatment method in voice identifier
JPS5713498A (en) * 1980-06-28 1982-01-23 Tokyo Shibaura Electric Co Voice recognition device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4919324A (ja) * 1972-06-14 1974-02-20
JPS53114601A (en) * 1977-03-17 1978-10-06 Fujitsu Ltd Voice recognition system
JPS5651799A (en) * 1979-10-04 1981-05-09 Sanyo Electric Co Sound signal handling system in acoustic device
JPS5683800A (en) * 1979-12-11 1981-07-08 Sanyo Electric Co Voice handler
JPS5688199A (en) * 1979-12-21 1981-07-17 Hitachi Ltd Pattern pretreatment method in voice identifier
JPS5713498A (en) * 1980-06-28 1982-01-23 Tokyo Shibaura Electric Co Voice recognition device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6227798A (ja) * 1985-07-29 1987-02-05 株式会社日立製作所 音声認識装置

Similar Documents

Publication Publication Date Title
US5056150A (en) Method and apparatus for real time speech recognition with and without speaker dependency
US4624011A (en) Speech recognition system
US6691090B1 (en) Speech recognition system including dimensionality reduction of baseband frequency signals
Ali et al. Gender recognition system using speech signal
JPS58134698A (ja) 音声認識方法および装置
EP0950239A1 (en) Method and recognizer for recognizing a sampled sound signal in noise
GB1569990A (en) Frequency compensation method for use in speech analysis apparatus
JPS634200B2 (ja)
Sugamura et al. Isolated word recognition using phoneme-like templates
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
Elenius et al. Effects of emphasizing transitional or stationary parts of the speech signal in a discrete utterance recognition system
Li et al. A high-performance auditory feature for robust speech recognition.
JPS58136098A (ja) 認識パタ−ン学習方式
JPH04369698A (ja) 音声認識方式
JP2983364B2 (ja) 隠れマルコフモデルと音声信号との類似度計算方法
Saha et al. Modified mel-frequency cepstral coefficient
Makhoul Methods for nonlinear spectral distortion of speech signals
JPS61228500A (ja) 音声認識方法
JPS6126680B2 (ja)
Nikhate et al. Determination of Extent of Similarity between Mimic and Genuine Voice Signals Using MFCC Features
Tomas et al. Determination and evaluation pitch harmonics parameters with emotions classification
JPS58136096A (ja) 認識パタ−ン作成方式
JPH0323920B2 (ja)
JPS60200296A (ja) 音声認識装置
JPS5999500A (ja) 音声認識方法