JPS58149099A - パタ−ン認識方式 - Google Patents

パタ−ン認識方式

Info

Publication number
JPS58149099A
JPS58149099A JP57032593A JP3259382A JPS58149099A JP S58149099 A JPS58149099 A JP S58149099A JP 57032593 A JP57032593 A JP 57032593A JP 3259382 A JP3259382 A JP 3259382A JP S58149099 A JPS58149099 A JP S58149099A
Authority
JP
Japan
Prior art keywords
pattern
similarity
standard
matching
turn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57032593A
Other languages
English (en)
Inventor
次男 高橋
賢一 高本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP57032593A priority Critical patent/JPS58149099A/ja
Publication of JPS58149099A publication Critical patent/JPS58149099A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 発明の対象 本発#3Fi、パターンに織方式に係シ、肴に音声入カ
ッリーンと標準音声パターンとのマツチングにより、・
母ターンの認識を行なう・ぞター/VB敵方式この柚の
従来技術によるパターン認識方式は、未知の入力音声a
+ターン(以下、入力音声パターンという)全その時に
同時に認識できる対象となる標準音声・母ターン(以下
、標準パターンという)との間でマツチングさせ、これ
らのベクトル間の距離を演算することにより類似度七1
4.出し、対応する標準ノ4ターンを探し出して入力音
声パター70社m’tするものである。この場合、パタ
ーンのマツチングは対象となる榛準ノやターン全部につ
いて演算を行ない、類似度が一番高いもの會選択してい
る。例えは、標準パターンの%徴ごとのクラス分は會行
えない°場合(%定話者を対象として祢準パターン會登
録し、入力音声パターン1に認識するような場合など)
には、入力音声パターンと同時に認識できる対象となる
全標革/母ターンとのマツチングを行なった上で、ノ母
ターンル」の距&を求め、判別している。
このときの各入力音声パターンの認識は、特徴ベクトル
の系列として表現されるノリーン情報全体について演算
t?Tなりた上でなけれはならす、同時1&を緘する語
数が増えるとパターンマツチングの演算量も増えるとい
う問題がある。したがって、同時細緻できる@数が演算
量の関係から逆に制限【受け、l!tIIi!の拡大が
できないという欠点があったー 発明の目的 本発明の目的は、かかる従来技術の状況に鑑みなされた
もので、パターン細織における演算量を減少させること
によって実効演算速度を上げることに51r目し、もっ
て同時認識できる語数を増加させるようにしたIリーン
認識方式を提供するものである。
発明の総括的軌間 上記目的上達成するために、本発明の橋成例と、(シて
は、If!l微ベクトルの系列として表現される入力音
声パターンと振数の標準パターイとを記憶し、この入力
音声/にターンと標準パター/とのベクトル間の距離を
演算し、これらの数低度を算出して入力音声/fターン
の誌wIItt−行なうパターン認識方式において、前
記類似度の算出上所定長さのに鎖部分に対応する語頭ベ
クトル部分について行なってその類似度を判定し、類似
度の高い順に所定数の標準パターン管選択し、尚骸遇択
された所定数のl1lI準パターンに対して全体のベク
トル、または前記iIt頭ベクトル部分を除いfc残部
のベクトル部分につき類似度t−算出する仁とによシ、
入力音声パターンt−認識することにある・ ところで、音声入カッ母ターンのマツチング(おいては
、入力音声自体がその時々の発声の仕方により異なると
いう性質があり、安定的な音声認識が難しい。即ち、話
者の発声速度社一様で扛なく、単gitt−構成する各
音韻はそれぞれ伸縮して全体としては時間軸に対して非
線形な形mtとる。このため、非線形な伸縮を正規化し
て・り一ン間のマツチングを行なうことが必要になる。
この時間正規化の方法として動的計画法を利用して特徴
ベクトル間の演31を行ない、類似度を評価することが
行なわれる。また、音声/臂ターンは、一般に特徴ベク
トルa の時系列1k g= jl ml mB・・・
al・・・alとして表現される。aiとして祉例先は
Nチャンネルのパントノ9スフイルタの出力a’(t)
 a2(t) °・°・・・a”(t)を時間棒本化し
て、町=(,1,,2,・・・ケ)ヲ考えることができ
る。そして、本発明はこのような特徴ベクトルの系列と
して表現される2つの音声パターンの類似度を算出する
ことによってパターンg*t−行なうものである・ 発明の実施例 以下、本発明について図面に示す実施例と共に#It明
する。
鉋1図は本発明の一譬り―ン認識方式を適用した音声入
カバターン認繊装置のブロック線図を示すもので、話者
の音声社マイクロホン1會介して電気信号(音声情報)
に変換され、パッファアング2に供給される。咳パ、フ
ァア/グ2の出力信号はバンドパスフィルタ群a−1、
3−2、・・・3−JC(−れぞれ送出される。該バン
ドパスフィルタ群3−1゜(5) 3−2.・・・3−Nは通常16〜20チヤンネルで構
成され、およそ200〜6000 Hzの音声陶’ts
数を過切な帯域に分割するように割当てられる。
各パントノ臂スフィルタ群3−1 、3−2 、・・・
3−Nノ出力信号はそれぞれに対応するローパスフィル
タN 4−1 、4−2 、・・・4−Nに供給される
。該ローパスフィルタ群4−1 、4−2”、 ・・・
4−N1150m8 @度O@を定数t−有しておシ、
各チャンネル毎の出力信号はここで音声波形のエンペロ
ーフ″波形に変換され取シ出される。このように取シ出
された各チャンネル毎の出力信号は該各チャンネルに対
応するアナログスイッチ回路5に供給される。該アナロ
グスイッチ回路5は制御1II1116によ多制御を受
け、各チャンネルに対応する約20m5(1フレーム)
毎に導通して時分割によシ、アナログデジタルコンバー
タ7(以下、へ・Dコンバータ7という)に出力信号を
送出する。これによシ、音声信号は20 ms、1フレ
ームとしての音声区間に区分けされる。
φコンバータ7では各チャンネルに対応した1フレーム
毎のアナログ信号が8〜12ビ、トの(6) デジタル値に変換され、バッファメモリ8に各チャンネ
ル毎に一時的に記憶される。そして、これらのデジタル
信号はそれぞれ1フレ一ム分のスペクトル悄軸を形成す
ることになる。
前記バッファメモリ8に一時的に記憶されたデジタル信
号は、演算処理s9の処理を受け、次の(1)式に基づ
いて正規化され、記憶され直すことになる。
ここでPlはチャンネルlのスペクトルノ4ワー、nは
全チャンネル数、Cは定数である。
例えば、8ビツトに正規化する場合には、C−256と
する。そして、これらの演算はマイクロコンピュータで
構成された周知の演算ユニットt−令する演算処理部9
で集村される。
また、演算処理部9は内部にプログラムを肩し、パ、7
アメモリ8または後述のランダムアクセスメモリ10に
配憶されたデジタル値を各チャンネルの標本値をもとに
演算し、その標本値に対応するベクトル値上算出する。
さらに、演算処理部9は後述する処理機能の他、制N部
6の制御のもとに音声の@顧と語尾を検出する処理をし
、その結果上バッファメモリ8に記憶する制御をする。
なお、@頭と語尾とを検出する処理としては、各チャン
ネル毎に1フレーム(約20m5)毎のスペクトルノ膏
ワーの合計値t−ti算することによって行なわれる。
即ち、あるチャンネルで規定の閾値に対してパワーが大
きいフレームが5フレ一ム以上続いた場合に、その先頭
フレームt@頭としてバッファメモリ8の対応領域に記
憶する。また、規定のある閾値に対してそれより小さい
パワーを持ったフレームが10フレーム以上続いた場合
に、その直前のフレームを飴地とする勢のアルゴリズム
でフレーム(音声区間)の検出を行なう。
ランダムアクセスファイル10は標準パターンを登録す
る記憶装置で、該ランダムアクセスファイル10は制御
部6の制御下で演算処理s9が出力する標準パターンに
ついての出力信号t−受は入れ、飴頭、語尾會含めて各
標準ノ譬ターン全デジタル値として、tたは演算処理部
9で演算されたベクトル値として各フレーム毎、各チャ
ンネル毎に区分し−て記憶する。
また、動的計画法によるマツチング511(以下、DP
マツチングs11という)は、2つの音声ノ4ターンの
ベクトル間の整合距離を求める機能1c有する。即ち、
バッファメモリ8に記憶された未知の入力音声パターン
のデジタル値とランダムアクセスファイル10に記憶さ
れた標準・母ターンのデジタル値とが演算処理s9に送
出され、骸演算処理89でのベクトルノ臂ターンとして
の演算結果は繭記DPマ、テングs11に送られ、該D
P1ッデング[11では前記演算結果に基づき9A準ツ
クターンと入力音声)臂ターンとのベクトル相互間の整
合距離を求め、その結果と当該標準パターン番号とを判
定部12に出力する。なお、ランダムアクセスファイル
10にベクトル値として記憶されているときには、演算
処理s9を経由せずDPマツチング部11に直接出力し
うる。そして、前(9) !e (D j ウにDPマツチング部11で入力音声
/豐ターンと1つの標準/臂ターンとの整合距離を求め
る演算が終了すると、演算処理部8は制御部6に終了信
号を発信し、その終了信号に基づき制御s6は次の標準
パターンtvtみ出す指令奮発し、DPマツチングs1
1は演算処理部9を介して順次標準パターンについて相
互間の整合距離を求める演算を行ない、判定部12に出
力する。
IIJ記判定s12ではDPマツチングs11の演算結
果に基づき制御部6から与えられる整合距離を示す基準
値と訳DPマツチングs11との演算結果と全比較し、
2!I!−準値以下の標準パターンについてその番号と
整合距離とを順次記憶していく。
従って、判定s12はこのための記憶部t−iしている
全標準パターンについてのマツチングが終了すると、制
御s6の制御のもとに演算処理部9は判定stz’tア
クセスし、その候補数i−判!Lfc後1整合距離の小
さい順にn個の標準パターン番号または尚該標準・母タ
ーンのベクトル値會ワークメモ(10) リ13に1憶する制at行なう。このワークメモリ13
にに憶された標準パターンは後述するフローに従ってD
Pマツチングs11によって入力音声パターンとマツチ
ングが行なわれ、判定部12に出力される。
かくして、判定s12では演算処理s9からの出力指令
信号を受けると、この指令に対応する整合距離の取も小
さいもの(蝦も類似度の高いもの)についてのm準パタ
ーン番号會出力する。
ところで、DPマツチング部11の演算蓋は標準パター
ンの数と標準パターンのフレームlli!(&さ)の棟
に比例することになる。このため、演算速度一定の場合
に同時に認識、できる対象となる飴1(リアルタイムで
認識司書しなカテゴリ数)を増やすためには、標準パタ
ーンのフレーム数を知かくするか、ま次は演算量を減少
させなけれはならない。
そこで、本発明におっては例語か分の飴iiI!齢分゛
′I   に対応するフレームについて類似度を判定し
、予め、候袖會絞っておいて、絞られた候補の榛準ノに
ターンについて全フレームまたは類似度を判定した語頭
部分を除く残シの部分について類似度を判定し、もって
演算量を減少させるものである。
以上の動作について、第2図および第3図を用いて説明
する。
第2図は実際の音韻に対する動作の説明図で、図中(a
)は標準・奇ターンとして登録しであるパターンの語例
を示し、実際にはデジタル値またはベクトル値としてラ
ンダムアクセスファイル10に記憶されている。(b)
はそのM頭部分を示し、(C)は整合距離をグラフ化し
たものである。一方、第3図は?X算処理s8の内sf
ロダラムによる処理のフロー図である。
ます、第3図の5TEP2に示すpl」<未知の入力音
Pパターンに対する認識対象となる標準パターンについ
て、@頭部分標準a4ターン長を指定しておく。この指
定は全標準パターンとも一律であシ、その長さ以下のも
のは標準・9ターンの長さが適用され、このパターン長
は演算処理s9のレジスタ等に予め記憶される。このレ
ジスタを第1のレジスタとし、該第1のレジスタで20
フレ一ム分を指定しであるとする。これが実際の音韻で
は語頭部分の4文字分に相当すると仮定する。
入力音声パターンがr TOKYOTOJという音声情
報だとすこれば、これが各チャンネル毎のデジタル値と
してバッファメモリ8に記憶され、一方ランダムアクセ
スファイル10には標準パターンとして第2図(1)に
示すのTOKYOTO。
■K Y OT OF U %■N A G OYAI
iHI 、・・・・・・(1)Xt X鵞XI X4 
X@ X・が順次同様に記憶されている。
ここで、謝3図の5TEP3に示す動作として、演算処
理部9が制御部6からマツチング動作指令信号を受ける
と、前記第1のレジスタで指定された20フレ一ム部分
につき各標準パターン毎にベクトル値を算出する演算処
理を開始する。この結果に基づいてDPマツチング81
1で整合距離を演算し、得られた類似度は8TEP4に
示す如く判定部12ではJ動部6から与えられる基準値
と判定され基準値以下の整合距離のものが記憶される。
(13) ここで、飴顧部分で整合距離が小さくなるものは第2図
中で■の[TOKYJの4つの部分に対してである。一
般に1個の標準パターンについて語頭部分でマツチング
を行ない、その結果を小さいjlにn個(n≦1)のカ
テゴリを抽出することがii’l能である。例えば、標
準パターンが1000個で諸頭部分類似!F[谷・9タ
ーン数を100個とすれはa=100となる。このn個
という数値は演算処理部9の第2のレジスタに予め記憶
され、これは制御s6から与えられる類似度を示す閾値
(ti合距離)との関係で決定される。
法に、演算処理部9は制御16から与えられている基準
整合距離以下となる標準の数をカウントしてその候補数
を抽出する。即ち、第3図の8TEP5に示す如く、そ
の候補数がなかった場合には5TEP14のリノエクト
処理をしてhaできなかったことにする。一方、5TE
P6に示す如く候補数がn以下でおれは、演算処理部9
は判定部12をアクセスして小さい順に標準パターンの
番号を読み出し、レジスタ13に記憶する。さらに、候
補(14) 数が規定の数n個を越えたときには、8TEP7に示す
ように整合距離の小さい順にn個を選択してワークレジ
スタ13に記憶する。
次に、5TEP8でワークレジスタ13からマツチング
候補の標準・fターンを抽出し、8TEP9においてD
Pマツチング部11は骸各標準!!ターン全体または先
に比較し九@am分を残シの部分について入力音声パタ
ーンとマツチング処理を行ない、その結果Fi再び判定
部12に記憶される。このとき、trたに制御i41部
6から基準整合距離が判定部12に送出される。
さらに、演算処理s9は上記のようにマツチングを行な
った結果と基準整合距離とを判定s12からアクセスし
、かつ該演算処理部9は5TEP 10 。
11で示す如く整合距離の算出を行ない、その小さい順
t/c第1.12の標準/譬ターン候補を抽出する。5
TEP 12に示す如く、1i41候補と第2候補との
整合距離d差が規定閾値0以上であれは第1候補を答え
としてその橡準ノ臂ターン番号を示す出力指令を判定部
12に出力する。また、前記差が規定閾値θ以下であれ
ば5TEP 14でリジェクト処理する。一方、5TE
PI Oで第1候補がない場合(!1合距離が所定閾値
以下のものがない場合)にはリジェクト処理する。
なお、本発明の寮施例においては制NN6と演算処理s
9とに分けているが、これらは一体として一つの1i1
+ 11部jたに処理装置とすることができる。また、
バッファメモリ8、ランダムアクセスファイルlO、ワ
ークメモリ13、判定@12の記憶s11前記制御装W
または処理装置の内部記憶装置の領域に設けられるもの
を使用してもよい。
発明の効果 本発明に係るノ母ターンkwt方式は以上畦細に述べた
如くであって、特徴ベクトルの系列として表現される音
声情報をデジタル情報として記憶し、語頭部分に対応す
るベクトル部分について類似度を判定し、類似度の高い
順に所定数の標準パターンを候補として選択し、この選
択された所定数の標準・母ターンに対して全体のベクト
ルまタハI!F&頭部分を除いた残余のベクトル部分に
つき類似度を算出するように構成したから、同時認識対
象となる全ての標準パターン全体についての演算をする
必賛がなく、認識演算量を減少させることができるとい
う効果を庸する。この結果、同時認識対象を増加させる
ことがWl能となる。
【図面の簡単な説明】
t/141図は本発明のパターン認識方式を適用した音
声パターン認識装置のブロックlIh図、第2図は実際
の音vsに対する動作の一例を示す説明図で、第2図(
a)は樟準ノ臂ターンとして登録しであるバタフ化しf
c説明−1第3図社第1図中の演算処理部の内部プログ
ラムによる処理のフロー図である。 l・・・マイクロホン、2・・・バッファメモリ、3−
1 、3−2 、・・・3−N・・・バンドパスフィル
タ、4−1 、4−2 、・・・4−N・・・ローパス
フィルタ、5・・・アナログスイッチ回路、6・・・制
御部、7・・Aんコンバータ、8・・・バッファメモリ
、9・・・演算処理部、(17) 10・・・ランダムアクセスファイル、11・・・DP
マツチング部、12・・・判定部。 (18) 第1図 第2図 (a)    (b)   (C) 1 1

Claims (1)

    【特許請求の範囲】
  1. 特徴ベクトルの系列として表現される入力音声1?ター
    ンおよび**音声パターン會記憶し、該人力音声パター
    ンと標準音声パターンとの類似度會算出することによ)
    骸入力音声パターンのSat行なう・母ターン餡織方式
    において、前記類似度の算出を所定長さの飴ms分に対
    応するIN頭ベクトル部分について行なってその類似度
    を判定し、類似度の高い順に所定数の標準音声ノ臂ター
    ンl#!l択し、選択された15を定数の#/A準音声
    パターンに対して全体のベクトルまた祉鍵記飴頭部分を
    除いた残りのベクトル部分につIlk似度低度出して入
    力音声・櫂ターンの&織を行なうこと1%像とするパタ
    ーン麹織方式。
JP57032593A 1982-03-02 1982-03-02 パタ−ン認識方式 Pending JPS58149099A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57032593A JPS58149099A (ja) 1982-03-02 1982-03-02 パタ−ン認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57032593A JPS58149099A (ja) 1982-03-02 1982-03-02 パタ−ン認識方式

Publications (1)

Publication Number Publication Date
JPS58149099A true JPS58149099A (ja) 1983-09-05

Family

ID=12363151

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57032593A Pending JPS58149099A (ja) 1982-03-02 1982-03-02 パタ−ン認識方式

Country Status (1)

Country Link
JP (1) JPS58149099A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60233700A (ja) * 1984-05-07 1985-11-20 株式会社リコー 音声パタ−ン照合方法
JPS6195397A (ja) * 1984-10-17 1986-05-14 株式会社リコー 音声パターン照合方法
JPS6195399A (ja) * 1984-10-17 1986-05-14 株式会社リコー 音声パターン照合方法
JPS61223798A (ja) * 1985-03-28 1986-10-04 シャープ株式会社 音声認識方式

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60233700A (ja) * 1984-05-07 1985-11-20 株式会社リコー 音声パタ−ン照合方法
JPS6195397A (ja) * 1984-10-17 1986-05-14 株式会社リコー 音声パターン照合方法
JPS6195399A (ja) * 1984-10-17 1986-05-14 株式会社リコー 音声パターン照合方法
JPS61223798A (ja) * 1985-03-28 1986-10-04 シャープ株式会社 音声認識方式
JPH0556516B2 (ja) * 1985-03-28 1993-08-19 Sharp Kk

Similar Documents

Publication Publication Date Title
JPH0361959B2 (ja)
JPS5972496A (ja) 単音識別装置
JPS6128998B2 (ja)
JP2980026B2 (ja) 音声認識装置
JPS58149099A (ja) パタ−ン認識方式
JPS58108590A (ja) 音声認識装置
JPS645320B2 (ja)
JPS59131999A (ja) 音声認識装置
JP2577891B2 (ja) 単語音声予備選択装置
JPS62100799A (ja) 音声認識方法
JPS60115996A (ja) 音声認識装置
JPS6312000A (ja) 音声認識装置
JPH0554678B2 (ja)
JPS59124390A (ja) 候補削減音声認識方式
JPS59124388A (ja) 単語音声認識処理方式
JPS63292199A (ja) 音声認識装置
JPS58176698A (ja) パターンマッチング装置
JPS62111295A (ja) 音声認識装置
JPS63124099A (ja) スペクトル標準パタンの作成方法
JPS63236094A (ja) 音声認識方法
JPS59124389A (ja) 単語音声認識方式
JPH042197B2 (ja)
JPS6026399A (ja) 単語認識装置
JPH053596B2 (ja)
JPS6152698A (ja) 音声認識装置