JPH049319B2

JPH049319B2 -

Info

Publication number: JPH049319B2
Application number: JP57019649A
Authority: JP
Priority date: 1982-02-12
Filing date: 1982-02-12
Publication date: 1992-02-19
Also published as: JPS58137899A

Description

【発明の詳細な説明】本発明は、パタン認識装置に関する。

パタン認識装置は、例えば音声のように特徴ベ
クトルの時系列として表現される時系列パタンを
標準パタンとのマツチングにより同一性の認識を
行なう装置である。例えば音声認識装置は、認識
対象とする各音声に対して標準パタンが用意され
ており、入力音声パタンを上記各標準パタンと比
較し、すなわちマツチングを行なつて、最も良好
な一致が得られる標準パタンを決定することによ
つて、入力音声パタンが該標準パタンと同一音声
であると判定される。このようなパタン認識によ
り入力音声を機械コード化することができる。

上記標準パタンは、あらかじめ話者によつて入
力されるもので、従来は、各種入力パタンをその
ままメモリに記憶させて標準パタンとして利用し
ている。従つて、例えば単語認識装置の場合で
は、１つの単語に対して、入力パタン長に相当す
るメモリ容量を必要とし、さらに単語数分の容量
が必要である。このため、膨大なメモリ容量が必
要である。メモリ容量を減らすために、入力パタ
ンの一定時間間隔ごとの特徴ベクトルを、代表ベ
クトル列として抽出して標準パタンとする方法も
あるが、この方法では入力パタンの特徴に欠落が
生じるため認識率が低下するという欠点がある。
パタン認識は、音声パタンの認識に限るものでは
なく、特徴ベクトルの時系列として表現されるも
のであれば対象とされるが、音声以外のパタン認
識装置においても、上述の欠点、すなわち標準パ
タンのメモリ容量が膨大となること、又は、メモ
リ容量を低減した場合には認識率が低下すること
については、同様である。

また入力パタンを最適近似する特徴ベクトル系
列を選択して正規化を施すパタン正規化装置にお
いて、入力パタンを最適近似するあらかじめ定め
られた個数の特徴ベクトルおよび境界位置を動的
計画法によつて求める技術が提案されている（特
開昭53−142828号公報）。

しかし、この方法による演算では、代表ベクト
ルと他の特徴ベクトルとの距離合計の最小値を求
めるための演算量が多い問題がある。

本発明の目的は、上述の標準パタンを圧縮し、
標準パタンメモリの容量を低減しながら、動的計
画法による演算量を低減することができるパタン
認識装置を提供することにある。

本発明のパタン認識装置は、ベクトル列b_j（ｊ
＝１、２、…、Ｊ）として表現される標準パタン
を保持するためのパタンバツフアと、該パタンバ
ツフアに格納されたベクトル列b_jをＫ間（Ｋ＜
Ｊ）に分割する区切り点列｛l_k｝＝l₁、l₂、…、l_k、
…l_K+1を各区間の中央位置（l_k＋l_k+1）／２のベク
トルb′_kと該区間内の各ベクトルb_jとの誤差‖b′_k
−b_j‖が全区間において最小となるように動的計
画の手法によつて計算する演算部および上記演算
によつて得られる区切り点列｛l_k｝を決定保持す
る決定部と、該決定部の出力する各区間の中央位
置を示すアドレス信号によつて前記パタンバツフ
アから読み出した中央ベクトルb′_kを圧縮パタン
Ｃ＝c₁、c₂、…、ckとして格納する圧縮パタンメ
モリと、任意の入力パタンと前記圧縮パタンとの
比較を行なう認識処理部とを備えたことを特徴と
する。

次に、本発明について、図面を参照して詳細に
説明する。標本点t₁、t₂、…、を_i、…、t_Iにおけ
る入力のスペクトラム的特徴を与えるベクトルを
a₁、a₂、…、a_i…、a_Iとしたとき、入力パタンＡ
を、Ａ＝a₁、a₂、…、a_i、…、a_I で表わす。また比較すべき標準パタンＢを、Ｂ＝b₁、b₂、…、b_j、…、b_J と表わす。本発明においては、標準パタンＢを第
１図に示すようにＫ＋１個の区切り点l₁〜l_K+1に
よつてＫ区間に区切り、各区分内における中央の
ベクトルb′₁、b′₂、…、b′_Kの列を圧縮パタンＣと
する。各区分の中央のベクトルb′_kは、区切り点l_k
とl_k+1の中央位置のベクトルb_(lk+lk+1)/2を該区間の
代表ベクトルとして抽出したものである。すなわ
ち、 b′_k＝b_(lk+lk+1)/2である。

区切り点列｛l_k｝は、代表ベクトルb′_kが第２図
に示すように、各区切り点l_kとl_k+1の間の区間に
含まれるベクトルb_jに対するベクトル誤差の大き
さを‖b′_k−b_j‖と表わしたとき、下記(1)式の最
小化条件を満足するものとする。

Ｔ＝ M_io ｛lk｝ _K+1 〓^k=1 _lk+1 〓^j=lk+1 ‖b′_k−b_j‖ ……(1) (1)式の最小化問題の計算については後述する
が、この計算によつて、前記区切り点l₁〜l_K+1が
決定される。区切り点列｛l_k｝は、｛l_k｝＝l₁、l₂、…、l_k、…、l_K+1 で表わされる。この区切り点間の中央のベクトル
b′_kを改めてc_kと表わすことにすると、圧縮パタ
ンＣは、Ｃ＝c₁、c₂、…、c_k、…、c_K で表わされる。Ｋは勿論Ｊより小であり、圧縮パ
タンＣは標準パタンＢより小容量のメモリに格納
することができる。

(1)式の最小化問題の計算は、動的計画の手法に
よつて可能である。今、ｌ〜Ｊの値をとる整数ｍ
と、ｌ〜Ｋ＋１の値をとるｋと、ｍ−δ≦ｌ≦ｍ
−１なるｌによつて決定される下記漸化式Ｔ（ｍ、ｋ）＝ M_io ｍ−δｌ＜ｍ〔Ｔ（ｌ−１、ｋ−１）＋_n 〓^j=l ‖b_(l+n)/2−b_j‖〕 ……(2) を考える。ここにδは動的計画法演算の範囲を決
定するパラメータであり、隣り合う区切り点l_kと
l_k+1との最大間隔を規制するために適宜設定され
る整数である。(2)式の漸化式は、初期条件Ｔ（０，
０）＝０から逐次計算によつて求めることができ
る。そして標準パターンＢを区切り点列｛l_k｝で
Ｋ分割した場合に、各分割区間で発生する中央ベ
クトルb′_kと割愛される各ベクトルb_jとの誤差ｄ（b′_k、b_j）＝_lk+1 〓^j=lk+1 ‖b′_k−b_j‖ が全区間について最小となるような区切り点列
｛l_k｝を最適区切り点列として求めることができ
る。

(2)式のＴ（ｍ、ｋ）の計算は、ｍについてはｌ
〜Ｊの範囲で行なわれ、各ｍの値に対してｋが１
〜Ｋ＋１の範囲で行なわれる。更に各ｋの値に対
してｌをｍ−δからｍ−１の範囲で変化させて演
算される。そして、各ｌの値に対しては、 _n 〓^j=l ‖b_(l+n)/2−b_j‖ ……(3) なる演算が行なわれ、次に初期値Ｔ（０，０）＝０
から漸化的に求められるＴ（ｌ−１、ｋ−１）を
(3)式に加算することによつて(2)式右辺の〔〕内
の値が該ｌに対して求められる。上述のように、
ｌはｍ−δからｍ−１の範囲で変化させるから(2)
式の〔〕内の値は、任意の（ｍ、ｋ）に対して
δ個求められる。上記δ個の値のうち最小値がＴ
（ｍ、ｋ）として求められる。このＴ（ｍ、ｋ）に
対応するｌの値（すなわち区切り点となるフレー
ム番号）をＬ（ｍ、ｋ）とすると、ｍ＝１〜Ｊ、
ｋ＝１〜Ｋ＋１に対してＬ（ｍ、ｋ）テーブルが
作成される。該テーブルを参照することにより最
適区切り点列｛l_k｝を求めることができる。すな
わち、上記Ｌテーブルにおいて、終端の区切り点
l_K+1＝Ｌ（Ｊ、Ｋ＋１）より、l_k＝Ｌ（l_k+1、ｋ＋
１）なる逆向きの漸化式によつて、順次始端の区
切り点l₁へさかのぼることによつて最適区切り点
列｛l_k｝が求められる。最適区切り点列｛l_k｝が
求まると、各区切り点間の中央のベクトルc_k＝
b_(lk+lk+1)/2が求まり、最適に圧縮された圧縮パタ
ンＣが求められる。上記演算によつて求められた
圧縮パタンＣは、圧縮前の標準パタンＢに最も近
似したパタンとなるため、認識率の低下をまねく
ことなくパタン圧縮が可能となる。

第３図は、本発明の一実施例を示すブロツク図
である。すなわち、マイクロホン１０の出力信号
Ｓは、音声分析部２０でスペクトラム包絡の時系
列パタンに変換される。該パタンは音声パタンバ
ツフア３０に蓄積される。今、入力音声から標準
パタンを作成する場合、音声パタンバツフア３０
には標準パタンＢが格納されている。動的計画法
計算部（DP計算部）４０は、音声パタンバツフ
ア３０から出力されるベクトル値b_jを入力として
(2)式のＴ（ｍ、ｋ）を計算し、これに対応するＬ
（ｍ、ｋ）を求める（詳細については後述する）。
制御部２００は、音声パタンバツフア３０にＪ個
の標準パタン列が格納されたとき音声パタンバツ
フア３０から出力される信号Ｊを受け、クリヤ信
号CLRおよびマルチプレクサの切替を制御する
信号Ｍ並びにDP計算部４０の計算に必要な数値
信号ｍ、ｋを出力する。数値ｍは１からＪまで順
に出力され、各ｍの値に対して信号ｋが１からＫ
＋１まで出力される。マルチプレクサ５０は、信
号Ｍによつて音声パタンバツフア３０に与えるア
ドレス信号の切替えを行なう。すなわち、信号Ｍ
が“０”のときは、DP計算モードであり、音声
パタンバツフア３０に格納されている圧縮前の標
準パタンＢの各ベクトルb_jを指定するob_jの番地
ｊはDP計算部４０の計算過程でDP計算部４０か
ら出力される。信号Ｍが“１”のときは、圧縮パ
タンＣを決定するモードであり、パタンＢから抽
出する中央ベクトルb′_kを指定する。b′_kの番地は、
決定部８０の出力する信号で与えられる。Ｔメ
モリ６０はDP計算部４０が計算するＴ（ｍ、ｋ）
をテーブルとして保持するメモリであり、Ｌメモ
リ７０は同様にDP計算部４０で得られるＬ（ｍ、
ｋ）テーブルを保持するメモリである。決定部８
０はＬメモリ７０に保持されるＬ（ｍ、ｋ）テー
ブルを参照して最適区切り点列｛l_k｝を定め、ア
ドレス信号＝（l_k＋l_k+1）／２を出力して前記マ
ルチプレクサ５０を介して音声パタンバツフア３
０の該当アドレスから中央ベクトルb′_kすなわちb_l
を読み出す。該ベクトルを圧縮パタンＣのベクト
ルc_kとして圧縮パタンメモリ９０に書き込ませ
る。圧縮パタンメモリ９０は、上述の各ベクトル
c_kを格納し、圧縮パタンＣを保持するメモリであ
る。認識処理部１００は、各区間内のベクトルを
圧縮パタンメモリ９０の出力するベクトルc_kによ
つて近似し、音声パタンバツフア３０の出力する
音声パタンＡと比較し、周知のパタンマツチング
法により認識を行なう。

DP計算部４０は、例えば第４図に示すように
構成されている。すなわち、DP制御部４００は、
制御部２００から入力する信号ｍ、ｋによつて
（ｌ＋ｍ）／２＝ｊなるアドレス計算出力してマ
ルチプレクサ５０を介して音声バツフア３０の該
当番地から仮の中央ベクトルb′_kを読み出す。読
み出された仮の中央ベクトルb′_kはバツフア４１
０に格納される。次に、距離計算部４２０は、音
声パタンバツフアのｊ番地から読み出されるベク
トルb_jと上記中央ベクトルb′_kとの距離の大きさ
‖b′_k−b_j‖を計算し、計算結果は累算部４３０
へ送る。累算部４３０はｌからｍまでについて上
記距離を累算して_n 〓^j=l ‖b′_k−b_j‖なる積分を行な
う。加算部４４０は、Ｔメモリ６０より読出され
るＴ（ｌ−１、ｋ−１）と累算部４３０の出力値_n 〓^j=l ‖b′_k−b_j‖を加算してＴ（ｌ、ｋ）を求める。

上記Ｔ（ｌ、ｋ）はｍ−δからｍ−１までのｌに
ついてそれぞれ計算されるからδ個求められる。
最小検出部４５０は、上記δ個のＴ（ｌ、ｋ）の
うち最小のものを決定して、該最小値をＴ（ｍ、
ｋ）としてＴメモリ６０へ出力し格納する。また
上記最小値Ｔ（ｍ、ｋ）に対応するＬ（ｌ、ｋ）を
Ｌ（ｍ、ｋ）としてＬメモリ７０へ出力格納する。

次に、第５図に示すタイムチヤートおよび第３
図、第４図を参照して本実施例の動作を説明す
る。音声パタンバツフア３０にパタン長Ｊの標準
パタンＢが入力すると、パタン長Ｊが制御部２０
０に与えられ（第５図(a)）、制御部２００は該パ
タン長Ｊに基づいて圧縮フレーム数Ｋ（Ｋ＜Ｊ）
を決定し（第５図(b)）、圧縮フレーム数Ｋの決定
により信号Ｍを“０”とする（第５図(c)）。また、
クリヤ信号CLRを出力して（第５図(d)）Ｔメモ
リ６０に送り、Ｔメモリ６０はクリヤされＴ（０，
０）＝０が初期設定される。以後第５図(e)に示す
ように出力値ｍが１からＪまで順次出力される。
ｍの値のおのおのに対して出力値ｋが１からＫ＋
１まで順次出力される（同図(f)）。更に、各ｋの
値に対して第４図のDP制御部４００内で、ｌの
値がｍ−δからｍ−１まで変化される（第５図
(g)）。そして、DP制御部４００は、各ｌの値に対
して先ず最初にｊ＝（ｌ＋ｍ）／２としたアドレ
ス信号ｊを作成して（第５図(h)参照）マルチプレ
クサ５０に送り、マルチプレクサ５０は該アドレ
ス信号ｊを選択出力して音声パタンバツフア３０
に送る。音声パタンバツフア３０の（ｌ＋ｍ）／
２番地から（仮の）中央ベクトルb′_kが読み出さ
れて第４図のバツフア４１０に格納される。次い
で、アドレス信号ｊの値がｌからｍまで順次変化
され（第５図(h)参照）、そのたびにベクトルb_jが
音声パタンバツフア３０から読み出されて距離計
算部４２０で‖b′_k−b_j‖が算出される。各演算
結果は、累算部４３０で積分され(2)式の右辺の
〔〕内の第２項が算出される。加算器４４０は
累算部４３０の出力値とＴメモリ６０から読出し
たＴ（ｌ−１、ｋ−１）とを加算してＴ（ｌ、ｋ）
を計算した結果を最小検出部４５０に送る。ｍ−
δからｍ−１までのδ個のｌの値に対して、上記
Ｔ（ｌ、ｋ）が計算されてそれぞれ最小検出部４
５０に格納され、最小検出部４５０は、上記δ個
のＴ（ｌ、ｋ）の中の最小値をＴ（ｍ、ｋ）として
Ｔメモリ６０に格納する（第５図(i)）。一方これ
に対応するｌがＬ（ｍ、ｋ）としてＬメモリ７０
に書き込まれる（第５図(j)）。

以上の処理がｍ＝Ｊまで終了すると、Ｌメモリ
７０のＬ（ｍ、ｋ）テーブルが完成され、該テー
ブルを参照して決定部８０で最適区切り点列
｛l_k｝が決定される。すなわち、終端の区切り点
はl_K+1であり、上記Ｌテーブルから読み出したＬ
（Ｊ、Ｋ＋１）はl_K番地を示すから、次にＬテー
ブルからＬ（l_k、Ｋ）を読み出せばl_K-1が求められ
る。このようにl_k＝Ｌ（l_k+1、ｋ＋１）なる逆向き
の漸化式によつて順次始端の区切り点l₁へさかの
ぼることにより最適区切り点列｛l_k｝が求められ
る。

この時点で、第３図の制御部２００の出力する
信号Ｍが“１”となり、区切り点列｛l_k｝にて決
定される圧縮パタンの読み出しモードに移る。す
なわち、決定部８０から＝（l_k＋l_k+1）／２とし
て各区切り点間の中間点を示すアドレスを出力
し、マルチプレクサ５０を介して音声パタンバツ
フア３０の該当の番地からb_lを読み出し、これを
c_kとして圧縮パタンメモリ９０に格納する。すな
わち、圧縮パタンメモリ９０には、圧縮パタンＣ
が格納される。該圧縮パタンの各ベクトルc_kはそ
れぞれの区間内における代表ベクトルとされ、後
に入力する入力パタンＡとの間で認識処理部１０
０によつて周知のパタンマツチング法が実行され
る。本実施例では標準パタンを、もつとも近似誤
差の少なくなるように選び出された代表ベクトル
によつて圧縮することが可能であり、従来よりメ
モリ容量を減少させることができる効果がある。
また、上記圧縮による誤差は小であり、認識率を
低下させることはない。なお、音声パタン以外の
特徴ベクトル列に対しても、同様な構成によつ
て、同様に認識率を低下させることなくメモリ容
量を減少させることが可能である。

さらにまた、本発明では、各区間の中央ベクト
ルの列を圧縮パタンとするため、その中央ベクト
ルと割愛される各ベクトルとの誤差が最小となる
ような区切り点を求める計算ですむため、相隣合
う候補ベクトルを用いて各組の候補ベクトル間の
最適境界位置を求めて演算するものに比べてその
演算量が少なくてすむ利点がある。

【図面の簡単な説明】

第１図は標準パタンを区切り点列｛l_k｝によつ
てＫ区間に分割した各区間の中央ベクトルと圧縮
パタンとの関係を示す図、第２図は上記各区間内
における中央ベクトルb′_kと各ベクトルb_jとの距
離を示す図、第３図は本発明の一実施例を示すブ
ロツク図、第４図は上記実施例のDP計算部の構
成の１例を示すブロツク図、第５図は上記実施例
の動作を説明するためのタイムチヤートである。図において、１０……マイクロホン、２０……
音声分析部、３０……音声パタンバツフア、４０
……DP計算部、５０……マルチプレクサ、６０
……Ｔメモリ、７０……Ｌメモリ、８０……決定
部、９０……圧縮パタンメモリ、１００……認識
処理部、２００……制御部、４００……DP制御
部、４１０……バツフア、４２０……距離計算
部、４３０……累算部、４４０……加算部、４５
０……最小検出部。

Claims

【特許請求の範囲】

１ベクトル列b_j（ｊ＝１、２、…、Ｊ）として
表現される標準パタンを保持するためのパタンバ
ツフアと、該パタンバツフアに格納されたベクト
ル列b_jをＫ区間（Ｋ＜Ｊ）に分割する区切り点列
｛l_k｝＝l₁、l₂、…、l_k、…、l_k+1を各区間の中央位
置（l_k＋l_k+1）／２のベクトルb′_kと該区間内の各
ベクトルb_jとの誤差‖b′_k−b_j‖が全区間において
最小となるように動的計画の手法によつて計算す
る演算部および上記演算によつて得られる区切り
点列｛l_k｝を決定保持する決定部と、該決定部の
出力する各区間の中央位置を示すアドレス信号に
よつて前記パタンバツフアから読み出した中央ベ
クトルb′_kを圧縮パタンＣ＝c₁、c₂、…、c_kとして
格納する圧縮パタンメモリと、任意の入力パタン
と前記圧縮パタンとの比較を行なう認識処理部と
を備えたことを特徴とするパタン認識装置。