JPH0361957B2 - - Google Patents

Info

Publication number
JPH0361957B2
JPH0361957B2 JP57183965A JP18396582A JPH0361957B2 JP H0361957 B2 JPH0361957 B2 JP H0361957B2 JP 57183965 A JP57183965 A JP 57183965A JP 18396582 A JP18396582 A JP 18396582A JP H0361957 B2 JPH0361957 B2 JP H0361957B2
Authority
JP
Japan
Prior art keywords
frame
pattern
matching
standard pattern
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP57183965A
Other languages
Japanese (ja)
Other versions
JPS5972578A (en
Inventor
Seiichi Nakagawa
Hidekazu Tsuboka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP57183965A priority Critical patent/JPS5972578A/en
Publication of JPS5972578A publication Critical patent/JPS5972578A/en
Publication of JPH0361957B2 publication Critical patent/JPH0361957B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • G06V10/7515Shifting the patterns to accommodate for positional errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、特徴ベクトルの系列で表わされた複
数種類の標準パターンと入力パターンとの比較を
行い、入力パターンの識別を行うパターン比較装
置に関し、特に連続して発声した単語音声の認識
などに適用可能なパターン比較装置に関する。
DETAILED DESCRIPTION OF THE INVENTION Field of Industrial Application The present invention relates to a pattern comparison device that compares an input pattern with a plurality of types of standard patterns represented by a series of feature vectors and identifies the input pattern. In particular, the present invention relates to a pattern comparison device applicable to recognition of consecutively uttered word sounds.

従来例の構成とその問題点 人間にとつて最も自然な情報発生手段である音
声が、人間−機械系の入力手段として使用できれ
ば、その効果は非常に大きい。その場合、音声認
識装置としては、より自然な発声で認識できる条
件として、連続して発声した音声の認識ができる
ことが望ましい。
Conventional configuration and its problems If voice, which is the most natural means of generating information for humans, could be used as an input means for a human-machine system, the effect would be very large. In this case, it is desirable for the speech recognition device to be able to recognize continuously uttered speech as a condition for recognizing more natural speech.

連続して発声した単語音声の認識に有効なパタ
ーン比較装置として、動的計画法(以下DPとい
う)を2段階用いたいわゆる2段DP法を用いた
パターン比較装置が実用されているほか、同じ
DP法に基づく方法であつて(従つて、2段DPと
基本原理は同じであつて)計算量が大幅に少く従
つて高速計算が可能な種々の方法が発表されてい
る。
As a pattern comparison device that is effective in recognizing consecutively uttered word sounds, a pattern comparison device that uses the so-called two-stage DP method, which uses two steps of dynamic programming (hereinafter referred to as DP), is in practical use.
Various methods have been announced that are based on the DP method (therefore, the basic principle is the same as the two-stage DP), require significantly less calculation, and are therefore capable of high-speed calculation.

ところで、孤立単語音声の認識を行う際の問題
の1つに音声区間を如何に正しく切り出すかとい
うことがある。即ち、単語音声や単音節音声等の
発声の際、語頭や語尾付近はレベルその他の状態
が不安定であり、音声区間を正しく切り出すのは
難しく、これが正しくないために生ずると思われ
る誤認識率は割合高い。この問題に対処する方法
の1つとして端点自由マツチングと呼ばれる方法
がある。これは、標準パターンや入力パターンの
始端点や終端点の範囲をある制限条件の許で変化
させてDP法によりマツチングするものである。
By the way, one of the problems when recognizing isolated word speech is how to correctly cut out speech sections. In other words, when uttering word speech or monosyllabic speech, the level and other conditions are unstable near the beginning and end of the word, making it difficult to correctly extract the speech section. is relatively high. One method for dealing with this problem is a method called endpoint free matching. This is a method that performs matching using the DP method by changing the range of the starting point and ending point of a standard pattern or input pattern under certain limiting conditions.

前記DP法に基づく連続単語音声の認識におい
ても、標準パターンの登録時に音声区間の正しい
切り出しに関しては同様な問題があるほか入力パ
ターンに対しても、連続して発声した単語の境界
は、前後の単語の影響を受けて不明確であるか
ら、やはり端点自由のマツチングをした方が良
い。
Even in the recognition of continuous word speech based on the DP method, there is a similar problem with correctly cutting out speech sections when registering standard patterns. Since it is unclear due to the influence of words, it is better to perform matching with free endpoints.

DPパス(第1図や第3図で示されるような拘
束条件をつけられたDPマツチングの径路)が非
対称の場合は標準パターンについての始端点・終
端点での端点自由マツチングは容易に実現可能で
あつて、DP法を基本原理とする連続単語認識の
一つの方法に対して、標準パターンの始端点・終
端点での端点自由マツチングを行う方法が
IEEETRANSACTION ON ACOUSTICS,
SPEECH,AND SIGNAL PROCESSING,
VOL.ASSP−29,No.2,P.294,APRIL1981に
記載されている。しかし、入力パターンについて
の端点自由マツチングについては未だ知るところ
ではない。DP法に基づく連続単語認識において
は確かに、任意の区間で標準パターンと照合し、
そのうち最適なものを採用しているという点で
は、入力パターンもみかけ上は端点自由になつて
いるが、入力パターンの全フレームが必ずどれか
の標準パターンの一部と照合されているという意
味で端点自由ではない。
If the DP path (DP matching path with constraint conditions as shown in Figures 1 and 3) is asymmetric, end point free matching at the start and end points of the standard pattern can be easily realized. In contrast to one method of continuous word recognition that uses the DP method as its basic principle, there is a method that performs free endpoint matching at the start and end points of a standard pattern.
IEEETRANSACTION ON ACOUSTICS,
SPEECH, AND SIGNAL PROCESSING,
It is described in VOL.ASSP-29, No.2, P.294, APRIL1981. However, there is still nothing known about endpoint free matching for input patterns. In continuous word recognition based on the DP method, it is true that matching with a standard pattern in an arbitrary interval,
In the sense that the optimal one is adopted, the input pattern appears to have free endpoints, but in the sense that all frames of the input pattern are always matched with some part of some standard pattern. End points are not free.

発明の目的 本発明は、入力パターンについても端点自由の
マツチングが行え、認識精度が大幅に向上したパ
ターン比較装置を提供することを目的とするもの
である。
OBJECTS OF THE INVENTION It is an object of the present invention to provide a pattern comparison device that can perform endpoint-free matching for input patterns and has significantly improved recognition accuracy.

発明の構成 本発明は、標準パターンの結合と入力パターン
との照合距離が最小になる標準パターン列を動的
計画法で求めるに際し、照合する標準パターンの
始端あるいは終端フレームに対応する入力パター
ンのフレームの付近δフレームにおける当該入力
パターンと標準パターンのベクトル間距離を一定
の推定値で置き換えかつ前記δに関して1δ
△の範囲で最適化を行いつつ前記照合距離を求め
る累積距離計算手段を備えたパターン比較装置で
あり、入力パターンについて端点自由のマツチン
グを行うものである。
Structure of the Invention The present invention provides a frame of an input pattern that corresponds to the start or end frame of the standard pattern to be matched when finding a standard pattern sequence that minimizes the matching distance between the combination of standard patterns and the input pattern using dynamic programming. Replace the distance between the vectors of the input pattern and the standard pattern in the vicinity δ frame with a constant estimated value, and 1δ with respect to the above δ
This pattern comparison device is equipped with a cumulative distance calculation means for calculating the matching distance while performing optimization within the range of Δ, and performs endpoint free matching for input patterns.

本発明の基本的な考え方は、前記従来の方法で
は、直前の単語のマツチングの最終フレームと後
続の単語の始端フレームは、何れも対応する入力
パターン上では連続しているが、本発明ではこれ
らがδフレーム離れていてもDP法を用いるに際
して矛盾を生じないようにしたものである。即
ち、DP法が適用できるためには、累積距離の正
規化係数は入力フレーム長に比例しなければなら
ないので、飛ばされたδフレーム分に相当する累
積距離を妥当な推定値で補足するものである。
The basic idea of the present invention is that in the conventional method, the final frame of the matching of the immediately preceding word and the starting frame of the subsequent word are both consecutive on the corresponding input pattern. This is to avoid inconsistency when using the DP method even if the numbers are δ frames apart. In other words, in order for the DP method to be applicable, the normalization coefficient of the cumulative distance must be proportional to the input frame length, so the cumulative distance corresponding to the skipped δ frames can be supplemented with a reasonable estimate. be.

以下、本発明に利用している原理について説明
する。
The principles utilized in the present invention will be explained below.

本発明のパターン比較装置は、種々の入力パタ
ーンの認識にい用いることができる。入力パター
ンの例としては、例えば連続して発声される連続
単語音声がある。次に連続単語音声を例にとつて
本発明を説明する。
The pattern comparison device of the present invention can be used to recognize various input patterns. An example of an input pattern is, for example, continuous word speech that is continuously uttered. Next, the present invention will be explained using continuous word speech as an example.

人間により発声される音声は人によりまた時に
より変化し、基準となる標準パターンに対し時間
的に非線形に伸縮したものとなつている。この非
線形に伸縮している入力パターンと標準パターン
とを比較し入力音声の認識を行うためには、入力
パターンと標準パターンの各特徴ベクトルの対応
付けを時間軸を非線形に伸縮して行い、入力パタ
ーンがどの標準パターンと最も類似しているかを
計算する必要がある。しかしこの入力音声は非線
形に伸縮することはいつても異常に長く伸びたり
短くなつたりすることはない。
The sounds uttered by humans change from person to person and from time to time, and are temporally expanded and contracted non-linearly with respect to a standard pattern. In order to recognize the input speech by comparing this non-linearly expanded/contracted input pattern with the standard pattern, the time axis is expanded/contracted non-linearly to associate each feature vector of the input pattern and the standard pattern. It is necessary to calculate which standard pattern the pattern is most similar to. However, even though this input voice expands and contracts nonlinearly, it never becomes abnormally long or short.

このような入力パターンの物理的な特徴に注目
すれば、入力パターンと標準パターンを比較する
際には無制限にすべての可能性について比較する
のではなく、入力パターンの物理的な性質により
定まるある妥当と考えられる範囲について比較を
行うようにすればよい。
If we focus on the physical characteristics of such input patterns, when comparing input patterns and standard patterns, we do not have to compare all possible possibilities, but we can compare them with certain validity determined by the physical properties of the input patterns. The comparison should be made within the range that is considered to be.

入力音声信号はパターン比較装置において、周
波数分析、LPC分析、PARCO分析、相関分析等
により、いくつかの数値の組(特徴ベクトル)の
系列に変換され、この入力パターンの特徴ベクト
ルと比較の対象となる標準パターンの特徴ベクト
ルとが各ベクトル毎に比較される。この各ベクト
ル毎の比較値、すなわちベクトル間の距離を合計
した累積距離というものをパターンの類似の尺度
に用いる。この累積距離を計算する場合、各ベク
トル毎の比較をすべての組み合わせについて行う
のは計算量が膨大となり、パターン比較装置とし
て実用化することができない。
In the pattern comparison device, the input audio signal is converted into a series of several sets of numerical values (feature vectors) by frequency analysis, LPC analysis, PARCO analysis, correlation analysis, etc., and is compared with the feature vector of this input pattern. Each vector is compared with the feature vector of the standard pattern. This comparison value for each vector, that is, the cumulative distance, which is the sum of distances between vectors, is used as a measure of pattern similarity. When calculating this cumulative distance, comparing each vector for all combinations requires an enormous amount of calculation, and cannot be put to practical use as a pattern comparison device.

入力パターンを一方の軸に、標準パターンを他
方の軸とする平面(以下、i−j平面という)を
考えると、入力パターンおよび標準パターンの各
ベクトルの組み合わせというのは、i−j平面上
の各格子点(以下、単に点という)により示すこ
とができる。従つて前記あらゆる組み合わせにつ
いて各ベクトル間の距離を計算するとは、各点に
おけるベクトル間の距離を計算することであり、
累積距離を計算するとは、入力パターンの特徴ベ
クトルと、それに対応する標準パターンの特徴ベ
クトルのベクトル間距離を順次計算し合計してい
くことである。この累積距離を計算する過程で選
択された、入力パターンと標準パターンの特徴ベ
クトルの対応、すなわち点列を径路という。
Considering a plane with the input pattern on one axis and the standard pattern on the other axis (hereinafter referred to as the ij plane), the combination of each vector of the input pattern and the standard pattern is It can be indicated by each grid point (hereinafter simply referred to as a point). Therefore, calculating the distance between vectors for all the above combinations means calculating the distance between vectors at each point,
Calculating the cumulative distance means sequentially calculating and summing the distances between the feature vectors of the input pattern and the feature vectors of the standard pattern corresponding thereto. The correspondence between the feature vectors of the input pattern and the standard pattern, that is, the sequence of points selected in the process of calculating this cumulative distance, is called a path.

前記した入力パターンの物理的な性質を考慮し
て比較の範囲を限定するということは、本発明に
おいては径路の選択に拘束条件を設けるというこ
とである。
Limiting the range of comparison in consideration of the physical properties of the input patterns described above means that, in the present invention, constraint conditions are set for route selection.

ここで、以後の説明において用いる用語および
記号について説明する。
Here, terms and symbols used in the following description will be explained.

A:入力パターン(A=a1a2…ai…aI)、 aiは第iフレームの特徴ベクトル、 Iは入力パターンのフレーム数 Rn:第n標準パターン(Rn=bn 1bn 2…bn j…bn Jo) bn jは第n標準パターンの第jフレームの特徴
ベクトル Jnは第n標準パターンのフレーム数、 Nを標準パターンの総数とするとき1n
N dn(i、j):第n標準パターンの第jフレームの
特徴ベクトルbn jと入力パターンの第iフレーム
の特徴ベクトルaiとのベクトル間距離。
A: Input pattern (A = a 1 a 2 ... a i ... a I ), a i is the feature vector of the i-th frame, I is the number of frames of the input pattern R n : n-th standard pattern (R n = b n 1 b n 2 …b n j …b n Jo ) b n j is the feature vector of the j-th frame of the n-th standard pattern J n is the number of frames of the n-th standard pattern, and when N is the total number of standard patterns, 1n
N d n (i, j): inter-vector distance between the feature vector b n j of the j-th frame of the n-th standard pattern and the feature vector a i of the i-th frame of the input pattern.

D(i):第1〜第iフレームまでの入力パターン
と、各標準パターンの最適な組み合せの結合パ
ターンとのパターン間の距離(以下、終端累積
距離という) N(i):第1〜第iフレームまでの入力パターンに
対する各標準パターンの最適な組み合せの結合
パターンを求めたときの当該結合パターンを構
成する最後尾標準パターンを示す番号(以下、
最後尾標準パターン名という) B(i)、N(i)の始点フレームの1つ手前のフレー
ムを示す番号(以下、バツクポインタいう) Dn(i、j):入力パターンの第i′〜第iフレーム
までの部分パターンとRnの第1〜第jフレー
ムまでの部分パターンのパターン間の距離(以
下、部分累積距離Dn i′(i、j)という)と、D
(i′−1)との和のi′についての最小値(以下、
中間累積距離という) Bn(i、j):部分累積距離Dn i′(i、j)とD(i′

1)との和を最小にするi′をi^′、すなわちi^′=
argmin〔D(i′−1)+Dn i′(i、j)〕するとき、
当該i^′フレームの1つ手前のフレームを示す番
号(以下、中間バツクポインタという)ただ
し、 argminX 〔 〕は〔 〕内の値をXについて 最小化したときのXの値を示す。
D(i): Inter-pattern distance between the input pattern from the first to i-th frames and the combined pattern of the optimal combination of each standard pattern (hereinafter referred to as the terminal cumulative distance) N(i): The first to i-th frames The number (hereinafter referred to as
(referred to as the last standard pattern name) A number indicating the frame one frame before the starting point frame of B(i), N(i) (hereinafter referred to as the back pointer) D n (i, j): i'th to i'th of the input pattern The distance between the partial pattern up to the i-th frame and the partial pattern from the first to j-th frame of R n (hereinafter referred to as partial cumulative distance D n i ′ (i, j)), and D
The minimum value for i′ of the sum of (i′−1) (hereinafter,
) B n (i, j): Partial cumulative distance D n i ′(i, j) and D(i′

1) i′ that minimizes the sum with i^′, i.e. i^′=
When argmin [D(i′-1)+D n i ′(i, j)],
A number indicating the frame immediately before the i^' frame (hereinafter referred to as intermediate back pointer). However, argmin X [ ] indicates the value of X when the value in [ ] is minimized with respect to X.

Dn(i):j=Jnのときの中間累積距離であり、Dn
(i)=Dn(i、Jn)である。
D n (i): Intermediate cumulative distance when j = J n , D n
(i)=D n (i, J n ).

Bn(i):j=Jnのときの中間バツクポインタであ
り、Bn(i)=Bn(i、Jn)である。
B n (i): An intermediate back pointer when j=J n , and B n (i)=B n (i, J n ).

本発明は、基本的には入力パターンが第i0フレ
ームで終了すると仮定した場合、最後尾パターン
をRnとしたときの中間累積距離Do(i0)を求める
のに、i′を始端フレーム、i0を終端フレームとす
る入力パターンの部分パターンA(i′−1、i0)と
標準パターンRnとのDPマツチングを始端点自
由、終端点固定として行うものであつて、始端点
i′における中間累積距離の初期値Dn(i′、1)と中
間バツクポインタの初期値Bn(i′、O)を Dn(i′、1)=minD(i′−1)+dn(i
′、1) D(i′−2)+d2+dn(i′、1) D(i′−3)+2d3+dn(i′、1) 〓 〓 D(i′−δ)+(δ−1)d〓+dn(i′、1) 〓 〓 〓 ○△D(i′、△)+(△−1)d△+dn(i′、1)…
…(1a) Bn(i′、O)=mini′−1…Dn(i′−1)
=のとき i′−2…Dn(i′−1)=のとき i′−3…Dn(i′−1)=のとき 〓 〓 i′−δ…Dn(i′、1)=のとき 〓 〓 i′−△…Dn(i′、1)=○△のとき……(1b) ただし、 d〓=|D(i′−δ) −D(i′−δ−1)| ……(1c) とすることによつて、第i′−1フレームまでの
DPマツチングの続きとして部分パターンA(i′−
1、i0)と標準パターンRnのDPマツチングを行
うものである。
Basically, the present invention assumes that the input pattern ends at the i0th frame, and when the last pattern is R n , the intermediate cumulative distance D o (i 0 ) is calculated by using i′ as the starting point. This method performs DP matching between a partial pattern A (i'- 1 , i 0 ) of an input pattern and a standard pattern R n , with frame i 0 as the end frame, with a free start point and a fixed end point.
The initial value D n (i', 1) of the intermediate cumulative distance at i' and the initial value B n (i', O) of the intermediate back pointer are D n (i', 1) = minD (i'-1) + d n (i
′, 1) D(i′-2)+d 2 +d n (i′, 1) D(i′-3)+2d 3 +d n (i′, 1) 〓 〓 D(i′-δ)+(δ −1) d〓+d n (i′, 1) 〓 〓 〓 ○△D(i′, △)+(△−1)d△+d n (i′, 1)…
...(1a) B n (i', O) = mini'-1...D n (i'-1)
= when i'-2...D n (i'-1) = i'-3...D n (i'-1) = 〓 〓 i'-δ...D n (i', 1) When = 〓 〓 i′−△…D n When (i′, 1)=○△…(1b) However, d〓=|D(i′−δ) −D(i′−δ−1 )|...(1c) By setting, up to the i'-1st frame
As a continuation of DP matching, partial pattern A(i′−
1, i 0 ) and the standard pattern R n .

式(1a)は第i′フレームにおける累積距離の初
期値を表すものであつて、単語間が最大△−1フ
レーム飛んでもよいことを意味している。飛ばさ
れた(δ−1)フレーム分に相当する累積距離は
最後尾単語の直前単語の最終フレームに関する距
離を表わす式(1c)で与えられるd〓の(δ−1)
倍とするものであつて、このようにすることによ
つて累積距離の正規化係数を入力フレーム数に比
例させることができ、DP法の適用の可能性が維
持される。
Equation (1a) expresses the initial value of the cumulative distance in the i'-th frame, and means that there may be a maximum of Δ-1 frame jump between words. The cumulative distance corresponding to the skipped (δ-1) frames is (δ-1) of d〓, which is given by formula (1c), which expresses the distance from the last frame of the word immediately before the last word.
By doing so, the normalization coefficient of the cumulative distance can be made proportional to the number of input frames, and the possibility of applying the DP method is maintained.

この場合、飛ばされた(δ−1)フレーム分に
相当する累積距離を最後尾単語の最初のフレーム
におけるベクトル間距離dn(i、1)の(δ−1)
倍とすることもできる。このとき、式(1a)は
次の式(2)のようになる。
In this case, the cumulative distance corresponding to the skipped (δ-1) frames is calculated as (δ-1) of the inter-vector distance d n (i, 1) in the first frame of the last word.
It can also be doubled. At this time, equation (1a) becomes the following equation (2).

式(1b)については変化はない。 There is no change in equation (1b).

Dn(i′、1)=minD(i′−1)+dn
(i′、1) D(i′−2)+2dn(i′、1) D(i′−3)+3dn(i′、1) 〓 〓 D(i′−δ)+δdn(i′、1) 〓 〓 ○△D(i′−△)+△dn(i′、1) ……(2) また、最も簡単には、飛ばされた(δ−1)フ
レーム分のベクトル間距離dn(i、1)は、予め
定めた一定値に置き換えて、前記(δ−1)フレ
ーム分に相当する累積距離を前記ベクトル間距離
の(δ−1)倍としてもよい。要は、この飛ばさ
れた(δ−1)フレームのベクトル間距離、従つ
てこの(δ−1)フレーム分に相当する累積距離
を妥当な推定値で置き換えれば良いのであつて、
前記の例はその方法の二、三の例を示したもので
ある。
D n (i', 1) = minD (i'-1) + d n
(i', 1) D(i'-2)+2d n (i', 1) D(i'-3)+3d n (i', 1) 〓 〓 D(i'-δ)+δd n (i' , 1) 〓 〓 ○△D (i′−△)+△d n (i′, 1) ……(2) Also, most simply, the distance between the vectors for the skipped (δ−1) frames is d n (i, 1) may be replaced with a predetermined constant value, and the cumulative distance corresponding to the (δ-1) frames may be set as (δ-1) times the inter-vector distance. The point is that the distance between the vectors of this skipped (δ-1) frame, and thus the cumulative distance corresponding to this (δ-1) frame, can be replaced with a reasonable estimated value.
The examples above illustrate a few examples of how this can be done.

このようにすることによつて、例えば、第1図
に示すようなマツチング径路に対する拘束条件の
もとでは、Dn(i、j)は、式(1a)を初期値と
して、 Dn(i、j)=dn(i、j)+minDn(i−2、j
−1)+dn(i−1、j) Dn(i−1、j−1) Dn(i−1、j−2) のようになり取り得るマツチング径路は第2図の
Pの領域内およびi0−2Jn+2−△ii0−dJn
j=1なる線分上に制限され、Dn(i0)を求める
ために必要とされるdn(i、j)、Dn(i、j)の
計算は領域P内の各点についてそれぞれ1回行う
のみでよい。第2図において横軸は入力パター
ン、縦軸は最後尾標準パターンRnである。領域
Pは傾き1/2の直線P1と傾き2の直線P2とで囲ま
れた領域となつている。Dn(i、j)を求めるに
は、第1図から明らかなようにDn(i−2、j−
1)、Dn(i−1、j−1)、Dn(i−1、j−
2)、dn(i−1、j)、dn(i、j)のみわかつて
いればよいから、第iフレーム上の中間累積距離
Dn(i、j)(ただしj=1、2、…、Jn)を求
めるには、第i−1フレーム、第i−2フレーム
上の中間累積距離Dn(i−1、j)、Dn(i−2、
j)、終端累積距離D(i)および第i−1フレーム、
第iフレーム上のベクトル間距離dn(i−1、
j)、dn(i、j)(ただしj=1、2、…、Jn
を記憶しておくのみでよい。
By doing this, for example, under the constraint conditions for the matching path as shown in FIG. 1, D n (i, j) can be changed to D n (i , j)=d n (i, j) + minD n (i-2, j
-1)+d n (i-1, j) D n (i-1, j-1) D n (i-1, j-2) The possible matching path is the area P in Figure 2. and i 0 −2J n +2−△ii 0 −dJ n ,
The calculation of d n (i, j) and D n (i, j) required to obtain D n (i 0 ), which is restricted to the line segment where j = 1, is performed for each point in the area P. You only need to do each one once. In FIG. 2, the horizontal axis is the input pattern, and the vertical axis is the last standard pattern R n . The region P is an area surrounded by a straight line P1 with a slope of 1/2 and a straight line P2 with a slope of 2 . To find D n (i, j), as is clear from Figure 1, D n (i-2, j-
1), D n (i-1, j-1), D n (i-1, j-
2), d n (i-1, j), d n (i, j) only need to be known, so the intermediate cumulative distance on the i-th frame
To obtain D n (i, j) (where j = 1, 2, ..., J n ), calculate the intermediate cumulative distance D n (i-1, j) on the i-1th frame and the i-2th frame. , D n (i-2,
j), the terminal cumulative distance D(i) and the i-1th frame,
Inter-vector distance d n (i-1,
j), d n (i, j) (where j = 1, 2,..., J n )
All you need to do is remember.

このとき、Dn(i0)は Dn(i0)=Dn(i0、Jn) として求めることができる。 At this time, D n (i 0 ) can be obtained as D n (i 0 )=D n (i 0 , J n ).

以上のように、入力パターンのフレームiが1
フレーム進む毎に、そのフレーム上の中間累積距
離Dn(i、j)(ただし、j=1、2、…、Jn
n=1、2、…、N)を1フレーム前と2フレー
ム前の中間累積距離Dn(i−1、j)Dn(i−2、
j)と1フレーム前および当該フレームのベクト
ル間距離dn(i−1、j)、dn(i、j)(ただしj
=1、2、…、Jn;n=1、2、…、N)から求
め、D(i)=min〔Dn(i、Jn)〕として第iフレー
ムまでの終端累積距離を求めることができる。こ
のようにして求められたDn(i、j)(ただしj
=1、2、…、Jn、n=1、2、…、N)は必要
がなくなるまですなわち次のフレームないしその
次のフレームにおけるDn(i、j)の計算終了ま
で記憶される。
As described above, frame i of the input pattern is 1
Each time the frame advances, the intermediate cumulative distance D n (i, j) on that frame (where j = 1, 2, ..., J n ;
n = 1, 2, ..., N) as the intermediate cumulative distance D n (i-1, j) D n (i-2,
j) and the vector distances d n (i-1, j), d n (i, j) (where j
= 1, 2, ..., J n ; n = 1, 2, ..., N), and calculate the terminal cumulative distance to the i-th frame by setting D(i) = min [D n (i, J n )]. be able to. D n (i, j) obtained in this way (where j
= 1 , 2, . . . , J n , n = 1, 2, .

また、D(i)に対するバツクポインタ(D(i)に対
する始端点から1を差し引いた値)B(i)は次のよ
うにして求まる。
Further, the back pointer B(i) for D(i) (the value obtained by subtracting 1 from the starting point for D(i)) is determined as follows.

Dn(i、j)に対する中間バツクポインタをBn
(i、j)とするとき、 (1) Dn(i、j)=Dn(i−2、j−1)+dn(i−
1、j)+dn(i、j)のときは Bn(i、j)=Bn(i−2、j−1) (2) Dn(i、j)=Dn(i−1、j−1)+dn(i、
j)のときは Bn(i、j)=Bn(i−1、j−1) (3) Dn(i、j)=Dn(i−1)、j−2)+dn(i

j)のときは Bn(i、j)=Bn(i−1、j−2) とおくことにより D(i)=Dn(i、Jn) とすれば B(i)=Bn(i、Jo) となる。従つて、Bn(i、j)についても、1
フレーム前と2フレーム前のものを覚えてお
く。ただし、n^=argmin〔Dn(i、Jn)〕である。
Set the intermediate back pointer for D n (i, j) to B n
(i, j), (1) D n (i, j)=D n (i-2, j-1)+d n (i-
1, j) + d n (i, j), then B n (i, j) = B n (i-2, j-1) (2) D n (i, j) = D n (i-1 , j-1)+d n (i,
j), then B n (i, j) = B n (i-1, j-1) (3) D n (i, j) = D n (i-1), j-2) + d n ( i
,
j), by setting B n (i, j) = B n (i-1, j-2), D(i) = D n (i, J n ), then B(i) = B n (i, J o ). Therefore, also for B n (i, j), 1
Remember what happened a frame ago and what happened two frames ago. However, n^=argmin [D n (i, J n )].

なお、第3図のような径路の場合は、Dn(i、
j)、Bn(i、j)は1フレーム前の値を覚えて
おくだけでよいのは明らかである。
In addition, in the case of the path as shown in Fig. 3, D n (i,
It is clear that it is only necessary to remember the values of B n (i, j) from one frame before.

実施例の説明 以上説明した原理を用いた本発明のパターン比
較装置の実施例について説明する。第4図は本発
明のパターン比較装置を連続単語認識に適用した
場合の一実施例を示すブロツク図である。図にお
いて、Ioは音声信号の入力端子、1はフイルタバ
ンク等で構成された特徴抽出部であつて、入力音
声信号を特徴ベクトルaiの系列Aに変換する。2
は単語標準パターン記憶部であつて、認識語彙た
るN個の単語がそれぞれ標準パターンRn=bn i
bn j…bn Jo、(1nN)として特徴ベクトルの形
で予め登録されている。3はベクトル間距離計算
部であつて、入力パターンの第iフレームにおけ
る特徴ベクトルaiとn番目の単語標準パターンRn
の特徴ベクトルbiとの距離dn(i、j)を、j=
1、2、…、Jnについて求め、必要がなくなるま
で記憶する。本実施例においては中間累積距離を
計算しているフレームの1つ前のフレームおよび
当該フレームのベクトル間距離を当該フレームの
中間累積距離を計算するまで記憶する。dn(i、
j)は、例えばaiとbjの市街距離として定義でき
る。すなわち、ベクトルの次元を1とし、ai
(ai1、ai2、…、ai1)、bn j=(bn j1、bn j2、…、bn j1
)と
するとき dn(i、j)=1k=1 |aik+bn jk| となる。
DESCRIPTION OF EMBODIMENTS An embodiment of the pattern comparison device of the present invention using the principle explained above will be described. FIG. 4 is a block diagram showing an embodiment in which the pattern comparison device of the present invention is applied to continuous word recognition. In the figure, I o is an input terminal for an audio signal, and 1 is a feature extraction unit composed of a filter bank, etc., which converts the input audio signal into a series A of feature vectors a i . 2
is a word standard pattern storage unit, and each of the N words serving as a recognition vocabulary is a standard pattern R n =b n i . . .
b n j ...b n Jo , (1nN) are registered in advance in the form of feature vectors. 3 is an inter-vector distance calculation unit which calculates the feature vector a i in the i-th frame of the input pattern and the n-th word standard pattern R n
The distance d n (i, j) from the feature vector b i of
Find 1, 2,..., J n and store it until it is no longer needed. In this embodiment, the vector distance between the frame immediately before the frame for which the intermediate cumulative distance is being calculated and the frame is stored until the intermediate cumulative distance of the frame is calculated. d n (i,
j) can be defined, for example, as the city distance between a i and b j . That is, let the dimension of the vector be 1, and a i =
(a i1 , a i2 ,…, a i1 ), b n j = (b n j1 , b n j2 ,…, b n j1
), then d n (i, j) = 1k=1 | a ik + b n jk |.

4は累積距離計算部であつて、第iフレームに
ついて中間累積距離Dn(i、j)、終端累積距離
D(i)、中間バツクポインタBn(i、j)、バツク
ポインタB(i)をj=1、2、…、Jn;n=1、
2、…、Nについて求め、最後尾の単語を示すN
(i)を求める。第1図に示したマツチング径路の拘
束条件が採用されると、Dn(i、j)、D(i)は次
の式から求まる。
Reference numeral 4 denotes a cumulative distance calculation unit, which calculates an intermediate cumulative distance D n (i, j), an end cumulative distance D (i), an intermediate back pointer B n (i, j), and a back point B (i) for the i-th frame. j = 1, 2, ..., J n ; n = 1,
2. Find N for ..., N and indicate the last word.
Find (i). When the matching path constraint conditions shown in FIG. 1 are adopted, D n (i, j) and D(i) can be found from the following equations.

Dn(i、j)=dn(i、j)+minDn(i−2、j−
1)+dn(i−1、j) Dn(i−1、j−1) Dn(i−1、j−2) ……(3a) 初期条件 Dn(i、1)=minD(i−1)+dn(i、
1) D(i−2)+d2+dn(i、1) 〓 D(i−δ)+(δ−1)d〓+dn(i、1) 〓 〓 D(i−△)+(△−1)d△+dn(i、1)……(3b
) ただし、 d〓=D(i−δ)−D(i−δ−1) ……(3c) D(i)= minn 〔Dn(i、Jn)〕 ……(3d) Bn(i、j)、B(i)は次の式から求まる。
D n (i, j) = d n (i, j) + minD n (i-2, j-
1) + d n (i-1, j) D n (i-1, j-1) D n (i-1, j-2) ... (3a) Initial condition D n (i, 1) = minD ( i-1)+d n (i,
1) D(i-2)+d 2 +d n (i, 1) 〓 D(i-δ)+(δ-1)d〓+d n (i, 1) 〓 〓 D(i-△)+(△ −1) d△+d n (i, 1)……(3b
) However, d〓=D(i-δ)-D(i-δ-1) ……(3c) D(i)= min n [D n (i, J n )] ……(3d) B n (i, j) and B(i) can be found from the following equation.

Bn(i、j)は Bn(i、O)=i−1 Dn(i、1)=D(i−1)
+d(i、1)のとき Bn(i、O)=i−1 Dn(i、1)=D(i−1)
+d(i、1)のとき i−2 Dn(i、1)=D(i−2)+d2+d(i、1
)のとき 〓 〓 〓 〓 i−δ Dn(i、1)=D(i-δ)+(δ-1)dδ+d(i、1)の
とき 〓 〓 〓 〓 i−△ Dn(i、1)=D(i−△)+(△−1)d△
+d(i、1)のとき……(3e) を初期条件として (1) Dn(i、j)=Dn(i-2、j-1)+dn(i、j)+dn
(i−1、j)のときは Bn(i、j)=Bn(i-2、j-1) ……(3f) (2) Dn(i、j)=Dn(i-1、j-1)+dn(i、j)のと
きは Bn(i、j)=Bn(i-1、j-1) ……(3g) (3) Dn(i、j)=Dn(i-1、j-2)+dn(i、j)のと
きは Bn(i、j)=Bn(i−1、j−2)
……(3h) として求まり、B(i)は式(3d)を満足する単語
番号をn^とすれば B(i)=Bn(i、Jn) ……(3i) となる。またN(i)=n^である。
B n (i, j) is B n (i, O) = i-1 D n (i, 1) = D (i-1)
When +d(i, 1) B n (i, O) = i-1 D n (i, 1) = D (i-1)
+d(i, 1) then i-2 D n (i, 1)=D(i-2)+d 2 +d(i, 1
) When 〓 〓 〓 〓 i−δ D n (i, 1)=D(i−δ)+(δ−1)dδ+d(i, 1) 〓 〓 〓 〓 i−△ D n (i, 1)=D(i-△)+(△-1)d△
When +d (i, 1)... (3e) As an initial condition, (1) D n (i, j) = D n (i-2, j-1) + d n (i, j) + d n
When (i-1, j), B n (i, j)=B n (i-2, j-1)...(3f) (2) D n (i, j)=D n (i- 1, j-1) + d n (i, j), then B n (i, j) = B n (i-1, j-1) ... (3g) (3) D n (i, j) = D n (i-1, j-2) + d n (i, j), then B n (i, j) = B n (i-1, j-2)
...(3h), and if n^ is the word number that satisfies equation (3d), then B(i) = B n (i, J n ) ... (3i). Also, N(i)=n^.

以上のようにして求められた終端累積距離D(i)
=Dn^(i、Jn^)は終端累積距離記憶部5に、バ
ツクポインタB(i)=Bn^(i、Jn^)はバツクポイ
ンタ記憶部6に、最後尾単語番号N(i)=n^は最後
尾単語記憶部7に記憶される。
Terminal cumulative distance D(i) obtained as above
= D n ^ (i, J n ^) is stored in the terminal cumulative distance storage section 5, the back pointer B (i) = B n ^ (i, J n ^) is stored in the back point storage section 6, and the last word number N is stored. (i)=n^ is stored in the last word storage section 7.

なおDn^(i、j)、Bn^(i、j)(ただしj=
1、2、…、Jn^;n=1、2、…、N)は必要
がなくなるまで、累積距離計算部14に一時的に
記憶される。本実施例においては中間累積距離を
計算しているフレームの1つ前および2つ前のフ
レームの中間累積距離を当該フレームの中間累積
距離を計算するまで記憶する。
Note that D n ^ (i, j), B n ^ (i, j) (however, j =
1, 2, . . . , J n ^; n = 1, 2, . . . , N) are temporarily stored in the cumulative distance calculation unit 14 until they are no longer needed. In this embodiment, the intermediate cumulative distances of the frames immediately before and two frames before the frame for which the intermediate cumulative distance is being calculated are stored until the intermediate cumulative distance of the frame is calculated.

また終端累積距離記憶部5に記憶される終端累
積距離D(i)は、式1の初期条件を求めるために必
要なものであり、D(i)についてはDn^(i+1、
1)を求めるまで記憶されておればよい。
Further, the terminal cumulative distance D(i) stored in the terminal cumulative distance storage unit 5 is necessary for determining the initial condition of Equation 1, and for D(i), D n ^(i+1,
It is sufficient that it is stored until 1) is obtained.

8は音声区間検出部であつて、入力信号の大き
さ等から音声区間を判定するものである。音声区
間検出部8が、音声入力が開始されたことを検出
するとフレーム数計数部9はフレーム毎に計数を
はじめる。前記の処理は第iフレームについての
処理であつたが、このフレーム数計数部9の計数
値がすなわちこのiを設定している。従つて、前
記と同様の処理が、フレームが1進む毎に行われ
ることになる。フレーム数計数部9は音声区間が
検出されると計数を始め、音声区間が終了すると
リセツトされる。最後尾単語記憶部7、バツクポ
インタ記憶部6には、従つて、N(i)、B(i)がi=
1、2、…、1について記憶されることになる。
Reference numeral 8 denotes a voice section detecting section, which determines a voice section from the magnitude of the input signal. When the voice section detecting section 8 detects that voice input has started, the frame number counting section 9 starts counting for each frame. Although the above processing was for the i-th frame, the count value of the frame number counting unit 9 sets i. Therefore, the same processing as described above is performed every time the frame advances by one. The frame number counting section 9 starts counting when a voice section is detected, and is reset when the voice section ends. Therefore, in the last word storage unit 7 and back pointer storage unit 6, N(i) and B(i) are i=
1, 2, . . . , 1 will be stored.

セグメンテーシヨン部10はバツクポインタ記
憶部6に対し、所定のバツクポインタを読出すべ
き命令を発するものである。すなわち、セグメン
テーシヨン部10がiなる値をバツクポインタ記
憶部6に発すると、バツクポインタ記憶部6から
はバツクポインタB(i)が読出される。セグメンテ
ーシヨン部10はバツクポインタ記憶部6からB
(i)なる値を受け取ると、その同じ値をバツクポイ
ンタ記憶部6に発する。従つて、音声区間検出部
8が音声入力の終了を検知すると、フレーム数計
数部9の最終値Iがセグメンテーシヨン部10に
供給され、セグメンテーシヨン部10は先ずIな
る値をバツクポインタ記憶部6に発する。以後、
前記説明の動作に従つて、バツクポインタ記憶部
6から、B(I)、B(B(I))、B(B(B(I)))、…
、O
なる出力が順次得られることになる。これらの値
は最後から2番目の単語の終りのフレーム、同3
番目の終りのフレーム、同4番目の終りのフレー
ム、…というものであり、N(i)はiフレームで終
る単語であつたから、この値をそのまま最後尾単
語記憶部7に与えると、最後の単語から逆の順序
で認識結果が得られる。なお認識結果が逆の順序
で得られないようにするためには、この順序の変
換をバツクポインタ記憶部6の出力に対して行う
か最後尾単語記憶部7の出力に対して行えばよ
い。
The segmentation unit 10 issues a command to the back pointer storage unit 6 to read a predetermined back pointer. That is, when the segmentation section 10 issues the value i to the back pointer storage section 6, the back pointer B(i) is read out from the back pointer storage section 6. The segmentation unit 10 is connected to the back pointer storage unit 6 to B.
When the value (i) is received, the same value is sent to the back pointer storage section 6. Therefore, when the voice section detecting section 8 detects the end of the voice input, the final value I of the frame number counting section 9 is supplied to the segmentation section 10, and the segmentation section 10 first stores the value I in the back pointer. Issued to section 6. From then on,
According to the operation described above, B(I), B(B(I)), B(B(B(I))), . . . are stored from the back pointer storage unit 6.
, O
The following outputs will be obtained sequentially. These values are the frame at the end of the penultimate word,
The last frame of the fourth frame, the last frame of the fourth frame, etc., and since N(i) is a word that ends with the i frame, if this value is given to the last word storage unit 7, the last Recognition results are obtained in reverse order starting from the word. In order to prevent recognition results from being obtained in the reverse order, this order conversion may be performed on the output of the back pointer storage section 6 or the output of the last word storage section 7.

第5図は前記実施例装置の機能をソフトウエア
で実現した場合のフローチヤートであり、以下前
記実施例装置の各部の動作と結びつけて説明す
る。
FIG. 5 is a flowchart when the functions of the apparatus of the embodiment are realized by software, and will be explained below in connection with the operations of each part of the apparatus of the embodiment.

ステツプ100〜104は累積距離D(i)、中間累積距
離Dn^(i、j)、バツクポインタB(i)、中間バツ
クポインタBn^(i、j)の初期化を行う部分で
ある。
Steps 100 to 104 are the parts for initializing the cumulative distance D(i), the intermediate cumulative distance D n ^(i, j), the back pointer B(i), and the intermediate back pointer B n ^(i, j). .

ステツプ106〜111は第iフレームのときに実行
する処理である。ステツプ107は第iフレームに
おける中間累積距離と中間バツクポインタの初期
値を与える部分である。ステツプ109〜111の処理
は、主として累積距離計算部4で行われる処理で
ある。ステツプ110における記法 n= argminn 〔Dn(i、Jn)〕は Dn(i、Jn)を最小にするnをn^とおくという意
味である。ステツプ109は中間累積距離Dn(i、
j)、中間バツクポインタBn(i、j)を求めて
いる。ステツプ110はステツプ109の計算をn=
1、2、…、Nについて行つた結果入力の第iフ
レームを入力の終端としたとき、累積距離Dn
(i、Jn)が最小となる最後尾単語n^を求める処理
である。ステツプ111はステツプ110で求まつた最
適の単語n^に対し、N(i)=n^、D(i)=Dn^(i、
Jn^)、B(i)=Bn(i、Jn^)としてそれぞれメモ
リに記憶することを示しており、それらのメモリ
は最後尾単語記憶部7、累積距離記憶部5、バツ
クポインタ記憶部6に対応している。
Steps 106 to 111 are processes executed at the i-th frame. Step 107 is a part for giving initial values of the intermediate cumulative distance and intermediate back pointer in the i-th frame. The processes of steps 109 to 111 are mainly performed by the cumulative distance calculating section 4. The notation n=argmin n [D n (i, J n )] in step 110 means that n that minimizes D n (i, J n ) is set to n^. Step 109 calculates the intermediate cumulative distance D n (i,
j), the intermediate back pointer B n (i, j) is determined. Step 110 performs the calculation of step 109 with n=
When the i-th frame of the result input for 1, 2, ..., N is the end of the input, the cumulative distance D n
This is a process to find the last word n^ that minimizes (i, J n ). In step 111, for the optimal word n^ found in step 110, N(i)=n^, D(i)=D n ^(i,
J n ^), B(i) = B n (i, J n ^), and these memories are stored in the last word storage unit 7, cumulative distance storage unit 5, and back pointer. It corresponds to the storage section 6.

ステツプ112〜115は以上のようにして求められ
たN(i)、B(i)から逆の順序で単語の認識結果を求
める部分で、セグメンテーシヨン部10、バツク
ポインタ記憶部6、最後尾単語記憶部7の間で行
われる処理に対応している。
Steps 112 to 115 are steps for obtaining word recognition results in the reverse order from N(i) and B(i) obtained in the above manner. This corresponds to the processing performed between the word storage units 7.

本実施例では、中間累積距離の初期値として式
(1a)〜(1c)を採用したが、これは勿論前記し
たように式(2)を用いることもできる。
In this embodiment, formulas (1a) to (1c) are used as the initial value of the intermediate cumulative distance, but of course, formula (2) can also be used as described above.

以上のように本実施例によれば、入力単語音声
の単語の結合部の不安定部に適切に対処できるよ
うになつたものである。
As described above, according to the present embodiment, it is possible to appropriately deal with unstable parts of word combinations of input word speech.

次に標準パターンの始端・終端も自由にする第
2の実施例について説明する。この第2の実施例
においては累積距離計算部4における漸化式の計
算を次のように変更する。
Next, a second embodiment will be described in which the starting and ending ends of the standard pattern are also free. In this second embodiment, the calculation of the recurrence formula in the cumulative distance calculating section 4 is changed as follows.

標準パターンの語頭、語尾における端点自由区
間をそれぞれδ1フレーム、δ2フレームとする。即
ち、標準パターンのマツチングの開始フレームを
第1〜δ1フレーム間のフレームとし、マツチング
の終了フレームを第Jn−δ2〜Jnフレームの間のフ
レームとし、それぞれの最適のフレームを選ぶ。
Let the end point free sections at the beginning and end of the standard pattern be δ 1 frame and δ 2 frame, respectively. That is, the starting frame for standard pattern matching is set to be a frame between the first to δ 1 frames, the matching end frame is set to a frame between J n2 to J n frames, and the optimal frames are selected for each.

これを行うには、中間累積距離Dn(i、2)
…、Dn(i、δ1)の決め方と、終端累積距離D(i)
の決め方を次式(4a)〜(4f)のように変更する
のみで良い。この例も径路には第1図の制限条件
を設けるものとする。
To do this, the intermediate cumulative distance D n (i, 2)
..., how to determine D n (i, δ 1 ) and the terminal cumulative distance D(i)
It is sufficient to simply change the method for determining , as in the following equations (4a) to (4f). In this example as well, the limiting conditions shown in FIG. 1 are provided for the route.

Dn(i、2)=minD(i−1) Dn(i−2、1)+dn(i−1、2) Dn(i−1、1)+dn(i、2) ……(4a) Dn(i、3)=minD(i−1) Dn(i−2、2)+dn(i−1、3) Dn(i−1、2) Dn(i−1、1)+dn(i、2) 〓 ……(4b) Dn(i、δ1)=minD(i−1) Dn(i−2、δ1−1)+dn(i−1、δ1) Dn(i−1、δ1−1) Dn(i−1、δ1−2) 〓 Dn(i−1、1)+dn(i、δ1) ……(4c) D(i)=Dn^(i、jn^) ……(4d) ただし、 jn^=argmin〔Dn(i、j)〕 Jn−δ2≦j≦Jn n^= argminn Dn^(i、jn^) また、中間バツクポインタBn(i、j)は Dn(i、j)=D(i−1)+X1のときは Bn(i、j)=i−1 ……(4e) Dn(i、j)=Dn(α、β)+X2のときは Bn(i、j)=Bn(α、β)……(4f) ただし、X1、X2は中間累積距離Dn(i、j)
を算出する際中間累積距離Dn(α、β)に加算さ
れるべきベクトル間距離を表している。
D n (i, 2) = minD (i-1) D n (i-2, 1) + d n (i-1, 2) D n (i-1, 1) + d n (i, 2) ... (4a) D n (i, 3) = minD (i-1) D n (i-2, 2) + d n (i-1, 3) D n (i-1, 2) D n (i-1 , 1) + d n (i, 2) 〓 ... (4b) D n (i, δ 1 ) = minD (i-1) D n (i-2, δ 1 -1) + d n (i-1, δ 1 ) D n (i-1, δ 1 -1) D n (i-1, δ 1 -2) 〓 D n (i-1, 1) + d n (i, δ 1 ) ...... (4c) D(i)=D n ^ (i, j n ^) ... (4d) However, j n ^ = argmin [D n (i, j)] J n −δ 2 ≦j≦J n n^= argmin n D n ^ (i, j n ^) Also, the intermediate back pointer B n (i, j) is D n (i, j) = D (i-1) + X 1 , then B n (i, j) = i - 1 ... (4e) When D n (i, j) = D n (α, β) + X 2 , B n (i, j) = B n (α, β) ... (4f) However , X 1 , X 2 are intermediate cumulative distances D n (i, j)
represents the distance between vectors that should be added to the intermediate cumulative distance D n (α, β) when calculating .

第5図は、標準パターンをも端点自由としたと
きの以上の処理をソフトウエアで実現する場合の
フローチヤートを示す。本図において、第4図と
同一の番号を付したステツプは、ほぼ同様の処理
を行つている。相違するところは、ステツプ116
〜ステツプ118、ステツプ120が挿入されたことで
ある。ステツプ116〜118は始端点を第1〜δ1フレ
ームの間で自由として、中間累積距離Dn(i、
j)、中間バツクポインタBn(i、j)を求める
部分であり、ステツプ119、109はδ1+1≦j≦Jn
における中累積距離Dn(i、j)、中間バツクポ
インタBn(i、j)を求める部分である。ステツ
プ120は終端点を第Jn−δ2〜Jnフレームで自由と
して最適のフレームjn^を求めている。ステツプ
110、111は第4図の同ステツプにおけるJn、Jn^
の代りにこのjn^、jn^を用いている点のみ異る。
FIG. 5 shows a flowchart for implementing the above processing using software when the standard pattern is also free of end points. In this figure, steps given the same numbers as in FIG. 4 perform almost the same processing. The difference is step 116
- Steps 118 and 120 have been inserted. In steps 116 to 118, the starting point is set free between the first to δ1 frames, and the intermediate cumulative distance D n (i,
j), is the part that calculates the intermediate back pointer B n (i, j), and steps 119 and 109 are δ 1 +1≦j≦J n
This is the part for finding the intermediate cumulative distance D n (i, j) and the intermediate back pointer B n (i, j). In step 120, the optimal frame j n ^ is determined with the end point set as a free frame from J n2 to J n frames. step
110 and 111 are J n and J n ^ at the same step in Figure 4.
The only difference is that j n ^ and j n ^ are used instead of .

以上のように本実施例においては、入力パター
ンおよび標準パターンについて端点フリでマツチ
ングを行うので、連続して発声された音声を従来
の装置よりも高い精度で認識することができ、実
用性の高い連続音声認識装置の実現が可能となつ
た。
As described above, in this embodiment, since the input pattern and the standard pattern are matched at the end points, continuously uttered speech can be recognized with higher accuracy than the conventional device, and it is highly practical. It has become possible to realize a continuous speech recognition device.

なお、前記第1、第2の実施例では、連続して
発声された単語を認識する場合を述べたが、単語
の代りに単音節などであつてもよく、その他の連
続するパターンの認識にも適用できるものであ
る。
In addition, in the first and second embodiments, the case where continuously uttered words are recognized is described, but instead of words, monosyllables may be recognized, and other continuous patterns may be recognized. It is also applicable.

また径路の拘束条件として第1図に示したもの
を用いたが、他の拘束条件、例えば第3図に示す
ような拘束条件を用いてもよく、入力パターンの
物理的性質に応じて適当に設定することができ
る。
In addition, although the constraints shown in Fig. 1 are used as the constraint conditions for the route, other constraints, such as those shown in Fig. Can be set.

さらに、本発明はDP法に基ずくあらゆる連続
パターンの認識に適用可能なのは勿論である。
Furthermore, the present invention is of course applicable to recognition of any continuous pattern based on the DP method.

発明の効果 本発明のパターン比較装置は、入力パターンに
ついて端点フリーでマツチングするように構成し
たので、連続して発生されたパターンの境界部
分、すなわち前後の影響を受けたあいまいな部分
を除去してマツチングすることができ、認識率を
向上させることができ、その実用的価値は高い。
Effects of the Invention The pattern comparison device of the present invention is configured to match input patterns without end points, so that boundary parts of continuously generated patterns, that is, ambiguous parts affected by the preceding and succeeding patterns, can be removed. It can be matched, the recognition rate can be improved, and its practical value is high.

【図面の簡単な説明】[Brief explanation of drawings]

第1図はマツチング計算径路の拘束条件を示す
図、第2図はマツチング計算を行う領域を示す
図、第3図はマツチング計算径路の別の拘束条件
を示す図、第4図は本発明における一実施例の音
声認識装置のブロツク図、第5図は同実施例装置
の機能をソフトウエアで実現したときのフローチ
ヤート、第6図は第2の実施例の機能をソフトウ
エアで実現したときのフローチヤートである。 1……特徴抽出部、2……単語標準パターン記
憶部、3……ベクトル間距離計算部、4……累積
距離計算部、5……終端累積距離記憶部、6……
バツクポインタ記憶部、7……最後尾単語記憶
部、8……音声区間検出部、9……フレーム数計
数部、10……セグメンテーシヨン部。
FIG. 1 is a diagram showing the constraint conditions of the matching calculation path, FIG. 2 is a diagram showing the area where matching calculation is performed, FIG. 3 is a diagram showing another constraint condition of the matching calculation path, and FIG. A block diagram of a speech recognition device according to one embodiment, FIG. 5 is a flowchart when the functions of the same embodiment device are realized by software, and FIG. 6 is a flowchart when the functions of the second embodiment are realized by software. This is a flowchart. 1... Feature extraction section, 2... Word standard pattern storage section, 3... Inter-vector distance calculation section, 4... Cumulative distance calculation section, 5... End cumulative distance storage section, 6...
Back pointer storage section, 7... Last word storage section, 8... Speech section detection section, 9... Frame number counting section, 10... Segmentation section.

Claims (1)

【特許請求の範囲】 1 ベクトルの系列bn 1bn 2…bn Joからなる標準パタ
ーンRn(ただし、n=1、2…、N)を記憶する
標準パターン記憶手段と、X個の標準パターンの
結合Rq(1)Rq(2)…Rq(X)=bq(1) 1bq(1) 2…bq(1) Jq
(1)
bq(2) 1
bq(2) 2…bq(2) Jq(2)…bq(X) 1bq(X) 2…bq(X) Jq(X)とベク
トルの系列
a1a2…a1からなる入力パターンAとの累積照合距
離が最小になる標準パターン列Rq(1)Rq(2)…Rq(X)
動的計画法で求めるに際し、照合する標準パター
ンRq(X)の始端フレームに対応する入力パターン
のフレームiとそこからδ遡つたフレームi−δ
(1≦δ≦ΔでΔは予め定めた一定値)を前記標
準パターンの直前に照合された標準パターン
Rq(x-1)の終端フレームに対応する前記入力パター
ンAのフレームとし、前記フレームi−δとフレ
ームiの間の部分累積照合距離をδに依存して決
まる推定値で置き換え、δに関しても前記累積照
合距離をそれが最小になるように計算する累積距
離計算手段とを有することを特徴とするパターン
比較装置。 2 累積距離計算手段は、入力パターンの部分パ
ターンと照合すべき第nの標準パターンに対し
て、当該標準パターンの照合開始フレームを第1
フレームないし第δ1フレーム、照合終端フレーム
を第(Jn−δ2)フレームないし第Jnフレームと
し、かつ前記照合開始フレームおよび照合終端フ
レームに関して最適化することを特徴とする特許
請求の範囲第1項記載のパターン比較装置。
[Claims] 1 Standard pattern storage means for storing a standard pattern R n (where n=1, 2..., N) consisting of a sequence of vectors b n 1 b n 2 ...b n Jo , and Standard pattern combination R q(1) R q(2) …R q(X) =b q(1) 1 b q(1) 2 …b q(1) Jq
(1)
b q(2) 1
b q(2) 2 …b q(2) Jq(2) …b q(X) 1 b q(X) 2 …b q(X) Jq(X) and vector sequence
When finding the standard pattern sequence R q( 1 ) R q(2) ...R q (X) that minimizes the cumulative matching distance with the input pattern A consisting of a 1 a 2 ... a 1 by dynamic programming, the matching The frame i of the input pattern corresponding to the starting frame of the standard pattern R q(X) and the frame i−δ δ traced back from there
(1≦δ≦∆, where ∆ is a predetermined constant value) is the standard pattern that was matched immediately before the standard pattern.
Let the frame of the input pattern A correspond to the terminal frame of R q(x-1) , replace the partial cumulative matching distance between the frame i-δ and frame i with an estimated value determined depending on δ, and with respect to δ and cumulative distance calculating means for calculating the cumulative matching distance so as to minimize the cumulative matching distance. 2 The cumulative distance calculation means sets the matching start frame of the standard pattern to the first frame for the nth standard pattern to be matched with the partial pattern of the input pattern.
A frame to the δ 1 frame, a matching end frame to the (J n - δ 2 ) frame to a J n th frame, and optimization is performed with respect to the matching start frame and the matching end frame. The pattern comparison device according to item 1.
JP57183965A 1982-10-19 1982-10-19 Pattern comparator Granted JPS5972578A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57183965A JPS5972578A (en) 1982-10-19 1982-10-19 Pattern comparator

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57183965A JPS5972578A (en) 1982-10-19 1982-10-19 Pattern comparator

Publications (2)

Publication Number Publication Date
JPS5972578A JPS5972578A (en) 1984-04-24
JPH0361957B2 true JPH0361957B2 (en) 1991-09-24

Family

ID=16144913

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57183965A Granted JPS5972578A (en) 1982-10-19 1982-10-19 Pattern comparator

Country Status (1)

Country Link
JP (1) JPS5972578A (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59124387A (en) * 1982-12-29 1984-07-18 富士通株式会社 Continuous word voice recognition system
JPS59172693A (en) * 1983-03-22 1984-09-29 富士通株式会社 Continuous word voice recognition system
JPS59172692A (en) * 1983-03-22 1984-09-29 富士通株式会社 Continuous word voice recognition system

Also Published As

Publication number Publication date
JPS5972578A (en) 1984-04-24

Similar Documents

Publication Publication Date Title
JP3337233B2 (en) Audio encoding method and apparatus
KR20010102549A (en) Speaker recognition
JPH0247760B2 (en)
JPH0361957B2 (en)
US4790017A (en) Speech processing feature generation arrangement
EP0255529A4 (en) Frame comparison method for word recognition in high noise environments.
JP2004133477A (en) Speech recognition method, computer program for speech recognition method, and storage medium with the computer program recorded thereon
JPH0247757B2 (en)
JPH0320759B2 (en)
JPH0247758B2 (en)
JPH0552516B2 (en)
JP2574242B2 (en) Voice input device
JPH0449719B2 (en)
KR100293465B1 (en) Speech recognition method
JPS60164800A (en) Voice recognition equipment
JPS6336678B2 (en)
JPH067359B2 (en) Voice recognizer
JPH0638198B2 (en) Continuous speech recognizer
JPH0646358B2 (en) Pattern comparison device
JP3009962B2 (en) Voice recognition device
JPS62294298A (en) Voice input unit
JPH0247756B2 (en)
JPH0449718B2 (en)
JPH06100919B2 (en) Voice recognizer
JPS60150098A (en) Voice recognition equipment