JPS59198A - Pattern comparator - Google Patents

Pattern comparator

Info

Publication number
JPS59198A
JPS59198A JP57110529A JP11052982A JPS59198A JP S59198 A JPS59198 A JP S59198A JP 57110529 A JP57110529 A JP 57110529A JP 11052982 A JP11052982 A JP 11052982A JP S59198 A JPS59198 A JP S59198A
Authority
JP
Japan
Prior art keywords
pattern
matching
distance
frame
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP57110529A
Other languages
Japanese (ja)
Other versions
JPH0247758B2 (en
Inventor
中川 聖一
英一 坪香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP57110529A priority Critical patent/JPS59198A/en
Publication of JPS59198A publication Critical patent/JPS59198A/en
Publication of JPH0247758B2 publication Critical patent/JPH0247758B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 本発明は、登録された複数種類のパターンと入を行うパ
ターン比較装置、特に連続して発声した単語音声の認識
などに適用iJ能なパターン比較装置に関する。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a pattern comparison device that performs matching with a plurality of registered patterns, and particularly to a pattern comparison device that can be applied to recognition of continuously uttered word sounds.

人間にとって最も自然な情報発生手段である高声が、人
間−機械系の入力手段として真価が発揮されるためには
、話者を限定せず連続的な通常の会話音声の認識が可能
なことが望ましい。
In order for high-pitched voice, which is the most natural means of information generation for humans, to demonstrate its true value as an input means for human-machine systems, it is necessary to be able to recognize continuous normal conversational speech without limiting the speaker. is desirable.

第1図は単語単位を認識単位とする音声認識装置のブロ
ック図である。(1)は音声信号の入力端子、(2)は
入力音声信号を周波数分析、LPC分析、PAR(X)
R分析、相関分析等によシ幾つかの数値の組(特徴ベク
トル)の系列に変換する音響分析部、(3)はM(識す
べき単語が前記特徴ベクトルの系列として登録されてい
る標準パターン記憶部、(4)は音響分析部(2)で分
析された認識すべき入力音声信号に対する前記特徴ベク
トルの系列と前記標準パターンのそれぞれとを比較し、
両者の距離あるいは類似度をt+算するパターンマツチ
ング部、(5)はパターンマツチング部(4)の計算結
果に基づいて前記入力音語を認、識結果として判定する
判定部であり、(6)はこの認識結果を出力する出力端
子である。このような構成による峰声認識装置において
、パターンマツチングの方法として、動的31画法によ
る時間軸非線形伸縮によりマツチング(DPマツチング
)を行う方法が優れている。
FIG. 1 is a block diagram of a speech recognition device that uses words as recognition units. (1) is an audio signal input terminal, (2) is an input audio signal that performs frequency analysis, LPC analysis, and PAR(X).
(3) is an acoustic analysis unit that converts into a series of several sets of numerical values (feature vectors) by R analysis, correlation analysis, etc.; The pattern storage unit (4) compares the series of feature vectors for the input audio signal to be recognized analyzed by the acoustic analysis unit (2) with each of the standard patterns,
A pattern matching unit calculates the distance or similarity between the two by t+, and (5) is a determination unit that recognizes the input phonetic word based on the calculation result of the pattern matching unit (4) and determines it as a recognition result. 6) is an output terminal that outputs this recognition result. In the peak voice recognition device having such a configuration, an excellent pattern matching method is a method of performing matching (DP matching) using time axis nonlinear expansion/contraction using the dynamic 31-stroke method.

本発明装置による連続単語認識において、このI)Pマ
ツチングは中心的な役割を、演する。次にDPマッヂン
グのアルゴリズムについて簡単に説明する。
In continuous word recognition by the apparatus of the present invention, this I)P matching plays a central role. Next, the DP matching algorithm will be briefly explained.

の?4声パターンは、それぞれに対する特徴ベクトルa
、、b、の系列で表わされる。
of? The four-tone pattern has a feature vector a for each
, ,b,.

ベクトルalとす、の距離をd(i、j)とするとき、
前記両系列を構成するベクトルの種々の対応づけに苅し
、d(1,j)の荷重平均を求め、それが最小になる対
応づけを両系列間の最適な対応づけとし、そのときのM
 Tn平均を両系列間の距111fiD(A、B)とす
るのであるが、この手続を動的31画法を用いて効率よ
く行うのがDPマツチングである。なお、d(i、j)
ハ通常ベクトルa1とす、のユークリッド距11%[だ
は市街距離が用いられる。
When the distance between vector al and , is d(i, j),
The weighted average of d(1,j) is obtained by examining various correspondences between the vectors constituting both the above-mentioned series, and the correspondence that minimizes the weighted average is taken as the optimal correspondence between both series, and then M
The Tn average is set as the distance 111fiD(A, B) between both series, and DP matching efficiently performs this procedure using the dynamic 31-stroke method. Note that d(i, j)
The normal vector a1 is the Euclidean distance of 11%, and the city distance is used.

第2図はこれを二次元的に図示しだもので、A。Figure 2 shows this two-dimensionally.A.

8両パターンの時間の対応すなわち時間変換函数j(i
)は、i−j平面上の格子点c(k)=(i(k)、j
(k))の系列 F=c(1)c(2)  ・・・ c(k)−c(T(
)   −(2)(i(K)=I  、j(K)=J) で表わされる。このとき、D(A、B)は次のように定
義される。
The time correspondence of the 8-car pattern, that is, the time conversion function j(i
) is the grid point c(k)=(i(k),j
(k)) series F=c(1)c(2) ... c(k)-c(T(
) −(2) (i(K)=I, j(K)=J). At this time, D(A, B) is defined as follows.

ここに、w(k)は非負の定数で、その値は時間変換1
季1数j(i)を点列で近似するときの方式によって定
められる。ここで、式(3)の分母をFに依存しない定
数M−Σw(k)とすれば、I)(A、B)は動的31
両法にに−1 より効率的に求められる。すなわち、 =min[min     〔r’ d(c(1)w(
/?)、:l刊(c(k)w(k)〕c(k)c(+)
c(2)−c(k−1) ”であるから、g(c(1)
)=g(1,1)=d(1,1)として、漸化式(4)
を解き、g(c(K))=g(1、J )が求められれ
Vより(A、B)= −I−g(1,J) Moo−−−°−−−  (5) としてI)(A、B)が求められる。
Here, w(k) is a non-negative constant, and its value is the time transformation 1
It is determined by the method used to approximate the seasonal number j(i) using a sequence of points. Here, if the denominator of equation (3) is a constant M-Σw(k) that does not depend on F, then I) (A, B) is a dynamic 31
Both methods can be calculated more efficiently by -1. That is, =min[min [r' d(c(1)w(
/? ), :l publication (c(k)w(k)]c(k)c(+)
c(2)-c(k-1)'', so g(c(1)
)=g(1,1)=d(1,1), recurrence formula (4)
By solving, g(c(K))=g(1, J) is obtained, and from V, (A, B)= −I−g(1, J) Moo−−−°−−− (5) as I )(A, B) is obtained.

式(3)の分1好を定数化する方法として、M=I+J
となるようKする方法(対称11便)と、M=Ijたは
Jとなるようにする方法(非対称4!l)がある。第3
図fal〜(flは点列Fを選ぶ際の拘束条件の例を示
1、ておシ、点(i、j)に至る径路は図の矢線で示さ
れる径路のみとり得る。寸だ各線分上に示された数字は
その線分が径路として選ばれた場合の荷重w(k)を示
している。(a)、(b)は前記対称型の例でM=1十
J となり、(cl〜(f)はnO^己非対称型の例で
M=1となる。
As a method to make the fraction of equation (3) constant, M=I+J
There is a method of setting K so that it becomes (symmetrical 11 flights) and a method of setting K so that M=Ij or J (asymmetrical 4!l). Third
Figure fal ~ (fl shows an example of the constraint conditions when selecting the point sequence F. 1) The route leading to the point (i, j) can only take the route shown by the arrow in the figure. The number shown above indicates the load w(k) when that line segment is selected as the path. (a) and (b) are the symmetrical example mentioned above, where M = 10 J, (cl~(f) is an example of nO^ self-asymmetric type, and M=1.

このようなマツチング法を用いて単語音声の認識をする
ためには次のようにする。認識の対象となっている単語
クラスをn(n=1〜N)、その標準パターンを°B0
で表す。人力Aと各標準パターンH’との距NU I)
。−L)(A、B”)を上記の方法でJl)Qシ、I)
11o−min(Inn斤与えるクラスn。をAに対す
る認識結果とする。
To recognize word sounds using such a matching method, proceed as follows. The word class to be recognized is n (n=1 to N), and its standard pattern is °B0.
Expressed as Distance NU I) between human power A and each standard pattern H'
. -L) (A, B”) in the above method Jl) Qshi, I)
11 o-min (Inn catty given class n. Let be the recognition result for A.

前記非対称型のDPマッヂングでM=1となるようにす
れば、Mは入カバターン長にのみ関係する1%逼となり
、式(5)において何れの標準パターンに対してもMは
一定であるから、 と定義できる。以後、パターン間の距〜tは式(6)に
よるものとする。第3図(C)の拘束条件のもとに式(
6)を求める場合には次の漸化式(7)を計やすれはよ
い0 初期条件 g(1,1)=d(1,1)次に連続単語認
識の認識について説明する。連続単語音声認識は次のよ
うに定式化できる1、い1X個の単語q(1)、q(2
)、・・・q(x)を連続して発声したときの高IJ1
パターンをAで表わす。
If M is set to 1 in the asymmetric DP matching described above, M becomes 1%, which is related only to the input cover turn length, and M is constant for any standard pattern in equation (5). , can be defined as . Hereinafter, it is assumed that the distance between patterns ~t is based on equation (6). Under the constraint conditions shown in Figure 3(C), the formula (
6), it is best to calculate the following recurrence formula (7).0 Initial condition: g(1,1)=d(1,1)Next, continuous word recognition will be explained. Continuous word speech recognition can be formulated as follows: 1, 1X words q(1), q(2
), ...high IJ1 when uttering q(x) continuously
The pattern is represented by A.

A、=aa ・・・al・・・al      ・・・
・・ (8)2 甲語qcx)の椰lドパターンを 1%、==1〕、qLx)1)2qtx)・・・bIq
(x)・bzQ(x)   + HHH+  (9)と
するとき、X個の単語Bq(D ”’q(2ビ” Bq
(x)を接続して得られる椰lドパターン■は B=Bqい、q→BQ(21■・・Φ、虜(x)   
 ・・・・・・・  (10=1rrLl)1〕’j(
+)、、、 b、qtD l)?(2斥E””’ by
+(2) ・4.q(xも、qLx) 、・、へ23y
、七で表わされる。ここで山はパターンの接続を表わす
A,=aa...al...al...
... (8) 2 Kogo qcx) palm pattern by 1%, == 1], qLx) 1) 2qtx)...bIq
When (x)・bzQ(x) + HHH+ (9), X words Bq(D ``'q(2bi'' Bq
The palm pattern ■ obtained by connecting (x) is B=Bq, q→BQ(21■...Φ, prisoner(x)
・・・・・・・・・ (10=1rrLl)1〕'j(
+),,, b, qtD l)? (2斥E""' by
+(2) ・4. q (x also, qLx) ,...23y
, represented by seven. Here, the mountains represent the connections of the patterns.

そこで、連続rli飴音声認識は、この百と入力音声パ
ターンAとの間で1)Pマツチングを実行し、その際得
られる1)(A、B 亦最小になるように、Xとq(x
)(x=1.2.・・・、x)を決めるという問題にな
る。すなわち をR1算し、′l゛が最小になる条件を求めればよい。
Therefore, continuous rli candy speech recognition performs 1) P matching between this hundred and input speech pattern A, and then calculates X and q(x
)(x=1.2...,x). In other words, it is sufficient to calculate R1 and find the conditions under which 'l' becomes the minimum.

式(1υの計算を寸ともに実行しようとすると、膨大な
計勢量が必要となる。すなわち、入力音声パターンにお
いて連続発声の単語数の最大値をK、単語標セパターン
の数をNとすれば、N回のR1算を実行することになる
。そこで、宋1祭にはこの問題を次の漸化式を解く問題
に帰着させている。
Equation (1υ) would require a huge amount of measurement if we were to calculate it in minutes.In other words, if the maximum number of consecutively uttered words in the input speech pattern is K, and the number of word mark patterns is N, then , N times of R1 calculations are executed.Therefore, in the 1st Song Dynasty, this problem was reduced to solving the following recurrence formula.

入力音声パターンAにおいて、1=f4−1からi=m
までの部分区間を、部分パターンA(八m)で定義する
In input audio pattern A, 1=f4-1 to i=m
The partial section up to is defined by partial pattern A (8m).

A、(l+m)=a   a   ・・・輻  ・・・
・・Φ・・・・ @6+I  ff+2 このとき、式(6)によりパターン間の距離を定義すれ
Vf、次のことが昌える。
A, (l+m)=a a...radius...
...Φ...@6+I ff+2 At this time, the distance between the patterns is defined by equation (6), Vf, and the following can be changed.

I)(A、B、ωB2)=mi n[DcA(o、m)
 、B、 )+D(A(m、 I ) 、B2))・(
131このことを用いれば式0υは次のように解ける。
I) (A, B, ωB2) = min [DcA(o, m)
,B, )+D(A(m,I),B2))・(
131 Using this fact, the equation 0υ can be solved as follows.

ここで以後用いる記号の意味を第1表にまとめて示す。The meanings of the symbols used hereinafter are summarized in Table 1.

−以  下  余  臼  − 第1表 1)入力単語数Xが既知の場合 Nx(i)=舎、l3(i)輪 (令、命は式Cl4)を満たすnとm)なる漸化式の解
を求めれば、認識結果は第4図に示すフローチャートに
より、X単語列の最後Fv tlt−語名とセグメンテ
ーション結果から先頭Jlt sn名とセグメンテーシ
ョン結果まで順次求まる。
- Below is the remainder - Table 1 1) When the number of input words Once the solution is found, the recognition results are sequentially obtained from the last Fv tlt-word name and segmentation result of the X word string to the first Jlt sn name and segmentation result according to the flowchart shown in FIG.

11)入力単語数Xが未知の場合 =min[D(m)+D”(m+1:i))     
・・・・・・ (lrNN(i)−介+ B(+ )−
m (n、mは式a9を満たすnとm) なる漸化式の解から第5図のフローチャートによυ認識
結果が得られる。
11) When the number of input words X is unknown = min[D(m)+D”(m+1:i))
・・・・・・ (lrNN(i)−−+ B(+)−
From the solution of the recurrence formula m (where n and m satisfy equation a9), the υ recognition result is obtained according to the flowchart of FIG.

以上の考え方を実現するのに2段DP法が提案されてい
る。次に2段DP法について概略を説明する。
A two-stage DP method has been proposed to realize the above idea. Next, the outline of the two-stage DP method will be explained.

2段DP法は、先ず居(s:t)をあらゆるs、tの組
合せに対してDPで求めておき、その後I)(i)をI
)Pで求める方法で、DPを2段にしているのが特徴で
ある。
In the two-stage DP method, first, s(s:t) is obtained by DP for every combination of s and t, and then I)(i) is
)P, and is characterized by having two stages of DP.

この2段DI)法としては前向きアルゴリズムと後向き
アルゴリズム、が提案されているが、ここでは後向キア
ルゴリズムについて説明する。
Although a forward algorithm and a backward algorithm have been proposed as this two-stage DI) method, the backward algorithm will be explained here.

(p 人カバターンのフレーム1−1VC列して、D(
i−1)、N(i−] )、13(i −1)は求1っ
ているとする。
(p Person Kabataan frame 1-1VC row, D(
i-1), N(i-]), and 13(i-1) are calculated as 1.

(2)  用語n(n−1,2,−、N)  の標準パ
ターンと入カバターンを、Ioを始点として逆時間向き
にDPマンチングする。従って、径路の鉤虫条件は第3
図(cl、(dl、(el、(f)に対応して、第7図
(at、(b)、(cl、(dlとなる。
(2) Perform DP munching on the standard pattern and input cover turn of term n(n-1, 2, -, N) in the reverse time direction with Io as the starting point. Therefore, the hookworm condition for the route is the third
Corresponding to Figures (cl, (dl, (el, f)), Figure 7 (at, (b), (cl, (dl)).

マツチング範囲は、整合窓幅Rで行うことも考えられる
が、ここでは傾きL〜2の範囲(傾斜制限内、第6図の
斜線部)で行うものとする。
Although matching may be performed within the matching window width R, here it is assumed that matching is performed within the range of slope L to 2 (within the slope limit, the shaded area in FIG. 6).

このマツチングを終端フリーとじて行う。その結果、I
):(s:i)が求する。ただし、i −2J ”+1
3SS、i−(J/2 )J ’である。
This matching is performed with a free termination. As a result, I
):(s:i) is found. However, i −2J ”+1
3SS, i-(J/2)J'.

■ 戊(1りの1)(i)、N(i)、B(i)を求め
る。
■ Find 戊(1)(i), N(i), and B(i).

(4)  i =i旧としてC)へもどる。(4) Return to C) with i = i old.

この考え方を連続単音節音声の認識に適用することを考
える。単音節台声は子音プラス母音という形をしており
、子音部は母音部よりかなシ短い。しかるに、特に、母
音部が同じである単音節音声は、子音部の微妙な連いに
より区別されなければならない。従って、前記のパター
ンマツチングにおいて入力されたQt 1節音声と標準
バタ・−ンの単音節音声のそれぞれと中咥節音声全体と
してマツチングするとマツチング結果に与える母音部の
影響が大きく子片部の微妙な差を区別するのが難かしく
なる。
Let us consider applying this idea to the recognition of continuous monosyllabic speech. A monosyllabic voice has a consonant plus a vowel, and the consonant part is shorter than the vowel part. However, in particular, monosyllabic speech that has the same vowel part must be distinguished by subtle sequences of consonant parts. Therefore, when matching each of the input Qt 1-syllable speech and standard bata-n monosyllabic speech with the entire middle syllable speech in the pattern matching described above, the influence of the vowel part on the matching result is large, and the influence of the vowel part on the matching result is large. It becomes difficult to distinguish subtle differences.

本発明はこの欠点を補うものであって、子音部を重視し
たマツチングを行うパターン比較装置を提供するもので
ある。
The present invention compensates for this drawback and provides a pattern comparison device that performs matching with emphasis on consonant parts.

すなわち、事前知識を積極的に導入し、より精度の高い
マツチングを行うには、標準パターンや入カバターンの
各フレームに重みを導入する必要がある。入カバターン
の各フレームに適当に車みを導入しても、今までの全ア
ルゴリズムはそのまま成立する。しかし、標準パターン
に重みを導入すると累積照合距離が標準パターン長等に
も依存してしまい、漸化式(141(1Gが成立しなく
なる。
That is, in order to actively introduce prior knowledge and perform more accurate matching, it is necessary to introduce weights to each frame of the standard pattern and input pattern. Even if a car is randomly introduced into each frame of the input pattern, all the algorithms up until now will still hold true. However, if a weight is introduced into the standard pattern, the cumulative matching distance will depend on the standard pattern length, etc., and the recurrence formula (141 (1G) will no longer hold.

次にその理由を説明する。例えば、標準パターンに重み
を39人(〜だ例としては、既に説明した対称!(すの
I)Pマツチングがある。この場合は、標準パターン長
によっても累積照合距離が変るので、どの標準パターン
が最も良く適合するかを評価するだめにId Ril記
の如く人カバターン長と標準パターン長の411で両パ
ターン間の累積照合距離を割る(正規化する)必要があ
った。
Next, the reason will be explained. For example, the standard pattern has a weight of 39 people (...).An example is the symmetric! In order to evaluate whether the two patterns fit best, it was necessary to divide (normalize) the cumulative matching distance between the two patterns by 411, which is the human cover pattern length and the standard pattern length, as described in Id Ril.

いま、人カバターンAの部分パターンA(0,m)に最
も良く適合する標準パターンがB1、その長さがJ、そ
の他の任意の標準パターンがB2、その長さがB2であ
ったとすると次式が成立する。
Now, suppose that the standard pattern that best fits partial pattern A (0, m) of human cover turn A is B1, its length is J, and any other standard pattern is B2, its length is B2, then the following formula is obtained. holds true.

イ11シ、Cコテ1)(P、Q)は正規化する前のパタ
ーンPとパターンQの累4?を照合距離を表わすものと
している。
1) Is (P, Q) the sum of pattern P and pattern Q before normalization? is used to represent the matching distance.

人力が第iフレ\ノ・の時点で式圓、a!′9に基づい
て(勿論入カバターン長と$2%パターン長で正規化す
るとして)バンクポインタと最後Fc単語(単呂節)を
探索する場合を考える。最後尾即語をX、その擾さをx
、パックポインタをIn 、l!: (R定しだとき、
B、とXを結合した標準パターンと人力の部分パターン
A(0,i)の累積照合距離を入カバターンJkと標準
パターン長の和で正規化したものはで表わされる。mお
よびXを式04) QFDにより探索するだめには、α
は当然法の値よシも小さくなければならない。
At the time of the i-th friendship, Shikien, a! Let us consider the case of searching for the bank pointer and the last Fc word (single word) based on '9 (assuming, of course, that it is normalized by the input pattern length and the $2% pattern length). The final immediate word is X, and its dissonance is x.
, pack pointer In , l! : (When R is set,
The cumulative matching distance of the standard pattern combining B, and In order to search m and X by Equation 04) QFD, α
Naturally, the value of the modulus must also be small.

すなわち、もしβ〈αが成立すれば、弐o9におけるD
(m)として、第mフル−ム目で求めたD(m)を用い
ることができなくなるからである。
That is, if β<α holds, D at 2o9
This is because D(m) obtained at the m-th frame cannot be used as (m).

ところが、αくβは一般には成立しない。例えはD(A
(0、m) 、B、 ) = 10 、 D(A(0、
m) 、B2)=20rr+=20 、 b、=10 
、 b2=20とすれば式Qejにおいて 左辺= 10/(20+10 )=1/3右辺= 20
/(20+20 )=1/2となり、F記の数値は式O
Qを満足する。しかし1=40 、 x=10.1)(
A(m+l 、 i ) 、X )−60とずれC」″ α−(,10−1−60)/(40+10−1−10 
)=7/6β−(20−1−60)/(40+20+1
0)−8/7であるから α〉β となり、もはや式θ6は満足されなくなる。
However, α and β generally do not hold. For example, D(A
(0, m) , B, ) = 10 , D(A(0,
m), B2)=20rr+=20, b,=10
, If b2=20, then in formula Qej, left side = 10/(20+10)=1/3 right side = 20
/(20+20)=1/2, and the value in F is the formula O
Satisfy Q. But 1=40, x=10.1)(
A (m+l, i),
)=7/6β-(20-1-60)/(40+20+1
0)-8/7, so α>β, and equation θ6 is no longer satisfied.

ところが人カバターン長のみに依存する前記非対称型の
I)P法の場合は であれば 四八(0,m万B )−tI)(A(m+1.i)、X
)は明らかであるから矛盾なく式04)(,1〜が使え
る。
However, in the case of the asymmetric I)P method that depends only on the human cover turn length, then 48 (0, m million B) - tI) (A (m + 1.i), X
) is clear, so Equation 04)(, 1~ can be used without contradiction.

」1音節音声の認識において、子音部を重視するために
、子音部の重みを大きくするとよいわけであるが、単純
にこれを行うと以上のような問題を生ずる。
'' In the recognition of one-syllable speech, it is better to increase the weight of the consonant part in order to place emphasis on the consonant part, but if this is simply done, the problems described above will occur.

本発明は、この欠点を除去し、かつ子斤部を重視したマ
ツチングを可能とする車みづけの写え方に特徴を有して
いる。
The present invention is characterized by a method of photographing car matching that eliminates this drawback and enables matching with emphasis on the child's portion.

以上の問題は標準パターンの各フレーj、 [対する重
みの和がどの標準パターンに対しても一定になるように
ずれは解決できる。すなわち、n番目のm titパタ
ーンの第jフレームにおける重みをW’(j)とすれば
、 となるようにW”(j)を決めることによシ、累積照合
距離は人カバターン長と単音節数のみに依存することに
なるから、単音節数が指定されたときは入カバターン長
のみに依存することになシ、2段DPマツチングが使え
ることになる。
The above problem can be solved so that the sum of the weights for each frame j, [of the standard pattern is constant for any standard pattern. In other words, if the weight of the nth mtit pattern in the jth frame is W'(j), by determining W''(j) as Since it depends only on the number of monosyllables, when the number of monosyllables is specified, it does not depend only on the length of the input cover turn, and two-stage DP matching can be used.

第8図、第9図はそれぞれのマツチング径路に対しての
重み付は方法の一実施例である。
FIGS. 8 and 9 show an example of a weighting method for each matching path.

従って、第7図(dlのようなマツチング径路の鉤虫に
列してrJ、第10図のような重み(=1をすれば良へ いことになる。
Therefore, it would be sufficient to set rJ and the weight (=1) as shown in FIG. 10 in line with the hookworm of the matching path as shown in FIG. 7 (dl).

第11図は本発明の一実施例である。01は音声信号の
入力端子である。(1j〕けフィルタパンク等で構成さ
れており入力音声信号を特徴ベクトルの系列に変換する
特徴抽出部である。09は認識すべき単音゛節高声の標
準パターンとしてそれぞれが特徴ベクトルの形で予め登
録されている単音節標準パターンH己惰部である。ここ
にはまた、11J記の重みW’(j)もそれぞれの単音
節、それぞれのフレームに対してV録されている。θ(
1はベクトル間距離計脚部であって、各iフレームにつ
いて、第6図で示される斜線部における入カバターンを
構成するベクl゛ルal′と標準パターンnを構成する
ベクトル1)、” (7) 1111 t7J) 距N
f d’(i 、 j) (n=1 、2 +”’+N
F j=1.2、−0J”) ヲ計ηし記憶する。ここ
に距離d”(i、j)は例えば市街距111flなどが
用いられる。ずなわぢa’(=(ai′l l ai1
2 +”’ハ′ρ、b7− (b’4 H、L)’j2
 、・・・、l)’17)とするときd’(i、j)−
Σl a i h  L)x k lk・1 と[7で定義゛できる。
FIG. 11 shows an embodiment of the present invention. 01 is an input terminal for audio signals. (1j) is a feature extractor that converts the input audio signal into a series of feature vectors, which is composed of a filter puncture, etc. 09 is a feature extraction unit that converts the input audio signal into a series of feature vectors. This is the pre-registered monosyllabic standard pattern H self-inertia part.Here, the weight W'(j) of 11J is also recorded for each monosyllable and each frame.θ(
Reference numeral 1 denotes a vector distance meter leg, and for each i-frame, a vector l'al' forming the input cover turn in the shaded area shown in FIG. 6, and a vector 1) forming the standard pattern n, 7) 1111 t7J) Distance N
f d'(i, j) (n=1, 2 +"'+N
F j = 1.2, -0J") is calculated and stored. Here, the distance d" (i, j) is, for example, a city distance of 111fl. Zunawajia'(=(ai'l l ai1
2 +"'ha'ρ, b7- (b'4 H, L)'j2
,...,l)'17) When d'(i, j)-
Σl a i h L) x k lk・1 and [7] can be defined.

Q71はベクトル間距離計算部(149の出力d”(i
 、 j)(n=1゜2、・・・、N+ j=1.2s
・・、J’) ト、M’ if fm I! 準ハター
ン記(1m部に記憶されている重み係数W” (j )
から、人カバ11− :/ (7) i’(i’=i 
−2J”+1〜1−2−J”)カラi 7 v −J−
1での部分パターンと標準パターンとの累積照合距離1
)会(i’: i )を計算し記憶する部分累積距離計
ヤ部であって、Dro(i’: i )は次の漸化式か
らtI嘗される。
Q71 is the vector distance calculation unit (149 output d"(i
, j) (n=1゜2,..., N+ j=1.2s
..., J') To, M' if fm I! Quasi-Hatan (weighting coefficient W” (j) stored in the 1m section
From, human cover 11- :/ (7) i'(i'=i
-2J"+1~1-2-J") Kara i 7 v -J-
Cumulative matching distance between the partial pattern and the standard pattern at 1
) is a part of the partial cumulative range meter that calculates and stores (i': i ), where Dro (i': i ) is calculated from the following recurrence formula.

すなわち ヲ初JJJI 値1)’、 (i 、 J’)=d”(
1,Jn) トL、テ計ヤスル。たたし、径路選択の拘
束条件は式い)の場合第10図で示されるものとしてい
る。この計算の結果書られるD”、 (i’、 1 )
をD:(i’、j)として次の累積距離計算部O樽に一
時的に記憶する。式(イ)において、D7 (+’、j
)の計算は、標準パターンnの第jフレームに対応する
人カバターンのフレームi′の範囲はi  2J”  
I+2J、4i”;i−↓J町ヒト1+1j2 22 であるから、この範囲のi′に列してj=J”、Jff
i、、・・・、1について求めるものである。
That is, the first JJJI value 1)', (i, J')=d"(
1, Jn) To L, Te Kei Yasuru. However, the constraint conditions for route selection are as shown in FIG. The result of this calculation is D'', (i', 1)
is temporarily stored in the next cumulative distance calculation unit O barrel as D:(i', j). In formula (a), D7 (+', j
), the range of frame i' of the human cover turn corresponding to the j-th frame of standard pattern n is i2J''
I+2J, 4i"; i-↓J-chohito1+1j2 22 Therefore, in this range of i', j=J", Jff
This is calculated for i, . . . , 1.

θ8)は第iフレームが最終フレームと仮定したとき、
最終単音節がnのときのi=1からの累積距離1):(
i)と単音節nのパックポインタB:(i)を計算し、
それらを記憶する累積距離計算部である。すなわち x=1.2.・・・、Xについて B  (i)=i’ △ △ (n、i’iま式シυを満たすn、i’)として求める
。ここにXは入力J11?f節数である。
θ8) assumes that the i-th frame is the final frame,
Cumulative distance from i=1 when the final monosyllable is n1):(
i) and pack pointer B of monosyllable n: Compute (i),
This is a cumulative distance calculation unit that stores them. That is, x=1.2. ..., find for X as B (i)=i' △ △ (n, i'i where n, i' satisfies the formula υ). Is X here input J11? f is the number of clauses.

μ上のようにして求められた累積用NfD(+)、バラ
クポインタBx(i)、最後尾即音節Nx (+ )の
それぞれを累積距離記憶部(2)や、パックポインタ記
憶部■、最後尾単音節記憶部(イ)に記憶する。式?υ
におけるDx(iLl)は以前に求められた値として累
積距離記(ハ)は音声区間検出部であって、人力信号の
大きさ等から音声区間を判定するものであり、この酔声
区聞検出部(ハ)が、音声入力が開始されたことを検出
すると、フレーム数計数器い警はフレーム毎に計数をは
じめる。前記母音認識よシ最後尾jlt斤簡の決定まで
の処理は第iフレームについての処理でめったが、この
フレーム数計数器翰の計数値がすなわちこのiを設定し
ている。従って、前記と同様の処理がフレームが1進む
毎に行われることになる。フレーム数計数器(ハ)は音
声区間が検出されると計数を始め、音声区間が終了する
とリセットされる。最後尾単音節記憶部@、パックポイ
ンタ記憶部(ハ)には、従ってN(i)、B(i)がi
=1.2.・・・、■について記憶されることになる。
The cumulative NfD(+), the barak pointer Bx(i), and the last immediate syllable Nx(+) obtained as above are stored in the cumulative distance storage unit (2), the pack pointer storage unit Stored in the tail monosyllable storage section (A). formula? υ
Dx (iLl) is the value obtained previously, and the cumulative distance record (c) is a voice section detection unit that determines the voice section from the magnitude of the human signal, etc., and this drunkenness zone detection When the part (c) detects that audio input has started, the frame number counter starts counting every frame. In the vowel recognition process, the process up to the determination of the last jlt box is rarely performed on the i-th frame, and the count value of this frame number counter is the one that sets this i. Therefore, the same processing as described above is performed every time the frame advances by one. The frame number counter (c) starts counting when a voice section is detected, and is reset when the voice section ends. Therefore, N(i) and B(i) are i
=1.2. ..., ■ will be stored.

セグメンテーション部(イ)はパックポインタ記憶部(
ハ)に対し、所定のパックポインタを読み出すべき命令
を発するものである。すなわち、セグメンテーション部
(イ)がiなる値をパックポインタ記憶部(ハ)に発す
ると、パックポインタ記憶部(ハ)からはパックポイン
タB(1)が藺み出される。セグメンテーション部(ハ
)はパックポインタに己惰部(ハ)からB(i)なる値
を受は収ると、その同じ餡をパックポインタ記憶部■に
光する。従って、音声区間検出部(ハ)が音声入力の終
了を検知すると、フレーム数計数器い9の最終値1がセ
グメンテーション部(イ)K 供+1され、セグメンテ
ーション部(イ)は先ずIなる値をバックポインタ記憶
部(ハ)に発する。以後、前記説明の動作に従って、パ
ックポインタ記イ意部(ハ)には、J3(I ) B(
13(1)) 、B(1’、(B(1)))、・・・、
0なる出力が順次得られることになる。、仁れらの有白
け、最後から2番目のrlt音節の終りのフレーム、同
3番目の終りのフレーム、同4番]」の終りのフレーノ
・、・・・というものであり、N(i)&よiフレーム
で終る単音節であったから、このn^をそのまま鏝後尾
即叶節紀憶部@に5.えると、最後の中H節から逆のl
1lNi序で認識結果が得られることになる。正規の順
序で結果を得たいときはこの順序の変換をパックポイン
タ記憶部(ハ)の出力に苅して行うか、最後尾単音節記
憶部@の出力に対して行えばよい。
The segmentation unit (a) is the pack pointer storage unit (
For c), an instruction to read a predetermined pack pointer is issued. That is, when the segmentation unit (A) issues the value i to the pack pointer storage unit (C), the pack pointer B (1) is retrieved from the pack pointer storage unit (C). When the segmentation section (c) receives the value B(i) from the self-initiation section (c) in the pack pointer, it lights the same bean paste into the pack pointer storage section (2). Therefore, when the voice section detecting section (c) detects the end of the voice input, the final value 1 of the frame number counter I9 is added to the segmentation section (a) K+1, and the segmentation section (a) first calculates the value I. Issued to the back pointer storage section (c). Thereafter, according to the operation described above, J3(I) B(
13(1)), B(1', (B(1))),...
Outputs of 0 will be sequentially obtained. , Nirera no Arihakuke, the frame at the end of the penultimate rlt syllable, the frame at the end of the third rlt syllable, the frame at the end of the rlt syllable 4],... ) &yo Since it was a monosyllable ending in an i frame, we simply changed this n^ to 5. Then, from the last middle H clause, the reverse l
Recognition results will be obtained in the order of 1lNi. If you want to obtain results in the normal order, you can perform this order conversion on the output of the pack pointer storage section (c) or on the output of the last monosyllable storage section @.

第12図は、ソフトウェアによって―11紀実施例装置
の機能を実現した場合のフローチャートである。
FIG. 12 is a flowchart when the functions of the 11th century embodiment device are realized by software.

ステップ100〜103は初期化する部分である。Steps 100 to 103 are the initialization portion.

ステップ106〜108は入力フレーム11中音節nに
ついて、第6図斜線部における標準パターンの特徴ベク
トルと人カバターンの特徴ベクトルの間のベクトル間距
離を求める部分であって、前記ベクトル間距離計算部C
11における処理に相当する。
Steps 106 to 108 are steps for calculating the inter-vector distance between the feature vector of the standard pattern and the feature vector of the human kataan in the shaded area in FIG.
This corresponds to the process in step 11.

ステップ109〜114は部分累積部M D6 (+’
: + )を求める部分であって、前記部分累積毘離計
算部07)における処理に相当する。
Steps 109 to 114 are partial accumulation part M D6 (+'
: +), and corresponds to the processing in the partial cumulative deviation calculating section 07).

ステップ115〜116は、累積用IH)x(i)、最
後H単音節Nx(i)、パックポインタBx (+ )
を求め、それぞれを記憶しておく部分であって、前i?
8累積距離t1嘗一部0枠、累積距離記憶部(ハ)、最
後尾単音節記憶部(イ)、パックポインタ記憶部(ハ)
における処理である。
Steps 115 to 116 include the cumulative IH)x(i), the last H monosyllable Nx(i), and the pack pointer Bx(+)
This is the part that calculates and memorizes each, and the previous i?
8 cumulative distance t1 part 0 frame, cumulative distance storage section (c), last monosyllable storage section (a), pack pointer storage section (c)
This is the process in.

ステップ117〜120はi=1.2.・・・、■につ
いて上記のようにして求まったNx(i ) 、Bx(
i )から最終α・Jな認識結果を得る部分であって、
hrl記バツバツクポインタ記憶部)、セグメンテーシ
ョン部(イ)、最後尾単音節ml億部(2)の間で行わ
れる処理に相当する。
Steps 117-120 are for i=1.2. ..., Nx(i), Bx(
i) to obtain the final α・J recognition result,
This corresponds to the processing performed between the url entry pointer storage unit), the segmentation unit (a), and the last monosyllable ml unit (2).

以」1のように、本発明装置によれば、式09の漸化式
R1aによる連続単音節認識においで、重みを導入する
ことにより子音部を重視した照合が用箋となり認鍼率が
大幅に向上したものである。
As shown in 1 above, according to the device of the present invention, in continuous monosyllable recognition using the recurrence formula R1a of formula 09, by introducing weights, the verification that emphasizes the consonant part is used as a guideline, and the recognition rate is significantly increased. This is an improvement.

なお、本実施例は単音節音声の認識を例に上げて説明し
たが、一般の単語音声でもよく、特に互に甘ぎられしい
単11ハを訴識語粱に含むとき等は、その特徴部分に大
きなηfみをつけることにより効果をあげることができ
る。まだ、本発明は音声の認識のみに1炙らず他のパタ
ーンの認識にも応用6f能であることは勿論である。
Although this embodiment has been explained using the recognition of monosyllabic speech as an example, general word speech may also be used, and especially when the mutually sweet single 11ha is included in the pleading word 粱, the characteristic parts of the speech may be used. The effect can be improved by adding a large ηf to . Of course, the present invention is applicable not only to voice recognition but also to recognition of other patterns.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は従来の音声、R識装商゛のブロック図、第2図
C」パターンA、Bの特徴ベクトルの対応関係を71く
ず図、第;31゛べ1(a)〜(f)はi−j平面上の
格子点を選ぶ1仝の拘束条件例をう」、す図、第4しi
および第5図はそれぞれ人力jli語数が既知の場合、
未知の場合の連続単^(l?4戸コよ4識におりるセク
メンデーションおよび開織単語の決定手順を示すフロー
チャー ト、第6図は2段DP法の後向きアルゴリズム
の説、四国、第7図(al〜(d)は1−j平面上の格
子点を選ぶ際の拘束条件例を示す図、第8図〜第10図
はマツチング径路に対しての重みイ」けの実施例を示す
図、第1I図は本発明における一実施例のブロック図、
第12図は同実施例装置の機能をソフトウェアで実現(
7たときのフローチャートである。 qD・・・特徴抽出部、(1〜・・・単音節標準パター
ン記憶部、OQ・・・ベクトル間距離計算部、07)・
・・部分累積距離計算部、08)・・・累積距離計算部
、@・・・最後(で111−音節記憶部、(ハ)・・・
累積距離記憶部、(ハ)・・・パックポインタ記憶部、
(ハ)・・・音声区間検出部、9勺・・・フレーム& 
計&器、vh・・・セグメンテーション部代理人   
 森   本   義   弘第を図 (j>    tbl(0<d> 第1図 第2図 第70図 7+ +’UJ”(Jン 第11図 第12図
Figure 1 is a block diagram of a conventional speech recognition processor. is an example of one constraint condition for selecting lattice points on the i-j plane.
and Figure 5 are respectively when the number of human words is known,
A flowchart showing the procedure for determining the secumendation and opening words in the unknown case of continuous unit ^ (l? 4 doors). , Figures 7(al to d) are diagrams showing examples of constraint conditions when selecting grid points on the 1-j plane, and Figures 8 to 10 are examples of weight adjustment for matching paths. FIG. 1I is a block diagram of an embodiment of the present invention;
Figure 12 shows the functions of the device in this embodiment realized by software (
7 is a flowchart. qD... Feature extraction unit, (1~... Monosyllabic standard pattern storage unit, OQ... Inter-vector distance calculation unit, 07)・
... Partial cumulative distance calculation section, 08) ... Cumulative distance calculation section, @ ... Last (at 111-Syllable storage section, (c) ...
Cumulative distance storage unit, (c)...Pack pointer storage unit,
(c)...Voice section detection unit, 9...frame &
Meter & Equipment, VH...Segmentation Department Agent
Figure Yoshihiro Morimoto (j> tbl (0 <d> Figure 1 Figure 2 Figure 70 Figure 7+ +'UJ''(J' Figure 11 Figure 12

Claims (1)

【特許請求の範囲】[Claims] 1 人力借りを特徴ベクトルの系列aI ”2・・・a
lに変換する特徴抽出手段と、特徴ベクトルの系列1)
I r′b、n・・・b′;nから成る標準パターンB
’(ただ・・・W’(J”)を記憶する標準パターン記
憶手段と、前記人カバターンと前記標準パターンR’と
のパターン間の距離を、11ノ記入方パターンを構成す
ル特徴ベクトルaIa2・・・a、と前記標準パターン
R’を構成する特徴ベクトルb+ 1)2・・・b;n
、!:前記重み係数W’(j)とからなる函数として、
動的計画法により最小化する手段を有することを特徴と
するパターン比較装置。
1 Sequence of feature vectors aI ”2...a
Feature extraction means for converting into l and feature vector series 1)
Standard pattern B consisting of I r'b, n...b';n
A standard pattern storage means for storing '(just...W'(J'')) and a feature vector aIa2 constituting a pattern in which the distance between the human cover turn and the standard pattern R' are entered in 11. ...a, and the feature vector b+ 1)2...b;n that constitutes the standard pattern R'
,! : As a function consisting of the weighting coefficient W'(j),
A pattern comparison device characterized by having means for minimizing by dynamic programming.
JP57110529A 1982-06-25 1982-06-25 Pattern comparator Granted JPS59198A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57110529A JPS59198A (en) 1982-06-25 1982-06-25 Pattern comparator

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57110529A JPS59198A (en) 1982-06-25 1982-06-25 Pattern comparator

Publications (2)

Publication Number Publication Date
JPS59198A true JPS59198A (en) 1984-01-05
JPH0247758B2 JPH0247758B2 (en) 1990-10-22

Family

ID=14538113

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57110529A Granted JPS59198A (en) 1982-06-25 1982-06-25 Pattern comparator

Country Status (1)

Country Link
JP (1) JPS59198A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61200596A (en) * 1985-02-28 1986-09-05 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション Continuous voice recognition equipment
JPS6358400A (en) * 1986-08-28 1988-03-14 日本電気株式会社 Continuous word voice recognition equipment

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101676950B1 (en) * 2015-03-23 2016-11-16 아주대학교산학협력단 Apparatus and method for abnormal breath diagnosis

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58224394A (en) * 1982-06-22 1983-12-26 日本電気株式会社 Continuous word vice recognition equipment

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58224394A (en) * 1982-06-22 1983-12-26 日本電気株式会社 Continuous word vice recognition equipment

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61200596A (en) * 1985-02-28 1986-09-05 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション Continuous voice recognition equipment
JPS6358400A (en) * 1986-08-28 1988-03-14 日本電気株式会社 Continuous word voice recognition equipment

Also Published As

Publication number Publication date
JPH0247758B2 (en) 1990-10-22

Similar Documents

Publication Publication Date Title
US5097509A (en) Rejection method for speech recognition
US6278972B1 (en) System and method for segmentation and recognition of speech signals
CN112750445B (en) Voice conversion method, device and system and storage medium
JP2870224B2 (en) Voice recognition method
WO2013030134A1 (en) Method and apparatus for acoustic source separation
JPS59198A (en) Pattern comparator
JP3081108B2 (en) Speaker classification processing apparatus and method
JP3477751B2 (en) Continuous word speech recognition device
JPH0823758B2 (en) Speaker-adaptive speech recognizer
Laszko Word detection in recorded speech using textual queries
JP2792709B2 (en) Voice recognition device
JPS5972498A (en) Pattern comparator
CA2013263C (en) Rejection method for speech recognition
JP2577891B2 (en) Word voice preliminary selection device
JPH054678B2 (en)
JPS58209800A (en) Phoneme discrimination system
JPS6312000A (en) Voice recognition equipment
JPS62111295A (en) Voice recognition equipment
JPS62100800A (en) Voice recognition
JPS6247100A (en) Voice recognition equipment
JPH0449718B2 (en)
JPS62173498A (en) Voice recognition equipment
JPS62211700A (en) Voice recognition
JPH0569440B2 (en)
JPH01260496A (en) Word recognizing device