JPH024919B2 - - Google Patents
Info
- Publication number
- JPH024919B2 JPH024919B2 JP56089880A JP8988081A JPH024919B2 JP H024919 B2 JPH024919 B2 JP H024919B2 JP 56089880 A JP56089880 A JP 56089880A JP 8988081 A JP8988081 A JP 8988081A JP H024919 B2 JPH024919 B2 JP H024919B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- phoneme
- vector
- feature vectors
- frequency axis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 239000013598 vector Substances 0.000 claims description 45
- 238000000034 method Methods 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000003595 spectral effect Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 238000010187 selection method Methods 0.000 description 4
- 230000008602 contraction Effects 0.000 description 3
- 230000003292 diminished effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Description
【発明の詳細な説明】
音声認識の方法において、先ず音韻を認識し、
然る後に得られた音韻列と、音韻列で表現された
単語辞書の各単語とを音韻間類似度に基づいて音
韻レベルでのマツチングをとり、最大の類似度を
与える単語を認識結果とするものがある。この場
合、音韻を認識するために、音韻の標準パターン
を予め登録しておき、入力音声信号をこの標準パ
ターンと比較し、音韻認識を行う。本発明はこの
様な音韻の標準パターンを求める方法に関するも
のである。以下図面を用い、従来の音声認識装置
の1例を説明する。[Detailed description of the invention] In the speech recognition method, first, the phoneme is recognized,
After that, the obtained phoneme string and each word in the word dictionary expressed by the phoneme string are matched at the phoneme level based on the degree of similarity between phonemes, and the word that gives the greatest degree of similarity is taken as the recognition result. There is something. In this case, in order to recognize phonemes, a standard pattern of phonemes is registered in advance, and the input audio signal is compared with this standard pattern to perform phoneme recognition. The present invention relates to a method for determining such a standard pattern of phonemes. An example of a conventional speech recognition device will be described below with reference to the drawings.
第1図は前記音韻認識に基づく音声認識装置の
構成を示すブロツク図である。1は音声信号入力
端子であつて、マイクロホン(図示せず)等から
電気信号に変換された音声信号が入力される。2
は特徴抽出部で、入力された音声信号を特徴パラ
メータの時系列に変換する。たとえばいま20チヤ
ネルのフイルタバンクで構成されているとすれ
ば、入力音声信号は周波数軸上に並べられた20個
の帯域フイルタのそれぞれの出力の大きさを表す
20組の数値の組(20次元ベクトル)の時系列に変
換される。3は音韻標準パターン保持部で、認識
されるべき各音韻が、20次元のベクトルとして保
持されている。この20次元のベクトルは各音韻に
対して前記特徴抽出部2で前記と同様な方法で抽
出されたもので、予め準備されている。4は音韻
認識部で、音韻標準パターン保持部3の各音韻と
スイツチ11を介して入力される特徴ベクトルを
一定時間毎に比較し、最も類似度の高い、つまり
距離の近い音韻標準パターンを認識結果として出
力する。5は単語辞書で、認識すべき単語を音韻
系列の表現として保持する。6は単語認識部で、
音韻認識部4の出力音韻列と単語辞書5の各単語
とを比較し、最も類似度の高いものを認識単語と
して端子7に出力する。この場合、入力音韻列と
単語辞書の各単語との類似度は音韻間類似度に基
づいて計算される。この音韻間類似度は予め実験
的に求められているもので、例えば20次元ベクト
ル空間においては、多数のデータから音韻Xを表
すベクトルの平均ベクトルで表わされる点と、音
韻Yを表すベクトルの平均ベクトルで表わされる
点との間の距離を線形変換したものを音韻Xと音
韻Yの類似度とする。なお8は音韻標準パターン
作成部であり、スイツチ11は、音韻パターン作
成時に特徴抽出部2の出力が音韻パターン作成部
8へ入力されるように、また認識時には音韻認識
部4に入力されるように動作する。 FIG. 1 is a block diagram showing the configuration of a speech recognition device based on the above-mentioned phoneme recognition. Reference numeral 1 denotes an audio signal input terminal, into which an audio signal converted into an electrical signal from a microphone (not shown) or the like is input. 2
is a feature extraction unit that converts the input audio signal into a time series of feature parameters. For example, if a filter bank has 20 channels, the input audio signal represents the output magnitude of each of the 20 band filters arranged on the frequency axis.
Converted to a time series of 20 sets of numbers (20-dimensional vectors). 3 is a phoneme standard pattern holding unit in which each phoneme to be recognized is held as a 20-dimensional vector. This 20-dimensional vector is extracted for each phoneme by the feature extraction section 2 in the same manner as described above, and is prepared in advance. 4 is a phoneme recognition unit that compares each phoneme in the phoneme standard pattern holding unit 3 with the feature vector input via the switch 11 at regular intervals, and recognizes the phoneme standard pattern with the highest degree of similarity, that is, the closest distance. Output as result. A word dictionary 5 stores words to be recognized as representations of phoneme sequences. 6 is the word recognition section,
The output phoneme string of the phoneme recognition unit 4 and each word of the word dictionary 5 are compared, and the one with the highest degree of similarity is outputted to the terminal 7 as a recognized word. In this case, the degree of similarity between the input phoneme string and each word in the word dictionary is calculated based on the degree of similarity between phonemes. This degree of similarity between phonemes is determined experimentally in advance. For example, in a 20-dimensional vector space, the point represented by the average vector of vectors representing phoneme X and the average vector of vectors representing phoneme Y from a large number of data. The similarity between phoneme X and phoneme Y is obtained by linearly transforming the distance between the points represented by the vectors. Note that 8 is a phoneme standard pattern creation unit, and a switch 11 is configured so that the output of the feature extraction unit 2 is input to the phoneme pattern creation unit 8 when creating a phoneme pattern, and input to the phoneme recognition unit 4 during recognition. works.
以上のような構成において、従来より音韻標準
パターンの作成は同一音韻を表す多数のベクトル
を単に平均しているのが普通である。すなわち、
同じ音韻Xであつても、話者によつてそのパター
ンは異り、また、同一の話者でも前後に続く音韻
の影響を受けてそのパターンは異なるので、なる
べく標準的なパターンを得るために話者を変え、
前後に続く音韻を変えて得られる音韻Xに対する
多数のベクトルの平均をとるわけである。数式的
に表せば、音韻Xに対するk次元のそれぞれのベ
クトルを〓1、〓2、…、〓o;〓i=(xi1、xi2、…
xik)とすれば、音韻Xの標準パターンベクトル
〓は、
〓=(o
〓i=1
〓i)/n((o
〓i=1
Xi1)/n
(o
〓i=1
xi2)/n、…、(o
〓i=1
xik)/n)
で与えられる。 In the above-described configuration, conventional phoneme standard patterns have been created by simply averaging a large number of vectors representing the same phoneme. That is,
Even if the phoneme change the speaker,
The average of many vectors for the phoneme X obtained by changing the phonemes that follow before and after is taken. Expressed mathematically, the k-dimensional vectors for phoneme X are 〓 1 , 〓 2 , ..., 〓 o ; 〓 i = (x i1 , x i2 , ...
x ik ) , then the standard pattern vector of phoneme /n,..., ( o 〓 i=1 x ik )/n) is given.
ところ第2図は横軸が前記フイルタバンクを構
成する帯域フイルタのチヤネル番号、縦軸がその
音韻の出力強度を示しているものである。A、B
は、それぞれ異る話者により発声された音韻Xに
対するスペクトル、Cはその平均スペクトルであ
る。同図から明らかなように、A,Bそれぞれ
は、単独では2つの山が顕著であるのに、Cはそ
れらの特徴がかなり減殺されている。これは、A
とBのそれぞれの山の周波数軸に対する位置がず
れているためであつて、主として話者の声道長の
差違に起因する共振周波数が異るためである。音
声学の知見によれば、この山(ホルマント)の現
れ方は音韻の種類と密接な関係があり、音韻を弁
別する上で極めて重要な情報を担つている。そこ
で、前記平均化操作によりCのようなその特徴が
減殺されるのは好ましいことではない。前記説明
は2者の平均についてのみであつたが、さらに多
くのスペクトルについて前記の如き平均化を行う
と、その特徴はさらに減少してゆく危険がある。 In FIG. 2, the horizontal axis represents the channel number of the band filter constituting the filter bank, and the vertical axis represents the output intensity of the phoneme. A, B
are spectra for the phoneme X uttered by different speakers, and C is its average spectrum. As is clear from the figure, in each of A and B, the two peaks are noticeable when taken alone, but in C, these features are considerably diminished. This is A
This is because the positions of the peaks of and B with respect to the frequency axis are different, and the resonance frequencies are different mainly due to the difference in the vocal tract lengths of the speakers. According to the knowledge of phonetics, the appearance of this mountain (formant) is closely related to the type of phoneme, and it carries extremely important information in discriminating phonemes. Therefore, it is not desirable that characteristics such as C are diminished by the averaging operation. The above explanation was only about the average of the two, but if more spectra are averaged as described above, there is a risk that the characteristics will further decrease.
本発明は、以上のような欠点を除去し、適切な
標準パターンを得る音声認識装置を提供するもの
である。 The present invention provides a speech recognition device that eliminates the above-mentioned drawbacks and obtains appropriate standard patterns.
その基本的な考え方は、周波数軸の非線形な伸
縮を行つてパターンAをパターンBに近づけてか
ら平均するものである。次に本発明における実施
例の周波数軸の伸縮の方法を述べる。 The basic idea is to bring pattern A closer to pattern B by nonlinear expansion and contraction of the frequency axis, and then average it. Next, a method of expanding and contracting the frequency axis in an embodiment of the present invention will be described.
第3図は、いわゆる格子グラフであつて、横軸
はパターンBの周波数軸、縦軸はパターンAの周
波数軸である。13と14、あるいは13と15
によつて囲まれる部分は整合の窓であつて、この
窓の中でのみルートを選択できるものとする。な
おイはパタンAの周波数軸をパタンBに対して高
域側にずらせる場合、ロは低域側にずらせる場合
であり、何れも1チヤネル分のみ移動可能である
とする。 FIG. 3 is a so-called lattice graph, in which the horizontal axis is the frequency axis of pattern B, and the vertical axis is the frequency axis of pattern A. 13 and 14 or 13 and 15
The area surrounded by is a matching window, and a route can only be selected within this window. Note that (A) is a case in which the frequency axis of pattern A is shifted to the higher frequency side with respect to pattern B, and (B) is a case in which the frequency axis is shifted to the lower frequency side, and in both cases it is assumed that the frequency axis can be shifted by one channel.
第4図はルート選択の条件を示すものであつ
て、iはパターンBのチヤネルに対応する座標、
jはパターンAのチヤネルに対応する座標を示
し、点(i、j)に至る可能なルートを示す。但
し各線分の上に付した数字1及び2は、そのルー
トが選ばれるときに乗ぜられる荷重係数kの一例
である。つまり第4図のに示される3通りのみ
のルート選択が与えられている場合、(i−1、
j)から(i、j)へのルート選択の際の荷重係
数kはk=1が、(i−1、j−1)から(i、
j)へのルート選択の際の荷重係数kはk=2
が、(i、j−1)から(i、j)へのルート選
択の際の荷重係数kはk=1がそれぞれ科せられ
るとする。同様に第4図のに示される3通りの
みのルート選択が与えられている場合、(i−1、
j)、(i−1、j−1)及び(i−1、j−2)
から(i、j)へのルート選択の際の荷重係数k
はすべてk=1が科せられるものとする。 FIG. 4 shows the conditions for route selection, where i is the coordinate corresponding to the channel of pattern B,
j indicates the coordinates corresponding to the channel of pattern A, indicating a possible route to point (i, j). However, the numbers 1 and 2 above each line segment are examples of the weighting coefficient k that is multiplied when that route is selected. In other words, when only the three route choices shown in Figure 4 are given, (i-1,
The weighting factor k when selecting a route from j) to (i, j) is k=1, but from (i-1, j-1) to (i,
The weighting coefficient k when selecting the route to j) is k=2
However, when selecting a route from (i, j-1) to (i, j), the weighting coefficient k is assumed to be k=1. Similarly, if only the three route choices shown in Figure 4 are given, (i-1,
j), (i-1, j-1) and (i-1, j-2)
Loading coefficient k when selecting route from to (i, j)
Assume that k=1 is imposed on all cases.
いま、第4図のに示す3通りのルート選択及
び荷重係数kを用いたパターンAのベクトルをa
=(a1、a2、…、aI)、パターンBのベクトルをb
=(b1、b2、…、bI)とし(但し、Iはチヤンネ
ル数)、d(i、j)=|bi−aj|とするとき、周
知の動的計画法を適用することにより、すなわち
下記の漸化式を解くことによつてパターンAとパ
ターンBとの距離を定義することができる。 Now, the vector of pattern A using the three route selections and the weighting coefficient k shown in Figure 4 is a.
= (a 1 , a 2 , ..., a I ), the vector of pattern B is
When = (b 1 , b 2 , ..., b I ) (where I is the number of channels) and d (i, j) = |b i −a j |, well-known dynamic programming is applied. In other words, by solving the following recurrence formula, the distance between pattern A and pattern B can be defined.
以下第3図で示したイパターンAの周波数軸を
パターンBに対して高域側にずらせる場合と、ロ
パターンAの周波数軸をパターンBに対して低域
側にずらせる場合とに分けて具体的な説明を行な
う。 Below, we will divide the frequency axis of Pattern A shown in Figure 3 into two cases: one in which the frequency axis of Pattern A is shifted to the higher frequency side relative to Pattern B, and the other in which the frequency axis of Pattern A is shifted to the lower frequency side relative to Pattern B. A detailed explanation will be given below.
(イ) パターンAの周波数軸をパターンBに対して
高域側にずらせる場合で、かつルート選択の条
件を第4図の条件で適用した時。(b) When the frequency axis of pattern A is shifted to the higher frequency side relative to pattern B, and when the route selection conditions are applied as shown in Figure 4.
初期値g(1、1)=d(1、1)
として、
g(i、i)=ming(i、i−1)+d(i
、i)
g(i−1、i−1)+kd(i、i)
g(i、i−1)=ming(i−1、i−2)
+kd(i、i−1)
g(i−1、i−1)+d(i、i−1)
(但し、k=2)
よりg(i、j)を順次求めてゆき、
DH(A、B)=g(I、I)/2I
をパターンAとパターンBとの距離とする。な
お、i、j≦0ならg(i、j)=∝であり、
g(i、i)=ming(i、i−1)+d(i
、i)
g(i−1、i−1)+kd(i、i)及び
g(i、i)=ming(i−1、i−2)+kd
(i、i−1)
g(i−1、i−1)+d(i、i−1)
の式におけるminは〔 〕内の小さい方の値を
採用するものとする。またIは一定なので
DH(A、B)=g(I、I)
と定義することができる。 Assuming the initial value g(1,1)=d(1,1), g(i,i)=ming(i,i-1)+d(i
, i) g (i-1, i-1) + kd (i, i) g (i, i-1) = ming (i-1, i-2)
+ kd (i, i-1) g (i-1, i-1) + d (i, i-1) (k = 2) . ,B)=g(I,I)/2I is the distance between pattern A and pattern B. Furthermore, if i, j≦0, g(i, j)=∝, and g(i, i)=ming(i, i-1)+d(i
, i) g(i-1,i-1)+kd(i,i) and g(i,i)=ming(i-1,i-2)+kd
(i, i-1) g(i-1, i-1)+d(i, i-1) In the formula, min shall be the smaller value in [ ]. Also, since I is constant, it can be defined as D H (A, B) = g (I, I).
(ロ) パターンAの周波数軸をパターンBに対して
低域側にずらせる場合で、かつルート選択の条
件を第4図で適用した時。(b) When the frequency axis of pattern A is shifted to the lower frequency side relative to pattern B, and when the route selection conditions shown in Figure 4 are applied.
初期値g(1、1)=d(1、1)
として、
g(i、i)=ming(i−1、i)+d(i
、i)
g(i−1、i−1)+kd(i、i)
g(i−1、i)=ming(i−2、i−1)k
d(i−1、i)
g(i−1、i−1)+d(i−1、i)
(但し;k=2)
よりg(i、j)を順次求めてゆき、
DL(A、B)=g(I、I)/2I
をパターンAとパターンBとの距離とする、な
お、i、j≦0ならg(i、j)=∝であり、
g(i、i)=ming(i、i−1)+d(i
、i)
g(i−1、i−1)+kd(i、i)及び
g(i、i)=ming(i−1、i−2)+kd
(i、i−1)
g(i−1、i−1)+d(i、i−1)
の式におけるminは〔 〕内の小さい方の値を
採用するものとする。またIは一定なので
DL(A、B)=g(I、I)
と定義することができる
以上のようにして第3図のイの場合の距離DH
(A、B)及び第3図ロの場合の距離DL(A、B)
を求める過程において、前記最適のルートがそれ
ぞれ第5図イ及び第5図ロのルートのように求ま
る。すなわち始点を(I、I)としてそれぞれの
場合に応じて前記漸化式を逆に辿つてゆけば、ル
ートは明確となる。 Assuming the initial value g(1,1)=d(1,1), g(i,i)=ming(i-1,i)+d(i
, i) g(i-1,i-1)+kd(i,i) g(i-1,i)=ming(i-2,i-1)k
d (i-1, i) g (i - 1, i-1) + d (i-1, i) (k = 2). ,B)=g(I,I)/2I is the distance between pattern A and pattern B.If i, j≦0, then g(i,j)=∝, and g(i,i)= ming(i, i-1)+d(i
, i) g(i-1,i-1)+kd(i,i) and g(i,i)=ming(i-1,i-2)+kd
(i, i-1) g(i-1, i-1)+d(i, i-1) In the formula, min shall be the smaller value in [ ]. Also, since I is constant, it can be defined as D L (A, B) = g (I, I). As described above, the distance D H in case A in Figure 3
(A, B) and distance D L (A, B) in case of Figure 3 B
In the process of finding the optimal routes, the routes shown in FIG. 5A and FIG. 5B are found, respectively. That is, if the starting point is (I, I) and the above recurrence formula is traced in reverse according to each case, the route becomes clear.
さて前記漸化式を用い順次計算してI=20の場
合のパターンA及びBの距離DH(A、B)及びDL
(A、B)をそれぞれ求めると、
DH(A、B)=146
DL(A、B)=187
となり、DH<DLとなり、第5図イ及びロで明ら
かなように第5図ロで示されるパターンAの周波
数軸をパターンBに対し高域側にずらせる方法よ
りも、パターンAの周波数軸をパターンBに対し
低域側にずらせる第3図ロの選択の方が望まし
い。 Now, using the above recurrence formula, calculate the distances D H (A, B) and D L of patterns A and B in the case of I=20.
(A, B) respectively, D H (A, B) = 146 D L (A, B) = 187, D H < D L , and as is clear from Figure 5 A and B, the 5th The method shown in Figure 3B, in which the frequency axis of Pattern A is shifted to the lower frequency side relative to Pattern B, is better than the method shown in Figure 3, in which the frequency axis of Pattern A is shifted to the higher frequency side relative to Pattern B. desirable.
第6図においてA′は、上記のようにして求め
られたルートに従つてAの周波数軸をパターンB
に対し低域側にずらして得られたスペクトルを、
C′はスペクトルA′とスペクトルBとの平均をと
つたものを示す。但し、例えばパターンBのチヤ
ネル3に対して、チヤネルAのチヤネル2とチヤ
ネル3が同時に対応しているが、このときは、パ
ターンBのチヤネル3とパターンAのチヤネル
2、チヤネル3の3者のスペクトル強度の平均を
とつている。さてこのようにして得られたスペク
トルC′は、スペクトルの特徴を良く保存してい
る。 In Figure 6, A' moves the frequency axis of A to pattern B according to the route determined above.
The spectrum obtained by shifting to the lower frequency side is
C' indicates the average of spectrum A' and spectrum B. However, for example, when channel 3 of pattern B corresponds to channel 2 and channel 3 of channel A at the same time, in this case, channel 3 of pattern B and channel 2 and channel 3 of pattern A The spectral intensity is averaged. Now, the spectrum C' obtained in this way preserves the spectral characteristics well.
一方、ルート選択の条件として第4図のに示
した3通りのルート選択及び荷重係数kを用い、
下記の漸化式を解くことにより、パターンAとパ
ターンBとの距離を定義することもできる。 On the other hand, using the three route selections and load coefficient k shown in Figure 4 as route selection conditions,
The distance between pattern A and pattern B can also be defined by solving the following recurrence formula.
以下第3図で示した、イパターンAの周波数軸
をパターンBに対して高域側にずらせる場合と、
ロパターンAの周波数軸をパターンBに対して低
域側にずらせる場合とに分けて具体的な説明を行
なう。 The case where the frequency axis of pattern A is shifted to the higher frequency side with respect to pattern B, as shown in Fig. 3 below,
A specific explanation will be given separately for the case where the frequency axis of pattern A is shifted to the lower frequency side with respect to pattern B.
(イ) パターンAの周波数軸をパターンBに対して
高域側にずらせる場合。(b) When the frequency axis of pattern A is shifted to the higher frequency side relative to pattern B.
初期値g(1、1)=d(1、1)
として、
g(i、i)=ming(i−1、i−1)+d
(i、i)
g(i−1、i−2)+d(i、i)
g(i、i−1)=ming(i−1、i−1)
d(i、i−1)
g(i−1、i−2)+d(i、i−1)
よりg(i、j)を順次求めてゆき、
DH(A、B)=g(I、I)/2I
をパターンAとパターンBとの距離とする。な
お、i、j≦0ならg(i、j)=∝であり、
g(i、i)=ming(i−1、i−1)+d
(i、i)
g(i−1、i−2)+d(i、i)及び
g(i、i−1)=ming(i−1、i−1)
+d(i、i−1)
g(i−1、i−2)+d(i、i−1)
の式におけるminは〔 〕内の小さい方の値を
採用するものとする。またIは一定なので
DH(A、B)=g(I、I)
と定義することができる。 As the initial value g (1, 1) = d (1, 1), g (i, i) = ming (i-1, i-1) + d
(i, i) g(i-1, i-2) + d(i, i) g(i, i-1) = ming(i-1, i-1)
Find g(i, j) sequentially from d(i, i-1) g(i-1, i-2) + d(i, i-1), and D H (A, B)=g(I , I)/2I is the distance between pattern A and pattern B. Note that if i, j≦0, g(i, j)=∝, and g(i, i)=ming(i-1, i-1)+d
(i, i) g(i-1, i-2) + d(i, i) and g(i, i-1) = ming(i-1, i-1)
+d(i, i-1) g(i-1, i-2)+d(i, i-1) In the formula, min shall be the smaller value in [ ]. Also, since I is constant, it can be defined as D H (A, B) = g (I, I).
(ロ) パターンAの周波数軸をパターンBに対して
低域側にずらせる場合。(b) When the frequency axis of pattern A is shifted to the lower frequency side relative to pattern B.
初期値g(1、1)=d(1、1)
として、
g(i、i)=ming(i−1、i−1)+d
(i、i)
g(i−1、i)+d(i、i)
g(i−1、i)=ming(i−2、i−1)
+d(i−1、i)
g(i−2、i−2)+d(i−1、i)
よりg(i、j)を順次求めてゆき、
DL(A、B)=g(I、I)/2I
をパターンAとパターンBとの距離とする。な
お、i、j≦0ならg(i、j)=∝であり、
g(i、i)=ming(i−1、i−1)+d
(i、i)
g(i−1、i)+d(i、i)
g(i−1、i)=ming(i−2、i−1)
+d(i−1、i)
g(i−2、i−2)+d(i−1、i)
の式におけるminは〔 〕内の小さい方の値を
採用するものとする。またIは一定なので
DL(A、B)=g(I、I)
と定義することができる。 As the initial value g (1, 1) = d (1, 1), g (i, i) = ming (i-1, i-1) + d
(i, i) g(i-1, i) + d(i, i) g(i-1, i) = ming(i-2, i-1)
+d (i-1, i) g (i-2, i-2) + d (i-1, i) Find g (i, j) sequentially, and D L (A, B) = g (I , I)/2I is the distance between pattern A and pattern B. Note that if i, j≦0, g(i, j)=∝, and g(i, i)=ming(i-1, i-1)+d
(i, i) g(i-1, i) + d(i, i) g(i-1, i) = ming(i-2, i-1)
+d(i-1,i) g(i-2,i-2)+d(i-1,i) In the formula, min shall be the smaller value in [ ]. Also, since I is constant, it can be defined as D L (A, B) = g (I, I).
以上のようにして第3図のイの場合の距離DH
(A、B)及び第3図のロの場合の距離DL(A、
B)を求めるとDH>DLとなる。そこで第7図に
示す如く、パターンAの周波数軸をパターンBに
対し高域値にずらせる第3図のイの選択が望まし
い。 As described above, the distance D H in case A in Figure 3 is
(A, B) and the distance D L (A,
When calculating B), D H > D L. Therefore, as shown in FIG. 7, it is desirable to select item A in FIG. 3, which shifts the frequency axis of pattern A to a higher frequency range than pattern B.
第8図においてはA″は上記のように求められ
たルートに従つて、パターンAの周波数軸をパタ
ーンBに対し高域側にずらして得られたスペクト
ルを示す。このルート選択方式の特徴は、求めら
れたルートの中で横軸(パターンBの周波数軸)
に垂直な部分がないので、パターンAの2つの周
波数軸が同時にパターンBの1つの周波数に対応
することはない。しかし、例えばパターンBの
2、3、4チヤネルのところに見られるように、
2つのルートが存在する場合があり、何れのルー
トを選ぶかによつて、パターンBのあるチヤネル
に対応するパターンAのチヤネルが異る。C″は、
このような場合はパターンBのそのチヤネルの強
度と、それぞれのルートに関して対応するパター
ンAのそれぞれのチヤネルの値の3者の平均で求
めることによつて得られた平均スペクトルであ
る。この場合もスペクトルの特徴は良く保存され
ている。 In Fig. 8, A″ indicates the spectrum obtained by shifting the frequency axis of pattern A to the higher frequency side relative to pattern B according to the route determined as above.The characteristics of this route selection method are , in the determined route, the horizontal axis (frequency axis of pattern B)
Since there is no perpendicular part to , two frequency axes of pattern A will never correspond to one frequency of pattern B at the same time. However, as seen for example in the 2nd, 3rd, and 4th channels of pattern B,
There may be two routes, and depending on which route is selected, the channel of pattern A that corresponds to a certain channel of pattern B is different. C″ is
In such a case, the average spectrum is obtained by calculating the average of the intensity of that channel of pattern B and the value of each channel of pattern A corresponding to each route. In this case as well, the spectral features are well preserved.
以上のことを一般的に述べれば、次のようにな
る。 Generally speaking, the above is as follows.
多数の話者や文脈から前記の如くして得られた
音韻Xに対するp個の特徴スペクトルを〓1、〓2
…、〓pただし〓e=(xe1、xe2、…、xeo)とする
とき、基準ベクトル〓r=(xr1、xr2、…、xro)を
定める。次に、
〓1、…、〓pの任意のベクトル〓n=(xn1、…、
xnj、…、xno)と前記基準ベクトル〓rに対し、
前記格子グラフを構成し、i(k)とj(k)の交
点をC(k)=(i(k)、j(k))とするとき、
xr,i(k)とxn,j(k)の距離d(C(k))、荷重係数w(
k)
に対し、荷重平均
が最小になるように点列C(1)C(2)…C(k)…C
(k)を定め、前記ベクトル〓nの成分xn,i(k)を
xn,i(k)に変換したベクトル〓′nを求める。このよ
うにして前記ベクトル〓1、…、〓pを〓′1、…、
〓′pに変換し、〓′1、…、〓′pの平均ベクトルを
前記音韻Xの標準パターンとすることになる。 The p feature spectra for phoneme X obtained as above from a large number of speakers and contexts are 〓 1 , 〓 2
..., 〓 p However, when 〓 e = (x e1 , x e2 , ..., x eo ), the reference vector 〓 r = (x r1 , x r2 , ..., x ro ) is determined. Then, any vector 〓 1 ,…, 〓 p 〓 n = (x n1 ,…,
x nj , ..., x no ) and the reference vector 〓 r ,
When constructing the lattice graph and setting the intersection of i(k) and j(k) as C(k) = (i(k), j(k)),
The distance d (C(k)) between x r,i(k) and x n,j(k) , the load factor w(
k)
For weighted average The point sequence C(1)C(2)...C(k)...C is minimized.
(k), and the component x n,i(k) of the vector 〓 n is
Find the vector 〓′ n converted to x n,i(k) . In this way, the said vector 〓 1 ,..., 〓 p becomes 〓' 1 ,...,
〓′ p , and the average vector of 〓′ 1 , . . . , 〓′ p is used as the standard pattern of the phoneme X.
なお、前記荷重平均を求めるとき、実施例でも
示したように、ベクトル〓nの不自然な変形が起
らないように、整合窓を設けたり、ルート選択の
方法を制限するのが普通であり、それら制限方法
は本実施例に示したものにとどまるものではな
く、種々の方法が用いられるのは当然である。 Note that when calculating the weighted average, as shown in the example, it is common to provide a matching window or limit the route selection method to prevent unnatural deformation of the vector 〓 n . Of course, these limiting methods are not limited to those shown in this embodiment, and various methods may be used.
第9図は上記のような方法により周波数軸を伸
縮させた後、その平均をとつて各音韻の標準パタ
ーンを作る音声認識装置における音韻標準パター
ン作成部8の構成を示したものである。 FIG. 9 shows the configuration of the phoneme standard pattern creation section 8 in the speech recognition device which creates standard patterns for each phoneme by expanding and contracting the frequency axis using the method described above and then taking the average.
80は多数の話者の、前後が種々の音韻である
場合の、音韻Xの特徴抽出部2で得られたベクト
ル〓1、〓2、…、〓oを蓄えるメモリ、85は8
0に蓄えられているベクトル〓1、…、〓oのうち
任意の1つであるベクトル〓i(但し、|≦i≦n
で、できれば最も標準的なスペクトルパターンを
与えるベクトル)を蓄える基準パターンメモリ、
81はメモリ80に蓄えられているベクトル〓1、
…、〓oを一時的に順次蓄える被伸縮パターンメ
モリ、82は前記基準パターンメモリに蓄えられ
ている基準ベクトル〓iに対し、前記被伸縮パタ
ーンメモリ81に蓄えられているベクトル〓jの
周波数軸の伸縮を前記方法によつて行い、周波数
軸の伸縮されたベクトル〓jを求める周波数軸伸
縮部、83はスペクトル周波数軸伸縮部82の出
力〓1、〓2、…、〓oを蓄えるメモリ、84はメ
モリ83に蓄えられたベクトル〓1、…、〓oの平
均をとり
〓=1/no
〓j=1
〓〜jを求める平均化部である。 80 is a memory for storing vectors 〓 1 , 〓 2 , ..., 〓 o obtained by the feature extraction unit 2 of phoneme X when there are various phonemes before and after a large number of speakers; 85 is a memory for storing 85
The vector stored in 0 is any one of the vectors 〓 1 , ..., 〓 o 〓 i (where |≦i≦n
a reference pattern memory that stores vectors that give the most standard spectral pattern if possible;
81 is the vector 〓 1 stored in the memory 80,
..., 〓 Stretchable pattern memory that temporarily stores o in sequence, 82 is the reference vector stored in the reference pattern memory 〓 For i , the frequency axis of the vector stored in the Stretched pattern memory 81 〓 j 83 is a memory for storing the outputs 〓 1 , 〓 2 , . . . , 〓 o of the spectral frequency axis expansion and contraction section 82; Reference numeral 84 denotes an averaging unit that takes the average of the vectors 1 , .
このような装置により求められた平均ベクトル〓
は、音韻Xの標準パターンとして線路10を通じ
て音韻標準パターン保持部3に蓄えられる。The average vector obtained by such a device〓
is stored as a standard pattern of the phoneme X in the phoneme standard pattern holding unit 3 via the line 10.
以上のような方法により標準音韻パターンを作
成することにより、理想的な標準音韻パターンが
得られる。 By creating a standard phoneme pattern using the method described above, an ideal standard phoneme pattern can be obtained.
また、認識の際はこのようにして得られた標準
音韻パターンを用い、特願昭55−109145の入力音
韻の認識を行う音韻認識部4において、入力音韻
ベクトルの周波数軸の伸縮を各標準音韻パターン
に対し前記と同様に行つた後、両者の距離を求め
る方法は、話者に対する理想的な正規化方法とな
り、音韻認識の精度が著しく向上するものであ
る。 In addition, during recognition, the standard phoneme pattern obtained in this way is used, and the phoneme recognition unit 4, which recognizes the input phoneme of Patent Application 1983-109145, expands and contracts the frequency axis of the input phoneme vector for each standard phoneme. The method of calculating the distance between the patterns after performing the same process as described above is an ideal normalization method for the speaker, and significantly improves the accuracy of phoneme recognition.
第1図は音声認識装置の構成を示すブロツク
図、第2図及び第6図は音韻の出力強度を示す説
明図、第3図は格子グラフを説明するための図、
第4図はルート選択の方法例を示した説明図、第
5図及び第7図は具体的な計算によりルート選択
を示した図、第8図は同スペクトル図、第9図は
本発明の一実施例に基づく要部を示したブロツク
図である。
2……特徴抽出部、3……音韻標準パターン保
持部、80……メモリ、81……被伸縮パターン
メモリ、82……周波数軸伸縮部、83……スペ
クトルメモリ、84……平均化部、85……基準
パターンメモリ。
FIG. 1 is a block diagram showing the configuration of the speech recognition device, FIGS. 2 and 6 are explanatory diagrams showing the output strength of phonemes, and FIG. 3 is a diagram for explaining the lattice graph.
Fig. 4 is an explanatory diagram showing an example of the route selection method, Figs. 5 and 7 are diagrams showing route selection based on concrete calculations, Fig. 8 is a spectrum diagram of the same, and Fig. 9 is an explanatory diagram showing an example of the route selection method. FIG. 2 is a block diagram showing main parts based on one embodiment. 2...Feature extraction unit, 3...Phonological standard pattern holding unit, 80...Memory, 81...Stretched pattern memory, 82...Frequency axis expansion/contraction unit, 83...Spectral memory, 84...Averaging unit, 85...Reference pattern memory.
Claims (1)
列に変換する手段と、識別すべき各音韻に対応し
て予め準備されているn次元の特徴ベクトルを音
韻標準パターンとし、前記特徴ベクトルの時系列
の各ベクトルと前記音韻標準パターンのそれぞれ
とを比較することにより前記特徴ベクトルの時系
列を音韻系列に変換する手段を含む音声認識装置
において、音韻Xに対する標準パターンを求める
に際し、音韻Xに対して集められた多数の話者や
文脈から得られた特徴ベクトルを〓1、〓2、…、
〓p;〓e=xe1、xe2、…、xeo)とし、かつ基準の
ベクトル〓r=(xr1、…、xri、…、xro)を定め、
前記特徴ベクトル〓1、…、〓pの任意のベクトル
を〓n=(xn1、…、xnj、…、xno)としてi−j
平面上の格子点C(k)=(i(k)、J(k))、xr
i(k)
とxnj(k)との距離d(c(k))、及び荷重係数w
(k)に 対し、{k 〓k=1 d(c(k))w(k)} /{k 〓k=1 w(k)}が最小になるように 点列c(1)c(2)c(3)…c(k)…C(k)を定める手
段と、その点列に従つて、前記ベクトル〓nの成
分xni(k)をxnj(k)に変換することにより、変換され
たベクトル〓′nを得る手段と、〓′1、〓′2、…、
〓′r、…、〓′pの平均をとる手段を有し、該平均
ベクトルを前記音韻Xに対する標準パターンとす
ることを特徴とする音声認識装置。[Scope of Claims] 1. means for converting an input speech signal into a time series of n-dimensional feature vectors, and a phoneme standard pattern using n-dimensional feature vectors prepared in advance corresponding to each phoneme to be identified; In a speech recognition device including means for converting the time series of the feature vectors into a phoneme series by comparing each vector in the time series of the feature vectors with each of the phoneme standard patterns, when determining a standard pattern for a phoneme X, , the feature vectors obtained from a large number of speakers and contexts collected for phoneme X are 〓 1 , 〓 2 , ...,
〓 p ; 〓 e = x e1 , x e2 , ..., x eo ), and the reference vector 〓 r = (x r1 , ..., x ri , ..., x ro ),
Let any vector of the feature vectors 〓 1 , ..., 〓 p be 〓 n = (x n1 , ..., x nj , ..., x no ) i−j
Lattice point C(k) on the plane = (i(k), J(k)), x r
i(k)
The distance d(c(k)) between and x nj(k ), and the load factor w
( k ), the point sequence c( 1 ) c( 2) By means of determining c(3)...c(k)...C(k) and by converting the component x ni(k) of the vector 〓 n into x nj(k) according to the point sequence. , means to obtain the transformed vector 〓′ n , and 〓′ 1 , 〓′ 2 ,...,
A speech recognition device characterized in that it has means for taking an average of 〓′ r , .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56089880A JPS57204598A (en) | 1981-06-11 | 1981-06-11 | Voice recognizer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56089880A JPS57204598A (en) | 1981-06-11 | 1981-06-11 | Voice recognizer |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS57204598A JPS57204598A (en) | 1982-12-15 |
JPH024919B2 true JPH024919B2 (en) | 1990-01-30 |
Family
ID=13983076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP56089880A Granted JPS57204598A (en) | 1981-06-11 | 1981-06-11 | Voice recognizer |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS57204598A (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60160488A (en) * | 1984-02-01 | 1985-08-22 | Nec Corp | Framing system of standard pattern in pattern recognition |
JPS61249182A (en) * | 1985-04-27 | 1986-11-06 | Toshiba Corp | Pattern recognizing and learning device |
JPS6385800A (en) * | 1986-09-30 | 1988-04-16 | 富士通株式会社 | Word voice recognition equipment |
JPH02263275A (en) * | 1989-04-03 | 1990-10-26 | Kiyadeitsukusu:Kk | Preparing system for register pattern of handwritten character |
-
1981
- 1981-06-11 JP JP56089880A patent/JPS57204598A/en active Granted
Also Published As
Publication number | Publication date |
---|---|
JPS57204598A (en) | 1982-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2595495B2 (en) | Pattern matching device | |
US6278972B1 (en) | System and method for segmentation and recognition of speech signals | |
JPH0554959B2 (en) | ||
US20050240397A1 (en) | Method of determining variable-length frame for speech signal preprocessing and speech signal preprocessing method and device using the same | |
JPH024919B2 (en) | ||
JPH0247760B2 (en) | ||
US6594631B1 (en) | Method for forming phoneme data and voice synthesizing apparatus utilizing a linear predictive coding distortion | |
JP3400474B2 (en) | Voice recognition device and voice recognition method | |
US6502074B1 (en) | Synthesising speech by converting phonemes to digital waveforms | |
JP2001005483A (en) | Word voice recognizing method and word voice recognition device | |
JPH0534680B2 (en) | ||
JPH0247758B2 (en) | ||
JPH0449720B2 (en) | ||
JPH05197397A (en) | Speech recognizing method and its device | |
JP2862306B2 (en) | Voice recognition device | |
JPH08248972A (en) | Rule speech synthesizer | |
JPH0436400B2 (en) | ||
JPH0449954B2 (en) | ||
JPH03201027A (en) | Dynamic programming method applying learning | |
JPH0361955B2 (en) | ||
JPH07113838B2 (en) | Speech recognition method | |
JPH11212587A (en) | Noise adapting method for speech recognition | |
JP2005091709A (en) | Speech recognition device | |
JPS5972498A (en) | Pattern comparator | |
JPH02203396A (en) | Feature extraction system for voice |