JPH0552511B2 - - Google Patents

Info

Publication number
JPH0552511B2
JPH0552511B2 JP58049766A JP4976683A JPH0552511B2 JP H0552511 B2 JPH0552511 B2 JP H0552511B2 JP 58049766 A JP58049766 A JP 58049766A JP 4976683 A JP4976683 A JP 4976683A JP H0552511 B2 JPH0552511 B2 JP H0552511B2
Authority
JP
Japan
Prior art keywords
signal
circuit
parameter
supplied
transition point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58049766A
Other languages
Japanese (ja)
Other versions
JPS59174899A (en
Inventor
Yoichiro Sako
Masao Watari
Makoto Akaha
Atsunobu Hiraiwa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP58049766A priority Critical patent/JPS59174899A/en
Publication of JPS59174899A publication Critical patent/JPS59174899A/en
Publication of JPH0552511B2 publication Critical patent/JPH0552511B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声認識に使用して好適な音声過渡点
検出方法に関する。
DETAILED DESCRIPTION OF THE INVENTION Field of Industrial Application The present invention relates to a voice transient point detection method suitable for use in voice recognition.

背景技術とその問題点 音声認識においては、特定話者に対する単語認
識によるものがすでに実用化されている。これは
認識対象とする全ての単語について特定話者にこ
れらを発音させ、バンドパスフイルタバンク等に
よりその音響パラメータを検出して記憶(登録)
しておく。そして特定話者が発声したときその音
響パラメータを検出し、登録された各単語の音響
パラメータと比較し、これらが一致したときその
単語であるとの認識を行う。
BACKGROUND TECHNOLOGY AND PROBLEMS In speech recognition, methods based on word recognition for specific speakers have already been put into practical use. This involves having a specific speaker pronounce all the words to be recognized, and then detecting and storing (registering) the acoustic parameters using a bandpass filter bank, etc.
I'll keep it. Then, when a specific speaker utters a utterance, its acoustic parameters are detected and compared with the acoustic parameters of each registered word, and when these match, the word is recognized.

このような装置において、話者の発声の時間軸
が登録時と異なつている場合には、一定時間(5
〜20msec)毎に抽出される音響パラメータの時
系列を伸縮して時間軸を整合させる。これによつ
て発声速度の変動に対処させるようにしている。
In such a device, if the time axis of the speaker's utterance is different from the time of registration, the time axis of the speaker's utterance is different from the time of registration,
The time series of acoustic parameters extracted every ~20 msec) is expanded or contracted to align the time axis. This makes it possible to cope with variations in speaking speed.

ところがこの装置の場合、認識対象とする全て
の単語についてその単語の全体の音響パラメータ
をあらかじめ登録格納しておかなければならず、
膨大な記憶容量と演算を必要とする。このため認
識語い数に限界があつた。
However, with this device, the entire acoustic parameters of every word to be recognized must be registered and stored in advance.
Requires huge storage capacity and calculations. For this reason, there was a limit to the number of words that could be recognized.

一方音韻(日本語でいえばローマ字表記したと
きのA,I,U,E,O,K,S,T等)あるい
は音節(KA,KI,KU等)単位での認識を行う
ことが提案されている。
On the other hand, it has been proposed to perform recognition in units of phonemes (in Japanese, A, I, U, E, O, K, S, T, etc. when written in Roman letters) or syllables (KA, KI, KU, etc.). ing.

しかし、各音節ごとに離散的に発音された音声
を登録し、離散的に発声された音声を単語認識と
同様に時間軸整合させて認識を行つており、特殊
な発声を行うために限定された用途でしか利用で
きなかつた。
However, the system registers discretely pronounced sounds for each syllable and performs recognition by aligning the discretely pronounced sounds on the time axis in the same way as word recognition. It could only be used for specific purposes.

さらに不特定話者を認識対象とした場合には、
音響パラメータに個人差による大きな分散があ
り、上述のように時間軸の整合だけでは認識を行
うことができない。そこで例えば一つの単語につ
いて複数の音響パラメータを登録して近似の音響
パラメータを認識する方法や、単語全体を固定次
元のパラメータに変換し、識別函数によつて判別
する方法が提案されているが、いずれも膨大な記
憶容量を必要としたり、演算量が多く、認識語い
数が極めて少くなつてしまう。
Furthermore, when recognizing unspecified speakers,
There is a large variance in acoustic parameters due to individual differences, and recognition cannot be achieved only by matching the time axis as described above. Therefore, for example, methods have been proposed such as registering multiple acoustic parameters for one word and recognizing approximate acoustic parameters, or converting the entire word into fixed-dimensional parameters and discriminating using a discrimination function. Either method requires a huge amount of storage capacity, a large amount of calculation, and the number of words to be recognized becomes extremely small.

これに対して本願発明者は先に、不特定話者に
対しても、容易かつ確実に音声認識を行えるよう
にした新規な音声認識方法を提案した。以下にま
ずその一例について説明しよう。
In response to this, the inventor of the present application has previously proposed a new speech recognition method that allows speech recognition to be easily and reliably performed even for unspecified speakers. Let's first explain one example below.

ところで、音韻の発声現象を観察すると、母音
や摩擦音(S,H等)等の音韻は長く伸して発声
することができる。例えば“はい”という発声を
考えた場合に、この音韻は第1図Aに示すよう
に、「無音→H→A→I→無音」に変化する。こ
れに対して同じ“はい”の発声を第1図Bのよう
に行うこともできる。ここでH,A,Iの準定常
部の長さは発声ごとに変化し、これによつて時間
軸の変動を生じる。ところがこの場合に、各音韻
間の過渡部(斜線で示す)は比較的時間軸の変動
が少いことが判明した。
By the way, when observing the phenomenon of phoneme production, phonemes such as vowels and fricatives (S, H, etc.) can be elongated and uttered. For example, when considering the utterance of "yes", the phoneme changes to "silence→H→A→I→silence" as shown in FIG. 1A. In response, the same "yes" can be uttered as shown in FIG. 1B. Here, the lengths of the quasi-stationary portions of H, A, and I change with each utterance, which causes fluctuations in the time axis. However, in this case, it has been found that there is relatively little variation in the time axis in the transitional part between each phoneme (indicated by diagonal lines).

そこで第2図において、マイクロフオン1に供
給された音声信号がマイクアンプ2、5.5kHz以下
のローパスフイルタ3を通じてA−D変換回路4
に供給される。またクロツク発生器5からの
12.5kHz(80μsec間隔)のサンプリングクロツク
がAD変換回路4に供給され、このタイミングで
音声信号がそれぞれ所定ビツト数(=1ワード)
のデジタル信号に変換される。この変換された音
声信号が5×64ワードのレジスタ6に供給され
る。またクロツク発生器5からの5.12msec間隔
のフレームクロツクが5進カウンタ7に供給さ
れ、このカウント値がレジスタ6に供給されて音
声信号が64ワードずつシフトされ、シフトされた
4×64ワードの信号がレジスタ6から取り出され
る。
Therefore, in FIG. 2, the audio signal supplied to the microphone 1 is passed through the microphone amplifier 2, the low-pass filter 3 of 5.5 kHz or less, and then passed through the A-D converter circuit 4.
is supplied to Also, from the clock generator 5
A sampling clock of 12.5kHz (80μsec interval) is supplied to the AD conversion circuit 4, and at this timing, each audio signal has a predetermined number of bits (=1 word).
is converted into a digital signal. This converted audio signal is supplied to a register 6 of 5×64 words. In addition, a frame clock with an interval of 5.12 msec from the clock generator 5 is supplied to the quinary counter 7, and this count value is supplied to the register 6 to shift the audio signal by 64 words. A signal is taken from register 6.

このレジスタ6から取り出された4×64=256
ワードの信号が高速フーリエ変換(FFT)回路
8に供給される。ここでこのFET回路8におい
て、例えばTの時間長に含まれるnf個のサンプリ
ングデータによつて表される波形函数を UofT(f) ……(1) としたとき、これをフーリエ変換して、 UofT(f)=∫T/2 -T/2UofT(f)e-2jftdt ≡U1ofT(f)+jU2ofT(f) ……(2) の信号が得られる。
4 x 64 = 256 taken out from this register 6
The word signal is supplied to a fast Fourier transform (FFT) circuit 8. Here, in this FET circuit 8, for example, if the waveform function represented by n f sampling data included in the time length of T is U ofT (f) ...(1), this is Fourier transformed. Then, the following signal is obtained: U ofT (f)=∫ T/2 -T/2 U ofT (f)e -2jft dt ≡U 1ofT (f)+jU 2ofT (f) ……(2).

さらにこのFET回路8からの信号がパワース
ペクトルの検出回路9に供給され、 |U2|=U2 1ofT(f)+U2 2ofT(f) ……(3) のパワースペクトル信号が取り出される。ここで
フーリエ変換された信号は周波数軸上で対称にな
つているので、フーリエ変換によつて取り出され
るnf個のデータの半分は冗長データである。そこ
で半分のデータを排除して1/2nf個のデータが取
り出される。すなわち上述のFET回路8に供給
された256ワードの信号が変換されて128ワードの
パワースペクトル信号が取り出される。
Furthermore, the signal from this FET circuit 8 is supplied to a power spectrum detection circuit 9, and a power spectrum signal of |U 2 |=U 2 1ofT (f)+U 2 2ofT (f) (3) is extracted. Here, since the Fourier-transformed signal is symmetrical on the frequency axis, half of the n f data extracted by Fourier transformation is redundant data. Therefore, half of the data is removed and 1/2n f pieces of data are extracted. That is, the 256-word signal supplied to the FET circuit 8 described above is converted to extract a 128-word power spectrum signal.

このパワースペクトル信号がエンフアシス回路
10に供給されて聴感上の補正を行うための重み
付けが行われる。ここで、重み付けとしては、例
えば周波数の高域成分を増強する補正が行われ
る。
This power spectrum signal is supplied to an emphasis circuit 10 and weighted to perform auditory correction. Here, as the weighting, for example, correction is performed to enhance high frequency components.

この重み付けされた信号が帯域分割回路11に
供給され、聴感特性に合せた周波数メルスケール
に応じて例えば32の帯域に分割される。ここでパ
ワースペクトルの分割点と異なる場合にはその信
号が各帯域に按分されてそれぞれの帯域の信号の
量に応じた信号が取り出される。これによつて上
述の128ワードのパワースペクトル信号が、音響
的特徴を保存したまま32ワードに圧縮される。
This weighted signal is supplied to a band division circuit 11, and is divided into, for example, 32 bands according to a frequency mel scale matched to auditory characteristics. Here, if the dividing point of the power spectrum is different, the signal is divided into each band in proportion and a signal corresponding to the amount of signal in each band is extracted. As a result, the 128-word power spectrum signal described above is compressed into 32 words while preserving the acoustic characteristics.

この信号が対数回路12に供給され、各信号の
対数値に変換される。これによつて上述のエンフ
アシス回路10での重み付け等による冗長度が排
除される。ここでこの対数パワースペクトル log|U2 ofT(f)| ……(4) をスペクトルパラメータx(i)(i=0,1……31)
と称する。
This signal is supplied to a logarithm circuit 12 and converted into a logarithm value of each signal. This eliminates redundancy due to weighting or the like in the above-mentioned emphasis circuit 10. Here, this logarithmic power spectrum log|U 2 ofT (f)| ...(4) is the spectrum parameter x (i) (i=0, 1...31)
It is called.

このスペクトルパラメータx(i)が離散的フーリ
エ変換(DFT)回路13に供給される。ここで、
このDFT回路13において、例えば分割された
帯域の数をMとすると、このM次元スペクトルパ
ラメータx(i)(i=0,1……M−1)を2M−1
点の実数対称パラメータとみなして2M−2点の
DFTを行う。従つて、 X(n)2M-3i=0 x(i)・Wmi 2M-2 ……(5) 但し、Wmi 2M-2=e−j(2π・i・m/2M−2) m=0,1,……,2M−3 となる。さらにこのDFTを行う函数は偶函数と
みなされるため Wmi 2M-2=cos(2π・i・m/2M−2) =cosπ・i・m/M−1 となり、これらより X(n)2M-3i=0 x(i)cosπ・i・m/M−1 ……(6) となる。このDFTによりスペクトルの包絡特性
を表現する音響パラメータが抽出される。
This spectral parameter x (i) is supplied to a discrete Fourier transform (DFT) circuit 13 . here,
In this DFT circuit 13, for example, if the number of divided bands is M, this M-dimensional spectral parameter x (i) (i=0, 1...M-1) is 2M-1
Considering the real symmetric parameters of the points, 2M−2 points
Perform DFT. Therefore , _ _ _ _ _ _ 2) m=0, 1, ..., 2M-3. Furthermore, since the function that performs this DFT is considered to be an even function, W mi 2M-2 = cos (2π・i・m/2M−2) = cosπ・i・m/M−1, and from these, X (n) = 2M-3i=0 x (i) cosπ・i・m/M−1 ...(6). This DFT extracts acoustic parameters that express the envelope characteristics of the spectrum.

このようにしてDFTされたスペクトラムパラ
メータx(i)について、0〜P−1(例えばP=8)
次までのP次元の値を取り出し、これをローカル
パラメータL(p)=(P=0,1,……,P−1)と
すると L(p)2M-3i=0 x(i)cosπ・i・p/M−1 ……(7) となり、ここでスペクトルパラメータが対称であ
ることを考慮して x(i)=x(2M-i-1) ……(8) とおくと、ローカルパラメータL(p)は L(p)=x(p)M-2 〓 〓i=0 x(i){cosπ・i・p/M−1+cosπ・(2M−2
−i)・p/M−1}+x(M−1)cosπ・p/M−
1……(9) 但し、p=0,1,……,P−1 となる。このようにして32ワードの信号がP(例
えば8)ワードに圧縮される。
Regarding the spectrum parameter x (i) DFTed in this way, 0 to P-1 (for example, P = 8)
If we extract the values of the P dimensions up to the next and set them as local parameters L (p) = (P = 0, 1, ..., P-1), then L (p) = 2M-3i=0 x (i ) cosπ・i・p/M−1 ……(7), and considering that the spectral parameters are symmetric, set x (i) = x (2M-i-1) ……(8) Then, the local parameter L (p) is L (p) = x (p) + M-2 〓 〓 i=0 x (i) {cosπ・i・p/M−1+cosπ・(2M−2
-i)・p/M−1}+x(M−1)cosπ・p/M−
1...(9) However, p=0, 1,..., P-1. In this way, a 32 word signal is compressed into P (for example 8) words.

このローカルパラメータL(p)がメモリ装置14
に供給される。このメモリ装置14は1行Pワー
ドの記憶部が例えば16行マトリクス状に配された
もので、ローカルパラメータL(p)が各次元ごとに
順次記憶されると共に、上述のクロツク発生器5
からの5.12msec間隔のフレームクロツクが供給
されて、各行のパラメータが順次横方向へシフト
される。これによつてメモリ装置14には
5.12msec間隔のP次元のローカルパラメータL(p)
が16フレーム(81.92msec)分記憶され、フレー
ムクロツクごとに順次新しいパラメータに更新さ
れる。
This local parameter L (p) is the memory device 14
supplied to This memory device 14 has a memory section of P words per row arranged in a matrix of 16 rows, for example, and stores local parameters L (p) sequentially for each dimension.
A frame clock with an interval of 5.12 msec is supplied from the frame clock, and the parameters of each row are sequentially shifted in the horizontal direction. As a result, the memory device 14
P-dimensional local parameter L (p) at 5.12msec intervals
are stored for 16 frames (81.92 msec), and updated to new parameters at every frame clock.

さらに例えばエンフアシス回路10からの信号
が音声過渡点検出回路20に供給されて音韻間の
過渡点が検出される。
Further, for example, a signal from the emphasis circuit 10 is supplied to a speech transition point detection circuit 20 to detect transition points between phonemes.

この過渡点検出信号T(t)がメモリ装置14に供
給され、この検出信号のタイミングに相当するロ
ーカルパラメータL(p)が8番目の行にシフトされ
た時点でメモリ装置14の読み出しが行われる。
ここでメモリ装置14の読み出しは、各次元Pご
とに16フレーム分の信号が横方向に読み出され
る。そして読み出された信号がDFT回路15に
供給される。
This transient point detection signal T (t) is supplied to the memory device 14, and reading from the memory device 14 is performed when the local parameter L (p) corresponding to the timing of this detection signal is shifted to the 8th row. .
Here, when reading out the memory device 14, signals for 16 frames are read out in the horizontal direction for each dimension P. The read signal is then supplied to the DFT circuit 15.

この回路15において上述と同様にDFTが行
われ、音響パラメータの時系列変化の包絡特性が
抽出される。このDFTされた信号の内から0〜
Q−1(例えばQ=3)次までのQ次元の値を取
り出す。このDFTを各次元Pごとに行い、全体
でP×Q(=24)ワードの過渡点パラメータK(p,q)
(p=0,1,……,P−1)(q=0,1,…
…,Q−1)が形成される。ここで、K(0,0)は音
声波形のパワーを表現しているのでパワー正規化
のため、p=0のときにq=1〜Qとしてもよ
い。
In this circuit 15, DFT is performed in the same manner as described above, and the envelope characteristics of the time-series changes in the acoustic parameters are extracted. 0 to 0 from this DFT signal
The values of the Q dimension up to the Q-1 (for example, Q=3) order are extracted. This DFT is performed for each dimension P, and the entire transition point parameter K (p,q) of P×Q (=24) words is
(p=0,1,...,P-1) (q=0,1,...
..., Q-1) are formed. Here, since K (0,0) expresses the power of the audio waveform, q may be set to 1 to Q when p=0 for power normalization.

すなわち第3図において、Aのような入力音声
信号(HAI)に対してBのような過渡点が検出
されている場合に、この信号の全体のパワースペ
クトルはCのようになつている。そして、例えば
「H→A」の過渡点のパワースペクトルがDのよ
うであつたとすると、この信号がエンフアシスさ
れてEのようになり、メルスケールで圧縮されて
Fのようになる。この信号がDFTされてGのよ
うになり、Hのように前後の16フレーム分がマト
リツクスされ、この信号が順次時間軸t方向に
DFTされて過渡点パラメータK(p,q)が形成される。
That is, in FIG. 3, when a transient point like B is detected for an input audio signal (HAI) like A, the entire power spectrum of this signal is like C. For example, if the power spectrum at the transition point of "H→A" is as shown in D, this signal is emphasized to become as shown in E, and compressed using the mel scale as shown in F. This signal is subjected to DFT to become something like G, and the previous and following 16 frames are matrixed like H, and this signal is sequentially moved in the time axis t direction.
DFT is performed to form transient point parameters K (p,q) .

この過渡点パラメータK(p,q)がマハラノビス距
離算出回路16に供給されると共に、メモリ装置
17からのクラスタ係数が回路16に供給されて
各クラスタ係数とのマハラノビス距離が算出され
る。ここでクラスタ係数は複数の話者の発音から
上述と同様に過渡点パラメータを抽出し、これを
音韻の内容に応じて分類し統計解析して得られた
ものである。
This transition point parameter K (p, q) is supplied to the Mahalanobis distance calculation circuit 16, and the cluster coefficients from the memory device 17 are supplied to the circuit 16 to calculate the Mahalanobis distance with each cluster coefficient. Here, the cluster coefficients are obtained by extracting transient point parameters from the pronunciations of multiple speakers in the same manner as described above, classifying them according to phoneme content, and performing statistical analysis.

そしてこの算出されたマハラノビス距離が判定
回路18に供給され、検出された過渡点が、何の
音韻から何の音韻への過渡点であるかが判定さ
れ、出力端子19に取り出される。
The calculated Mahalanobis distance is then supplied to the determination circuit 18, which determines which phoneme to which phoneme the detected transition point is a transition point, and outputs it to the output terminal 19.

すなわち例えば“はい”“いいえ”“0(ゼロ)”
〜“9(キユウ)”の12単語について、あらかじめ
多数(百人以上)の話者の音声を前述の装置に供
給し、過渡点を検出し過渡点パラメータを抽出す
る。この過渡点パラメータを例えば第4図に示す
ようなテーブルに分類し、この分類(クラスタ)
ごとに統計解析する。図中*は無音を示す。
For example, “Yes”, “No”, “0 (zero)”
Regarding the 12 words of ~9 (Kiyuu), the voices of a large number of speakers (more than 100 people) are supplied in advance to the above-mentioned device, the transition point is detected, and the transition point parameter is extracted. These transient point parameters are classified into a table as shown in Figure 4, and this classification (cluster)
Perform statistical analysis for each. * in the figure indicates silence.

これらの過渡点パラメータについて、任意のサ
ンプルR(a) r,s(r=1,2……24)(aはクラスタ指
標で例えばa=1は*→H,a=2はH→Aに対
応する。nは話者番号)として、共分散マトリク
ス A(a) r,s≡E(R(a) r,or (a))(R(a) s,os (a
)
)……(15) 但し、r (a)=E(R(a) r,o) Eはアンサンブル平均 を計数し、この逆マトリクス B(a) r,s=(A(a) t,o-1 r,s ……(16) を求める。
For these transient point parameters, any sample R (a) r,s (r=1,2...24) (a is a cluster index, for example, a=1 is *→H, a=2 is H→A) n is the speaker number), the covariance matrix A (a) r,s ≡E(R (a) r,or (a) ) (R (a) s,os (a
)
)...(15) However, r (a) = E (R (a) r,o ) E counts the ensemble average, and this inverse matrix B (a) r,s = (A (a) t, o ) -1 r,s ...(16) is found.

ここで任意の過渡点パラメータKrとクラスタ
aとの距離が、マハラノビスの距離 D(Kr,a)≡d 〓rs (Krr (a))・B(a) r,s(Krs (a)
……(17) で求められる。
Here, the distance between any transient point parameter K r and cluster a is Mahalanobis distance D (K r,a )≡d 〓 rs (K rr (a) )・B (a) r,s (K rs (a) )
...(17) is obtained.

従つて、メモリ装置17に上述のB(a) r,s及びr (a)
を求めて記憶しておくことにより、マハラノビス
距離算出回路16にて入力音声の過渡点パラメー
タとのマハラノビス距離が算出される。
Therefore, the above-mentioned B (a) r,s and r (a) are stored in the memory device 17.
By determining and storing the above, the Mahalanobis distance calculation circuit 16 calculates the Mahalanobis distance between the input voice and the transition point parameter.

これによつて回路16から入力音声の過渡点ご
とに各クラスタとの最小距離と過渡点の順位が取
り出される。これらが判定回路18に供給され、
入力音声が無声になつた時点において認識判定を
行う。例えば各単語ごとに、各過渡点パラメータ
とクラスタとの最小距離の平方根の平均値による
単語距離を求める。なお過渡点の一部脱落を考慮
して各単語は脱落を想定した複数のタイプについ
て単語距離を求める。ただし過渡点の順位関係が
テーブルと異なつているものはリジエクトする。
そしてこの単語距離が最小になる単語を認識判定
する。
As a result, the minimum distance to each cluster and the ranking of the transition points are extracted from the circuit 16 for each transition point of the input audio. These are supplied to the determination circuit 18,
Recognition determination is made when the input voice becomes silent. For example, for each word, the word distance is determined by the average value of the square root of the minimum distance between each transition point parameter and the cluster. In addition, taking into account the dropout of some of the transition points, word distances are calculated for multiple types assuming that each word is dropped. However, if the ranking relationship of the transition points is different from the table, it will be rejected.
Then, the word with the minimum word distance is recognized and determined.

従つてこの装置によれば音声の過渡点の音韻の
変化を検出しているので、時間軸の変動がなく、
不特定話者について良好な認識を行うことができ
る。
Therefore, this device detects changes in phoneme at transition points in speech, so there is no change in the time axis.
It is possible to perform good recognition for non-specific speakers.

また過渡点において上述のようなパラメータの
抽出を行つたことにより、一つの過渡点を例えば
24次元で認識することができ、認識を極めて容易
かつ正確に行うことができる。
In addition, by extracting the parameters described above at the transition point, one transition point can be
It can be recognized in 24 dimensions, making recognition extremely easy and accurate.

なお上述の装置において120名の話者にて学習
を行い、この120名以外の話者にて上述12単語に
ついて実験を行つた結果、98.2%の平均認識率が
得られた。
Furthermore, as a result of learning using the above-mentioned device with 120 speakers and conducting experiments on the above-mentioned 12 words with speakers other than these 120, an average recognition rate of 98.2% was obtained.

さらに上述の例で“はい”の「H→A」と“8
(ハチ)”の「H→A」は同じクラスタに分類可能
である。従つて、認識すべき言語の音韻数をαと
してαP2個程度のクラスタをあらかじめ計算して
クラスタ係数をメモリ装置17に記憶させておけ
ば、種々の単語の認識に適用でき、多くの語いの
認識を容易に行うことができる。
Furthermore, in the above example, “H → A” of “Yes” and “8
“H→A” of “(Hachi)” can be classified into the same cluster. Therefore, if αP is the number of phonemes of the language to be recognized and approximately 2 clusters are calculated in advance and the cluster coefficients are stored in the memory device 17, this method can be applied to the recognition of various words, and can be used to recognize many words. can be easily recognized.

本発明は、このような装置において、検出回路
20に使用して好適な音声過渡点検出方法に関す
る。
The present invention relates to an audio transition point detection method suitable for use in the detection circuit 20 in such an apparatus.

ところで、従来の過渡点検出としては例えば音
響パラメータL(p)の変化量の総和を用いる方法が
ある。すなわちフレームごとにP次のパラメータ
が抽出されている場合に、Gフレームのパラメー
タをL(p)(G)(p=0,1……P−1)としたと
き T(G)=p-1p=0 L(p)(G)−L(p)(G−1)| ……(9′) のような差分量の絶対値の総和を利用して検出を
行う。
By the way, as a conventional method of detecting a transient point, for example, there is a method of using the sum of the amount of change in the acoustic parameter L (p) . In other words, when P-order parameters are extracted for each frame, and when the parameters of G frames are L (p) (G) (p=0, 1...P-1), T (G) = p- 1p=0 L (p) (G) - L (p) (G - 1) | ...(9') Detection is performed using the sum of the absolute values of the differences.

ここで、例えばP=1次元のときには、第5図
A,Bに示すようにパラメータL(p)(G)の変化点
においてパラメータT(G)のピークが得られる。
Here, for example, when P=one dimension, a peak of the parameter T (G) is obtained at a change point of the parameter L (p) (G), as shown in FIGS. 5A and 5B.

尚、上述の説明ではL(p)(G)を連続量とした
が、実際にはこのパラメータL(p)(G)は離散量で
ある。しかし、このような音声認識装置にあつて
は所定のMフレームずつの分析で1次元パラメー
タにおとしており急峻な変化にパラメータの値が
ついていけず、無音から口腔内の閉鎖部に空気流
を吹き付けて生ずる破裂性子音への過渡点の検出
はほとんど不可能であつた。
Note that in the above description, L (p) (G) is a continuous quantity, but in reality, this parameter L (p) (G) is a discrete quantity. However, such voice recognition devices analyze predetermined M frames at a time to obtain one-dimensional parameters, and the parameter values cannot keep up with sudden changes. It was almost impossible to detect the transition point to the plosive consonant that occurs.

発明の目的 本発明はかかる点に鑑み、無音から破裂性子音
への過渡点の検出を良好に行なえるようにした音
声過渡点検出方法を提供せんとするものである。
OBJECTS OF THE INVENTION In view of the above-mentioned problems, it is an object of the present invention to provide a method for detecting a vocal transition point that can effectively detect a transition point from silence to a plosive consonant.

発明の概要 本発明は入力音声信号を人間の聴覚特性に応じ
て等しく重み付けして音響パラメータを抽出し、
この音響パラメータのレベルに対して正規化を行
い、この正規化された音響パラメータを複数フレ
ームにわたつて監視し、上記音響パラメータのピ
ークを検出するようにした音声過渡点検出方法に
おいて、無音から破裂性子音への過渡点パラメー
タと無音から破裂性子音以外の音声への過渡点パ
ラメータとを別々に得た上でそれらのレベルより
過渡点信号を得るようにしたものである。
Summary of the Invention The present invention extracts acoustic parameters by equally weighting input audio signals according to human auditory characteristics.
In an audio transient point detection method that normalizes the level of this acoustic parameter, monitors this normalized acoustic parameter over multiple frames, and detects the peak of the acoustic parameter, The transition point parameter for gender consonants and the transition point parameter for speech from silence to sounds other than plosive consonants are separately obtained, and then a transition point signal is obtained from their levels.

実施例 以下、第6図を参照して本発明音声認識装置の
一実施例について説明しよう。この第6図におい
て、第2図に対応する部分には同一符号を付しそ
れらの詳細な説明は省略する。
Embodiment Hereinafter, an embodiment of the speech recognition apparatus of the present invention will be described with reference to FIG. In FIG. 6, parts corresponding to those in FIG. 2 are given the same reference numerals, and detailed explanation thereof will be omitted.

第6図において、第2図のエンフアシス回路1
0からの重み付けされた信号が帯域分割回路21
に供給され、上述と同様にメルスケールに応じて
N(例えば20)の帯域に分割され、それぞれの帯
域の信号の量に応じた信号V(o)(n=0,1……
N−1)が取り出される。この信号がバイアス付
き対数回路22に供給されて v′(o)=log(V(o)+B) ……(10) が形成される。また信号V(o)が累算回路23に供
給されて Va20n=1 V(o)/20 が形成れ、この信号Vaが対数回路22に供給さ
れて v′a=log(Va+B) ……(11) が形成される。そして、これらの信号が演算回路
24に供給されて v(o)=v′a−v′(o) ……(12) が形成される。
In FIG. 6, the emphasis circuit 1 of FIG.
The weighted signal from 0 is sent to the band division circuit 21
The signal V (o) (n=0, 1...
N-1) is taken out. This signal is supplied to the biased logarithm circuit 22 to form v' (o) =log(V (o) +B)...(10). Further, the signal V (o) is supplied to the accumulator circuit 23 to form V a = 20n=1 V (o) /20, and this signal V a is supplied to the logarithm circuit 22 to form v' a = log (V a +B) ...(11) is formed. These signals are then supplied to the arithmetic circuit 24 to form v (o) = v' a - v' (o) . . . (12).

ここで、上述のような信号V(o)を用いることに
より、この信号は音韻から音韻への変化に対して
各次(n=0,1……N−1)の変化が同程度と
なり、音韻の種類による変化量のばらつきを回避
できる。また対数をとり演算を行つて正規化パラ
メータv(o)を形成したことにより、入力音声のレ
ベルの変化によるパラメータv(o)の変動が排除さ
れる。さらにバイアスBを加算して演算を行つた
ことにより、仮りにB→∞とするとパラメータ
v(o)→0となることから明らかなように、入力音
声の微少成分(ノイズ等)に対する感度を下げる
ことができる。
Here, by using the signal V (o) as described above, this signal has the same degree of change for each order (n=0, 1...N-1) with respect to the change from phoneme to phoneme, It is possible to avoid variations in the amount of change depending on the type of phoneme. Further, by forming the normalized parameter v (o) by taking a logarithm and performing an operation, fluctuations in the parameter v (o) due to changes in the level of input audio are eliminated. Furthermore, by adding bias B and performing calculations, if B → ∞, the parameter
As is clear from the fact that v (o) → 0, the sensitivity to minute components (noise, etc.) of the input voice can be lowered.

このパラメータv(o)がメモリ装置25に供給さ
れて2w+1(w=4として、例えば9)フレーム
分が記憶される。この記憶された信号が演算回路
26に供給されて、 Yo,t=min I∈GFN {v(o)(I)} ……(13) 但し、GFN={I;−w+t≦I≦w+t} が形成され、この信号とパラメータv(o)が演算回
路27に供給されて. T1(t)N-1n=0 WI=-w (v(o)(I+t)−Yo,t) ……(14) が形成される。このT1(t)が、第1の過渡点検出パ
ラメータであつて、この第1の過渡点検出パラメ
ータT1(t)が第1のピーク検出回路28に供給され
て、入力音声信号の所定の音韻の過渡点の過渡点
信号が加算回路に供給される。
This parameter v (o) is supplied to the memory device 25 and stored for 2w+1 (for example, 9 frames, assuming w=4). This stored signal is supplied to the arithmetic circuit 26, and Y o,t =min I∈GFN {v (o) (I)} ...(13) However, GF N = {I; -w+t≦I≦ w+t} is formed, and this signal and parameter v (o) are supplied to the arithmetic circuit 27. T 1(t) = N-1n=0 WI=-w (v (o) (I+t)−Y o,t ) ...(14) is formed. This T 1(t) is the first transient point detection parameter, and this first transient point detection parameter T 1(t) is supplied to the first peak detection circuit 28 to detect a predetermined value of the input audio signal. The transition point signal of the transition point of the phoneme is supplied to the adder circuit.

また、パラメータv(o)がメモリ装置25′にも供
給されて2(w−a)+1(例えば0<a=2とし
て5)フレーム分が記憶される。この記憶された
信号が演算回路26′に供給されて、 Yo,t=min I∈GFN {v(o)(I)} ……(13′) 但し、GFN={I;−(w−a)+t≦I≦(w−
a)+t} が形成され、この信号とパラメータv(o)が演算回
路27′に供給されて、 T2(t)N-1n=0 W-aI=-(w-a) (v(o)(I+t)−Yo,t) …(14′) が形成される。ここで、aの大きさは無音から破
裂性子音への過渡点についても急峻にパラメータ
の値が変化して、パラメータの値から過渡点が検
出できるような大きさとする。このT2(t)が、第2
の過渡点検出パラメータであつて、このT2(t)が第
2のピーク検出回路28′に供給されて、入力音
声信号の例えば無音から破裂音への急峻な変化に
係る過渡点が検出されて、スイツチ回路29がオ
ンのときには加算回路30に過渡点が検出された
ことを伝達する過渡点信号を加算回路30に供給
するようにする。ここで、スイツチ回路29は、
次なるとき“ON”となるようにする。即ち、演
算回路27′からの第2の過渡点検出パラメータ
T2(t)がレベル検出回路31において設定してある
所定の閾値を越えたとき、モノマルチバイブレー
タ32より所定長(例えば5フレーム分の長さ)
の制御パルスを発生するようにし、この所定長の
制御パルスがスイツチ回路29に供給されている
間スイツチ回路29のスイツチをオンとするよう
にする。そして、第2の過渡点検出パラメータ
T2(t)が所定の閾値を越え、スイツチ回路29が
“ON”となつている間に第2のピーク検出回路
28′から過渡点信号がスイツチ回路29に供給
されたときには、かる過渡点信号が加算回路30
にそのまま供給されることになる。それゆえ第1
のピーク検出回路28から過渡点信号が通常良好
に発生しない、無音から破裂性子音への過渡点に
ついても、第2のピーク検出回路28′からの過
渡点信号が加算回路30を経て出力端子33から
取り出されることになる。
The parameter v (o) is also supplied to the memory device 25', and 2(w-a)+1 (for example, 5, where 0<a=2) frames are stored. This stored signal is supplied to the arithmetic circuit 26', and Y o,t =min I∈GFN {v (o) (I)} ...(13') However, GF N = {I;-(w -a)+t≦I≦(w-
a) +t} is formed, and this signal and parameter v (o) are supplied to the arithmetic circuit 27', T 2(t) = N-1n=0 WaI=-(wa) (v ( o) (I+t)-Y o,t ) ...(14') is formed. Here, the size of a is set so that the parameter value changes sharply even at the transition point from silence to a plosive consonant, and the transition point can be detected from the parameter value. This T 2(t) is the second
The transient point detection parameter T 2(t) is supplied to the second peak detection circuit 28' to detect a transient point associated with a sudden change in the input audio signal, for example from silence to a plosive. Thus, when the switch circuit 29 is on, a transition point signal is supplied to the addition circuit 30, which transmits to the addition circuit 30 that a transition point has been detected. Here, the switch circuit 29 is
Set it to “ON” the next time. That is, the second transient point detection parameter from the arithmetic circuit 27'
When T 2(t) exceeds a predetermined threshold set in the level detection circuit 31, the mono multivibrator 32 sends a signal for a predetermined length (for example, the length of 5 frames).
A control pulse of a predetermined length is generated, and the switch circuit 29 is turned on while this control pulse of a predetermined length is supplied to the switch circuit 29. And the second transient point detection parameter
When T 2(t) exceeds a predetermined threshold and a transition point signal is supplied from the second peak detection circuit 28' to the switch circuit 29 while the switch circuit 29 is "ON", the transition point The signal is added to the adder circuit 30
It will be supplied as is. Therefore, the first
Regarding the transition point from silence to plosive consonant, for which a transition point signal is not normally generated well from the peak detection circuit 28 of the second peak detection circuit 28', the transition point signal from the second peak detection circuit 28' is sent to the output terminal 33 via the addition circuit 30. It will be taken out from.

尚、他の部分は第2図と同様の構成を採るもの
とする。
Note that other parts have the same configuration as in FIG. 2.

このように構成された本実施例に依れば、音響
パラメータを所定の複数フレームの組に亘つて複
数組監視して、第1及び第2の過渡点検出パラメ
ータT1(t)及びT2(t)を得た上でそれらのレベルより
過渡点信号を得るようにしたので、無音から破裂
性子音への過渡点については第2のピーク検出回
路28′よりの過渡点信号が出力端子33に供給
され、無音から破裂性子音への過渡点の検出を良
好に行なえるようにできる利益がある。
According to this embodiment configured in this way, multiple sets of acoustic parameters are monitored over a predetermined set of multiple frames, and the first and second transient point detection parameters T 1 (t) and T 2 (t) and then obtain the transient point signal from those levels. Therefore, for the transition point from silence to plosive consonant, the transient point signal from the second peak detection circuit 28' is sent to the output terminal 33. This has the advantage of allowing better detection of the transition point from silence to plosive consonant.

尚、本発明は上述実施例に限らず本発明の要旨
を逸脱することなくその他種々の構成とできるこ
とは勿論である。
Note that the present invention is not limited to the above-described embodiments, and it goes without saying that various other configurations can be made without departing from the gist of the present invention.

発明の効果 以上述べたように本発明音声過渡点検出方法に
よれば、音響パラメータを所定の複数フレームの
組に亘つて複数組監視するようにしたので無音か
ら破裂性子音への過渡点の検出を良好に行なえる
利益がある。
Effects of the Invention As described above, according to the speech transition point detection method of the present invention, since multiple sets of acoustic parameters are monitored over a plurality of predetermined sets of frames, a transition point from silence to a plosive consonant can be detected. There is a benefit in being able to do this well.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図〜第4図は音声認識装置の説明のための
図、第5図は過渡点検出の説明のための図、第6
図は本発明音声過渡点検出方法の一例の系統図で
ある。 1はマイクロフオン、3はローパスフイルタ、
4はAD変換回路、5はクロツク発生器、6はレ
ジスタ、7はカウンタ、8は高速フーリエ変換回
路、9はパワースペクトル検出回路、10はエン
フアシス回路、21は帯域分割回路、22は対数
回路、23,24,26,27は演算回路、25
はメモリ装置、28,28′はピーク検出回路、
29はスイツチ回路、30は加算回路、31はレ
ベル検出回路、32はモノマルチバイブレータ、
33は出力端子である。
Figures 1 to 4 are diagrams for explaining the speech recognition device, Figure 5 is a diagram for explaining transient point detection, and Figure 6 is a diagram for explaining the transient point detection.
The figure is a system diagram of an example of the audio transient point detection method of the present invention. 1 is a microphone, 3 is a low pass filter,
4 is an AD conversion circuit, 5 is a clock generator, 6 is a register, 7 is a counter, 8 is a fast Fourier transform circuit, 9 is a power spectrum detection circuit, 10 is an emphasis circuit, 21 is a band division circuit, 22 is a logarithmic circuit, 23, 24, 26, 27 are arithmetic circuits, 25
is a memory device, 28 and 28' are peak detection circuits,
29 is a switch circuit, 30 is an adder circuit, 31 is a level detection circuit, 32 is a mono multivibrator,
33 is an output terminal.

Claims (1)

【特許請求の範囲】 1 入力音声信号を人間の聴覚特性に応じて等し
く重み付けして音響パラメータを抽出し、この音
響パラメータのレベルに対して正規化を行い、こ
の正規化された音響パラメータを複数フレームに
わたつて監視し、上記音響パラメータのピークを
検出するようにした音声過渡点検出方法におい
て、 無音から破裂性子音への過渡点パラメータと無
音から破裂性子音以外の音声への過渡点パラメー
タとを別々に得た上でそれらのレベルより過渡点
信号を得るようにした音声過渡点検出方法。
[Claims] 1. Acoustic parameters are extracted by weighting the input audio signal equally according to human auditory characteristics, the level of this acoustic parameter is normalized, and the normalized acoustic parameters are In a voice transition point detection method that monitors frames over frames and detects the peak of the above-mentioned acoustic parameters, a transition point parameter from silence to a plosive consonant and a transition point parameter from silence to a voice other than a plosive consonant are detected. This is an audio transient point detection method that obtains the levels separately and then obtains the transient point signal from those levels.
JP58049766A 1983-03-25 1983-03-25 Voice transient point detection Granted JPS59174899A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58049766A JPS59174899A (en) 1983-03-25 1983-03-25 Voice transient point detection

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58049766A JPS59174899A (en) 1983-03-25 1983-03-25 Voice transient point detection

Publications (2)

Publication Number Publication Date
JPS59174899A JPS59174899A (en) 1984-10-03
JPH0552511B2 true JPH0552511B2 (en) 1993-08-05

Family

ID=12840292

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58049766A Granted JPS59174899A (en) 1983-03-25 1983-03-25 Voice transient point detection

Country Status (1)

Country Link
JP (1) JPS59174899A (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58145999A (en) * 1982-02-25 1983-08-31 ソニー株式会社 Recognition of voice
JPS58145988A (en) * 1982-02-25 1983-08-31 日本電気株式会社 Ctr graphic display unit
JPS59166999A (en) * 1983-03-11 1984-09-20 ソニー株式会社 Detection of voice transient point detection
JPS59170897A (en) * 1983-03-17 1984-09-27 ソニー株式会社 Detection of voice transient point detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58145999A (en) * 1982-02-25 1983-08-31 ソニー株式会社 Recognition of voice
JPS58145988A (en) * 1982-02-25 1983-08-31 日本電気株式会社 Ctr graphic display unit
JPS59166999A (en) * 1983-03-11 1984-09-20 ソニー株式会社 Detection of voice transient point detection
JPS59170897A (en) * 1983-03-17 1984-09-27 ソニー株式会社 Detection of voice transient point detection

Also Published As

Publication number Publication date
JPS59174899A (en) 1984-10-03

Similar Documents

Publication Publication Date Title
JPH0441356B2 (en)
Patil et al. Automatic Speech Recognition of isolated words in Hindi language using MFCC
Imtiaz et al. Isolated word automatic speech recognition (ASR) system using MFCC, DTW & KNN
Nivetha A survey on speech feature extraction and classification techniques
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Gedam et al. Development of automatic speech recognition of Marathi numerals-a review
JPH0441357B2 (en)
JPH0552509B2 (en)
JPH0552511B2 (en)
JPH0552510B2 (en)
Berjon et al. Frequency-centroid features for word recognition of non-native English speakers
JPH0546558B2 (en)
JPH0546559B2 (en)
Artimy et al. Automatic detection of acoustic sub-word boundaries for single digit recognition
Naing et al. Comparison of Three Auditory Frequency Scales in Feature Extraction on Myanmar Digits Recognition
Besbes et al. Classification of speech under stress based on cepstral features and one-class SVM
Tabassum et al. Speaker independent speech recognition of isolated words in room environment
Srinivasan Real time speaker recognition of letter ‘zha’in Tamil language
JPH0552512B2 (en)
JPH0546560B2 (en)
JPH0552515B2 (en)
JPH0426479B2 (en)
JPS6069697A (en) Voice recognition equipment
Bansal et al. Enhanced feature vector set for VQ recogniser in isolated word recognition