JPH0451036B2 - - Google Patents

Info

Publication number
JPH0451036B2
JPH0451036B2 JP59170655A JP17065584A JPH0451036B2 JP H0451036 B2 JPH0451036 B2 JP H0451036B2 JP 59170655 A JP59170655 A JP 59170655A JP 17065584 A JP17065584 A JP 17065584A JP H0451036 B2 JPH0451036 B2 JP H0451036B2
Authority
JP
Japan
Prior art keywords
speech
similarity
segmentation method
temporal
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP59170655A
Other languages
Japanese (ja)
Other versions
JPS6148896A (en
Inventor
Katsuyuki Futayada
Ikuo Inoe
Masakatsu Hoshimi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP59170655A priority Critical patent/JPS6148896A/en
Publication of JPS6148896A publication Critical patent/JPS6148896A/en
Publication of JPH0451036B2 publication Critical patent/JPH0451036B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声認識装置における、音声のセグメ
ンテーシヨン方法に関するものである。
DETAILED DESCRIPTION OF THE INVENTION Field of Industrial Application The present invention relates to a speech segmentation method in a speech recognition device.

従来例の構成とその問題点 近年、音素または音節を基本単位とする音声認
識方法の開発が活発になつている。この方法にお
いては、音声を音素または音節の単位に区切るこ
と(セグメンテーシヨン)が、音声認識率を向上
させるための重要な技術要素である。
Configuration of conventional examples and their problems In recent years, there has been active development of speech recognition methods that use phonemes or syllables as basic units. In this method, segmentation of speech into units of phonemes or syllables is an important technical element for improving the speech recognition rate.

従来、音素または音節のセグメンテーシヨンに
は、スペクトルの全域または帯域パワーを利用す
る方法が知られている。ここでは従来例の一例と
して、スペクトルの帯域パワーの時間的な動きを
使用し、パワー値の時間的な凹み(パワーデイツ
プ)による子音のセグメンテーシヨン法について
述べる。
Conventionally, methods are known for segmenting phonemes or syllables that utilize the entire spectrum or band power. Here, as an example of a conventional method, a consonant segmentation method using the temporal movement of the spectral band power and the temporal concavity (power dip) of the power value will be described.

以下図面を参照しながら、従来の方法について
説明する。第1図は従来のセグメンテーシヨン法
の機能ブロツク図である。1はAD変換部で、入
力音声を12KHzでサンプリングし、帯域パワー計
算部2で帯域フイルタによつて、1フレーム
(10msec)ごとに高域パワーと低域パワーを求め
る。3はパワー値バツフア部であり、高域パワー
と低域パワーを蓄積して、パワー値の時系列情報
を求める。そして、パワーデイツプ抽出部4で
は、パワー値の時系列情報からパワーデイツプを
抽出し、音素区間決定部5によつて、パワーデイ
ツプ区間を子音区間としてセグメンテーシヨンを
行なう。
The conventional method will be described below with reference to the drawings. FIG. 1 is a functional block diagram of a conventional segmentation method. 1 is an AD converter that samples the input audio at 12KHz, and a band power calculation unit 2 uses a band filter to calculate high-frequency power and low-frequency power for each frame (10 msec). 3 is a power value buffer section which accumulates high frequency power and low frequency power to obtain time series information of power values. Then, the power dip extracting section 4 extracts the power dip from the time series information of the power values, and the phoneme section determining section 5 performs segmentation using the power dip section as a consonant section.

従来例の方法は、子音の方が母音よりもパワー
が小さいために、子音部でパワーの凹みができや
すいという性質を利用したものである。すなわ
ち、第2図において、aで示すパワー値の時系列
情報が周囲よりも小さい値をとる時、パワー値の
立下りから立上り付近までを子音としてbで示す
ようにセグメンテーシヨンする。高域(1500〜
4000Hz)パワーは有声子音のデイツプをとらえや
すく、低域(250〜600Hz)パワーは無声子音のデ
イツプをとらえやすいので、両方を併用すると広
い範囲の子音のセグメンテーシヨンを行なうこと
ができる。
The conventional method takes advantage of the fact that since consonants have lower power than vowels, consonants tend to have power depressions. That is, in FIG. 2, when the time-series information of the power value indicated by a takes a smaller value than the surroundings, segmentation is performed as shown by b as a consonant from the fall of the power value to the vicinity of the rise. High range (1500~
4000Hz) power makes it easy to capture the dips of voiced consonants, and low-frequency (250-600Hz) power makes it easy to capture the dips of unvoiced consonants, so if you use both together, you can segment a wide range of consonants.

しかし、従来例における欠点は、スペクトルが
母音に類似していて母音とのパワー差が少ない音
素、特に鼻音(/m/,/n/,/〓/,はつ
音)の検出率が低いことである。鼻音性情報を用
いてこれを補う方法もあるが(星見、二矢田:語
頭子音のセグメンテーシヨン法、音学講論 昭59
年3月)、鼻音性情報はノイズや調音結合の影響
を受けやすく、安定したセグメンテーシヨンがで
きない。
However, the drawback of the conventional example is that the detection rate is low for phonemes whose spectra are similar to vowels and have a small power difference from vowels, especially nasal sounds (/m/, /n/, /〓/, hatsu). It is. There is a method to compensate for this using nasality information (Hoshimi, Niyada: Segmentation method for word-initial consonants, Lectures on Phonetics, 1982)
(March 2013), nasal information is susceptible to noise and articulatory coupling, making stable segmentation impossible.

発明の目的 本発明は従来技術のもつ以上のような欠点を解
消するもので、鼻音を含めあらゆる種類の音素の
セグメンテーシヨンを精度よく行なう音声のセグ
メンテーシヨン方法を提供するものである。
OBJECTS OF THE INVENTION The present invention eliminates the above-mentioned drawbacks of the prior art and provides a speech segmentation method that accurately performs segmentation of all kinds of phonemes, including nasal sounds.

発明の構成 上記の目的を達成するために、本発明は特徴パ
ラメータと定常性パターンとの類似度をフレーム
ごとに計算し、類似度の時間情報の変化をとらえ
ることによつて音素区間のセグメンテーシヨンを
行う方法を提供するものである。
Structure of the Invention In order to achieve the above object, the present invention calculates the degree of similarity between the feature parameters and the stationarity pattern for each frame, and calculates the degree of similarity between the feature parameters and the stationarity pattern for each frame. The present invention provides a method for carrying out this process.

実施例の説明 以下本発明の一実施例について説明する。Description of examples An embodiment of the present invention will be described below.

本発明は入力パラメータと定常性パターンを比
較することによつて、入力パラメータの時間的な
変化をとらえることを原理とする。そこで先ず時
間的な定常性標準パターンの作成方法について説
明する。定常性パターンは音声信号中で時間的に
定常な部分、例えば母音やはつ音の中心部の複数
フレーム(mフレーム、本実施例てはm=3)を
使用して多くのサンプルによつて作成する。1フ
レームあたりの特徴パラメータの数をnとする。
本実施例ではLPCケプストラム係数の低次のパ
ラメータ(C0〜C4)を特徴パラメータとして使
用している。したがつて特徴パラメータの数n=
5である。
The present invention is based on the principle of capturing temporal changes in input parameters by comparing input parameters with stationarity patterns. First, a method for creating a temporal stationarity standard pattern will be explained. The stationarity pattern is determined by using many samples using multiple frames (m frames, m = 3 in this example) of temporally stationary parts of the audio signal, such as the center of vowels and vowels. create. Let n be the number of feature parameters per frame.
In this embodiment, low-order parameters (C 0 to C 4 ) of LPC cepstrum coefficients are used as feature parameters. Therefore, the number of feature parameters n=
It is 5.

m×n(15)個のパラメータを次のように並べ
て特徴パラメータベクトルCを作成する。
A feature parameter vector C is created by arranging m×n (15) parameters as follows.

C=(C0 1,C1 1,……C4 1,C0 2,C1 2,……C4
,C0 3,C1 3……C4 3) (式1) ただし、Cj/iにおいてiは次数ナンバー、jは
フレームナンバーである。便宜的にCを次のよう
に表記する。
C=(C 0 1 , C 1 1 ,...C 4 1 ,C 0 2 ,C 1 2 ,...C 4
2 , C 0 3 , C 1 3 ... C 4 3 ) (Equation 1) However, in C j/i , i is the order number and j is the frame number. For convenience, C is written as follows.

C=(C1,C2,C3……C15) ……(式2) 多くのサンプルを使用してCの平均値μと分散
共分散行列Wを計算する。μの要素をμi,Wの要
素をWi,jとする。サンプル数をnとすると、 μi=1/NNK=1 Ci/k ……(式3) Wi,j=1/N−1NK=1 (Ci/k−μi)(Ci/k−μj) ……(式4) で定常性パターン(標準パターン)を作成でき
る。
C=(C 1 , C 2 , C 3 . . . C 15 ) (Formula 2) The average value μ and the variance-covariance matrix W of C are calculated using many samples. Let the elements of μ be μ i and the elements of W be W i,j . When the number of samples is n, μ i =1/N NK=1 C i/k ...(Formula 3) W i,j =1/N-1 NK=1 (C i/k −μ i ) (C i/k −μ j ) ...(Equation 4) A stationarity pattern (standard pattern) can be created.

次に入力特徴パラメータと定常性パターンとの
類似度の計算方法を説明する。
Next, a method of calculating the similarity between the input feature parameters and the stationarity pattern will be explained.

入力音声の特徴パラメータ(LPCケプストラ
ム係数)を(式1)と同じように時系列に並べ、
これをXとする。
Arrange the feature parameters (LPC cepstral coefficients) of the input speech in time series as in (Equation 1),
Let this be X.

X=(X1,X2,X3……X15) (式5) Xの平坦性パターンに対する確率密度Pは次式
で表わされる。
X=(X 1 , X 2 , X 3 ...X 15 ) (Equation 5) The probability density P for the flatness pattern of X is expressed by the following equation.

P=(2π)-15/2|W|-1/2exp{−1/2(X− μ)′W-1・(X−μ)} ……(式6) ただし、′は転置を表わす。 P=(2π) -15/2 |W| -1/2 exp{-1/2(X- μ)'W -1・(X-μ)} ...(Formula 6) However, '' indicates transposition. represent

(式6)の対数をとり、これを2倍してLとする
と、 L=−(X−μ)′・W-1・(X−μ)+A
(式7) Aは定数であり A=2・log{(2π)-15/2・|W|-1/2
……(式8) である。
If we take the logarithm of (Equation 6) and double it to make it L, then L=-(X-μ)'・W -1・(X-μ)+A
(Formula 7) A is a constant A=2・log {(2π) -15/2・|W| -1/2 }
...(Formula 8).

音声区間に対して、1フレームずつシフトしな
がらXを求め、これによつて(式7)で類似度を
求めると、定常部では(式7)の値(類似度)は
大きくなり、スペクトルの変化またはパワーの変
化がある場合は(式7)の値は小さくなる。類似
度が小さい部分は音素の境界や単語の境界に相当
するので、これをとらえることによつて、セグメ
ンテーシヨンを行なうことができる。
For the voice section, calculate X while shifting one frame at a time, and then calculate the similarity using (Equation 7). In the stationary part, the value (similarity) of (Equation 7) becomes large, and the spectrum If there is a change or a change in power, the value of (Equation 7) will be small. Portions with low similarity correspond to phoneme boundaries or word boundaries, so segmentation can be performed by capturing these.

第3図は例として王様(/oosama/)と発声
した場合の類似度の変化bを示したものである。
図には参考として、従来例によるパワーの変化a
と目視によつて付した音素ラベルcも付記してあ
る。第3図によると類似度の変化bは単語境界と
音素境界で極小値を形成しており、これによつて
音素のセグメンテーシヨンを容易に行なうことが
できる。目視ラベルcと比較すると、うまく区間
を検出できていることがわかる。一方、従来例に
よるパワー変化aは、/s/は検出できているが
鼻音/m/は検出できていない。
FIG. 3 shows, as an example, the change b in the degree of similarity when uttering ``Osama'' (/oosama/).
For reference, the figure shows the power change a according to the conventional example.
The phoneme label c, which was added by visual inspection, is also attached. According to FIG. 3, the change b in the degree of similarity forms minimum values at word boundaries and phoneme boundaries, thereby making it possible to easily segment phonemes. Comparing with the visual label c, it can be seen that the section can be detected successfully. On the other hand, in the power change a according to the conventional example, /s/ can be detected, but the nasal sound /m/ cannot be detected.

第4図は他の例を示したものであり、稲穂(/
inaho/)と発声した場合である。この場合も類
似度の変化bには語境界、音素境界に極小値が現
われており、鼻音も含め正確にセグメンテーシヨ
ンが行なわれている。従来のパワー変化aの場合
では、セグメンテーシヨンは無理である。
Figure 4 shows another example.
This is the case when you say inaho/). In this case as well, minimum values appear at word boundaries and phoneme boundaries in the similarity change b, and segmentation including nasal sounds is performed accurately. In the conventional case of power change a, segmentation is impossible.

次に以上に説明した方法を実現するための、機
能ブロツク図を第5図に示す。
Next, FIG. 5 shows a functional block diagram for realizing the method described above.

第5図においてAD変換部1は従来例と同じ機
能であるので説明を省略する。10は音響分析部
で音声信号を分析する部分であり、本実施例では
LPC分析法を使用している。分析窓はハミング
窓、フレーム周期は10msecであり、分析次数は
15である。11は特徴パラメータ抽出部であり、
パワー項C0と低次の4つのパラメータ(C1〜C4
を計算する。12は類似度計算部であり、入力特
徴パラメータと定常性パターンの類似度を(式
7)によつて計算する。
In FIG. 5, the AD converter 1 has the same function as the conventional example, so the explanation will be omitted. Reference numeral 10 denotes an acoustic analysis section that analyzes audio signals, and in this embodiment,
LPC analysis method is used. The analysis window is a Hamming window, the frame period is 10 msec, and the analysis order is
It is 15. 11 is a feature parameter extraction unit;
Power term C 0 and four lower-order parameters (C 1 to C 4 )
Calculate. Reference numeral 12 denotes a similarity calculation unit, which calculates the similarity between the input feature parameter and the stationarity pattern using (Equation 7).

13は定常性パターン格納部であり、(式3)、
(式4)および(式8)の値が入つている。時系
列バツフア14は類似度情報を時系列として蓄積
する。音素区間決定部15は、類似度の時間情報
から、類似度が小さい部分を検出し、第3図およ
び第4図に例示したようにして、音素区間を決定
する。
13 is a stationarity pattern storage unit, (Equation 3),
It contains the values of (Formula 4) and (Formula 8). The time series buffer 14 stores similarity information as a time series. The phoneme interval determination unit 15 detects a portion where the degree of similarity is small from the time information of the degree of similarity, and determines a phoneme interval as illustrated in FIGS. 3 and 4.

このように本実施例のセグメンテーシヨン方法
は、音素境界でのスペクトルの時間変化を類似度
情報としてとらえるので、鼻音のようにパワー値
が母音とあまり変わらない音素も正確にセグメン
テーシヨンを行なうことができる。また類似度の
時間変化を相対値として(すなわち極小値の検出
という方法で)利用しているので、ノイズや調音
結合の影響を受けにくい特徴がある。
In this way, the segmentation method of this embodiment captures temporal changes in spectra at phoneme boundaries as similarity information, so it can accurately segment phonemes such as nasals whose power values are not much different from vowels. be able to. Furthermore, since the temporal change in similarity is used as a relative value (that is, by detecting the minimum value), it is less susceptible to the effects of noise and articulatory combination.

なお、上記の例では特徴パラメータとして
LPCケプストラム係数を使用したが、これは帯
域スペクトルパワー、PARCOR係数、自己相関
関数、自己相関係数など他の特徴パラメータを使
用することも可能である。またLPCケプストラ
ム係数の次数はC0〜C4に限定する必要はない。
またフレーム数は上記の例では3フレームを用い
たが、複数フレームならば3フレームに限定はさ
れない。
In addition, in the above example, the feature parameter is
Although we used LPC cepstral coefficients, it is also possible to use other characteristic parameters such as band spectral power, PARCOR coefficient, autocorrelation function, autocorrelation coefficient, etc. Further, the order of the LPC cepstrum coefficients does not need to be limited to C 0 to C 4 .
Further, although three frames are used in the above example, the number of frames is not limited to three frames if it is a plurality of frames.

距離尺度に関しても、他の統計的な距離尺度、
たとえばマハラノビス距離を用いてもよい。この
場合、第5図の音素区間決定部15において極大
値を検出してセグメンテーシヨンを行なうことに
なる。
Regarding distance measures, other statistical distance measures,
For example, Mahalanobis distance may be used. In this case, the phoneme interval determination unit 15 in FIG. 5 detects the maximum value and performs segmentation.

また時間的な定常性パターンを作成する場合に
母音、はつ音の中心部のサンプルで作成すると述
べたが、実際には、全有声音区間または全音声区
間で1フレームずつずらせながら作成してもよい
(一般の音声では、スペクトルが変化している部
分に比べて、定常な部分の方が多い。) 発明の効果 以上要するに本発明は特徴パラメータと定常性
パターンとの類似度をフレームごとに計算し、類
似度の時間情報の変化をとらえることによつて音
素区間のセグメンテーシヨンを行う方法を提供す
るもので、鼻音など従来の方法では正確にセグメ
ンテーシヨンができなかつた音素に対しても精度
よくセグメンテーシヨンを行なうことができ、ま
た、類似度情報の相対値によつてスペクトルの変
化を検出するので、ノイズや調音結合などの変動
要因の影響を受けにくい利点を有する。更に、類
似度計算は全て積和計算であるので、ハードウエ
ア化が容易である利点も有する。
In addition, when creating a temporal stationarity pattern, it is said that it is created using samples from the center of vowels and syllables, but in reality, it is created by shifting one frame at a time in all voiced sound intervals or all speech intervals. (In general speech, there are more stationary parts than parts where the spectrum changes.) Effects of the Invention In summary, the present invention calculates the similarity between feature parameters and stationarity patterns for each frame. This method provides a method for segmenting phoneme intervals by calculating and capturing temporal information changes in similarity, and is useful for phonemes that cannot be accurately segmented using conventional methods, such as nasal sounds. This method can perform segmentation with high accuracy, and since changes in the spectrum are detected based on the relative values of similarity information, it has the advantage of being less susceptible to fluctuation factors such as noise and articulatory combination. Furthermore, since all similarity calculations are sum-of-product calculations, it has the advantage of being easy to implement in hardware.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は従来の音声のセグメンテーシヨン方法
を説明するための機能ブロツク図、第2図は従来
のパワー変化によりセグメンテーシヨンを行う方
法を説明するための図、第3図と第4図は本発明
の一実施例における音声のセグメンテーシヨン方
法の有効性を示すために具体例を示した図、第5
図は本実施例を具現化するための機能ブロツク図
である。 1……AD変換部、10……音響分析部、11
……特徴パラメータ抽出部、12……類似度計算
部、13……定常性パターン格納部、14……時
系列バツフア、15……音素区間決定部。
Figure 1 is a functional block diagram for explaining the conventional voice segmentation method, Figure 2 is a diagram for explaining the conventional method for segmentation using power changes, and Figures 3 and 4. Figure 5 shows a specific example to demonstrate the effectiveness of the voice segmentation method in one embodiment of the present invention.
The figure is a functional block diagram for realizing this embodiment. 1... AD conversion section, 10... Acoustic analysis section, 11
...Feature parameter extraction unit, 12...Similarity calculation unit, 13...Stationality pattern storage unit, 14...Time series buffer, 15...Phoneme interval determination unit.

Claims (1)

【特許請求の範囲】 1 入力音声を分析区間(フレーム)毎に分析し
特徴パラメータを求め、前記特徴パラメータの時
間パターンと、時間的な定常性を表現する標準パ
ターンとの類似度を統計的な距離尺度によつて計
算し、前記類似度の時系列情報を音声区間につい
て作成し、前記時系列情報の時間的な動きを利用
して音声の境界を検出することによつて音声のセ
グメンテーシヨンを行なうことを特徴とする音声
のセグメンテーシヨン方法。 2 時間的な定常性を表現する標準パターンが、
多数のサンプルの複数フレームの特徴パラメータ
を用いて、平均値と分散共分散行列で構成される
ことを特徴とする特許請求の範囲第1項記載の音
声のセグメンテーシヨン方法。 3 特徴パラメータがLPCケプストラム係数、
帯域スペクトルパワー、PARCOR係数、自己相
関関数から選ばれたいずれかである特許請求の範
囲第1項記載の音声のセグメンテーシヨン方法。 4 統計的距離尺度が、確率密度、対数尤度また
はマハラノビス距離のいずれかである特許請求の
範囲第1項記載の音声のセグメンテーシヨン方
法。 5 時間的な定常性の標準パターンを音声の定常
部、有声音区間、全音声区間のうちいずれかを使
用して作成することを特徴とする特許請求の範囲
第1項又は第2項記載の音声のセグメンテーシヨ
ン方法。
[Claims] 1. Analyze input audio for each analysis section (frame) to obtain feature parameters, and statistically evaluate the similarity between the temporal pattern of the feature parameters and a standard pattern expressing temporal stationarity. Speech segmentation is performed by calculating the similarity using a distance measure, creating time-series information of the similarity for the speech interval, and detecting the boundaries of the speech using the temporal movement of the time-series information. A voice segmentation method characterized by performing the following. 2. The standard pattern expressing temporal constancy is
2. The speech segmentation method according to claim 1, wherein the speech segmentation method is comprised of an average value and a variance-covariance matrix using characteristic parameters of a plurality of frames of a large number of samples. 3 The feature parameters are LPC cepstral coefficients,
The speech segmentation method according to claim 1, wherein the segmentation method is one selected from band spectral power, PARCOR coefficient, and autocorrelation function. 4. The speech segmentation method according to claim 1, wherein the statistical distance measure is any one of probability density, log likelihood, or Mahalanobis distance. 5. The method according to claim 1 or 2, characterized in that the standard pattern of temporal stationarity is created using any one of a stationary part of speech, a voiced sound interval, and a whole speech interval. Audio segmentation methods.
JP59170655A 1984-08-16 1984-08-16 Segmentation of voice Granted JPS6148896A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59170655A JPS6148896A (en) 1984-08-16 1984-08-16 Segmentation of voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59170655A JPS6148896A (en) 1984-08-16 1984-08-16 Segmentation of voice

Publications (2)

Publication Number Publication Date
JPS6148896A JPS6148896A (en) 1986-03-10
JPH0451036B2 true JPH0451036B2 (en) 1992-08-17

Family

ID=15908905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59170655A Granted JPS6148896A (en) 1984-08-16 1984-08-16 Segmentation of voice

Country Status (1)

Country Link
JP (1) JPS6148896A (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6275700A (en) * 1985-09-30 1987-04-07 シャープ株式会社 Voice recognition system

Also Published As

Publication number Publication date
JPS6148896A (en) 1986-03-10

Similar Documents

Publication Publication Date Title
US8831942B1 (en) System and method for pitch based gender identification with suspicious speaker detection
JPH0441356B2 (en)
JPS6336676B2 (en)
WO2003098597A1 (en) Syllabic kernel extraction apparatus and program product thereof
JPH0222960B2 (en)
Mathad et al. Vowel onset point based screening of misarticulated stops in cleft lip and palate speech
KR100744288B1 (en) Method and system for segmenting phonemes in voice signals
JPH0451036B2 (en)
KR100738332B1 (en) Voice signal recognition device and method
Baghel et al. Excitation source feature for discriminating shouted and normal speech
Kadiri et al. Formant Tracking by Combining Deep Neural Network and Linear Prediction
JPH04130499A (en) Segmentation of voice
Singh The Voice Signal and Its Information Content—2
Singh et al. Effect of MFCC based features for speech signal alignments
JP2744622B2 (en) Plosive consonant identification method
JPH0451039B2 (en)
Najnin et al. Detection and classification of nasalized vowels in noise based on cepstra derived from differential product spectrum
JPH026078B2 (en)
Almajai Audio Visual Speech Enhancement
JPH026079B2 (en)
JPS6136798A (en) Voice segmentation
JPS6227798A (en) Voice recognition equipment
Gayvert et al. Statistical approaches to formant tracking
Takagi et al. Formant frequency estimation by moment calculation of the speech spectrum
Mito et al. Real‐time pitch detection with a digital signal processor

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term