JPH0344317B2 - - Google Patents

Info

Publication number
JPH0344317B2
JPH0344317B2 JP59058709A JP5870984A JPH0344317B2 JP H0344317 B2 JPH0344317 B2 JP H0344317B2 JP 59058709 A JP59058709 A JP 59058709A JP 5870984 A JP5870984 A JP 5870984A JP H0344317 B2 JPH0344317 B2 JP H0344317B2
Authority
JP
Japan
Prior art keywords
frames
phoneme
speech recognition
distance
spectral information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59058709A
Other languages
Japanese (ja)
Other versions
JPS60202489A (en
Inventor
Satoshi Fujii
Katsuyuki Futayada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP59058709A priority Critical patent/JPS60202489A/en
Publication of JPS60202489A publication Critical patent/JPS60202489A/en
Priority to US07/501,386 priority patent/US4991216A/en
Publication of JPH0344317B2 publication Critical patent/JPH0344317B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】[Detailed description of the invention]

産業上の利用分野 本発明は音声の内容を自動的に認識するための
音声認識方法に関するものである。 従来例の構成とその問題点 近年、不特定話者、多数語を対象とする音声認
識に対する研究開発が盛んになつてきた。 音素認識を行うことを特徴とする音声認識にお
ける従来の音素判別は、井出他:「スペクトルの
動的特徴による子音認識の検討」、日本音響学会
講論集、1981、10、2−1−2に述べられてい
る。そのフローチヤートを第1図に示す。 まず標準パターンの作成手順について述べる。
音声中の子音及び半母音を対象として10mS毎に
29チヤンネル帯域フイルタ群(Q=6、中心周波
数250〜6300Hzで1/6オクターブ間隔)の出力を得
る。さらに周波数軸に沿つて連続する数帯域をま
とめて6チヤネルとする。この6チヤネルを1フ
レームとし、このフレームを連続して5フレーム
取り出し、6×5=30次元ベクトルとする。これ
を音素毎に集計し、音素iに対する平均値mi
共分散行列をWiとし、逆行列をW-1 iとして、mi
とW-1 iを標準パターンとして標準パターン格納部
に予め入れておく。 次に入力された未知音声を音響分析して第1図
の処理イに示すように29チヤネル帯域フイルタの
出力X″1(X″1,1,X″1,2,……,X″1,29)を
得、次に処理ロに示すように前記出力を数帯域毎
にまとめて6チヤネルX′1(X′1,1,X′1,2,…
…X′1,6)にし、処理ハに示すように得られた
スペクトルの連続する5フレーム分X′1,X′2
X′3,X′4,X′5を計算し、処理ニのように6×5
=30次元ベクトルX(X1,X2,……,X30)に変
換する。さらにこのベクトルについて、前述した
標準パターンを用いて処理ホに示すようにベイズ
判定による類似度計算を行う。音素iに対する類
似度Piは次式で求めることができる。 Pi=(2π)-15/2|Wi-1/2exp { −1/2(x−mitWi -1(x−mi)}……(1) このPiを音素毎に求め、最も類似度の高い音素
を求めることにより音素判別を行い(処理へ)そ
の結果を音素認識部に転送する。 この方法は、子音や半母音のようにスペクトル
の時間変化に特徴のある音素に対して、変化の動
きを積極的にとらえる考え方である。 第2図は半母音、拗音のスペクトル変化の例を
示したものである。aは前記従来例と類似の場合
を表わし、横軸に時間をフレーム単位で示す。ま
た縦軸に隣接するスペクトルの距離をLPCケプ
ストラム係数のユークリツド距離で示す。この距
離曲線はフレーム数13の間、あるいき値(TH)
以下の小さい値で持続し、半母音、拗音が130ms
の長い時間持続していることを示す。しかし前記
従来例では類似度計算に必要な演算量が膨大にな
る理由から、○印で示す5フレームのみ使用して
いる。このため、半母音、拗音の特徴を十分にと
らえ切れず、判別の精度が悪い欠点がある。この
欠点を解消するために第2図bに示すように13個
のフレームを用いることが考えられる。第2図b
は第2図aと同じ半母音、拗音についてフレーム
数13を用いる場合を○印で示したものである。こ
の場合半母音、拗音の特徴を十分にとらえること
が可能であるが、類似度計算のために膨大な演算
量を必要とし、装置にした場合に高価となる欠点
があつた。 発明の目的 本発明は前記欠点を解消し、音声の自動認識に
おいて、音素又は音節の判別を高い判別精度で、
かつ少ない演算量で実現するための音声認識方法
を提供することを目的とする。 発明の構成 本発明は前記目的を達成するためのもので、多
数話者の音声から作成された標準パターンを予め
用意しておき、入力未知音声を連続するn個の一
定時間区間(フレーム)に分割し、前記各フレー
ム毎に音声を分析してスペクトル情報を求め、前
記n個のフレームより、フレーム間のスペクトル
変化がしきい値を越えない部分に対しては等間隔
に間引くように抽出してX個のフレーム(n>
X)を求め、前記X個のフレームのスペクトル情
報と前記標準パターンとの類似度を統計的距離尺
度で計算することにより音素又は音節の判別を行
うことを特徴とする音声認識方法を提供するもの
である。 実施例の説明 以下に本発明の実施例を図面を用いて説明す
る。第3図は本発明の音声認識方法を具現化する
装置の一実施例を示すブロツク図である。 図において1は音響分析部で、マイク等で入力
された音声の分析を行う。分析方法としては線形
予測分析を行い、フレーム周期(10mS程度)毎
にLPCケプストラ係数を得る。 2は音素判別部で、音響分析部1で得たLPC
ケプストラム係数によつてフレーム毎の音素判別
を行う。 3は標準パターン格納部で、予め多数話者の音
声により音素毎に求めた標準パターンを格納して
おく。 4はセグメンテーシヨン部で、音響分析部1の
分析出力をもとに音声区間の検出と音素毎の境界
決定(以下セグメンテーシヨンと呼ぶ)を行う。 5は音素認識部で、セグメンテーシヨン部4と
音素判別部2の結果をもとに1つの音素区間毎に
何という音素であるかを決定する作業を行う。こ
の結果として音素の系列が完成する。 6は単語認識部で、前記音素系列を、同様に音
素系列で表記された単語辞書7と照合し、最も類
似度の高い単語を認識結果として出力する。 7は前述した単語辞書である。 次に半母音、拗音の認識方法を例に第4図のフ
ローチヤートを用いてさらに詳細に説明する。本
方法は半母音、拗音に限らず、母音、鼻音、摩擦
子音等のスペクトルの時間変化のゆつくりした音
素に対して効果のある方法である。 統計的距離尺度としてベイズ判定、マハラノビ
ス距離等があるが、本実施例ではマハラノビス距
離で説明する。又、スペクトル情報にはLPCケ
プストラム係数を用いた場合について述べる。 あらかじめ多数話者の単語音声の5母音と半母
音、拗音の区別を決定しておく。この音声を用い
て標準パターンを作成する手順を説明する。各音
素の始端から連続するnフレームそれぞれについ
てN次までのLPCケプストラム係数を求め、そ
の中のm次(N≧m)まで、すなわちC′(C′1
C′2,……,C′m)を抽出する。次に連続するn
フレームより、連続しないフレームを少なくとも
含むように(本実施例では1フレーム間隔で)X
個のフレーム(X<n)を抽出し、前記C′をX個
並べて、C(C′1,C′2,……,C′X)を作成する。
CはM個(M=X×m)のケプストラム係数で構
成される。すなわち、C(C1,C2,……CM)であ
る。このCによつて各音素毎の平均値mi(iは音
素名)と対象とする全音素に共通の共分散行列W
を求める。その逆行列をW-1とし、その(j,j′)
要素を〓jj′とすると、Cjに対する音素iの重み係
数aijは aij=2Mj=1〓jj′mij……(2) で求める。又、音素iに対する平均距離diを di=mi tW-1mi……(3) で求める。 このaijおよびdiを標準パターンとして第3図の
標準パターン格納部3に入れておく。 次に、第3図の音響分析部1に入力された未知
音声を、フレーム毎に線形予測分析し連続するn
フレームそれぞれについてN次のLPCケプスト
ラム係数を求め、そのなかから第4図処理トに示
すm次(N≧m)までのLPCケプストラム係数
X′1(X′1,X′2,……,X′m)を抽出する。 次に連続するnフレームより、連続しないフレ
ームを少なくとも含むように(例えば本実施例で
は1フレーム間隔で)X個のフレームを抽出し、
処理チに示すようにXフレーム分X′1,X′3,…
…,X′X計算する。 さらに処理トと処理チの結果を用いて、処理リ
に示すようにX×m=M次元ベクトルx(x1,x2
……,xM)に変換する。 このxを用いて、標準パターン格納部3の標準
パターンによつて次式で類似liを求める。 liMj=1 aijJ-di……(4) このliを入力音声の各フレーム毎に求め(処理
ヌ)、類似度最大となる音素をけぷ結果として
(処理ル)音素認識部5に転送する。音素認識部
5はこの結果とセグメンテーシヨン部4の結果を
組合せて音素の時系列を作成し、単語認識部6に
送る。単語認識部6はあらかじめ音素の時系列で
表記されている単語辞書7を照合し、最も類似度
の高い単語名を認識結果として出力する。 第5図に具体例を示す。 第5図aに半母音、拗音のスペクトル変化の例
を示す。横軸に時間をフレーム単位で示す。縦軸
に隣接するフレーム間のスペクトルの距離を
LPCケプトラム係数のユークリツド距離で示す。
この距離曲線は13フレーム中でいき値(THで示
す)を越えず、スペクトルの時間変化がゆつくり
していることを示す。ここで、いき値は目的とす
る音素(ここでは半母音、拗音)の認識率の最大
値が得られる値に設定する。このため、スペクト
ルの時間変化をとらえるのに必ずしも全てのフレ
ームを用いる必要はない。本実施例では一つおき
に間引いて○印で示すフレームの番号の計7個を
使用する。この場合、音素の判別に必要なLPC
ケプストラム係数のベクトルは6×7=42とな
る。標準パターン1個あたりの積と和の演算量の
比較を第1表に示す。 第2図bに示した従来法と本実施例とについ
て、(1)式によるベイズ判定と(4)式によるマハラノ
ビス距離とに分けて示す。
INDUSTRIAL APPLICATION FIELD The present invention relates to a speech recognition method for automatically recognizing the content of speech. Configuration of conventional examples and their problems In recent years, research and development on speech recognition for unspecified speakers and multiple words has become active. Conventional phoneme discrimination in speech recognition, which is characterized by phoneme recognition, is described in Ide et al., "Study of consonant recognition using dynamic features of spectrum," Proceedings of the Acoustical Society of Japan, 1981, 10, 2-1-2. It has been stated. The flowchart is shown in Figure 1. First, the procedure for creating a standard pattern will be described.
Every 10mS for consonants and semi-vowels in speech
Obtain the output of a group of 29 channel band filters (Q = 6, center frequency 250-6300 Hz, 1/6 octave interval). Furthermore, several consecutive bands along the frequency axis are collectively defined as 6 channels. These six channels are taken as one frame, and five consecutive frames are extracted to form a 6×5=30-dimensional vector. This is totaled for each phoneme, and the average value m i for phoneme i,
Let the covariance matrix be W i and the inverse matrix W -1 i , then m i
and W -1 i are stored in the standard pattern storage section in advance as standard patterns. Next, the input unknown voice is acoustically analyzed, and the output of the 29-channel band filter X″ 1 (X″ 1,1 ,X″ 1,2 ,...,X″ 1 . _ _
. _ _
Calculate X′ 3 , X4 ,
= 30-dimensional vector X (X 1 , X 2 , ..., X 30 ). Further, for this vector, similarity calculation is performed by Bayesian judgment using the aforementioned standard pattern as shown in Process E. The degree of similarity P i for phoneme i can be calculated using the following equation. P i = (2π) -15/2 |W i | -1/2 exp { -1/2(x-m i ) t W i -1 (x-m i )}...(1) This P i is determined for each phoneme, and the phoneme with the highest degree of similarity is determined (to processing), and the result is transferred to the phoneme recognition unit. This method is based on the idea of actively capturing changes in phonemes that are characterized by temporal changes in their spectra, such as consonants and semivowels. Figure 2 shows an example of the spectral changes of semivowels and persistent consonants. a represents a case similar to the conventional example, and the horizontal axis represents time in frames. Also, the distance between adjacent spectra on the vertical axis is shown as the Euclidean distance of the LPC cepstral coefficients. This distance curve shows the threshold value (TH) during frame number 13.
Lasts at a small value of 130ms for semi-vowels and persistent sounds.
It shows that the period of time lasts for a long time. However, in the conventional example, only the five frames indicated by circles are used because the amount of calculation required for similarity calculation is enormous. For this reason, the characteristics of semivowels and persistent sounds cannot be fully captured, and the accuracy of discrimination is low. In order to overcome this drawback, it is conceivable to use 13 frames as shown in FIG. 2b. Figure 2b
The case where the number of frames 13 is used for semivowels and persistent consonants, which is the same as in Figure 2a, is indicated by a circle. In this case, it is possible to sufficiently capture the characteristics of semi-vowels and persistent consonants, but the disadvantage is that it requires a huge amount of calculation to calculate the similarity, making the device expensive. Purpose of the Invention The present invention solves the above-mentioned drawbacks, and in automatic speech recognition, discriminates phonemes or syllables with high discrimination accuracy.
It is an object of the present invention to provide a speech recognition method that can be realized with a small amount of calculation. Structure of the Invention The present invention is intended to achieve the above-mentioned object. A standard pattern created from the voices of multiple speakers is prepared in advance, and the input unknown voice is divided into n consecutive fixed time intervals (frames). The audio is analyzed for each frame to obtain spectral information, and from the n frames, parts where the spectral change between frames does not exceed a threshold are thinned out at equal intervals. X frames (n>
Provided is a speech recognition method characterized in that phonemes or syllables are determined by calculating the similarity between the spectral information of the X frames and the standard pattern using a statistical distance scale. It is. DESCRIPTION OF EMBODIMENTS Examples of the present invention will be described below with reference to the drawings. FIG. 3 is a block diagram showing an embodiment of a device embodying the speech recognition method of the present invention. In the figure, reference numeral 1 denotes an acoustic analysis section, which analyzes audio input through a microphone or the like. As an analysis method, linear predictive analysis is performed to obtain LPC cepstra coefficients every frame period (about 10 mS). 2 is the phoneme discriminator, and the LPC obtained by the acoustic analysis unit 1
Phoneme discrimination is performed for each frame using cepstral coefficients. Reference numeral 3 denotes a standard pattern storage unit, which stores standard patterns obtained for each phoneme from the voices of multiple speakers in advance. Reference numeral 4 denotes a segmentation unit, which detects speech intervals and determines boundaries for each phoneme (hereinafter referred to as segmentation) based on the analysis output of the acoustic analysis unit 1. Reference numeral 5 denotes a phoneme recognition unit, which determines what phoneme each phoneme section is based on the results of the segmentation unit 4 and the phoneme discrimination unit 2. As a result, a series of phonemes is completed. 6 is a word recognition unit that compares the phoneme sequence with a word dictionary 7 similarly written in phoneme sequences, and outputs the word with the highest degree of similarity as a recognition result. 7 is the word dictionary mentioned above. Next, a method for recognizing semi-vowels and persistent sounds will be explained in more detail using the flowchart of FIG. 4 as an example. This method is effective not only for semivowels and persistent consonants, but also for phonemes whose spectrum changes slowly over time, such as vowels, nasals, and fricative consonants. Statistical distance measures include Bayesian judgment, Mahalanobis distance, etc., and in this embodiment, the Mahalanobis distance will be used. Also, a case will be described in which LPC cepstral coefficients are used for spectrum information. The distinction between five vowels, semi-vowels, and persistent consonants in the word sounds of many speakers is determined in advance. The procedure for creating a standard pattern using this voice will be explained. The LPC cepstral coefficients up to the Nth order are determined for each of the n consecutive frames from the beginning of each phoneme, and up to the mth order (N≧m), that is, C'(C' 1 ,
C′ 2 , ..., C′m). next consecutive n
frame, so as to include at least non-consecutive frames (in this embodiment, at one frame interval)
X frames (X<n) are extracted and X C's are arranged to create C (C' 1 , C' 2 , . . . , C' X ).
C is composed of M (M=X×m) cepstral coefficients. That is, C (C 1 , C 2 , . . . CM ). By this C, the average value m i (i is the phoneme name) for each phoneme and the covariance matrix W common to all target phonemes
seek. Let the inverse matrix be W -1 , and its (j, j′)
When the element is 〓jj′, the weighting coefficient a ij of phoneme i with respect to C j is obtained as follows: a ij =2 Mj=1 〓jj′m ij ……(2). Also, the average distance d i for phoneme i is calculated as d i =m i t W -1 m i (3). These a ij and d i are stored as standard patterns in the standard pattern storage section 3 shown in FIG. Next, the unknown audio input to the acoustic analysis unit 1 shown in FIG.
The N-th LPC cepstrum coefficients are determined for each frame, and among them, the LPC cepstrum coefficients up to the m-th order (N≧m) shown in Figure 4 Processing
Extract X′ 1 (X′ 1 , X′ 2 , ..., X′m). Next, from the n consecutive frames, extract X frames so as to include at least non-consecutive frames (for example, at one frame interval in this embodiment),
As shown in the processing diagram, X frames X' 1 , X' 3 ,...
…, X′ X is calculated. Furthermore, using the results of processing 1 and processing 2, as shown in processing 2 , X× m =M-dimensional vector
..., x M ). Using this x, the similarity l i is determined using the standard pattern stored in the standard pattern storage section 3 using the following equation. l i = Mj=1 a ij J -d i...(4) Obtain this l i for each frame of the input audio (processing module), and remove the phoneme with the maximum similarity (processing module). ) Transfer to the phoneme recognition unit 5. The phoneme recognition unit 5 combines this result with the result of the segmentation unit 4 to create a time series of phonemes, and sends it to the word recognition unit 6. The word recognition unit 6 collates a word dictionary 7 in which phonemes are written in chronological order in advance, and outputs the word name with the highest degree of similarity as a recognition result. A specific example is shown in FIG. Figure 5a shows examples of spectral changes in semivowels and obdurate sounds. The horizontal axis shows time in frames. The spectral distance between adjacent frames on the vertical axis
It is expressed as the Euclidean distance of the LPC ceptrum coefficients.
This distance curve does not exceed the threshold value (indicated by TH) in 13 frames, indicating that the time change of the spectrum is slow. Here, the threshold value is set to a value that yields the maximum recognition rate of the target phoneme (here, a semivowel, a persistent consonant). Therefore, it is not necessarily necessary to use all frames to capture temporal changes in the spectrum. In this embodiment, a total of seven frames are used, which are thinned out every other frame and indicated by a circle. In this case, the LPC required for phoneme discrimination
The vector of cepstral coefficients is 6×7=42. Table 1 shows a comparison of the amount of calculation for product and sum per standard pattern. The conventional method shown in FIG. 2b and the present embodiment are shown separately for Bayesian determination using equation (1) and Mahalanobis distance using equation (4).

【表】 第1表からわかるように本実施例は、ベイズ判
定では従来法の約30%と大幅に減らすことができ
る。またマハラノビス距離では従来法の半分に減
らすことができる。 また第2図bに示した従来法と第5図aに示し
た本実施例について、半母音、拗音の判別精度を
比較した結果を第2表に示す。
[Table] As can be seen from Table 1, this embodiment can significantly reduce the Bayesian judgment by about 30% compared to the conventional method. Furthermore, the Mahalanobis distance can be reduced to half of the conventional method. Furthermore, Table 2 shows the results of a comparison of the discrimination accuracy of semivowels and persistent consonants between the conventional method shown in FIG. 2b and the present embodiment shown in FIG. 5a.

【表】 すなわち、従来法に比較して本実施例は認識
率、バラツキを表わす標準偏差ともに向上する。
その理由として、ゆつくりしたスペクトルの時間
変化を、使用フレームを間引くことによつて大局
的にとらえることにより、効率良く特徴をとらえ
ることができるためと考えられる。又、余分なス
ペクトル情報を除くことにより、話者やコンテキ
スト等の変動要因によるバラツキを減らすことが
できるためと考えられる。 なお、本発明は連続しない複数のフレームのス
ペクトル情報を音素又は音節の判別に使用するこ
とを特徴とし、フレーム数13の場合を例にとる
と、音素又は音節の種類によつては第5図b,c
の方法も適用される。すなわち第5図bに示す曲
線は子音/s/の隣接するスペクトル距離を
LPCケプストラム係数を用いて表わしたもので、
いき値(TH)を越えるフレーム1,2,3とフ
レーム12,13は連続して使用し、いき値を越えな
い区間は等間隔に間引いて使用する。この方法は
子音/s/と/h/のような、境界の動きと摩擦
部のスペクトルに差のある音素や音節の判別に対
して有効である。 また第5図cに示す曲線は子音/z/の隣接す
るスペクトル距離をLPCケプストラム係数を用
いて表わしたもので、いき値(TH)を越えるフ
レーム1,2,3,4は連続して使用し、いき値
を越えない区間は等間隔に間引いて使用する。子
音/z/や/c/,/k/のような、破裂部の動
きと摩擦部のスペクトルに差のある音素や音節の
判別に対して有効である。なお上記実施例ではい
き値を越えた領域には連続フレームを使用する場
合について述べたが必ずしも連続である必要はな
い。また本発明スペクトル情報としては、線形予
測分析、帯域フイルタ群による分析、高速フーリ
エ変換(FFT)分析のいずれによつても得るこ
とができる。 さらに本発明の類似度計算は統計的距離尺度を
用いて計算するのが良く、統計的距離尺度として
は、ベイズ判定に基づく距離、マハラノビス距
離、線形判別関数等がより好適である。 発明の効果 以上要するに本発明は、音声を連続するn個の
フレームに分割し、この各フレーム毎に音声を分
析してスペクトル情報を求め、前記n個のフレー
ムの中から、フレーム間のスペクトル変位がしき
い値を越えない部分に対しては等間隔に間引くよ
うに抽出してX個のフレーム(n>X)を求め、
このX個のフレームのスペクトル情報と標準パタ
ーンとの類似度を統計的距離尺度を用いて計算す
ることにより音素又は音節の判別を行うことを特
徴として含む音声認識方法を提供するものであ
り、 対象とする音素又は音節のスペクトルの時間
変化の特徴を効率良くとらえることにより、バ
ラツキの少ない、かつ高い認識性能を得ること
ができる。 音素又は音節の判別に必要な演算量を従来の
1/2〜1/3に減らすことができ、装置としての低
価格化をはかることができる。 等の利点を有する。
[Table] That is, compared to the conventional method, this embodiment improves both the recognition rate and the standard deviation representing variation.
The reason for this is thought to be that by thinning out the used frames to get a broader view of the gradual temporal changes in the spectrum, it is possible to efficiently capture the characteristics. It is also believed that by removing redundant spectrum information, it is possible to reduce variations due to variable factors such as speakers and contexts. The present invention is characterized in that spectral information of a plurality of discontinuous frames is used to discriminate phonemes or syllables. Taking the case of 13 frames as an example, depending on the type of phoneme or syllable, the spectral information shown in FIG. b, c
The method also applies. In other words, the curve shown in Figure 5b represents the adjacent spectral distance of the consonant /s/.
Expressed using LPC cepstral coefficients,
Frames 1, 2, and 3 and frames 12 and 13 that exceed the threshold (TH) are used continuously, and sections that do not exceed the threshold are thinned out at equal intervals and used. This method is effective for identifying phonemes and syllables, such as consonants /s/ and /h/, in which there is a difference in the spectrum of the movement of the boundary and the frictional part. In addition, the curve shown in Figure 5c represents the adjacent spectral distance of the consonant /z/ using LPC cepstral coefficients, and frames 1, 2, 3, and 4 that exceed the threshold (TH) are used consecutively. However, the intervals that do not exceed the threshold are thinned out at equal intervals. This method is effective for identifying phonemes and syllables such as consonants /z/, /c/, and /k/, in which there is a difference in the spectrum of the movement of the plosive part and the spectrum of the frictional part. In the above embodiment, a case has been described in which continuous frames are used for the region exceeding the threshold value, but the frames do not necessarily have to be continuous. In addition, the spectral information of the present invention can be obtained by any of linear predictive analysis, band filter group analysis, and fast Fourier transform (FFT) analysis. Furthermore, the similarity calculation of the present invention is preferably performed using a statistical distance measure, and as the statistical distance measure, distance based on Bayesian judgment, Mahalanobis distance, linear discriminant function, etc. are more suitable. Effects of the Invention In summary, the present invention divides audio into n consecutive frames, analyzes the audio for each frame to obtain spectral information, and calculates the spectral displacement between frames from among the n frames. For the part where does not exceed the threshold, extract it at equal intervals to obtain X frames (n>X),
The present invention provides a speech recognition method characterized by discriminating phonemes or syllables by calculating the degree of similarity between the spectral information of these X frames and a standard pattern using a statistical distance measure. By efficiently capturing the characteristics of temporal changes in the spectra of phonemes or syllables, it is possible to obtain high recognition performance with little variation. The amount of calculation required to discriminate phonemes or syllables can be reduced to 1/2 to 1/3 of that of the conventional method, and the cost of the device can be reduced. It has the following advantages.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は従来の音声認識方法における音素判別
を説明するフローチヤート、第2図は従来におけ
るフレーム抽出法を説明する図、第3図は本発明
の音声認識方法を具現化する音声認識装置の一実
施例を示すブロツク図、第4図は本発明の一実施
例における音声認識方法の音素判別を説明するフ
ローチヤート、第5図は本発明におけるフレーム
抽出法を説明する図である。 1……音響分析部、2……音素判別部、3……
標準パターン格納部、4……セグメンテーシヨン
部、5……音素認識部、6……単語認識部、7…
…単語辞書。
FIG. 1 is a flowchart explaining phoneme discrimination in a conventional speech recognition method, FIG. 2 is a diagram explaining a conventional frame extraction method, and FIG. 3 is a diagram of a speech recognition device embodying the speech recognition method of the present invention. FIG. 4 is a block diagram showing one embodiment of the present invention, FIG. 4 is a flowchart illustrating phoneme discrimination in a speech recognition method according to an embodiment of the present invention, and FIG. 5 is a diagram illustrating a frame extraction method according to the present invention. 1... Acoustic analysis section, 2... Phoneme discrimination section, 3...
Standard pattern storage unit, 4... Segmentation unit, 5... Phoneme recognition unit, 6... Word recognition unit, 7...
...word dictionary.

Claims (1)

【特許請求の範囲】 1 音声を連続するn個の一定時間区間(フレー
ム)に分割し、前記各フレーム毎に音声を分析し
てスペクトル情報を求め、前記n個のフレームよ
り、x個のフレーム(X<n)を、スペクトルの
時間的変化速度がしきい値を越えない部分に対し
ては等間隔に間引くようにして抽出し、このよう
にして抽出された前記X個のフレームのスペクト
ル情報と予め多数話者の音声から作成された標準
パターンとの類似度を統計的距離尺度を用いて計
算することにより音素又は音節の判別を行うこと
を特徴とする音声認識方法。 2 スペクトル情報を、線形予測分析、帯域フイ
ルタ群、高速フーリエ変換分析のいずれかによつ
て得ることを特徴とする特許請求の範囲第1項記
載の音声認識方法。 3 統計的距離尺度が、ベイズ判定に基づく距
離、マハラノビス距離、線形判別関数のいずれか
であることを特徴とする特許請求の範囲第1項記
載の音声認識方法。
[Claims] 1. Divide audio into n consecutive fixed time intervals (frames), analyze the audio for each frame to obtain spectral information, and divide x frames from the n frames. (X<n) is extracted by thinning out at equal intervals for portions where the temporal change rate of the spectrum does not exceed the threshold, and the spectral information of the X frames thus extracted is extracted. A speech recognition method characterized in that phonemes or syllables are discriminated by calculating the degree of similarity between a standard pattern created in advance from the voices of multiple speakers using a statistical distance measure. 2. The speech recognition method according to claim 1, wherein the spectral information is obtained by any one of linear predictive analysis, band filter group, and fast Fourier transform analysis. 3. The speech recognition method according to claim 1, wherein the statistical distance measure is any one of a Bayesian distance, a Mahalanobis distance, and a linear discriminant function.
JP59058709A 1983-09-22 1984-03-27 Voice recognition Granted JPS60202489A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP59058709A JPS60202489A (en) 1984-03-27 1984-03-27 Voice recognition
US07/501,386 US4991216A (en) 1983-09-22 1990-03-23 Method for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59058709A JPS60202489A (en) 1984-03-27 1984-03-27 Voice recognition

Publications (2)

Publication Number Publication Date
JPS60202489A JPS60202489A (en) 1985-10-12
JPH0344317B2 true JPH0344317B2 (en) 1991-07-05

Family

ID=13092022

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59058709A Granted JPS60202489A (en) 1983-09-22 1984-03-27 Voice recognition

Country Status (1)

Country Link
JP (1) JPS60202489A (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS53128905A (en) * 1977-04-15 1978-11-10 Hiroya Fujisaki Voice discrimination system
JPS58209800A (en) * 1982-05-31 1983-12-06 松下電器産業株式会社 Phoneme discrimination system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS53128905A (en) * 1977-04-15 1978-11-10 Hiroya Fujisaki Voice discrimination system
JPS58209800A (en) * 1982-05-31 1983-12-06 松下電器産業株式会社 Phoneme discrimination system

Also Published As

Publication number Publication date
JPS60202489A (en) 1985-10-12

Similar Documents

Publication Publication Date Title
Loizou et al. High-performance alphabet recognition
JPH0441356B2 (en)
Ananthi et al. SVM and HMM modeling techniques for speech recognition using LPCC and MFCC features
Eray et al. An application of speech recognition with support vector machines
Dibazar et al. A system for automatic detection of pathological speech
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
Tungthangthum Tone recognition for Thai
Mezghani et al. Speaker verification using a new representation based on a combination of MFCC and formants
JPH0344317B2 (en)
Laaridh et al. Automatic anomaly detection for dysarthria across two speech styles: Read vs spontaneous speech
Kim et al. A speech feature based on bark frequency warping-the non-uniform linear prediction (nlp) cepstrum
Nidhyananthan et al. A framework for multilingual text-independent speaker identification system
JPH0441357B2 (en)
JPH054678B2 (en)
JPH0323920B2 (en)
JPH09160585A (en) System and method for voice recognition
JP2760096B2 (en) Voice recognition method
JPH1165589A (en) Voice recognition device
JPS5958498A (en) Voice recognition equipment
Karmacharya Design of Keyword Spotting System Based on Segmental Time Warping of Quantized Features
JPH0455518B2 (en)
Ruinskiy et al. A multistage algorithm for fricative spotting
Van der Merwe Variations on statistical phoneme recognition: a hybrid approach
JPH0552509B2 (en)

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term