JPH11237893A - Speech recognition system and phoneme recognizing method - Google Patents

Speech recognition system and phoneme recognizing method

Info

Publication number
JPH11237893A
JPH11237893A JP3836598A JP3836598A JPH11237893A JP H11237893 A JPH11237893 A JP H11237893A JP 3836598 A JP3836598 A JP 3836598A JP 3836598 A JP3836598 A JP 3836598A JP H11237893 A JPH11237893 A JP H11237893A
Authority
JP
Japan
Prior art keywords
phoneme
input
sequence
word
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3836598A
Other languages
Japanese (ja)
Inventor
Shintaro Murakami
伸太郎 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd filed Critical Meidensha Corp
Priority to JP3836598A priority Critical patent/JPH11237893A/en
Publication of JPH11237893A publication Critical patent/JPH11237893A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To improve the phoneme recognition rate by matching an input phoneme against a dictionary template and expanding a range in which an optimum start end is possibly present by making use of results up to a specific frame when the optimum start end is set for the 1st phoneme of the dictionary template in word spot calculation. SOLUTION: A feature extraction part 13 takes a frequency analysis of voice data inputted to a voice input part 12 to obtain a spectrum sequence, which is inputted to a phoneme recognition part 14. A phoneme sequence is obtained as its output and supplied to a matching part 16, which finds a cumulative distance of matching distances between the input phonemes and the dictionary template up to an (n)th frame of the input phonemes when matching the phoneme sequence against templates in the dictionary. Then the most similar word or word sequence is outputted as a recognition result. At this time, the path of DP at a word spot calculation part is changed so that the optimum start end can be selected out of even frames far from a tail end.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、音素認識部を前
段に持つ連続単語音声認識システムにおける音素認識方
法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a phoneme recognition method in a continuous word speech recognition system having a phoneme recognition unit at a preceding stage.

【0002】[0002]

【従来の技術】音声認識装置の一例として図4に示す離
散単語音声認識システムがある。このシステムは、図4
に示すように、電話やマイクロフォンなどの音声入力装
置11から音声データが音声入力部12に入力される。
この音声入力部12に入力された音声データは、特徴抽
出部13に供給され、ここで、音声データは周波数分析
される。この周波数分析の結果からスペクトル列を得
て、このスペクトル列が音素認識部14に入力される。
音素認識部14は、出力を二重化したニューラルネット
ワーク(図示省略)によって構成されている。
2. Description of the Related Art As an example of a speech recognition apparatus, there is a discrete word speech recognition system shown in FIG. This system is shown in FIG.
As shown in FIG. 1, voice data is input to a voice input unit 12 from a voice input device 11 such as a telephone or a microphone.
The audio data input to the audio input unit 12 is supplied to a feature extraction unit 13, where the audio data is subjected to frequency analysis. A spectrum sequence is obtained from the result of the frequency analysis, and the spectrum sequence is input to the phoneme recognition unit 14.
The phoneme recognition unit 14 is configured by a neural network (not shown) whose output is duplicated.

【0003】上記ニューラルネットワークは入力層、隠
れ層、出力層からなり、入力層に例えば、1時刻毎に5
フレームのスペクトルが入力され、それの中央のスペク
トルに該当する音素がどれであるかを、出力層のユニッ
トの値によって送出する。出力ユニットは、二重化され
ているため、各音素カテゴリ毎にユニットは2個づつ対
応づけられている。それに対して結果は、最大の出力値
を示すものから2つのユニットを選び、それが対応する
音素を第1位、第2位音素候補として得る。
The above-mentioned neural network is composed of an input layer, a hidden layer, and an output layer.
The spectrum of the frame is input, and the phoneme corresponding to the center spectrum of the frame is transmitted according to the value of the unit in the output layer. Since the output units are duplicated, two units are associated with each phoneme category. On the other hand, as a result, two units are selected from those having the largest output value, and the phonemes corresponding to the two units are obtained as the first and second phoneme candidates.

【0004】その認識された音素候補列と、認識させた
い語彙の音素パターンを持たせた辞書中のテンプレート
15との類似度は、DP(Dynamic Programming)法によ
ってマッチング部16でマッチングされる。そして、最も
類似する単語又は単語列を認識結果としてマッチング部
16から出力する。
[0004] The similarity between the recognized phoneme candidate sequence and the template 15 in the dictionary having the phoneme pattern of the vocabulary to be recognized is matched by the matching unit 16 by the DP (Dynamic Programming) method. Then, the matching unit 16 outputs the most similar word or word string as a recognition result.

【0005】ここで、一般的な連続単語認識アルゴリズ
ムの概要について述べる。いま、単語の接続条件(文
法)が、図5に示す有限状態オートマトンで記述されて
いるとする。これは認識単語数、単語間の接続等を制限
する働きがある。入力パターンを音素認識した結果 T=
{a(1),a(2),a(3),……a(t)}(フレーム数t)の、第iフ
レームから第jフレーム{ai,……,aj}と、辞書単語テン
プレートn={b(1),b(2),……,bN(n)}とのDPマッチング距
離をdist[n][i][j]と書く(N(n):テンプレートnの長
さ)。dist[n][i][j]はDPマッチングなどにより求めら
れる。この値はワードスポット値とも呼ばれる。また、
iをワードスポット始端、jをワードスポット終端と呼
ぶことにする。
Here, an outline of a general continuous word recognition algorithm will be described. Now, it is assumed that word connection conditions (grammar) are described by a finite state automaton shown in FIG. This serves to limit the number of recognized words, connections between words, and the like. Result of phoneme recognition of input pattern T =
{a (1), a (2), a (3),... a (t)} (the number of frames t) from the i-th frame to the j-th frame {ai,..., aj} and the dictionary word template Write the DP matching distance to n = {b (1), b (2), ..., bN (n)} as dist [n] [i] [j] (N (n): length of template n ). dist [n] [i] [j] is obtained by DP matching or the like. This value is also called the word spot value. Also,
Let i be the word spot start and j be the word spot end.

【0006】なお、図5は2桁数字を処理するオートマ
トンの例(状態数=3)である。2桁数字の場合、状態
1に遷移する時に2桁目を状態1から状態2に遷移する
ときに1桁目を出力する。それ以外の遷移(状態0から
状態2など)では2桁数字は出力されない。
FIG. 5 shows an example of an automaton for processing two-digit numbers (the number of states = 3). In the case of a two-digit number, the second digit is output when transitioning to state 1, and the first digit is output when transitioning from state 1 to state 2. In other transitions (from state 0 to state 2), a two-digit number is not output.

【0007】今、状態数stat numのオートマトン、入力
音素フレーム数len obj(つまり、t=len obj)、辞書単
語数word numの場合を考える。オートマトン状態stat,
入力音素の第kフレームまでのマッチング累積距離frm s
cr[stat][k]を求めたいとすると(0<=stat<last stat,0<
=k<last frm)、それは次の式(1)のようになる。
Now, consider the case where the number of states is stat num, the number of input phoneme frames is len obj (that is, t = len obj), and the number of dictionary words is word num. Automaton state stat,
Cumulative matching distance frm s of input phoneme to frame k
If you want to find cr [stat] [k] (0 <= stat <last stat, 0 <
= k <last frm), which is expressed by the following equation (1).

【0008】 frm scr[stat][k]=min{frm scr[from stat][m]+dist[n][m+1][k]}…(1) ただし、状態pから単語nを生成して状態qへ遷移でき
ることを f(p,n)=q ……(2) と表すと、from statとnは、0<n<word num,f(from sta
t,n)=statを満たすようなもの、また、0<m<kであり(実
際にはmの範囲は計算量などの関係からさらに制限され
る)、minは、from stat,n,mを、その範囲内で動かした
ときの最小を取ることを示す。
Frm scr [stat] [k] = min {frm scr [from stat] [m] + dist [n] [m + 1] [k]} (1) where word n is generated from state p F (p, n) = q (2) indicates that from stat and n are 0 <n <word num, f (from sta
t, n) = stat, and 0 <m <k (actually, the range of m is further limited by the amount of calculation, etc.), and min is from stat, n, m To take the minimum when moved within that range.

【0009】上記式(1)、(2)を満たすfrom stat,
n,mをそれぞれ、frm stt[stat][k],frm tpl[stat][k],
frm frm[stat][k](stt:状態、tpl:テンプレート、frm:
フレーム)とする。このような手順を、0<=k<len obj,0<=
stat<stat numについて求める。実際のプログラムで
は、次のような処理を行うのが一般的である。
From stat, which satisfies the above equations (1) and (2),
n, m are respectively frm stt [stat] [k], frm tpl [stat] [k],
frm frm [stat] [k] (stt: state, tpl: template, frm:
Frame). Such a procedure is called 0 <= k <len obj, 0 <=
Calculate about stat <stat num. In an actual program, the following processing is generally performed.

【0010】まず、第kフレームにおける累積距離のア
ルゴリズムについて述べる。 すべての状態stat(0<=stat<stat num)について、次の
以下を実行 すべての辞書単語n(0<=n<word num)について、次の
以下を実行 累積距離scr=min{frm scr[from stat][m]+dist[n][m+
1][k]}を求める。ここで、minは、m,from statだけを動
かしたときの最小値を示す。また、from statは、上記
式(2)を満たすものである。 frm scr[stat][k]>scrならば、を実行する。 frm scr[stat][k]=scr,frm tpl[stat][k]=n,frm frm
[stat][k]=(を満たすm),frm stt[stat][k]=(を満た
すfrom stat) その後、次のようにしてバックトレースを行い、認識単
語列を得る。
First, the algorithm of the cumulative distance in the k-th frame will be described. Execute the following for all states stat (0 <= stat <stat num) Execute the following for all dictionary words n (0 <= n <word num) Cumulative distance scr = min {frm scr [ from stat] [m] + dist [n] [m +
1] [k]}. Here, min indicates the minimum value when only m and from stat are operated. “From stat” satisfies the above expression (2). If frm scr [stat] [k]> scr, execute frm scr [stat] [k] = scr, frm tpl [stat] [k] = n, frm frm
[stat] [k] = (satisfies m), frm stt [stat] [k] = (satisfies from stat) Then, backtrace is performed as follows to obtain a recognized word string.

【0011】図6に上記累積距離のアルゴリズム(入力
第jフレーム)のフローチャートを示す。図6におい
て、ステップS1で上記の処理を実行した後、ステッ
プS2の処理を実行する。ステップS2は上記の処理
を実行する。ステップS2の処理が実行されたなら、上
記の処理をステップS3で実行する。その後、ステッ
プS4で上記の判断を実行し、「yes」なら上記に
おけるステップS5の処理を実行し、「no」ならステッ
プS6の処理に進む。ステップS5の実行が終了したな
ら、辞書単語テンプレートnが、辞書単語word numより
大きいかをステップS6で判断する。この判断の結果
「yes」なら、ステップS7でオートマトン状態statが
状態数stat numより大きいかを判断し、「yes」なら累
積距離計算を終了する。なお、ステップS6、7で「n
o」ならステップS3とステップS2の処理に戻る。
FIG. 6 shows a flowchart of the algorithm of the cumulative distance (input j-th frame). In FIG. 6, after performing the above processing in step S1, the processing in step S2 is performed. Step S2 executes the above processing. When the processing in step S2 has been executed, the above processing is executed in step S3. Thereafter, the above-described determination is performed in step S4. If "yes", the process in step S5 is performed, and if "no", the process proceeds to step S6. When the execution of step S5 is completed, it is determined in step S6 whether the dictionary word template n is larger than the dictionary word word num. If the result of this determination is "yes", it is determined in step S7 whether the automaton state stat is greater than the number of states stat num, and if "yes", the cumulative distance calculation ends. In steps S6 and S7, "n
If "o", the flow returns to the processing of steps S3 and S2.

【0012】なお、バックトレースのアルゴリズムは次
のように行われる。 k=len obj,stat=stat num(len obj:入力フレーム
数、stat num:有限状態オートマトンの終状態の番号) frm tpl[stat][k]を認識結果として出力。その後、
k= frm frm[stat][k],stat=frm stt[stat][k]とする。 k=0なら終了、それ以外なら上記へ。
The algorithm of the back trace is performed as follows. k = len obj, stat = stat num (len obj: number of input frames, stat num: final state number of finite state automaton) frm tpl [stat] [k] is output as a recognition result. afterwards,
Let k = frm frm [stat] [k] and stat = frm stt [stat] [k]. If k = 0, end; otherwise, go to above.

【0013】次に、連続単語音声認識アルゴリズムとし
て利用されている拡張連続DPについて、そのアルゴリ
ズムを説明する。拡張連続DPにおいては、すべての
(i,j)に対してワードスポット値dist[n][i][j]を求める
のではなく、(j,n)が与えられたとき、dist[n][i][j]を
最小にするiについて、その値(i min)と、dist[n][i mi
n][j]のみを求める。すなわち、終端jに対する、最適
な始端(i min)に対してのみのワードスポット値を利用
する。
Next, an algorithm of the extended continuous DP used as a continuous word speech recognition algorithm will be described. In extended continuous DP, all
Instead of finding the word spot value dist [n] [i] [j] for (i, j), when (j, n) is given, minimize dist [n] [i] [j]. I, its value (i min) and dist [n] [i mi
Find only n] [j]. That is, the word spot value for only the optimal start (i min) with respect to the end j is used.

【0014】今、dist[n][i min][j]をaug dist[n][j]
とし、最適始端(i min)をaug ini[n][j]とする。(au
g:augumented,ini:initialの略で始端を計算するた
めの変数)aug dist[n][j]、aug ini[n][j]を求めるア
ルゴリズムは次のようになる。ここでは説明を簡単にす
るため、DPスコアの遷移を指定するためのDPマッチ
ング計算用パスを図7(a)のように傾斜制限を持たな
いパスの場合で考えるが、図7(b)に示すように、傾
斜制限をもつパスの方が、一般に多用されている。
Now, dist [n] [i min] [j] is converted to aug dist [n] [j]
And the optimal starting point (i min) is aug ini [n] [j]. (Au
g: augmented, ini: initial, a variable for calculating the starting point) aug dist [n] [j] and aug ini [n] [j] are as follows. Here, for the sake of simplicity, the DP matching calculation path for designating the transition of the DP score is assumed to be a path having no inclination limit as shown in FIG. 7A. As shown, a path having a slope restriction is more commonly used.

【0015】次に拡張連続DPマッチング距離(ワード
スポット)計算アルゴリズムについて述べる。 すべての入力フレームj(0<=j<len obj)について、
以下を実行 すべての辞書テンプレートn(0<=n<word num)につい
て、以下を実行 nのすべてのテンプレート音素tpl(0<=tpl<N(n))に
ついて、以下を実行 tpl=0のとき、 dist tmp[tpl][j]=value(tpl,j)(tem:temporaryの略) ini tmp[tpl][j]=j tpl>=1のとき、 dist tmp[tpl][j]=min{dist tmp[tpl-1][k]}+value(tpl,j) (j-2<=k<=j) 上記式を満たすkをmin kとすると、 ini tmp[tpl][j]=ini tmp[tpl-1][min k] ただし、value(tpl,j)は、テンプレートnの第tplフレー
ムの音素と、入力フレームの第jフレーム音素との音素間
距離である。フレーム間距離は、例えば、音素同士が一致
するときのスコアを「0」、一致しないときのスコアを
「1」と設定した場合、入力フレーム第j番目の音素a(j)
と、テンプレートnの第i番目の音素b(i)とのフレーム間
距離は、次のように定義される。 aug dist[n][j]=dist tmp[N(n)-1][j], aug ini[n][j]=ini tmp[N(n)-1][j] 上記aug dist[][],aug ini[][]を用いて、from scr[][]
等を求めるわけだが、フレームjに対して、最適始端のみ
しか求められていないため、上記「第kフレームにおけ
る累積距離のアルゴリズム」ので述べた最小値を計算
する際に、最適始端周辺ワードスポットスコアを近似的
に求める。
Next, an algorithm for calculating an extended continuous DP matching distance (word spot) will be described. For all input frames j (0 <= j <len obj),
Execute the following for all dictionary templates n (0 <= n <word num) Execute the following for all template phonemes tpl (0 <= tpl <N (n)) of n When tpl = 0 Dist tmp [tpl] [j] = value (tpl, j) (tem: abbreviation for temporary) When ini tmp [tpl] [j] = j tpl> = 1, dist tmp [tpl] [j] = min {dist tmp [tpl-1] [k]} + value (tpl, j) (j-2 <= k <= j) If k that satisfies the above equation is min k, ini tmp [tpl] [j] = ini tmp [tpl-1] [min k] where value (tpl, j) is the distance between phonemes between the phoneme of the tpl frame of template n and the phoneme of the jth frame of the input frame. The inter-frame distance is, for example, when the score when the phonemes match is set to “0” and the score when they do not match is set to “1”, the j-th phoneme a (j) of the input frame
And the inter-frame distance between the i-th phoneme b (i) of the template n is defined as follows. aug dist [n] [j] = dist tmp [N (n) -1] [j], aug ini [n] [j] = ini tmp [N (n) -1] [j] aug dist [] above Using [], aug ini [] [], from scr [] []
However, since only the optimal starting point is obtained for frame j, when calculating the minimum value described in the above “Algorithm of Cumulative Distance in k-th Frame”, the word spot score around the optimal starting point is calculated. Is approximately obtained.

【0016】図8は上記拡張連続DPマッチング距離
(ワードスポット)計算アルゴリズムのフローチャート
で、このフローチャートにおいて、まず、上記〜の
処理をステップS1〜ステップS3で実行するために、
j,n,tplの初期値を「0」に設定する。次に、上記ステ
ップS4で、テンプレート音素tplが「0」であるかを
判定し、ステップS5、ステップS6で,上記の処理
を実行する。その後、ステップS7でtpl>=N(n)かを
判定し、「n」ならステップS5の処理を繰り返し、
「y」なら上記の処理をステップS8で実行する。ス
テップS8の実行後、辞書テンプレートnをステップS
9で、入力フレームjをステップS10で判定し、ワー
ドスポットアルゴリズムの処理を終わる。
FIG. 8 is a flowchart of the algorithm for calculating the extended continuous DP matching distance (word spot). In this flowchart, first, in order to execute the above-mentioned processes in steps S1 to S3,
Set the initial values of j, n, tpl to “0”. Next, it is determined whether or not the template phoneme tpl is “0” in the above step S4, and the above processing is executed in steps S5 and S6. Thereafter, it is determined whether tpl> = N (n) in step S7, and if "n", the process in step S5 is repeated.
If "y", the above processing is executed in step S8. After execution of step S8, dictionary template n is stored in step S8.
In step 9, the input frame j is determined in step S10, and the processing of the word spot algorithm ends.

【0017】次に拡張連続DPにおける累積距離のアル
ゴリズムについて述べる。 すべてのj(0<=j<len obj)について、次の以下を実行 すべての状態stat(0<=stat<stat num)について、次の
以下を実行 すべてのn(0<=n<word num)について、次の以下を実
行 scr=min{frm scr[from stat][aug ini[n][j]+m-1]+ap
x scr[aug ini[n][j]+m]を求める。ここで、minはm、fr
om statだけを動かしたときの最小値を示す。mは予め指
定された範囲APX MIN〜APX MAXを動く値である。(ap
x:approximateの略)また、from statは、前記式
(2)を同時に満たすものである。
Next, the algorithm of the cumulative distance in the extended continuous DP will be described. Execute the following for all j (0 <= j <len obj) Execute the following for all states stat (0 <= stat <stat num) All n (0 <= n <word num ), Execute the following scr = min {frm scr [from stat] [aug ini [n] [j] + m-1] + ap
x scr [aug ini [n] [j] + m] Where min is m, fr
Shows the minimum value when only om stat is run. m is a value that moves in a predetermined range from APX MIN to APX MAX. (Ap
x: abbreviation for approximate) Also, from stat satisfies the expression (2) at the same time.

【0018】apx scr[aug ini[n][j]+m]は次のように求
める。 apx scr[aug ini[n][j]+m]=aug dist[n][j]×(j-(aug i
ni[n][j]+m)/(j-aug ini[n][j]) この値は、始端(aug ini[n][j])のワードスポット値に、
フレーム長に比例した係数をかけることで、始端(aug i
ni[n][j]+m)のワードスポット値を近似的に求めたもの
である。 frm scr[stat][j]>scrならば、次のを実行する。 frm scr[stat][j]=scr,frm tpl[stat][j]=n, frm frm[stat][j]=aug ini[n][j]+(を満たすm), frm stt[stat][j]=(を満たすfrom stat) その後、バックトレースで認識単語列を求める。
Apx scr [aug ini [n] [j] + m] is obtained as follows. apx scr [aug ini [n] [j] + m] = aug dist [n] [j] × (j- (aug i
ni [n] [j] + m) / (j-aug ini [n] [j]) This value is the word spot value at the beginning (aug ini [n] [j]),
By applying a coefficient proportional to the frame length, the beginning (aug i
The word spot value of ni [n] [j] + m) is approximately obtained. If frm scr [stat] [j]> scr, execute the following. frm scr [stat] [j] = scr, frm tpl [stat] [j] = n, frm frm [stat] [j] = aug ini [n] [j] + (m satisfying), frm stt [stat ] [j] = (satisfies from stat) Then, find the recognized word string by backtrace.

【0019】図9は拡張連続DPの累積計算アルゴリズ
ムのフローチャートで、このフローチャートにおいて、
前記図9と同様に、まず、上記〜の処理をステップ
S1〜ステップS3で実行するために、j,stat,nの初期
値を「0」に設定する。次にステップS4で上記に処
理を行い、ステップS5で、上記の処理であるfrmscr
[stat][j]>scrならばステップS6で上記の処理を行
った後に、ステップS7〜ステップS9の処理を行って
処理を終了する。
FIG. 9 is a flowchart of an algorithm for cumulatively calculating the extended continuous DP.
As in the case of FIG. 9, first, in order to execute the above processes in steps S1 to S3, the initial values of j, stat, n are set to “0”. Next, the above processing is performed in step S4, and in step S5, the above-described frmscr
If [stat] [j]> scr, after performing the above processing in step S6, the processing in steps S7 to S9 is performed and the processing ends.

【0020】[0020]

【発明が解決しようとする課題】(1)上記のように拡
張連続DPのワードスポットアルゴリズムを用いても、
例えば、「おはよう」を認識した際に、図10(a)に
示すように、音素認識がすべてうまくいった場合は、正
確にワードスポットが可能となるが、図10(b)に示
すように途中に誤認識音素が含まれ、音素認識がうまく
行かなかった場合は、図示下線部のみがワードスポット
され、一部が認識できなくなり取りこぼしが生じてしま
う。このように、途中に誤認識音素が含まれた場合に
は、図10(b)の傾斜制限パスを利用した場合など
は、終端により近いフレームを最適始端に選ぶ傾向が強
くなる。そのため、わずかな音素誤認識によりワードス
ポットの精度が大幅に低下してしまう問題がある。
(1) Even if the word spot algorithm of the extended continuous DP is used as described above,
For example, when "good morning" is recognized, as shown in FIG. 10 (a), if all phoneme recognitions are successful, word spots can be accurately formed, but as shown in FIG. 10 (b). If an incorrectly recognized phoneme is included in the middle and the phoneme recognition is not performed successfully, only the underlined portions in the drawing are word spotted, and some of them cannot be recognized, resulting in missing. As described above, when an erroneously recognized phoneme is included in the middle, in a case where the inclination restriction path in FIG. 10B is used, there is a strong tendency to select a frame closer to the end as the optimum start. For this reason, there is a problem that the accuracy of the word spot is greatly reduced due to slight phoneme error recognition.

【0021】(2)拡張連続DPの累積距離計算は、AP
X MIN<=m<=APX MAXの範囲でのみ累積距離計算を行う。
そのため、ワードスポットがうまく当てはまらない場合
などには、あるstat,jについて、from scr[stat][j]
が、更新されないまま初期値の値が残される可能性があ
る。from scr[stat num-1][len obj-1]の値が初期値の
まま残された場合、認識結果が求められないということ
になってしまう問題がある。
(2) The cumulative distance of the extended continuous DP is calculated by AP
The cumulative distance is calculated only in the range of X MIN <= m <= APX MAX.
Therefore, when the word spot does not fit well, for some stat, j, from scr [stat] [j]
However, there is a possibility that the initial value remains without being updated. If the value of from scr [stat num-1] [len obj-1] is left as the initial value, there is a problem that the recognition result is not obtained.

【0022】この発明は上記の事情に鑑みてなされたも
ので、ワードスポットの精度低下を抑えるとともに、音
素認識結果が出力できないような場合を大幅に低減する
ことにより、音素認識率の向上を図った音声認識システ
ムにおける音素認識方法を提供することを課題とする。
The present invention has been made in view of the above circumstances, and aims to improve the phoneme recognition rate by suppressing a decrease in accuracy of a word spot and by drastically reducing cases in which a phoneme recognition result cannot be output. It is an object to provide a phoneme recognition method in a voice recognition system.

【0023】[0023]

【課題を解決するための手段】この発明は、上記の課題
を達成するために、第1発明は、音声入力部に入力され
た音声データを特徴抽出部により周波数分析してスペク
トル列を得、そのスペクトル列を音素認識部に入力し
て、その出力に音素列を得、その音素列をマッチング部
に供給して辞書内のテンプレートとマッチングさせる際
に、入力音素と辞書テンプレートとのマッチング距離の
入力音素のnフレームまでの累積距離を求めた後、最も
類似する単語または単語列を認識結果として出力するよ
うにした音声認識システムにおいて、前記マッチング部
で入力音素と辞書テンプレートとをマッチングさせ、ワ
ードスポット計算における辞書テンプレートの第1音素
での最適始端設定時には、2フレーム前までの結果を利
用して、最適始端が取り得る範囲を拡張するようにした
ことを特徴とするものである。
According to the present invention, in order to achieve the above object, a first invention is to provide a feature extraction unit to perform frequency analysis on voice data input to a voice input unit to obtain a spectrum sequence, The spectrum sequence is input to a phoneme recognition unit, and a phoneme sequence is obtained as an output. The phoneme sequence is supplied to a matching unit to be matched with a template in a dictionary. In a speech recognition system in which a cumulative distance of an input phoneme up to n frames is obtained, the most similar word or word string is output as a recognition result. The matching unit matches the input phoneme with a dictionary template, When setting the optimal starting point for the first phoneme of the dictionary template in the spot calculation, the optimal starting point is determined using the result up to two frames before. It is characterized in that so as to extend the range to obtain Ri.

【0024】第2発明は、前記マッチング部に、拡張連
続DPマッチング処理を用い、テンプレート第1フレー
ムとのマッチングに限り、指定された条件下では、DP
パスを変更するようにしたことを特徴とするものであ
る。
The second invention uses an extended continuous DP matching process for the matching unit, and performs DP matching under specified conditions only for matching with the template first frame.
The feature is that the path is changed.

【0025】第3発明は、前記マッチング部で入力音素
と辞書テンプレートとをマッチングさせ、各入力フレー
ムで累積距離計算が終了した時点で、累積距離の値をチ
ェックし、初期値のままであれば、適切な値を設定する
ようにしたことを特徴とするものである。
According to a third aspect of the present invention, the matching unit matches an input phoneme with a dictionary template, and when the cumulative distance calculation is completed for each input frame, checks the value of the cumulative distance. , An appropriate value is set.

【0026】[0026]

【発明の実施の形態】以下この発明の実施の形態を図面
に基づいて説明する。図1はこの発明の実施の第1形態
を示すフローチャートで、この第1形態では、前記「発
明が解決しようとする課題」の項(1)で述べた問題
が、最適始端を、終端からより遠いフレームからでも選
択できるように、ワードスポット計算部でDPのパスを
変更し、図1において、次のような処理を行う。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a flowchart showing a first embodiment of the present invention. In the first embodiment, the problem described in the section (1) of the “Problem to be Solved by the Invention” is that the optimum starting point is shifted from the end to the end. The path of the DP is changed by the word spot calculation unit so that the frame can be selected even from a distant frame, and the following processing is performed in FIG.

【0027】すべての入力フレームj(0<=j<len obj)
について、以下を実行(ステップS1) すべての辞書テンプレートn(0<=n<word num)につい
て、以下を実行(ステップS2) nのすべてのテンプレート音素tpl(0<=tpl<N(n))に
ついて、以下を実行(ステップS3) ステップS4でtpl=0のときには、ステップS5で次
の処理が実行される。 dist tmp[tpl][j]=value(tpl,j) ini tmp[tpl][j]=j 上記ステップS5の処理の後、j>=2の場合(ステップS
11)になったなら、図2(b)に示すようなDP1パ
スもテンプレート第1フレームとのマッチングに限り、
指定された条件の下では許すようにする。その後、ステ
ップS12の処理であるdist tmp[tpl][j-2]<OTHER VAL
(音素間距離の最大値)を行う。この処理で「y」なら
ステップS13の処理である、 dist tmp[tpl][j]=dist tmp[tpl][j]+dist tmp[tpl][j-2] ini tmp[tpl][j]=ini tmp[tpl][j-2] が実行される。なお、図2はテンプレート第1フレーム
での処理を示すもので、図2(a)は通常のDPパス、
図2(b)は第1形態で使用される改良したDPパスで
ある。
All input frames j (0 <= j <len obj)
(Step S1) For all dictionary templates n (0 <= n <word num), execute the following (Step S2) For all template phonemes tpl of n (0 <= tpl <N (n)) (Step S3) When tpl = 0 in Step S4, the following processing is executed in Step S5. dist tmp [tpl] [j] = value (tpl, j) ini tmp [tpl] [j] = j After processing in step S5, if j> = 2 (step S5)
11), the DP1 pass as shown in FIG. 2B is limited to the matching with the template first frame.
Allow under specified conditions. Then, dist tmp [tpl] [j-2] <OTHER VAL, which is the process of step S12.
(Maximum value of the distance between phonemes). If “y” in this process, the process of step S13 is performed. Dist tmp [tpl] [j] = dist tmp [tpl] [j] + dist tmp [tpl] [j-2] ini tmp [tpl] [j] = ini tmp [tpl] [j-2] is executed. FIG. 2 shows a process in the first frame of the template, and FIG. 2A shows a normal DP pass,
FIG. 2B shows an improved DP path used in the first embodiment.

【0028】一方、前記ステップS12での処理が、di
st tmp[tpl][j-2]>=OTHER VALで、かつステップS14
での処理が、dist tmp[tpl][j-1]<OTHER VALなら、次の
ステップS15の処理である、 dist tmp[tpl][j]=dist tmp[tpl][j]+dist tmp[tpl][j-1] ini tmp[tpl][j]=ini tmp[tpl][j-1] が実行される。このステップS15および前記ステップ
S13の処理が終わった後は、図9に示すステップS7
で、tpl>=N(n)かを判定し、判定の結果により、その
後、ステップS8以降の処理が実行される。
On the other hand, the processing in step S12 is
st tmp [tpl] [j-2]> = OTHER VAL and step S14
Is dist tmp [tpl] [j-1] <OTHER VAL, the processing in the next step S15 is dist tmp [tpl] [j] = dist tmp [tpl] [j] + dist tmp [ tpl] [j-1] ini tmp [tpl] [j] = ini tmp [tpl] [j-1] is executed. After the processing in step S15 and step S13 is completed, step S7 shown in FIG.
Then, it is determined whether or not tpl> = N (n), and based on the result of the determination, the processing after step S8 is executed.

【0029】前記ステップS4で、tpl>=1になったと
き、次に示すステップS6の処理が実行される。 dist tmp[tpl][j]=min{dist tmp[tpl-1][k]}+value(tpl,j) (j-2<=k<=j) ここで上記式を満たすkをmin kとすると、ini tmp[tpl]
[j]=ini tmp[tpl-1][min k]となる。ただし、value(tpl,
j)は、テンプレートnの第tplフレームの音素と、入力フ
レームの第jフレーム音素との音素間距離である。また、
フレーム間距離は、例えば、音素同士が一致するときのス
コアを「0」、一致しないときのスコアを「1」と設定し
た場合、入力フレーム第j番目の音素a(j)と、テンプレー
トnの第i番目の音素b(i)とのフレーム間距離は、次のよ
うに定義される。 ステップS6の処理の後、ステップS7の判定処理が行
われて、「y」なら次ののステップS8の処理が実行
される。 aug dist[n][j]=dist tmp[N(n)-1][j], aug ini[n][j]=ini tmp[N(n)-1][j] ステップS8の実行後、辞書テンプレートnをステップ
S9で、入力フレームjをステップS10で判定し、ワ
ードスポットアルゴリズムの処理を終わる。
When tpl> = 1 in step S4, the process of step S6 described below is executed. dist tmp [tpl] [j] = min {dist tmp [tpl-1] [k]} + value (tpl, j) (j-2 <= k <= j) where k is min k Then ini tmp [tpl]
[j] = ini tmp [tpl-1] [min k]. Where value (tpl,
j) is the inter-phoneme distance between the phoneme of the tpl frame of the template n and the phoneme of the jth frame of the input frame. Also,
For example, when the score between phonemes is set to “0” and the score when they do not match is set to “1”, the frame-to-frame distance is calculated based on the j-th phoneme a (j) of the input frame and the template n. The distance between frames with the i-th phoneme b (i) is defined as follows. After the process in step S6, the determination process in step S7 is performed. If "y", the process in the next step S8 is performed. aug dist [n] [j] = dist tmp [N (n) -1] [j], aug ini [n] [j] = ini tmp [N (n) -1] [j] After execution of step S8 , The dictionary template n is determined in step S9, and the input frame j is determined in step S10, and the processing of the word spot algorithm ends.

【0030】図3はこの発明の実施の第2形態を示すフ
ローチャートで、この第2形態では、前記「発明が解決
しようとする課題」の項(2)で述べた問題が、累積ス
コアが更新されなかった場合においても、最も適切と思
われる値を代入することで避けるようにしたものであ
る。そこで、第2形態では、各フレームにおいて、累積
距離計算を終了した後に、累積距離が更新されていなけ
れば、値を設定するような処理を行うようにした。以下
に累積距離計算部のアルゴリズムを図3のフローチャー
トと対応させて述べるに、図9と同一部分は同一符号を
付して示す。
FIG. 3 is a flow chart showing a second embodiment of the present invention. In the second embodiment, the problem described in the section (2) of the “problem to be solved by the invention” is the same as that of the first embodiment. Even if it is not done, it is avoided by substituting the most appropriate value. Therefore, in the second embodiment, in each frame, after the cumulative distance calculation is completed, if the cumulative distance is not updated, a process of setting a value is performed. Hereinafter, the algorithm of the cumulative distance calculation unit will be described in association with the flowchart of FIG. 3, and the same parts as those in FIG. 9 are denoted by the same reference numerals.

【0031】すべてのj(0<=j<len obj)について、次の
−を実行(ステップS1) すべての状態stat(0<=stat<stat num)について、次の
−を実行(ステップS2) すべての辞書テンプレートn(0<=n<word num)につい
て、次の−を実行(ステップS3) scr=min{frm scr[from stat][aug ini[n][j]+m-1]+ap
x scr[aug ini[n][j]+m]を求める。ここで、minはm、fr
om statだけを動かしたときの最小値を示す。mは予め指
定された範囲APX MIN〜APX MAXを動く値である。また、
from statは、前記式(2)を同時に満たすものであ
る。
The following-is executed for all j (0 <= j <len obj) (step S1) The following-is executed for all states stat (0 <= stat <stat num) (step S2) The following − is executed for all dictionary templates n (0 <= n <word num) (step S3) scr = min {frm scr [from stat] [aug ini [n] [j] + m-1] + ap
x scr [aug ini [n] [j] + m] Where min is m, fr
Shows the minimum value when only om stat is run. m is a value that moves in a predetermined range from APX MIN to APX MAX. Also,
from stat satisfies the above expression (2) at the same time.

【0032】apx scr[aug ini[n][j]+m]は次のように求
める。 apx scr[aug ini[n][j]+m]=aug dist[n][j]×(j-(aug i
ni[n][j]+m)/(j-aug ini[n][j]) この値は、始端(aug ini[n][j])のワードスポット値に、
フレーム長に比例した係数をかけることで、始端(aug i
ni[n][j]+m)のワードスポット値を近似的に求めたもの
である。(ステップS4) frm scr[stat][j]>scrならば、次のを実行する。
(ステップS5) frm scr[stat][j]=scr,frm tpl[stat][j]=n, frm frm[stat][j]=aug ini[n][j]+(を満たすm), frm stt[stat][j]=(を満たすfrom stat)(ステップ
S6) ステップS6による実行処理の後、辞書テンプレートn
がword num寄り大きいかをステップS7で判定する。判
定の結果、「y」ならステップS10の判定処理を行
い、「n」ならステップS4の処理に戻る。
Apx scr [aug ini [n] [j] + m] is obtained as follows. apx scr [aug ini [n] [j] + m] = aug dist [n] [j] × (j- (aug i
ni [n] [j] + m) / (j-aug ini [n] [j]) This value is the word spot value at the beginning (aug ini [n] [j]),
By applying a coefficient proportional to the frame length, the beginning (aug i
The word spot value of ni [n] [j] + m) is approximately obtained. (Step S4) If frm scr [stat] [j]> scr, the following is executed.
(Step S5) frm scr [stat] [j] = scr, frm tpl [stat] [j] = n, frm frm [stat] [j] = aug ini [n] [j] + (m satisfying), frm stt [stat] [j] = (satisfies from stat) (step S6) After the execution processing in step S6, the dictionary template n
Is larger than word num in step S7. As a result of the determination, if “y”, the determination process of step S10 is performed, and if “n”, the process returns to step S4.

【0033】ステップS10では、次のようなに示す
判定処理が行われる。 from scr[stat][j]が、初期値MAX VALのままで、か
つ、from scr[stat] [j-1]<MAX VAL-OTHER VALのとき、
すなわち、「y」のとき、次の(ステップS11)を
実行する。ここで、OTHER VALは、音素間距離の最大値
(value(a,b)の取る最大値)である。
In step S10, the following determination processing is performed. When from scr [stat] [j] is the initial value MAX VAL and from scr [stat] [j-1] <MAX VAL-OTHER VAL,
That is, when "y", the following (step S11) is executed. Here, OTHER VAL is the maximum value of the inter-phoneme distance (the maximum value taken by value (a, b)).

【0034】from scr[stat][j]=from scr[stat][j-
1]+OTHER VAL, from frm[stat][j]=from frm[stat][j-1], from tpl[stat][j]=from tpl[stat][j-1], from stt[stat][j]=from stt[stat][j-1] なお、ステップS10で「n」ときと、ステップS11
の実行後は、ステップS8ですべての状態statを判定し
た後、ステップS9ですべての入力フレームjを判定し
て処理を終了する。
From scr [stat] [j] = from scr [stat] [j-
1] + OTHER VAL, from frm [stat] [j] = from frm [stat] [j-1], from tpl [stat] [j] = from tpl [stat] [j-1], from stt [stat ] [j] = from stt [stat] [j-1] Note that when “n” in step S10,
After the execution of, after all states stat are determined in step S8, all input frames j are determined in step S9, and the process is terminated.

【0035】次の表1は、第1、第2形態の処理を併用
した場合の音素認識率と、従来の拡張連続DPを利用し
た場合の単語認識率を実験により得た場合のものであ
る。実験条件としては、A:音素学習データを3話者に
よる、101単語の2回発声、 B:実験データは前記3話者(学習話者)+6話者(評
価話者)による、101単語の1回発声で、音素認識部
はAで学習済みのものを利用した。
The following Table 1 shows the phoneme recognition rate when the first and second modes of processing are used together and the word recognition rate when the conventional extended continuous DP is used, obtained by experiments. . The experimental conditions are as follows: A: phoneme learning data is uttered twice by three speakers, and 101 words are uttered. B: Experimental data is 101 words of the three speakers (learning speakers) +6 speakers (evaluation speakers). With one utterance, the phoneme recognition unit used was learned in A.

【0036】[0036]

【表1】 [Table 1]

【0037】上記実験では、図7(b)のDPパスを利
用した。表1から学習話者、評価話者のいずれに対して
も音素認識率が大幅に向上していることが明らかであ
る。
In the above experiment, the DP path shown in FIG. 7B was used. From Table 1, it is clear that the phoneme recognition rate is significantly improved for both the learning speaker and the evaluation speaker.

【0038】[0038]

【発明の効果】以上述べたように、この発明によれば、
音素誤認識等によるワードスポットの精度の低下を抑
え、それにより音素認識率の向上を図ることができると
ともに、音素認識結果が出力できないような場合を大幅
に低減することにより、音素認識率の向上を図ることが
できるようになる等の利点が得られる。
As described above, according to the present invention,
A reduction in the accuracy of word spots due to misrecognition of phonemes can be suppressed, thereby improving the phoneme recognition rate. In addition, the phoneme recognition rate can be improved by drastically reducing cases in which a phoneme recognition result cannot be output. And the like.

【図面の簡単な説明】[Brief description of the drawings]

【図1】この発明の実施の第1形態を示すフローチャー
ト。
FIG. 1 is a flowchart showing a first embodiment of the present invention.

【図2】テンプレート第1フレームでの処理における通
常のDPパスと改良したDPパスの特性図。
FIG. 2 is a characteristic diagram of a normal DP path and an improved DP path in processing in a template first frame.

【図3】この発明の実施の第2形態を示すフローチャー
ト。
FIG. 3 is a flowchart showing a second embodiment of the present invention.

【図4】離散単語音声認識システムのブロック構成図。FIG. 4 is a block diagram of a discrete word speech recognition system.

【図5】有限状態オートマトンの説明図。FIG. 5 is an explanatory diagram of a finite state automaton.

【図6】一般的な累積計算部のアルゴリズムを示すフロ
ーチャート。
FIG. 6 is a flowchart illustrating an algorithm of a general accumulation calculating unit.

【図7】DPマッチング計算用パスの特性図。FIG. 7 is a characteristic diagram of a DP matching calculation path.

【図8】拡張連続DPのワードスポットアルゴリズムの
フローチャート。
FIG. 8 is a flowchart of an extended continuous DP word spot algorithm.

【図9】拡張連続DPの累積計算アルゴリズムのフロー
チャート。
FIG. 9 is a flowchart of a cumulative calculation algorithm of the extended continuous DP.

【図10】誤認識音素を含む例の説明図。FIG. 10 is an explanatory diagram of an example including a misrecognized phoneme.

【符号の説明】[Explanation of symbols]

11…音声入力装置 12…音声入力部 13…特徴抽出部 14…音素認識部 15…辞書テンプレート 16…マッチング部 DESCRIPTION OF SYMBOLS 11 ... Voice input device 12 ... Voice input part 13 ... Feature extraction part 14 ... Phoneme recognition part 15 ... Dictionary template 16 ... Matching part

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 音声入力部に入力された音声データを特
徴抽出部により周波数分析してスペクトル列を得、その
スペクトル列を音素認識部に入力して、その出力に音素
列を得、その音素列をマッチング部に供給して辞書内の
テンプレートとマッチングさせる際に、入力音素と辞書
テンプレートとのマッチング距離の入力音素のnフレー
ムまでの累積距離を求めた後、最も類似する単語または
単語列を認識結果として出力するようにした音声認識シ
ステムにおいて、 前記マッチング部で入力音素と辞書テンプレートとをマ
ッチングさせ、ワードスポット計算における辞書テンプ
レートの第1音素での最適始端設定時には、2フレーム
前までの結果を利用して、最適始端が取り得る範囲を拡
張するようにしたことを特徴とする音声認識システムに
おける音素認識方法。
1. A feature extraction unit frequency-analyzes voice data input to a voice input unit to obtain a spectrum sequence, inputs the spectrum sequence to a phoneme recognition unit, obtains a phoneme sequence at its output, and obtains a phoneme sequence. When the sequence is supplied to the matching unit and matched with the template in the dictionary, after calculating the cumulative distance of the matching distance between the input phoneme and the dictionary template up to n frames of the input phoneme, the most similar word or word sequence is determined. In the speech recognition system configured to output as a recognition result, the input phoneme and the dictionary template are matched by the matching unit, and when the optimum starting point of the dictionary template in the first phoneme is set in the word spot calculation, the result up to two frames before is set. The speech recognition system is characterized by using Kicking phoneme recognition method.
【請求項2】 前記マッチング部には、拡張連続DPマ
ッチング処理を用い、テンプレート第1フレームとのマ
ッチングに限り、指定された条件下では、DPパスを変
更するようにしたことを特徴とする請求項1記載の音声
認識システムにおける音素認識方法。
2. The method according to claim 1, wherein the matching unit uses an extended continuous DP matching process to change a DP path only under matching with a template first frame under designated conditions. Item 1. A phoneme recognition method in the speech recognition system according to Item 1.
【請求項3】 音声入力部に入力された音声データを特
徴抽出部により周波数分析してスペクトル列を得、その
スペクトル列を音素認識部に入力して、その出力に音素
列を得、その音素列をマッチング部に供給して辞書内の
テンプレートとマッチングさせる際に、入力音素と辞書
テンプレートとのマッチング距離の入力音素のnフレー
ムまでの累積距離を求めた後、最も類似する単語または
単語列を認識結果として出力するようにした音声認識シ
ステムにおいて、 前記マッチング部で入力音素と辞書テンプレートとをマ
ッチングさせ、各入力フレームで累積距離計算が終了し
た時点で、累積距離の値をチェックし、初期値のままで
あれば、適切な値を設定するようにしたことを特徴とす
る音声認識システムにおける音素認識方法。
3. A speech sequence input to a speech input unit is subjected to frequency analysis by a feature extraction unit to obtain a spectrum sequence, the spectrum sequence is input to a phoneme recognition unit, and a phoneme sequence is obtained at an output thereof. When the sequence is supplied to the matching unit and matched with the template in the dictionary, after calculating the cumulative distance of the matching distance between the input phoneme and the dictionary template up to n frames of the input phoneme, the most similar word or word sequence is determined. In the speech recognition system configured to output as a recognition result, the input unit is matched with the dictionary template by the matching unit, and when the cumulative distance calculation is completed in each input frame, the value of the cumulative distance is checked, and the initial value is checked. A phoneme recognition method in a speech recognition system, wherein an appropriate value is set if it remains as it is.
JP3836598A 1998-02-20 1998-02-20 Speech recognition system and phoneme recognizing method Pending JPH11237893A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3836598A JPH11237893A (en) 1998-02-20 1998-02-20 Speech recognition system and phoneme recognizing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3836598A JPH11237893A (en) 1998-02-20 1998-02-20 Speech recognition system and phoneme recognizing method

Publications (1)

Publication Number Publication Date
JPH11237893A true JPH11237893A (en) 1999-08-31

Family

ID=12523267

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3836598A Pending JPH11237893A (en) 1998-02-20 1998-02-20 Speech recognition system and phoneme recognizing method

Country Status (1)

Country Link
JP (1) JPH11237893A (en)

Similar Documents

Publication Publication Date Title
US8612235B2 (en) Method and system for considering information about an expected response when performing speech recognition
EP1226574B1 (en) Method and apparatus for discriminative training of acoustic models of a speech recognition system
JP3826032B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
US6490555B1 (en) Discriminatively trained mixture models in continuous speech recognition
US5621849A (en) Voice recognizing method and apparatus
JPH07146699A (en) Voice recognizing method
JPH11184491A (en) Voice recognition device
JP4461557B2 (en) Speech recognition method and speech recognition apparatus
EP1022724B1 (en) Speaker adaptation for confusable words
JPH06214596A (en) Voice recognition device and speaker adaptive method
JPH11237893A (en) Speech recognition system and phoneme recognizing method
JP2000267691A (en) Recognition dictionary selecting method in voice recognition system
JP3090204B2 (en) Speech model learning device and speech recognition device
JP3291073B2 (en) Voice recognition method
JP3583930B2 (en) Speech recognition apparatus and method
JPH0962290A (en) Speech recognition device
JPH05224692A (en) Continuous speech recognition system
JP3357752B2 (en) Pattern matching device
JPH0786758B2 (en) Voice recognizer
JP2002082688A (en) Device and method for adapting speaker, computer readable recording medium which records speaker adaptive program, device and method for voice recognition and computer readable recording medium which records voice recognition program
JPH10143190A (en) Speech recognition device
JPH11175088A (en) Method for reducing phoneme recognition calculation processing in voice recognition system
JPH03149598A (en) Voice recognition device
JPS6073592A (en) Voice recognition equipment for specific speaker
JPH0635499A (en) Speech recognizing device