JP3083855B2 - Voice recognition method and apparatus - Google Patents
Voice recognition method and apparatusInfo
- Publication number
- JP3083855B2 JP3083855B2 JP02413766A JP41376690A JP3083855B2 JP 3083855 B2 JP3083855 B2 JP 3083855B2 JP 02413766 A JP02413766 A JP 02413766A JP 41376690 A JP41376690 A JP 41376690A JP 3083855 B2 JP3083855 B2 JP 3083855B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- duration
- voice
- standard
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【0001】[0001]
【産業上の利用分野】本発明は、音声認識方法及び装置
に関するものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition method and apparatus.
【0002】[0002]
【従来の技術】音声認識方法及び装置の従来例として
は、本出願人が特開昭64-23299号公報に開示した音声認
識方式などが存している。これは、予め音声信号を変換
した特徴ベクトルの時系列である各種の音声パターンの
部分パターンに対応する標準パターンを継続時間等でパ
ターン記憶手段に設定しておき、入力される音声信号を
マイクロフォン等からなる音声変換手段で音声パターン
に変換して部分パターンの継続時間を検出し、この部分
パターンの継続時間と標準パターンの継続時間とに従っ
て部分パターンと標準パターンとの類似度に相当するパ
ターン間距離を算定し、この算定結果に基づいて音声信
号の音韻を認識するようになっている。2. Description of the Related Art As a conventional example of a speech recognition method and apparatus, there is a speech recognition system disclosed by the present applicant in Japanese Patent Application Laid-Open No. Sho 64-23299. This is because, in advance, standard patterns corresponding to partial patterns of various audio patterns, which are time series of feature vectors obtained by converting audio signals, are set in the pattern storage means with durations and the like, and the input audio signals are input to a microphone or the like. The duration of the partial pattern is detected by converting the pattern into a voice pattern by the voice conversion means, and the distance between patterns corresponding to the similarity between the partial pattern and the standard pattern according to the duration of the partial pattern and the duration of the standard pattern. Is calculated, and the phoneme of the voice signal is recognized based on the calculation result.
【0003】つまり、上述の音声認識方式では、標準パ
ターンの所定の状態に対応する音声パターンの部分パタ
ーンの継続時間をX、標準パターンの継続時間をY、予
め設定された定数をwとすると、パターン間距離Dを、
D=w(Lx−Lj)2として算定するようになっている。That is, in the above-described voice recognition system, when the duration of a partial pattern of a voice pattern corresponding to a predetermined state of the standard pattern is X, the duration of the standard pattern is Y, and a predetermined constant is w, The distance D between patterns is
D = w (Lx−Lj) 2 is calculated.
【0004】[0004]
【発明が解決しようとする課題】上記公報に開示された
音声認識方式では、予め機器に設定された標準パターン
の継続時間と機器に入力された音声パターンの部分パタ
ーンの継続時間とに基づいて音声信号の音韻を認識する
ようになっている。In the voice recognition system disclosed in the above publication, a voice is recognized based on the duration of a standard pattern preset in the device and the duration of a partial pattern of the voice pattern input to the device. It recognizes the phoneme of the signal.
【0005】しかし、上述した音声認識方式では、音声
パターンの部分パターンの継続時間の伸長とは無関係に
常時同一の演算処理が行なわれるので誤認識が発生しや
すくなっている。つまり、語尾の母音は極端に長くなる
ことはあっても極端に短くなることはほとんどないが、
上述の音声認識方式では、標準パターンの継続時間が予
め50(ms)などとして設定されているので、音声パターン
の継続時間が10(ms)や100(ms)等と変化すると良好な演
算結果を得ることができない。つまり、上述の音声認識
方式では、図8に例示するように、継続時間の分布が平
均値lに対して不均一になる標準パターンに対し、音声
パターンの継続時間が分布範囲外に短いaでも分布範囲
内で長いbでも同一の演算処理を行なうので、誤認識が
発生しやすくなっている。However, in the above-described speech recognition system, the same arithmetic processing is always performed irrespective of the extension of the duration of the partial pattern of the speech pattern, so that erroneous recognition tends to occur. In other words, vowels at the end can be extremely long, but rarely extremely short,
In the above-described voice recognition method, since the duration of the standard pattern is set to 50 (ms) or the like in advance, if the duration of the voice pattern changes to 10 (ms) or 100 (ms), a good calculation result is obtained. I can't get it. That is, in the above-described speech recognition method, as illustrated in FIG. 8, even if the duration of the speech pattern is shorter than the distribution range, a Since the same arithmetic processing is performed even for a long b in the distribution range, erroneous recognition is likely to occur.
【0006】[0006]
【課題を解決するための手段】請求項1記載の発明は、
入力される音声信号を音声変換手段が特徴ベクトルの時
系列である音声パターンに変換し、各種の音声パターン
の部分パターンに対応する標準パターンを少なくとも継
続時間と継続時間に対する複数の重み係数とで予めパタ
ーン記憶手段に設定し、音声パターンの部分パターンの
継続時間を時間検出手段が検出し、この検出された部分
パターンの継続時間と標準パターンの継続時間とを時間
比較手段が比較し、この比較結果の正負に従って標準パ
ターンの重み係数から所定の一つを係数選出手段が選出
し、この選出された重み係数を部分パターンと標準パタ
ーンとの差の二乗に乗算したものである部分パターンと
標準パターンとの類似度に相当するパターン間距離を類
似度算定手段が算定し、この算定結果に基づいて音声信
号の音韻を認識手段が認識するようにした。According to the first aspect of the present invention,
The voice conversion means converts the input voice signal into a voice pattern which is a time series of feature vectors, and a standard pattern corresponding to a partial pattern of various voice patterns is determined in advance by at least a duration and a plurality of weighting factors for the duration. Set in the pattern storage means, the time detection means detects the duration of the partial pattern of the voice pattern, and the time comparison means compares the duration of the detected partial pattern with the duration of the standard pattern. The coefficient selecting means selects a predetermined one from the weight coefficients of the standard pattern according to the sign of the standard pattern. The selected weight coefficient is referred to as the partial pattern and the standard pattern.
The similarity calculating means calculates the inter-pattern distance corresponding to the similarity between the partial pattern obtained by multiplying the square of the difference from the standard pattern and the standard pattern, and recognizes the phoneme of the voice signal based on the calculation result. Was made to recognize.
【0007】請求項2記載の発明は、入力される音声信
号を音声変換手段が特徴ベクトルの時系列である音声パ
ターンに変換し、各種の音声パターンの部分パターンに
対応する標準パターンを少なくとも継続時間と前記継続
時間に対する複数の重み係数とで各種の音素毎に予めパ
ターン記憶手段に設定し、音声パターンの部分パターン
の継続時間を時間検出手段が検出し、この検出された部
分パターンの継続時間と標準パターンの継続時間とを時
間比較手段が比較し、この比較結果に従って標準パター
ンの重み係数から所定の一つを係数選出手段が選出し、
この選出された重み係数に従って部分パターンと標準パ
ターンとの類似度に相当するパターン間距離を類似度算
定手段が音素の種別に従って算定し、この算定結果に基
づいて音声信号の音韻を認識手段が認識するようにし、
また、算定されたパターン間距離と予め設定された閾値
とを距離比較手段が比較し、この比較結果に従って標準
パターンの重み係数を係数更新手段が更新するようにし
た。According to a second aspect of the present invention, an input voice signal is provided.
The sound conversion means is a sound pattern that is a time series of feature vectors.
Converts to turns and turns them into partial patterns of various voice patterns
The corresponding standard pattern at least for the duration and said continuation
Multiple weighting factors with respect to time are used to
Set in the turn storage means, partial pattern of voice pattern
Time detecting means detects the duration of the
The duration of the minute pattern and the duration of the standard pattern
Comparison means, and the standard pattern is
Coefficient selecting means selects a predetermined one from the weight coefficients of the
The partial pattern and the standard pattern are
Calculate similarity distance between patterns corresponding to similarity with turn
Is calculated according to the type of phoneme, and based on the calculation result.
The recognition means recognizes the phoneme of the voice signal based on the
Further, the calculated inter-pattern distance is compared with a preset threshold value by the distance comparing means, and the coefficient updating means updates the weight coefficient of the standard pattern according to the comparison result.
【0008】請求項3記載の発明は、音声パターンの部
分パターンの音素の種別に従って類似度算定手段が算定
したパターン間距離に比して小さいパターン間距離が算
定される音素を音素検出手段が検出し、この検出された
音素の標準パターンの少なくとも重み係数をパターン更
新手段が更新するようにした。According to a third aspect of the present invention, the phoneme detecting means detects a phoneme whose inter-pattern distance is smaller than the inter-pattern distance calculated by the similarity calculating means according to the type of the phoneme of the partial pattern of the voice pattern. Then, the pattern updating means updates at least the weighting factor of the detected standard pattern of phonemes.
【0009】請求項4記載の発明は、入力される音声信
号を特徴ベクトルの時系列である音声パターンに変換す
る音声変換手段を設け、各種の音声パターンの部分パタ
ーンに対応する標準パターンが少なくとも継続時間と継
続時間に対する複数の重み係数とで設定されたパターン
記憶手段を設け、音声変換手段が変換した音声パターン
の部分パターンの継続時間を検出する時間検出手段を設
け、この時間検出手段が検出した部分パターンの継続時
間とパターン記憶手段に記憶された標準パターンの継続
時間とを比較する時間比較手段を設け、この時間比較手
段の比較結果の正負に従って標準パターンの重み係数か
ら所定の一つを選出する係数選出手段を設け、この係数
選出手段が選出した重み係数を部分パターンと標準パタ
ーンとの差の二乗に乗算したものである部分パターンと
標準パターンとの類似度に相当するパターン間距離を算
定する類似度算定手段を設け、この類似度算定手段の算
定結果に基づいて音声信号の音韻を認識する認識手段を
設けた。According to a fourth aspect of the present invention, there is provided a voice converting means for converting an input voice signal into a voice pattern which is a time series of a feature vector, and at least a standard pattern corresponding to a partial pattern of various voice patterns is continued. Pattern storage means set with a plurality of weighting factors for time and duration, and time detection means for detecting the duration of a partial pattern of the voice pattern converted by the voice conversion means, and the time detection means detects Time comparison means for comparing the duration of the partial pattern with the duration of the standard pattern stored in the pattern storage means is provided, and a predetermined one is selected from the weight coefficients of the standard pattern according to the sign of the comparison result of the time comparison means. coefficients provided selecting means, the partial pattern and the standard pattern of weighting coefficients this coefficient selecting means has selected to
Means for calculating the distance between patterns corresponding to the similarity between the partial pattern obtained by multiplying the square of the difference from the standard pattern and the standard pattern, and based on the calculation result of the similarity calculating means, Recognition means for recognizing the phoneme of the signal is provided.
【0010】請求項5記載の発明は、入力される音声信
号を特徴ベクトルの時系列である音声パターンに変換す
る音声変換手段を設け、各種の音声パターンの部分パタ
ーンに対応する標準パターンが少なくとも継続時間と継
続時間に対する複数の重み係数とで各種の音素毎に設定
されたパターン記憶手段を設け、音声変換手段が変換し
た音声パターンの部分パターンの継続時間を検出する時
間検出手段を設け、この時間検出手段が検出した部分パ
ターンの継続時間とパターン記憶手段に記憶された標準
パターンの継続時間とを比較する時間比較手段を設け、
この時間比較手段の比較結果に従って標準パターンの重
み係数から所定の一つを選出する係数選出手段を設け、
この係数選出手段が選出した重み係数に従って部分パタ
ーンと標準パターンとの類似度に相当するパターン間距
離を音素の種別に従って算定する類似度算定手段を設
け、この類似度算定手段の算定結果に基づいて音声信号
の音韻を認識する認識手段を設け、算定されたパターン
間距離と予め設定された閾値とを比較する距離比較手段
を設け、この比較結果に従って標準パターンの重み係数
を更新する係数更新手段を設けた。[0010] According to a fifth aspect of the present invention, an input voice signal is provided.
Signal into a speech pattern that is a time series of feature vectors
Audio conversion means to provide partial patterns of various audio patterns.
The standard pattern corresponding to the
Set for each phoneme with multiple weighting factors for duration
Is provided, and the voice conversion means converts the
When detecting the duration of a sub-pattern of a sound pattern
Interval detecting means, and the partial pattern detected by the time detecting means.
Turn duration and standard stored in pattern storage
Providing a time comparison means for comparing with the duration of the pattern,
According to the comparison result of this time comparison means, the weight of the standard pattern is
A coefficient selection means for selecting a predetermined one from the
The partial pattern is selected according to the weight coefficient selected by the coefficient selection means.
Pattern distance equivalent to the similarity between the pattern and the standard pattern.
A similarity calculation means for calculating the separation according to the phoneme type is provided.
Based on the result of the calculation by the similarity calculating means.
A recognition means for recognizing a phoneme of the same; a distance comparison means for comparing the calculated inter-pattern distance with a preset threshold; and a coefficient updating means for updating a weighting coefficient of the standard pattern according to the comparison result. .
【0011】請求項6記載の発明は、音声パターンの部
分パターンの音素の種別に従って類似度算定手段が算定
したパターン間距離に比して小さいパターン間距離が算
定される音素を検出する音素検出手段を設け、この音素
検出手段が検出した音素の標準パターンの少なくとも重
み係数を更新するパターン更新手段を設けた。According to a sixth aspect of the present invention, there is provided a phoneme detecting means for detecting a phoneme whose inter-pattern distance is smaller than the inter-pattern distance calculated by the similarity calculating means in accordance with the type of phoneme of the partial pattern of the voice pattern. And a pattern updating means for updating at least the weighting coefficient of the standard pattern of the phoneme detected by the phoneme detecting means.
【0012】[0012]
【作用】請求項1及び4記載の発明は、各種の音声パタ
ーンの部分パターンに対応する標準パターンを少なくと
も継続時間と継続時間に対する複数の重み係数とで予め
設定し、音声パターンの部分パターンの継続時間と標準
パターンの継続時間との比較結果に従って標準パターン
の重み係数から所定の一つを選出し、この選出された重
み係数に従って部分パターンと標準パターンとの類似度
に相当するパターン間距離を算定して音声信号の音韻を
認識することで、標準パターンの継続時間に対する音声
パターンの部分パターンの継続時間の大小に従って演算
処理には複数の重み係数の一つが選択的に利用されるの
で、語尾の母音のように継続時間の分布が不均一な音韻
でも良好に認識することができる。According to the first and fourth aspects of the present invention, a standard pattern corresponding to a partial pattern of various voice patterns is preset in at least a duration and a plurality of weighting factors for the duration, and the continuation of the partial pattern of the voice pattern is performed. A predetermined one is selected from the weighting factors of the standard pattern according to the result of comparison between the time and the duration of the standard pattern, and a pattern distance corresponding to the similarity between the partial pattern and the standard pattern is calculated according to the selected weighting factor. By recognizing the phoneme of the voice signal, one of a plurality of weighting factors is selectively used in the arithmetic processing according to the magnitude of the duration of the partial pattern of the voice pattern with respect to the duration of the standard pattern. A phoneme whose continuation time distribution is not uniform like a vowel can be recognized well.
【0013】請求項2及び5記載の発明は、各種の音素
毎に予め設定された標準パターンと音声変換手段が変換
した音声パターンの部分パターンとのパターン間距離を
音素の種別に従って算定し、この算定されたパターン間
距離と予め設定された閾値との比較結果に従って標準パ
ターンの重み係数を更新することで、音声パターンと音
素が同一の標準パターンに対しては重み係数が更新され
てパターン間距離が短縮される。According to the second and fifth aspects of the present invention, the inter-pattern distance between a standard pattern preset for each type of phoneme and a partial pattern of the voice pattern converted by the voice conversion means is calculated according to the type of phoneme. By updating the weighting factor of the standard pattern according to the comparison result between the calculated distance between the patterns and a preset threshold, the weighting factor is updated for the standard pattern having the same voice pattern and phoneme, and the distance between the patterns is updated. Is shortened.
【0014】請求項3及び6記載の発明は、音声パター
ンの部分パターンの音素の種別に従って算定したパター
ン間距離に比して小さいパターン間距離が算定される音
素を検出し、この検出された音素の標準パターンの少な
くとも重み係数をパターン更新手段が更新するようにし
たことにより、音声パターンと音素が同一の標準パター
ンに対しては重み係数の更新でパターン間距離が短縮さ
れ、かつ、音素が異なるにも関わらずパターン間距離が
小さい標準パターンに対しては重み係数の更新でパター
ン間距離が拡大される。According to the third and sixth aspects of the present invention, a phoneme whose inter-pattern distance is smaller than the inter-pattern distance calculated according to the phoneme type of the partial pattern of the voice pattern is detected, and the detected phoneme is detected. The pattern updating means updates at least the weighting factor of the standard pattern of the standard pattern, so that the distance between the patterns is shortened by updating the weighting factor for the standard pattern having the same phoneme and phoneme, and the phoneme is different. Nevertheless, for a standard pattern having a small inter-pattern distance, the inter-pattern distance is expanded by updating the weighting coefficient.
【0015】[0015]
【実施例】請求項1及び4記載の発明の音声認識装置を
図1ないし図3に基づいて説明する。まず、この音声認
識装置1は、図1に例示するように、マイクロフォン等
からなる音声入力部2に、入力される音声信号を特徴ベ
クトルの時系列である音声パターンに変換する音声変換
手段である特徴系列変換部3が接続されており、予め各
種の標準パターンが設定されたパターン記憶手段である
標準パターン格納部4がRAM(Random Access Me
mory)等で形成されている。そして、この標準パターン
格納部4と前記特徴系列変換部3とが接続された照合部
5は、部分パターンの継続時間を検出する時間検出手段
と、部分パターンの継続時間と標準パターンの継続時間
とを比較する時間比較手段と、標準パターンの重み係数
から所定の一つを選出する係数選出手段と、パターン間
距離を算定する類似度算定手段と、音声信号の音韻を認
識する認識手段(何れも図示せず)とがファームウェアな
どで形成されたCPU(Central Processing Unit)
等からなっている。そして、前記標準パターン格納部4
に設定された標準パターンは、ここでは平均ベクトルY
と継続時間l及び重み係数w1,w2で形成されている。DESCRIPTION OF THE PREFERRED EMBODIMENTS A speech recognition apparatus according to the first and fourth aspects of the present invention will be described with reference to FIGS. First, as illustrated in FIG. 1, the voice recognition device 1 is a voice conversion unit that converts a voice signal input to a voice input unit 2 including a microphone or the like into a voice pattern that is a time series of feature vectors. A feature sequence conversion unit 3 is connected, and a standard pattern storage unit 4 as a pattern storage unit in which various standard patterns are set in advance is stored in a RAM (Random Access Me).
mory) etc. Then, the collating unit 5 to which the standard pattern storage unit 4 and the feature sequence converting unit 3 are connected includes a time detecting unit for detecting the duration of the partial pattern, the duration of the partial pattern and the duration of the standard pattern. , A coefficient selecting means for selecting a predetermined one from the weighting coefficients of the standard pattern, a similarity calculating means for calculating a distance between patterns, and a recognition means for recognizing a phoneme of a voice signal (all of which are described below). CPU (Central Processing Unit) formed by firmware and the like
And so on. Then, the standard pattern storage unit 4
Is set to the average vector Y
And the duration 1 and the weight coefficients w 1 and w 2 .
【0016】このような構成において、この音声認識装
置1では、音声入力部2から入力される音声信号が、特
徴系列変換部3で特徴ベクトルの時系列である音声パタ
ーンXに変換される。ここで、このような音声認識装置
1に有用な特徴ベクトルの抽出手段としては各種の方式
が考えられるが、例えば、15チャンネルのバンドパスフ
ィルタ群(図示せず)の出力を10(ms)毎に抽出すること
や、5.0(ms)のフレーム周期でFFT(Fast Fourier
Transform)スペクトラムを対数化した周波軸上で等分
化して加算平均を算定した20次元のベクトルを抽出する
ことや、14次のLPC(Linear Predictive Codin
g)ケプストラムを10(ms)毎に抽出することなどが実施可
能である。そして、上述のようにして得られる音声パタ
ーンX=x1,x2…xi…xI(Iはフレーム数)のi番目
のフレームの特徴ベクトルxiは、チャンネル数に対応
した15次元などとなる。In such a configuration, in the speech recognition apparatus 1, the speech signal input from the speech input unit 2 is converted by the feature sequence conversion unit 3 into a speech pattern X which is a time series of feature vectors. Here, various methods can be considered as a means for extracting a feature vector useful for such a speech recognition apparatus 1. For example, the output of a band-pass filter group (not shown) of 15 channels is output every 10 (ms). Or FFT (Fast Fourier) with a 5.0 (ms) frame period.
Transform) Extracting a 20-dimensional vector obtained by equally dividing the spectrum on a logarithmic frequency axis and calculating an average, and a 14th-order LPC (Linear Predictive Codin)
g) It is possible to extract cepstrum every 10 (ms). Then, the feature vector x i of the i-th frame of the speech pattern X = x 1 obtained as described above, x 2 ... x i ... x I (I is the number of frames), 15-dimensional corresponding to the number of channels, etc. Becomes
【0017】そして、照合部5では、入力された音声パ
ターンXと、標準パターン格納部4に格納されているN
個の標準パターンY1〜YNのn番目の標準パターンYn
との類似度に相当するパターン間距離Dist(X,Yn)が
順次算定され、この算定結果が最も小さい標準パターン
が属する音韻であるカテゴリー(ここでは単語)が認識結
果として検出されることになる。Then, the collating unit 5 compares the input voice pattern X with the N stored in the standard pattern storage unit 4.
N-th reference pattern Y n of pieces of reference pattern Y 1 to Y N
The inter-pattern distance Dist (X, Y n ) corresponding to the degree of similarity is calculated sequentially, and the category (here, word) which is the phoneme to which the standard pattern having the smallest calculation result belongs is detected as the recognition result. Become.
【0018】なお、各標準パターンYnはJ個の時系列
として形成されており、j番目の状態には、標準パター
ンYnのj番目の状態を代表する特徴ベクトルynjと、
継続時間lnjと、二つの重み係数wnj1,wnj2とが各々
に登録されている。そこで、音声パターンXと標準パタ
ーンYnとを照合した際、例えば、音声パターンXの部
分パターンxn+1,xn+2…xiが標準パターンYnの第j
状態に対応したとすると、この場合の(i−m≧lnj)と
(i−m<lnj)との距離sd(m,i,n,j)は、Each standard pattern Y n is formed as J time series, and the j-th state includes a feature vector y nj representing the j-th state of the standard pattern Y n ,
The duration l nj and two weighting factors w nj1 and w nj2 are registered respectively. Therefore, when collated with the voice pattern X and the standard pattern Y n, for example, part of the speech pattern X pattern x n + 1, x n + 2 ... x i is the j-th reference pattern Y n
If it corresponds to the state, (im ≧ lnj) in this case
The distance sd (m, i, n, j) from (im <lnj) is
【数1】 となる。なお、上記数式内で使用したdist1は二つのベ
クトル間の距離を算定する演算式であり、dist2は二つ
のスカラー間の距離を算定する演算式である。そこで、
これらの演算式としてユークリッド距離を使用すると、
図2及び図3のフローチャートに例示するように、この
場合の(i−m≧lnj)と(i−m<lnj)との距離sd(m,
i,n,j)は、(Equation 1) Becomes Note that dist 1 used in the above equation is an arithmetic expression for calculating the distance between two vectors, and dist 2 is an arithmetic expression for calculating the distance between two scalars. Therefore,
Using the Euclidean distance as these equations,
As illustrated in the flowcharts of FIGS. 2 and 3, the distance sd (m, m) between (im ≧ lnj) and (im <lnj) in this case.
i, n, j)
【数2】 となる。そこで、この場合のパターン間距離Dist(X,
Yn)は、(Equation 2) Becomes Therefore, the pattern distance Dist (X,
Y n )
【数3】 となる。なお、上記数式では0=S(0)≦S(1)…≦S
(N)=Iとなっており、図3のフローチャートで用いた
DTは一時的に利用する変数である。(Equation 3) Becomes In the above equation, 0 = S (0) ≦ S (1).
(N) = I, and DT used in the flowchart of FIG. 3 is a variable used temporarily.
【0019】つまり、この音声認識装置1では、標準パ
ターンの継続時間に対する音声パターンの部分パターン
の継続時間の大小に従って演算処理には二つの重み係数
の一方が利用されるので、語尾の母音のように継続時間
の分布が不均一な音韻でも良好に認識することができ
る。That is, in the speech recognition apparatus 1, one of the two weighting coefficients is used in the arithmetic processing according to the magnitude of the duration of the partial pattern of the speech pattern with respect to the duration of the standard pattern. Furthermore, even a phoneme whose distribution of duration is not uniform can be recognized well.
【0020】なお、ここで上述のような数式の解法とし
て動的計画法を利用する場合を想定すると、累積距離を
格納する配列D(i,1)(1≦j≦I,1≦j≦J)を用意し、
手順D(i,1)=sd(0,i,n,1) (1≦j≦I)手順Here, assuming a case where dynamic programming is used as a solution of the above-described mathematical formula, an array D (i, 1) (1 ≦ j ≦ I, 1 ≦ j ≦ J)
Procedure D (i, 1) = sd (0, i, n, 1) (1 ≦ j ≦ I)
【数4】 手順Dist(X,Yn)=D(I,J)とすることが考えら
れる。このようにすることで、パターン間距離Distを
算定する数式を簡易に得ることができる。(Equation 4) It is conceivable that the procedure Dist (X, Y n ) = D (I, J). In this manner, a mathematical expression for calculating the inter-pattern distance Dist can be easily obtained.
【0021】請求項2及び5記載の発明の実施例を図4
に基づいて説明する。まず、この音声認識装置6では、
RAM等のパターン記憶手段である標準パターン格納部
7には、標準パターンが各種の音素毎に設定されてお
り、CPU等からなる照合部8には、部分パターンと標
準パターンとのパターン間距離を予め設定された閾値と
比較する距離比較手段等がファームウェアなどで形成さ
れている。そして、この照合部8には、前記標準パター
ン格納部7内の標準パターンの重み係数を更新する係数
更新手段である重み係数更新部9が接続されている。な
お、この他の構造は前述の音声認識装置1と同様になっ
ている。FIG. 4 shows an embodiment of the invention according to claims 2 and 5.
It will be described based on. First, in this voice recognition device 6,
A standard pattern is set for each type of phoneme in a standard pattern storage unit 7 which is a pattern storage means such as a RAM, and a matching unit 8 such as a CPU stores a pattern distance between the partial pattern and the standard pattern. Distance comparing means for comparing with a preset threshold is formed by firmware or the like. The matching unit 8 is connected to a weight coefficient updating unit 9 that is a coefficient updating unit that updates the weight coefficient of the standard pattern in the standard pattern storage unit 7. The other structure is the same as that of the speech recognition device 1 described above.
【0022】このような構成において、この音声認識装
置6は、前述の音声認識装置1と略同様にして音声パタ
ーンの部分パターンと標準パターンとのパターン間距離
を算定する。つまり、フレーム数xの部分パターンa
i+1,ai+2…ai+xと特徴ベクトルがbの標準パターン
yとのパターン間距離Distを、In such a configuration, the speech recognition device 6 calculates the inter-pattern distance between the partial pattern of the speech pattern and the standard pattern in substantially the same manner as the speech recognition device 1 described above. That is, a partial pattern a of the number of frames x
i + 1 , a i + 2 ... a i + x and the inter-pattern distance Dist between the standard pattern y with the feature vector b,
【数5】 として算定する。この時、上記数式の右辺第一項はスペ
クトラムに関するユークリッド距離であり、右辺第二項
は部分パターンの継続時間である。つまり、この継続時
間Dはxフレームと標準パターンの継続時間yとの距離
で、標準パターンの二つの重み係数w1,w2により、
(x≧y)の場合はD=w1(x−y)2となり、(x<y)の
場合はD=w2(x−y)2となる。(Equation 5) Calculated as At this time, the first term on the right side of the above equation is the Euclidean distance related to the spectrum, and the second term on the right side is the duration of the partial pattern. That is, the duration D is the distance between the x frame and the duration y of the standard pattern, and is obtained by two weighting factors w 1 and w 2 of the standard pattern.
In the case of (x ≧ y), D = w 1 (xy) 2 , and in the case of (x <y), D = w 2 (xy) 2 .
【0023】ここで、この音声認識装置6では、例え
ば、音声パターンの部分パターンxの音素の種別が既知
の場合、この音素kの標準パターンyが照合部8により
標準パターン格納部7から読出されて距離Dが再度算定
される。つぎに、この距離Dが閾値D0と比較され、D
>D0の場合は標準パターンの二つの重み係数w1,w2
の所定の一方から更新定数w0が減算され、D<D0の場
合は標準パターンの二つの重み係数w1,w2の所定の一
方に更新定数w0が加算される。このようにすること
で、各音素毎に音声パターンの伸長に対する制限が低減
されるので、標準パターンと音声パターンとのパターン
間距離が短縮されることになる。従って、この音声認識
装置6では、上述のような動作が繰返されることで、標
準パターンの重み係数wが順次適切な値に更新されるの
で、音声認識の精度が向上することになる。Here, in the voice recognition device 6, for example, when the type of the phoneme of the partial pattern x of the voice pattern is known, the standard pattern y of the phoneme k is read from the standard pattern storage unit 7 by the collating unit 8. The distance D is calculated again. Next, this distance D is compared with a threshold value D 0, and D
> D 0 , two weighting factors w 1 and w 2 of the standard pattern
The update constant w 0 is subtracted from one of the predetermined constants, and if D <D 0 , the update constant w 0 is added to one of the two weight coefficients w 1 and w 2 of the standard pattern. By doing so, the restriction on the expansion of the voice pattern is reduced for each phoneme, so that the distance between the standard pattern and the voice pattern is reduced. Therefore, in the voice recognition device 6, the above-described operation is repeated, so that the weight coefficient w of the standard pattern is sequentially updated to an appropriate value, so that the accuracy of voice recognition is improved.
【0024】請求項3及び6記載の発明の実施例を図5
ないし図7に基づいて説明する。まず、この音声認識装
置10では、部分パターンの音素の種別に従って算定さ
れたパターン間距離より小さいパターン間距離が算定さ
れる音素を検出する音素検出手段がCPU等からなる照
合部11にファームウェアなどで形成されており、この
照合部11には標準パターンの重み係数と継続時間とを
更新するパターン更新手段である標準パターン更新部1
2が接続されている。なお、この他の構造は前述の音声
認識装置6と同様になっている。FIG. 5 shows an embodiment according to the third and sixth aspects of the present invention.
7 will be described with reference to FIG. First, in the speech recognition apparatus 10, a phoneme detecting means for detecting a phoneme whose inter-pattern distance is calculated smaller than the inter-pattern distance calculated according to the phoneme type of the partial pattern is stored in a matching unit 11 including a CPU or the like by firmware or the like. The matching unit 11 includes a standard pattern updating unit 1 that is a pattern updating unit that updates a weight coefficient and a duration of the standard pattern.
2 are connected. The other structure is the same as that of the speech recognition device 6 described above.
【0025】このような構成において、この音声認識装
置10は、前述の音声認識装置6と同様にして音声パタ
ーンの部分パターンと標準パターンとのパターン間距離
を算定する。つまり、個数Jのj番目の音素に対して特
徴ベクトルがbjで継続時間がyjで重み係数がwj1,w
j2の標準パターンyと、フレーム数xの部分パターンa
i+1,ai+2…ai+xとのパターン間距離Distを、In such a configuration, the speech recognition apparatus 10 calculates the inter-pattern distance between the partial pattern of the speech pattern and the standard pattern in the same manner as the speech recognition apparatus 6 described above. That is, for the j-th phoneme of the number J, the feature vector is b j , the duration is y j , and the weighting factors are w j1 and w j.
Standard pattern y of j2 and partial pattern a of the number of frames x
i + 1 , a i + 2 ... the distance Dist between patterns with a i + x
【数6】 として算定する。この時、上記数式の右辺第一項は特徴
ベクトルに関するユークリッド距離であり、右辺第二項
は部分パターンの継続時間である。つまり、この継続時
間Dはxフレームと標準パターンの継続時間yとの距離
で、標準パターンの二つの重み係数wj1,wj2により、
(x≧yj)の場合はD=wj1(x−yj)2となり、(x<y
j)の場合はD=wj2(x−yj)2となる。(Equation 6) Calculated as At this time, the first term on the right side of the above equation is the Euclidean distance related to the feature vector, and the second term on the right side is the duration of the partial pattern. That is, the duration D is the distance between the x frame and the duration y of the standard pattern, and is calculated by two weighting factors w j1 and w j2 of the standard pattern.
In the case of (x ≧ y j ), D = w j1 (x−y j ) 2 , and (x <y
In the case of j ), D = w j2 (x−y j ) 2 .
【0026】ここで、この音声認識装置10では、例え
ば、音声パターンの部分パターンが音素kであることが
既知である場合、重み係数を更新すべき他の音素mの存
在が検索される。この場合の更新条件としては、D
(x,ym)<D(x,yk)となる音素mの集合の全要素
や、D(x,ym)<D(x,yk)かつDist(m)<Dist
(k)となる音素mの集合の全要素などとすることが可能
であり、これらの条件に対してD(x,y m )を小さいも
のからM個とすると云う条件を付与することも可能であ
る。このようにして更新する音素m1,m2…mMが検出
されると、図7に例示するように、標準パターンYkの
継続時間ykが、yk=yk+α(x−yk)として更新され
(αは正の定数)、標準パターンYkの二つの重み係数wk
1,wk2も、各々wk1=wk1−a,wk2=wk2−b(a,
bは正の定数)として更新される。同様にm=m1,m2
…mMに対しても、各重み係数wm1,wm2が各々wm1=
wm1+c,wm2=wm2+d(c,dは正の定数)として更
新される。Here, in the voice recognition device 10, for example, when it is known that the partial pattern of the voice pattern is the phoneme k, the presence of another phoneme m whose weighting coefficient should be updated is searched. The update condition in this case is D
(x, y m) <D (x, y k) and all elements of the set of become phonemes m, D (x, y m ) <D (x, y k) and Dist (m) <Dist
it is possible to like all elements of the set of phonemes m as a (k), D (x, y m) is also possible to impart a condition referred to as M pieces from smaller ones to these conditions It is. When the phonemes m 1 , m 2 ... M M to be updated are detected in this way, the duration yk of the standard pattern Yk is updated as yk = yk + α (x−yk) as illustrated in FIG.
(α is a positive constant), two weighting factors wk of the standard pattern Yk
1 and wk 2 are also wk 1 = wk 1 -a and wk 2 = wk 2 -b (a,
b is a positive constant). Similarly, m = m 1 , m 2
... even for m M, each weight factor wm 1, wm 2 are each wm 1 =
wm 1 + c, wm 2 = wm 2 + d (c and d are positive constants) are updated.
【0027】このようにすることで、図6に例示するよ
うに、音声パターンと音素kが同一の標準パターンYk
に対しては、継続時間ykと重み係数wk1,wk2とが更
新されてパターン間距離D(x,yk)が短縮され、カテ
ゴリーが異なる音素mであるにも関わらずパターン間距
離D(x,ym)が小さい標準パターンYmに対しては、重
み係数wm1,wm2が更新されてパターン間距離D(x,
ym)が拡大されることになる。従って、この音声認識装
置10では、上述のような動作が繰返されることで、各
標準パターンが各々適切な内容に更新されるので、より
音声認識の精度が向上することになる。By doing so, as shown in FIG. 6, the voice pattern and the phoneme k have the same standard pattern Yk.
, The duration yk and the weighting factors wk 1 and wk 2 are updated to shorten the inter-pattern distance D (x, yk), and the inter-pattern distance D ( x, with respect to the standard pattern Ym ym) is small, the weighting factor wm 1, between wm 2 is updated pattern distance D (x,
ym) will be enlarged. Therefore, in the voice recognition device 10, the above-described operation is repeated, so that each standard pattern is updated to an appropriate content, so that the accuracy of voice recognition is further improved.
【0028】[0028]
【発明の効果】請求項1及び4記載の発明は、入力され
る音声信号を音声変換手段が特徴ベクトルの時系列であ
る音声パターンに変換し、各種の音声パターンの部分パ
ターンに対応する標準パターンを少なくとも継続時間と
継続時間に対する複数の重み係数とで予めパターン記憶
手段に設定し、音声パターンの部分パターンの継続時間
を時間検出手段が検出し、この検出された部分パターン
の継続時間と標準パターンの継続時間とを時間比較手段
が比較し、この比較結果に従って標準パターンの重み係
数から所定の一つを係数選出手段が選出し、この選出さ
れた重み係数に従って部分パターンと標準パターンとの
類似度に相当するパターン間距離を類似度算定手段が算
定し、この算定結果に基づいて音声信号の音韻を認識手
段が認識するようにしたことにより、標準パターンの継
続時間に対する音声パターンの部分パターンの継続時間
の大小に従って演算処理には複数の重み係数の一つが選
択的に利用されるので、語尾の母音のように継続時間の
分布が不均一な音韻でも良好に認識することができ、高
性能な音声認識を簡易に実現することができる等の効果
を有するものである。According to the first and fourth aspects of the present invention, the input voice signal is converted into a voice pattern which is a time series of a feature vector by a voice conversion means, and a standard pattern corresponding to a partial pattern of various voice patterns is provided. Is set in the pattern storage means in advance with at least the duration and a plurality of weighting factors for the duration, the duration of the partial pattern of the voice pattern is detected by the time detection means, and the duration of the detected partial pattern and the standard pattern are detected. Time comparing means, and the coefficient selecting means selects a predetermined one from the weighting coefficients of the standard pattern according to the comparison result, and the similarity between the partial pattern and the standard pattern according to the selected weighting coefficient. Is calculated by the similarity calculating means, and the recognition means recognizes the phoneme of the voice signal based on the calculation result. As a result, one of a plurality of weighting factors is selectively used in the arithmetic processing according to the magnitude of the duration of the partial pattern of the voice pattern with respect to the duration of the standard pattern, so that the distribution of the duration like the vowel at the end Has an effect that even a non-uniform phoneme can be recognized well, and high-performance speech recognition can be easily realized.
【0029】請求項2及び5記載の発明は、標準パター
ンを各種の音素毎にパターン記憶手段に予め設定し、こ
のパターン記憶手段に記憶された標準パターンと音声変
換手段が変換した音声パターンの部分パターンとのパタ
ーン間距離を類似度算定手段が音素の種別に従って算定
し、この算定されたパターン間距離と予め設定された閾
値とを距離比較手段が比較し、この比較結果に従って標
準パターンの重み係数を係数更新手段が更新するように
したことにより、音声パターンと音素が同一の標準パタ
ーンに対しては重み係数の更新でパターン間距離が短縮
されるので、音声認識の動作を繰返す毎に音声認識の精
度が向上する音声認識装置を得ることができる等の効果
を有するものである。According to the second and fifth aspects of the present invention, the standard pattern is preset in the pattern storage means for each phoneme, and the standard pattern stored in the pattern storage means and the part of the voice pattern converted by the voice conversion means are stored. The similarity calculation means calculates the distance between the patterns and the pattern according to the type of phoneme, and the distance comparison means compares the calculated distance between the patterns with a preset threshold value. Is updated by the coefficient updating means, the distance between the patterns is shortened by updating the weighting factor for the standard pattern having the same speech pattern and phoneme, so that the speech recognition operation is repeated every time the speech recognition operation is repeated. This has the effect that a voice recognition device with improved accuracy can be obtained.
【0030】請求項3及び6記載の発明は、音声パター
ンの部分パターンの音素の種別に従って類似度算定手段
が算定したパターン間距離に比して小さいパターン間距
離が算定される音素を音素検出手段が検出し、この検出
された音素の標準パターンの重み係数と継続時間とをパ
ターン更新手段が更新するようにしたことにより、音声
パターンと音素が同一の標準パターンに対しては重み係
数の更新でパターン間距離が短縮され、かつ、音素が異
なるにも関わらずパターン間距離が小さい標準パターン
に対しては重み係数の更新でパターン間距離が拡大され
るので、音声認識の動作を繰返す毎に極めて音声認識の
精度が向上する音声認識装置を得ることができる等の効
果を有するものである。According to the third and sixth aspects of the present invention, the phoneme for which the inter-pattern distance smaller than the inter-pattern distance calculated by the similarity calculating means in accordance with the type of the phoneme of the partial pattern of the voice pattern is calculated. And the pattern updating means updates the weighting factor and the duration of the detected standard pattern of the phoneme, so that the weighting factor can be updated for the standard pattern having the same voice pattern and phoneme. Since the inter-pattern distance is shortened and the inter-pattern distance is increased by updating the weighting factor for a standard pattern having a small inter-pattern distance despite different phonemes, the repetition of the speech recognition operation becomes extremely large every time the speech recognition operation is repeated. This has effects such as that a speech recognition device with improved speech recognition accuracy can be obtained.
【図1】請求項1及び4記載の発明の実施例を示すブロ
ック図である。FIG. 1 is a block diagram showing an embodiment of the invention described in claims 1 and 4;
【図2】フローチャートである。FIG. 2 is a flowchart.
【図3】フローチャートである。FIG. 3 is a flowchart.
【図4】請求項2及び5記載の発明の実施例を示すブロ
ック図である。FIG. 4 is a block diagram showing an embodiment of the invention described in claims 2 and 5;
【図5】請求項3及び6記載の発明の実施例を示すブロ
ック図である。FIG. 5 is a block diagram showing an embodiment of the invention according to claims 3 and 6;
【図6】特性図である。FIG. 6 is a characteristic diagram.
【図7】フローチャートである。FIG. 7 is a flowchart.
【図8】従来例を示す特性図である。FIG. 8 is a characteristic diagram showing a conventional example.
1,6,10 音声認識装置 2 音声変換手段 4,7 パターン記憶手段 5 時間検出手段かつ時間比較手段かつ係数
選出手段かつ類似度算定手段 8 時間検出手段かつ時間比較手段かつ係数
選出手段かつ類似度算定手段かつ距離比較手段 9 係数更新手段 11 時間検出手段かつ時間比較手段かつ係数
選出手段かつ類似度算定手段かつ距離比較手段かつ音素
検出手段 12 係数更新手段かつパターン更新手段1, 6, 10 voice recognition device 2 voice conversion means 4, 7 pattern storage means 5 time detection means, time comparison means, coefficient selection means, and similarity calculation means 8 time detection means, time comparison means, coefficient selection means, and similarity Calculating means and distance comparing means 9 coefficient updating means 11 time detecting means and time comparing means and coefficient selecting means and similarity calculating means and distance comparing means and phoneme detecting means 12 coefficient updating means and pattern updating means
フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 15/10 JICSTファイル(JOIS)Continuation of the front page (58) Field surveyed (Int.Cl. 7 , DB name) G10L 15/10 JICST file (JOIS)
Claims (6)
徴ベクトルの時系列である音声パターンに変換し、各種
の音声パターンの部分パターンに対応する標準パターン
を少なくとも継続時間と前記継続時間に対する複数の重
み係数とで予めパターン記憶手段に設定し、前記音声パ
ターンの部分パターンの継続時間を時間検出手段が検出
し、この検出された部分パターンの継続時間と前記標準
パターンの継続時間とを時間比較手段が比較し、この比
較結果の正負に従って前記標準パターンの重み係数から
所定の一つを係数選出手段が選出し、この選出された重
み係数を前記部分パターンと前記標準パターンとの差の
二乗に乗算したものである前記部分パターンと前記標準
パターンとの類似度に相当するパターン間距離を類似度
算定手段が算定し、この算定結果に基づいて前記音声信
号の音韻を認識手段が認識するようにしたことを特徴と
する音声認識方法。1. An audio signal input means converts an input audio signal into an audio pattern which is a time series of a feature vector, and converts a standard pattern corresponding to a partial pattern of various audio patterns into at least a duration and a plurality of patterns corresponding to the duration. Is set in advance in the pattern storage means with the weight coefficient of the above, the duration of the partial pattern of the voice pattern is detected by the time detection means, and the duration of the detected partial pattern is compared with the duration of the standard pattern. Means for comparing, the coefficient selecting means selects a predetermined one from the weighting coefficients of the standard pattern in accordance with the positive or negative of the comparison result , and determines the selected weighting coefficient as the difference between the partial pattern and the standard pattern.
The similarity calculating means calculates the inter-pattern distance corresponding to the similarity between the partial pattern multiplied by the square and the standard pattern, and the recognition means recognizes the phoneme of the voice signal based on the calculation result. A speech recognition method characterized by doing so.
徴ベクトルの時系列である音声パターンに変換し、各種
の音声パターンの部分パターンに対応する標準パターン
を少なくとも継続時間と前記継続時間に対する複数の重
み係数とで各種の音素毎に予めパターン記憶手段に設定
し、前記音声パターンの部分パターンの継続時間を時間
検出手段が検出し、この検出された部分パターンの継続
時間と前記標準パターンの継続時間とを時間比較手段が
比較し、この比較結果に従って前記標準パターンの重み
係数から所定の一つを係数選出手段が選出し、この選出
された重み係数に従って前記部分パターンと前記標準パ
ターンとの類似度に相当するパターン間距離を類似度算
定手段が音素の種別に従って算定し、この算定結果に基
づいて前記音声信号の音韻を認識手段が認識するように
し、また、算定されたパターン間距離と予め設定された
閾値とを距離比較手段が比較し、この比較結果に従って
前記標準パターンの重み係数を係数更新手段が更新する
ようにしたことを特徴とする音声認識方法。2. An audio conversion means for inputting an audio signal.
Is converted into a voice pattern that is a time series of
Standard pattern corresponding to partial pattern of voice pattern
At least the duration and multiple weights for said duration
Preset in the pattern storage means for each type of phoneme with the only coefficients
And the duration of the partial pattern of the voice pattern is
The detecting means detects the continuation of the detected partial pattern.
The time comparison means compares the time with the duration of the standard pattern.
And comparing the weight of the standard pattern according to the comparison result.
The coefficient selection means selects a predetermined one from the coefficients, and this selection
The partial pattern and the standard pattern are
Calculate similarity distance between patterns corresponding to similarity with turn
Is calculated according to the type of phoneme, and based on the calculation result.
The recognition means recognizes the phoneme of the voice signal
The calculated distance between patterns is compared with a preset threshold value by a distance comparing means, and the coefficient updating means updates the weight coefficient of the standard pattern according to the comparison result. Ruoto voice recognition method.
別に従って類似度算定手段が算定したパターン間距離に
比して小さいパターン間距離が算定される音素を音素検
出手段が検出し、この検出された音素の標準パターンの
少なくとも重み係数をパターン更新手段が更新するよう
にしたことを特徴とする請求項2記載の音声認識方法。3. The phoneme detecting means detects a phoneme whose inter-pattern distance is calculated to be smaller than the inter-pattern distance calculated by the similarity calculating means in accordance with the type of phoneme of the partial pattern of the voice pattern. 3. The speech recognition method according to claim 2, wherein the pattern updating means updates at least a weight coefficient of the standard pattern of phonemes.
系列である音声パターンに変換する音声変換手段を設
け、各種の音声パターンの部分パターンに対応する標準
パターンが少なくとも継続時間と前記継続時間に対する
複数の重み係数とで設定されたパターン記憶手段を設
け、前記音声変換手段が変換した音声パターンの部分パ
ターンの継続時間を検出する時間検出手段を設け、この
時間検出手段が検出した部分パターンの継続時間と前記
パターン記憶手段に記憶された標準パターンの継続時間
とを比較する時間比較手段を設け、この時間比較手段の
比較結果の正負に従って前記標準パターンの重み係数か
ら所定の一つを選出する係数選出手段を設け、この係数
選出手段が選出した重み係数を前記部分パターンと前記
標準パターンとの差の二乗に乗算したものである前記部
分パターンと前記標準パターンとの類似度に相当するパ
ターン間距離を算定する類似度算定手段を設け、この類
似度算定手段の算定結果に基づいて前記音声信号の音韻
を認識する認識手段を設けたことを特徴とする音声認識
装置。4. A voice conversion means for converting an input voice signal into a voice pattern which is a time series of feature vectors, wherein a standard pattern corresponding to a partial pattern of various voice patterns has at least a duration and a duration corresponding to the duration. Pattern storage means set with a plurality of weighting factors; time detection means for detecting the duration of the partial pattern of the voice pattern converted by the voice conversion means; and continuation of the partial pattern detected by the time detection means. A time comparing means for comparing the time with the duration of the standard pattern stored in the pattern storing means, and a coefficient for selecting a predetermined one from the weighting coefficients of the standard pattern according to the sign of the comparison result of the time comparing means Selecting means, the weighting coefficient selected by the coefficient selecting means is used as the partial pattern and
A similarity calculating means for calculating a pattern-to-pattern distance corresponding to the similarity between the partial pattern and the standard pattern, which is obtained by multiplying the square of the difference between the standard pattern and the standard pattern , based on the calculation result of the similarity calculating means And a recognition unit for recognizing a phoneme of the voice signal.
系列である音声パターンに変換する音声変換手段を設
け、各種の音声パターンの部分パターンに対応する標準
パターンが少なくとも継続時間と前記継続時間に対する
複数の重み係数とで各種の音素毎に設定されたパターン
記憶手段を設け、前記音声変換手段が変換した音声パタ
ーンの部分パターンの継続時間を検出する時間検出手段
を設け、この時間検出手段が検出した部分パターンの継
続時間と前記パターン記憶手段に記憶された標準パター
ンの継続時間とを比較する時間比較手段を設け、この時
間比較手段の比較結果に従って前記標準パターンの重み
係数から所定の一つを選出する係数選出手段を設け、こ
の係数選出手段が選出した重み係数に従って前記部分パ
ターンと前記標準パターンとの類似度に相当するパター
ン間距離を音素の種別に従って算定する類似度算定手段
を設け、この類似度算定手段の算定結果に基づいて前記
音声信号の音韻を認識する認識手段を設け、算定された
パターン間距離と予め設定された閾値とを比較する距離
比較手段を設け、この比較結果に従って前記標準パター
ンの重み係数を更新する係数更新手段を設けたことを特
徴とする音声認識装置。5. When an input audio signal is a feature vector
A voice conversion means for converting to a voice pattern
Standard for various patterns of audio patterns
The pattern is at least for the duration and the duration
Pattern set for each phoneme with multiple weighting factors
Storage means, and a voice pattern converted by the voice conversion means.
Detection means for detecting the duration of a partial pattern of a pattern
And a pattern of the partial pattern detected by the time detecting means.
Duration and standard pattern stored in the pattern storage means
Time comparison means to compare the duration of the
Weight of the standard pattern according to the comparison result of the inter-comparison means.
A coefficient selection means for selecting a predetermined one from coefficients is provided.
The partial parameters according to the weighting factors selected by the coefficient selecting means of
Putter equivalent to the similarity between the turn and the standard pattern
Similarity calculation means that calculates the distance between phonemes according to the type of phoneme
And based on the calculation result of the similarity calculation means,
A recognizing means for recognizing a phoneme of a voice signal; a distance comparing means for comparing a calculated inter-pattern distance with a preset threshold; a coefficient updating means for updating a weight coefficient of the standard pattern according to the comparison result the characteristics and to Ruoto voice recognition device that is provided.
別に従って類似度算定手段が算定したパターン間距離に
比して小さいパターン間距離が算定される音素を検出す
る音素検出手段を設け、この音素検出手段が検出した音
素の標準パターンの少なくとも重み係数を更新するパタ
ーン更新手段を設けたことを特徴とする請求項5記載の
音声認識装置。6. A phoneme detecting means for detecting a phoneme whose inter-pattern distance smaller than the inter-pattern distance calculated by the similarity calculating means according to the phoneme type of the partial pattern of the voice pattern is provided. 6. A speech recognition apparatus according to claim 5, further comprising a pattern updating means for updating at least a weight coefficient of a standard pattern of phonemes detected by said means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP02413766A JP3083855B2 (en) | 1990-12-25 | 1990-12-25 | Voice recognition method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP02413766A JP3083855B2 (en) | 1990-12-25 | 1990-12-25 | Voice recognition method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04223499A JPH04223499A (en) | 1992-08-13 |
JP3083855B2 true JP3083855B2 (en) | 2000-09-04 |
Family
ID=18522338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP02413766A Expired - Fee Related JP3083855B2 (en) | 1990-12-25 | 1990-12-25 | Voice recognition method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3083855B2 (en) |
-
1990
- 1990-12-25 JP JP02413766A patent/JP3083855B2/en not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
電子情報通信学会技術研究報告[音声]Vol.87,No.299,SP87−99,p.13〜18(昭和62年12月) |
Also Published As
Publication number | Publication date |
---|---|
JPH04223499A (en) | 1992-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3114975B2 (en) | Speech recognition circuit using phoneme estimation | |
US6278970B1 (en) | Speech transformation using log energy and orthogonal matrix | |
US5018201A (en) | Speech recognition dividing words into two portions for preliminary selection | |
US4914703A (en) | Method for deriving acoustic models for use in speech recognition | |
US5903863A (en) | Method of partitioning a sequence of data frames | |
EP0686965A2 (en) | Speech recognition apparatus with speaker adaptation using acoustic category mean value calculus | |
EP0411290A2 (en) | Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns | |
US4937871A (en) | Speech recognition device | |
JP3130524B2 (en) | Speech signal recognition method and apparatus for implementing the method | |
US5832181A (en) | Speech-recognition system utilizing neural networks and method of using same | |
CN111785302A (en) | Speaker separation method and device and electronic equipment | |
US5159637A (en) | Speech word recognizing apparatus using information indicative of the relative significance of speech features | |
JP3083855B2 (en) | Voice recognition method and apparatus | |
JPH0792989A (en) | Speech recognizing method | |
JP2817429B2 (en) | Voice recognition device | |
JP3100180B2 (en) | Voice recognition method | |
JP2989231B2 (en) | Voice recognition device | |
JP2577891B2 (en) | Word voice preliminary selection device | |
JPH0247758B2 (en) | ||
JP2000137495A (en) | Device and method for speech recognition | |
JP3009962B2 (en) | Voice recognition device | |
JPH0311479B2 (en) | ||
JPH0311478B2 (en) | ||
JPH0341839B2 (en) | ||
Cheng et al. | A simple tone classifier for Cantonese recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |