JP3129164B2 - Voice recognition method - Google Patents

Voice recognition method

Info

Publication number
JP3129164B2
JP3129164B2 JP07226173A JP22617395A JP3129164B2 JP 3129164 B2 JP3129164 B2 JP 3129164B2 JP 07226173 A JP07226173 A JP 07226173A JP 22617395 A JP22617395 A JP 22617395A JP 3129164 B2 JP3129164 B2 JP 3129164B2
Authority
JP
Japan
Prior art keywords
speech
frame
word
standard pattern
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP07226173A
Other languages
Japanese (ja)
Other versions
JPH0968995A (en
Inventor
麻紀 山田
昌克 星見
知浩 小沼
勝行 二矢田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP07226173A priority Critical patent/JP3129164B2/en
Publication of JPH0968995A publication Critical patent/JPH0968995A/en
Application granted granted Critical
Publication of JP3129164B2 publication Critical patent/JP3129164B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は人間の声を機械に認識さ
せる音声認識方法に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for recognizing a human voice by a machine.

【0002】[0002]

【従来の技術】近年、使用者の声を登録することなし
に、誰の声でも認識できる不特定話者用の音声認識装置
が実用として使われるようになった。不特定話者用の実
用的な方法として、特許(特開昭61−188599号
公報)を従来例として説明する。
2. Description of the Related Art In recent years, a speech recognition apparatus for an unspecified speaker capable of recognizing anyone's voice without registering a user's voice has come into practical use. As a practical method for an unspecified speaker, a patent (JP-A-61-188599) will be described as a conventional example.

【0003】従来例の方法は入力音声の始端、終端を求
めて音声区間を決定し、音声区間を一定時間長に(Jフ
レーム)に線形伸縮し、これと単語標準パターンとの類
似度を統計的距離尺度を用いてパターンマッチングをす
ることによって求め、単語を認識する方法である。
[0003] In the conventional method, a speech section is determined by finding the start and end of an input speech, and the speech section is linearly expanded and contracted by a predetermined time length (J frame), and the similarity between the speech section and a word standard pattern is statistically determined. This is a method of recognizing words obtained by performing pattern matching using a target distance scale.

【0004】以下、従来例について図7、図8を用いて
詳細に説明する。図7は従来例の音声認識方法の処理の
流れを示すフローチャートである。図7において1は音
響分析部、2は特徴パラメータ抽出部、3は音声区間検
出部、10は時間軸線形正規化部、4は標準パターン格
納部、11は距離計算部、6は距離比較部である。
Hereinafter, a conventional example will be described in detail with reference to FIGS. FIG. 7 is a flowchart showing the flow of processing of the conventional speech recognition method. In FIG. 7, 1 is an acoustic analysis unit, 2 is a feature parameter extraction unit, 3 is a voice section detection unit, 10 is a time axis linear normalization unit, 4 is a standard pattern storage unit, 11 is a distance calculation unit, and 6 is a distance comparison unit. It is.

【0005】図7において、入力音声が入力されると音
響分析部1で分析時間(フレームと呼ぶ、本従来例では
1フレーム=10ms)ごとに線形予測(LPC)分析を行
なう。次に、特徴パラメータ抽出部2でP個の特徴パラ
メータをフレームごとに求める。特徴パラメータは、L
PCメルケプストラム係数(本例ではC1〜C9まで9
個)、正規化残差C0、および音声対数パワーの時間差分
値V0を用いる。次に音声区間検出部3で入力音声の始端
フレーム、終端フレームを検出する。音声区間の検出は
音声パワーを用いる方法が一番簡単であるがどのような
方法を用いてもよい。検出された音声区間に対して、入
力音声の特徴パラメータ時系列を時間軸線形正規化部1
0でJフレームに線形伸縮する。これを概念的に示した
のが図8である。通常、計算量および標準パターンの推
定パラメータ数削減のため、Jは実際の単語のフレーム
数よりも小さく取る。これは単語の音声区間全体につい
て等間隔にフレームを間引くことに相当する。検出され
た入力音声区間の始端フレームを1フレーム目、終端フ
レームをIフレーム目とすると、伸縮後の第jフレーム
と入力音声の第iフレームの関係は
In FIG. 7, when an input voice is input, the acoustic analysis unit 1 performs a linear prediction (LPC) analysis every analysis time (called a frame, 1 frame = 10 ms in the conventional example). Next, the feature parameter extracting unit 2 obtains P feature parameters for each frame. The characteristic parameter is L
PC mel cepstrum coefficient (9 in this example from C1 to C9)
), The normalized residual C0, and the time difference value V0 of the logarithmic power of the voice. Next, the voice section detector 3 detects the start frame and the end frame of the input voice. The method using voice power is the simplest method for detecting a voice section, but any method may be used. For the detected speech section, a time-series linear normalization unit 1 converts the feature parameter time series of the input speech.
At 0, linearly expands and contracts to the J frame. FIG. 8 conceptually illustrates this. Normally, J is set smaller than the actual number of frames of a word in order to reduce the amount of calculation and the number of estimated parameters of the standard pattern. This corresponds to thinning out frames at equal intervals over the entire speech section of a word. Assuming that the start frame of the detected input voice section is the first frame and the end frame is the I frame, the relationship between the j-th frame after expansion and contraction and the i-th frame of the input voice is

【0006】[0006]

【数1】 (Equation 1)

【0007】となる。ただし、[]はその数を越えない
最大の整数を表す。伸縮後のJフレーム分の特徴パラメ
ータを時系列に並べ入力時系列パターンXを作成する。
[0007] Here, [] represents the largest integer not exceeding the number. The feature parameters for the J frames after expansion and contraction are arranged in time series to create an input time series pattern X.

【0008】[0008]

【数2】 (Equation 2)

【0009】この入力時系列パターンXと標準パターン
格納部4に格納されている認識対象語彙の各々の標準パ
ターンとの距離を距離計算部11で求める。標準パター
ンの作成方法および距離の求めかたについては後述す
る。最後に距離比較部6で、距離計算部11で求めた各
々の標準パターンとの距離の中で最小(類似度が最大)
の値をもつ標準パターンに対応する音声名を認識結果と
して選択し、出力する。
The distance between the input time-series pattern X and each standard pattern of the vocabulary to be recognized stored in the standard pattern storage unit 4 is determined by the distance calculation unit 11. A method of creating the standard pattern and a method of obtaining the distance will be described later. Finally, the distance comparing unit 6 has the smallest distance (similarity is maximum) among the distances from the respective standard patterns obtained by the distance calculating unit 11.
Is selected as a recognition result and output.

【0010】以下に、単語標準パターンの作成方法、お
よび入力時系列パターンと単語標準パターンとの距離計
算の方法について述べる。
Hereinafter, a method of creating a word standard pattern and a method of calculating a distance between an input time-series pattern and a word standard pattern will be described.

【0011】ある単語ωnの標準パターンは次のような
手順で作成する。 (1)多数の人(ここでは100名)が単語ωnを発声したM個
の学習用音声データを用意する。 (2)各データを(数1)を用いて線形に伸縮を行ないJ
フレームに正規化する。(3)第m番目の発声データに対し
て伸縮後の特徴パラメータを時系列に並べ、時系列パタ
ーンCmを求める。(m=1,...,M) (4)M個の時系列パターンCm(m=1,...,M)を用いてその統
計量(平均値、共分散)を求めることにより標準パター
ンを作成する。
The standard pattern of a certain word ωn is created by the following procedure. (1) Prepare M learning speech data in which many people (here, 100 people) uttered the word ωn. (2) Each data is linearly expanded and contracted using (Equation 1) and J
Normalize to frame. (3) The feature parameters after expansion and contraction are arranged in time series with respect to the m-th utterance data, and a time series pattern Cm is obtained. (m = 1, ..., M) (4) By using M time-series patterns Cm (m = 1, ..., M) to obtain their statistics (mean, covariance), Create a pattern.

【0012】これをN個の認識対象語彙それぞれに対し
て求めておく。第m番目の発声データに対して伸縮後の
特徴パラメータを時系列に並べた時系列パターンCmは
次のように表される。
This is obtained for each of the N words to be recognized. A time-series pattern Cm in which characteristic parameters after expansion and contraction are arranged in a time-series with respect to the m-th utterance data is expressed as follows.

【0013】[0013]

【数3】 (Equation 3)

【0014】これをM個の学習用音声データについて求
める。時間パターンCmを一つのベクトルとして扱うこ
とにより、パラメータのフレーム間の相関を考慮するこ
とになる。M個のJ×P次元のベクトルCm(m=1,...,
M)からその平均値ベクトルμおよび共分散行列Wを求
める。以下、第n番目の単語ωnに対する平均値ベクトル
をμn、共分散行列をWnと表記する。
This is obtained for M learning speech data. By treating the time pattern Cm as one vector, the correlation between the parameter frames is taken into account. M J × P-dimensional vectors Cm (m = 1, ...,
From M), the average vector μ and the covariance matrix W are obtained. Hereinafter, the mean vector for the n-th word ωn is denoted by μn, and the covariance matrix is denoted by Wn.

【0015】入力時系列パターンXと単語標準パターン
との距離計算は、共分散行列を共通化したベイズ判定に
基づく距離を用いて計算する。
The distance between the input time-series pattern X and the word standard pattern is calculated using a distance based on Bayesian judgment using a common covariance matrix.

【0016】ベイズ判定に基づく距離は以下のようにし
て求める。(数2)で表される入力ベクトルXが観測さ
れたときにそれが単語ωnである確率P(ωn|X)はベイ
ズの定理より
The distance based on the Bayes judgment is obtained as follows. When the input vector X expressed by (Equation 2) is observed, the probability P (ωn | X) that it is the word ωn is obtained from Bayes' theorem.

【0017】[0017]

【数4】 (Equation 4)

【0018】となる。P(X|ωn)は事前確率で、入力
がカテゴリーωnであったときに入力ベクトルXが観測
される確率、P(X)は生起し得るすべての入力を考えた
場合のベクトルXが観測される確率である。単語ωnの
出現確率P(ωn)は各単語同じと仮定して定数とし、入
力Xが一定とするとP(X)が定数となるので、事前確率
P(X|ωn)を最大とするカテゴリーωnを判定結果とす
ればよい。
## EQU1 ## P (X | ωn) is the prior probability, the probability that the input vector X is observed when the input is the category ωn, and P (X) is the vector X when all possible inputs are considered. Probability. The appearance probability P (ωn) of the word ωn is assumed to be the same for each word and is assumed to be a constant. If the input X is assumed to be constant, P (X) becomes a constant. Therefore, the category ωn which maximizes the prior probability P (X | ωn) May be used as the determination result.

【0019】パラメータの分布を正規分布と考えると、
事前確率P(X|ωn)は(数5)で表される。
When the distribution of parameters is considered to be a normal distribution,
The prior probability P (X | ωn) is represented by (Equation 5).

【0020】[0020]

【数5】 (Equation 5)

【0021】ここでtは転置行列を表す。両辺の対数を
とって識別に不要な定数項を省略しさらに−2倍すると
次式を得る。
Here, t represents a transposed matrix. By taking the logarithm of both sides and omitting a constant term unnecessary for identification and further multiplying by -2, the following equation is obtained.

【0022】[0022]

【数6】 (Equation 6)

【0023】この式は単語ωnに対するベイズ判定に基
づく距離である。計算量および推定パラメータ数削減の
ため、共分散行列を共通化してこの式を線形一次判別式
に展開する。認識対象語彙の各々の標準パターンの共分
散行列Wnを共通化し、Wとする。Wは次式のようにし
て求める。
This equation is a distance based on Bayes judgment for the word ωn. In order to reduce the amount of calculation and the number of estimated parameters, the covariance matrix is shared and this equation is developed into a linear linear discriminant. The covariance matrix Wn of each standard pattern of the vocabulary to be recognized is shared and is set to W. W is obtained by the following equation.

【0024】[0024]

【数7】 (Equation 7)

【0025】したがってTherefore,

【0026】[0026]

【数8】 (Equation 8)

【0027】とおくことができる。これを(数6)に代
入し識別に不要な定数項を省略すると、
[0027] Substituting this into (Equation 6) and omitting the constant term unnecessary for identification,

【0028】[0028]

【数9】 (Equation 9)

【0029】となり、,

【0030】[0030]

【数10】 (Equation 10)

【0031】[0031]

【数11】 [Equation 11]

【0032】とおくことにより、By the way,

【0033】[0033]

【数12】 (Equation 12)

【0034】のような線形一次判別式になることがわか
る。このようにしてAn,Bnを認識対象語彙の各々に対
して求め、標準パターン格納部に格納しておく。距離計
算部では上式を用いて入力時系列パターンXと、単語ω
nの標準パターンとの距離Lnを求める。
It can be seen that the linear primary discriminant is as follows. In this way, An and Bn are obtained for each vocabulary to be recognized, and stored in the standard pattern storage unit. The distance calculation unit uses the above equation to calculate the input time-series pattern X and the word ω
The distance Ln between n and the standard pattern is obtained.

【0035】[0035]

【発明が解決しようとする課題】従来例の方法は、計算
量が少なく実用的な方法である。しかし従来の方法で
は、パラメータの推定精度の面から標準パターンのフレ
ーム数Jを大きくすることができず、音声区間全体につ
いて等間隔にフレームを間引いて認識することになる。
このため、子音のように継続長が短く詳細に照合を行な
う必要がある部分の情報が欠落してしまい、十分な音声
認識率が得られないという問題があった。一方、母音の
ように時間的に定常で継続長の長い部分の情報が冗長に
なってしまうという問題があった。
The conventional method is a practical method with a small amount of calculation. However, in the conventional method, the number J of frames of the standard pattern cannot be increased from the viewpoint of parameter estimation accuracy, and the entire voice section is recognized by thinning out frames at equal intervals.
For this reason, there is a problem that information of a portion such as a consonant, which has a short duration and needs to be compared in detail, is lost, and a sufficient speech recognition rate cannot be obtained. On the other hand, there is a problem that information in a portion that is temporally stationary and has a long continuous length like a vowel becomes redundant.

【0036】また、従来の方法は入力音声と標準パター
ンの照合の距離尺度として、音声全体を一つのベクトル
として一次判別関数で表される統計的距離尺度を用いて
いたため、少ない計算量で認識することができたが、近
年の計算機の急速な高速化にともない、計算量が増えて
も認識性能を向上させる必要性がでてきた。
Further, the conventional method uses a statistical distance scale represented by a linear discriminant function as a single vector for the entire voice as a distance scale for matching between the input voice and the standard pattern. However, with the rapid increase in the speed of computers in recent years, it has become necessary to improve the recognition performance even if the amount of calculations increases.

【0037】さらに、従来の方法は単語標準パターンを
作成するために、多数の人が発声した学習用音声データ
が必要となるため、認識対象語彙の変更が容易ではない
という問題があった。
Furthermore, the conventional method requires learning speech data uttered by a large number of people in order to create a word standard pattern, so that it is not easy to change the vocabulary to be recognized.

【0038】本発明は上記従来の課題を解決するもの
で、その第一の目的は従来例よりも認識率を向上させる
音声認識方法を提供することである。
The present invention solves the above-mentioned conventional problems, and the first object of the present invention is to provide a speech recognition method that improves the recognition rate as compared with the conventional example.

【0039】第二の目的は、識別性能の高い距離尺度を
用いて、さらに認識率を向上させる音声認識方法を提供
することである。
A second object is to provide a speech recognition method that further improves the recognition rate by using a distance scale having high discrimination performance.

【0040】第三の目的は、日本語のかな文字表記から
単語標準パターンを作成することができる、認識対象語
彙の変更が容易で高精度な音声認識方法を提供すること
である。
A third object of the present invention is to provide a high-accuracy speech recognition method capable of easily changing a vocabulary to be recognized, capable of creating a word standard pattern from Japanese kana character notation.

【0041】[0041]

【課題を解決するための手段】本発明では第一に、以下
の手段によって上記課題を解決した。
Means for Solving the Problems First, the present invention has solved the above-mentioned problems by the following means.

【0042】単語音声中の子音部は基準フレームを中心
にフレームを連続にとって標準パターンを作成し、母音
部はフレームを線形に伸縮して標準パターンを作成す
る。認識の際には子音部はフレームを連続に照合し、母
音部はフレームを伸縮させて照合を行なう。このような
フレームの取り方をすることにより音声認識性能を向上
させることができる。
The consonant part in the word voice creates a standard pattern by using a series of frames around the reference frame, and the vowel part creates a standard pattern by linearly expanding and contracting the frame. At the time of recognition, the consonant part performs collation of frames continuously, and the vowel part performs collation by expanding and contracting the frame. Speech recognition performance can be improved by taking such a frame.

【0043】計算量および標準パターンの推定パラメー
タ数を増大させないために、入力音声と標準パターンの
照合は、音声全体を一つのベクトルとしてフレーム間相
関を考慮した一次判別関数で表される統計的距離尺度を
用いる。または、計算量は2倍になるが、フレームを独
立に扱い、そのかわりに特徴パラメータの時間変化量で
ある動的特徴パラメータを併用し一次判別関数で表され
る統計的距離尺度を用いる。
In order not to increase the amount of calculation and the number of estimated parameters of the standard pattern, the collation between the input speech and the standard pattern is performed by using a statistical distance represented by a linear discriminant function considering the inter-frame correlation with the entire speech as one vector. Use a scale. Alternatively, although the amount of calculation is doubled, frames are treated independently, and instead, a statistical distance scale represented by a linear discriminant function using a dynamic feature parameter that is a time variation of a feature parameter is used.

【0044】本発明では第二に、以下の手段によって上
記課題を解決した。第一の手段における入力音声と標準
パターンの照合の距離尺度として二次判別関数で表され
る統計的距離尺度を用いる。ただし特徴パラメータの単
語全体の時系列パターンを一つのベクトルとして標準パ
ターンを作成しようとすると、共分散の推定のために膨
大な学習サンプルが必要となるため、時間パターンをフ
レーム毎に独立のベクトルとして扱う。二次判別関数で
表される統計的距離尺度を用いることによりさらに音声
認識性能を向上させることができる。特徴パラメータの
時間変化量である動的特徴パラメータを併用するとさら
に、音声認識性能を向上させることができる。
Secondly, the present invention has solved the above problem by the following means. A statistical distance scale represented by a quadratic discriminant function is used as a distance scale for matching the input voice with the standard pattern in the first means. However, when trying to create a standard pattern using the time-series pattern of the whole word of the feature parameter as one vector, a huge number of training samples are required for estimating the covariance, so the time pattern is set as an independent vector for each frame. deal with. By using a statistical distance measure represented by a quadratic discriminant function, the speech recognition performance can be further improved. When a dynamic feature parameter that is a time change amount of the feature parameter is used together, the speech recognition performance can be further improved.

【0045】本発明では第三に、以下の手段によって上
記課題を解決した。音節、CV(子音+母音)、VC
(母音+子音)、VCV(母音+子音+母音)、又はC
VC(子音+母音+子音)などの単位ごとに第一、第二
の手段と同様に標準パターンを作成しておき、これらを
接続して任意の単語標準パターンを作成し、第一、第二
の手段と同様に認識する。日本語のかな文字表記にした
がって単語標準パターンを作成することができるため、
認識対象語彙の変更を容易にすることができる。
Third, the present invention has solved the above problem by the following means. Syllable, CV (consonant + vowel), VC
(Vowel + consonant), VCV (vowel + consonant + vowel), or C
A standard pattern is created for each unit such as VC (consonant + vowel + consonant) in the same manner as the first and second means, and these are connected to create an arbitrary word standard pattern. Recognize in the same way as the means. Because it is possible to create word standard patterns according to Japanese kana character notation,
The vocabulary to be recognized can be easily changed.

【0046】[0046]

【作用】日本語は子音と母音によって構成される。一般
に、母音部はスペクトルの時間的変化が少なく定常的あ
り、その継続長は発声速度の相違によって伸縮しやすい
という特徴がある。一方、子音部はスペクトルの時間的
変化に音素を識別するための情報があり、その継続長は
比較的短く発声速度が異なっても伸縮しにくいという特
徴がある。
[Function] Japanese is composed of consonants and vowels. In general, the vowel part has a feature that the spectrum of the vowel part is stationary with little temporal change, and its continuation length easily expands and contracts due to a difference in utterance speed. On the other hand, the consonant part has information for identifying a phoneme in the temporal change of the spectrum, and has a feature that its continuation length is relatively short and does not easily expand or contract even if the utterance speed is different.

【0047】本発明は第一に、子音部は基準フレームを
中心にフレームを連続にとり伸縮させずに照合を行な
い、母音部はフレームを伸縮させて照合を行なうことに
よって、子音部の局所的なスペクトルの時間的変化の特
徴と母音部の大局的なスペクトルの特徴を発声速度に影
響されずに適切にとらえることができるようになり、認
識性能が向上する。標準パターンの子音部を連続にとる
かわりに母音部のフレームを少なくすることにより、標
準パターンのフレーム数は増大しない。
In the present invention, first, the consonant part is obtained by successively taking frames around the reference frame and performing collation without expanding / contracting, and the vowel part is collated by expanding / contracting the frame, whereby local consonant parts are collated. The characteristics of the temporal change of the spectrum and the characteristics of the global spectrum of the vowel part can be appropriately captured without being affected by the utterance speed, and the recognition performance is improved. By reducing the number of vowel frames instead of taking the consonant portions of the standard pattern continuously, the number of frames of the standard pattern does not increase.

【0048】音声全体を一つのベクトルとしてフレーム
間相関を考慮した一次判別関数で表される統計的距離尺
度を用いると、計算量および推定パラメータ数を増大さ
せずに認識率の向上を図ることができる。フレームを独
立に扱い、そのかわりに特徴パラメータの時間変化量で
ある動的特徴パラメータを併用し一次判別関数で表され
る統計的距離尺度を用いると、計算量は2倍になるが、
認識率の向上を図ることができる。
Using a statistical distance scale represented by a first-order discriminant function taking the inter-frame correlation into consideration assuming that the entire speech is one vector, the recognition rate can be improved without increasing the amount of calculation and the number of estimated parameters. it can. When a frame is treated independently and a dynamic distance parameter, which is a time variation of a characteristic parameter, is used in combination and a statistical distance scale represented by a linear discriminant function is used, the calculation amount is doubled.
The recognition rate can be improved.

【0049】本発明は第二に、入力音声と標準パターン
の照合の際、フレームを独立に扱い二次判別関数で表さ
れる統計的距離尺度を用いることによりさらに音声認識
性能を向上させることができる。特徴パラメータの時間
変化量である動的特徴パラメータを併用すると、フレー
ムを独立に扱うことによって失われた時間変化の特徴量
をとらえることができるようになるため、さらに音声認
識性能を向上させることができる。
Second, the present invention can further improve speech recognition performance by treating frames independently and using a statistical distance scale represented by a quadratic discriminant function when matching an input speech with a standard pattern. it can. When the dynamic feature parameter, which is the amount of time change of the feature parameter, is used together, the feature amount of the time change lost by treating the frame independently can be captured, so that the speech recognition performance can be further improved. it can.

【0050】本発明は第三に、音節、CV(子音+母
音)、VC(母音+子音)、VCV(母音+子音+母
音)又はCVC(子音+母音+子音)などの標準パター
ンを接続して任意の単語標準パターンを作成し認識する
ことにより、日本語のかな文字表記にしたがって単語標
準パターンを作成することができるため、認識対象語彙
の変更を容易にすることができる。
Third, the present invention connects a standard pattern such as syllable, CV (consonant + vowel), VC (vowel + consonant), VCV (vowel + consonant + vowel) or CVC (consonant + vowel + consonant). By creating and recognizing an arbitrary word standard pattern, a word standard pattern can be created in accordance with Japanese kana character notation, so that the vocabulary to be recognized can be easily changed.

【0051】また、ワードスポッティング機能を導入す
ることによって、騒音に対して頑強な、実用性の高い認
識装置が実現できる。
Further, by introducing the word spotting function, a highly practical recognition device that is robust against noise can be realized.

【0052】[0052]

【実施例】【Example】

(実施例1)以下、本発明における第1の実施例につい
て説明する。
Embodiment 1 Hereinafter, a first embodiment of the present invention will be described.

【0053】第1の実施例では、日本語の発声の最小の
単位である音節を単独に発声した単音節を認識対象と
し、音声全体を一つのベクトルとして共分散行列を共通
化したベイズ判定に基づく一次判別関数で表される統計
的距離尺度を用いて入力音声と単音節標準パターンの照
合を行ない認識する音声認識方法について説明する。
In the first embodiment, a single syllable uttered independently of a syllable, which is the minimum unit of Japanese utterance, is used as a recognition target, and Bayes judgment is performed in which the entire utterance is a single vector and the covariance matrix is shared. A speech recognition method will be described in which an input speech is compared with a single syllable standard pattern using a statistical distance scale represented by a primary discriminant function based on the standard distance function.

【0054】第1の実施例では未知入力音声の単音節区
間を検出し、これとあらかじめ作成しておいた単音節標
準パターンとの照合を行なうことにより単音節の認識を
行なう。
In the first embodiment, a single syllable section is detected by detecting a single syllable section of the unknown input voice and comparing it with a single syllable standard pattern created in advance.

【0055】日本語の単音節は子音部とそれにつづく母
音部によって構成される。一般に、母音部はスペクトル
の時間的変化が少なく定常的あり、その継続長は発声速
度の相違によって伸縮しやすいという特徴がある。一
方、子音部はスペクトルの時間的変化に音素を識別する
ための情報があり、その継続長は比較的短く発声速度が
異なっても伸縮しにくいという特徴がある。そこで、子
音部はフレーム(分析時間の単位;本実施例では1フレ
ーム=10ms)を連続にとり伸縮させずに入力音声と標準
パターンの照合を行ない、母音部はフレームを伸縮させ
て照合を行なう。母音部はスペクトルが定常的であるた
め、隣接した数フレーム分をまとめて1フレームの標準
パターンにしても識別性能の低下は少ない。子音部はフ
レームを連続に密にとるかわりに母音部はフレームを間
引いて疎にとることによって、単音節標準パターン全体
のフレーム数を増大させずに認識率の向上を図ることが
できる。
A Japanese monosyllable is composed of a consonant part and a vowel part following it. In general, the vowel part has a feature that the spectrum of the vowel part is stationary with little temporal change, and its continuation length easily expands and contracts due to a difference in utterance speed. On the other hand, the consonant part has information for identifying a phoneme in the temporal change of the spectrum, and has a feature that its continuation length is relatively short and does not easily expand or contract even if the utterance speed is different. Therefore, the consonant part continuously compares frames (analysis time unit; one frame = 10 ms in this embodiment) and compares the input voice with the standard pattern without expanding and contracting, and the vowel part performs expansion and contraction of the frame. Since the vowel part has a steady spectrum, even if a few frames adjacent to each other are grouped together and a standard pattern of one frame is used, a decrease in the discrimination performance is small. By reducing the number of frames in the vowel part instead of the number of frames in the consonant part, the recognition rate can be improved without increasing the number of frames in the entire single syllable standard pattern.

【0056】第1の実施例について図1、図2、図3を
参照しながら説明する。図1は第1の実施例の音声認識
方法の処理の流れを示すフローチャートである。図1に
おいて、1は未知入力音声を分析時間(フレーム)ごと
に線形予測(LPC)分析する音響分析部、2は特徴パ
ラメータをフレームごとに求める特徴パラメータ抽出
部、3は入力音声の始端フレームおよび終端フレームを
検出する音声区間検出部、4は単音節標準パターンを格
納する標準パターン格納部、5は入力音声と単音節標準
パターンとの距離を求めるDP照合部、6はDP照合部
5で求めた各々の標準パターンとの距離の中で最小(類
似度が最大)の値をもつ標準パターンに対応する音声名
を認識結果とする距離比較部である。
The first embodiment will be described with reference to FIGS. 1, 2 and 3. FIG. 1 is a flowchart showing the flow of processing of the voice recognition method according to the first embodiment. In FIG. 1, reference numeral 1 denotes an acoustic analysis unit that performs linear prediction (LPC) analysis of an unknown input voice for each analysis time (frame), 2 denotes a feature parameter extraction unit that obtains a feature parameter for each frame, and 3 denotes a start frame of the input voice and A voice section detection unit that detects the end frame, a standard pattern storage unit that stores a single syllable standard pattern, a DP matching unit that calculates the distance between the input voice and the single syllable standard pattern, and a DP matching unit that calculates a distance between the input speech and the single syllable standard pattern. A distance comparison unit that recognizes a speech name corresponding to the standard pattern having the smallest value (similarity is maximum) among the distances from the respective standard patterns.

【0057】次にその動作を説明する。単音節標準パタ
ーンはあらかじめ作成して標準パターン格納部4に格納
しておく。単音節標準パターンの作成方法は後述する。
未知入力音声が入力されると音響分析部1で分析時間
(フレーム)ごとに線形予測(LPC)分析を行なう。
次に、特徴パラメータ抽出部2でP個(Pは正の整数)
の特徴パラメータをフレームごとに求める。特徴パラメ
ータは、LPCメルケプストラム係数(本例ではC1〜C9
まで9個)、正規化残差C0、および音声対数パワーの時
間差分値V0を用いる。次に音声区間検出部3で入力音声
の始端フレームおよび終端フレームを音声パワー情報な
どを用いて検出する。第1の実施例では音声区間の検出
は音声パワーを用いるがどのような方法を用いてもよ
い。次にDP照合部5で、入力音声の特徴パラメータ時
系列と、標準パターン格納部4に格納されているある単
音節標準パターンとをDP法により動的に照合を行な
い、その単音節標準パターンに対する距離を求める。こ
れを認識対象とする全ての単音節に対して求める。DP
照合および距離計算の方法は後述する。最後に距離比較
部6で、DP照合部5で求めた各々の標準パターンとの
距離の中で最小(類似度が最大)の値をもつ標準パター
ンに対応する音声名を認識結果として選択し、出力す
る。
Next, the operation will be described. The monosyllable standard pattern is created in advance and stored in the standard pattern storage unit 4. A method for creating a single syllable standard pattern will be described later.
When an unknown input voice is input, the acoustic analysis unit 1 performs a linear prediction (LPC) analysis for each analysis time (frame).
Next, P (P is a positive integer) in the feature parameter extraction unit 2
Is obtained for each frame. The feature parameters are LPC mel-cepstral coefficients (in this example, C1 to C9
9), the normalized residual C0, and the time difference value V0 of the logarithmic power of the voice. Next, the voice section detection unit 3 detects the start frame and the end frame of the input voice using voice power information and the like. In the first embodiment, voice section detection uses voice power, but any method may be used. Next, in the DP matching unit 5, the feature parameter time series of the input voice and a certain single syllable standard pattern stored in the standard pattern storage unit 4 are dynamically checked by the DP method, and the single syllable standard pattern is compared. Find the distance. This is determined for all monosyllables to be recognized. DP
The method of collation and distance calculation will be described later. Finally, the distance comparison unit 6 selects, as a recognition result, a speech name corresponding to the standard pattern having the minimum value (similarity is maximum) among the distances from the respective standard patterns obtained by the DP matching unit 5, Output.

【0058】以下、単音節標準パターンを作成する方法
について説明する。不特定話者音声認識用の音声標準パ
ターンは、多数の人が発声した学習用音声データを用い
てその統計量(平均値、共分散)を求めることにより作
成する。
Hereinafter, a method of creating a single syllable standard pattern will be described. A speech standard pattern for speaker-independent speech recognition is created by obtaining the statistics (average value, covariance) using learning speech data uttered by many people.

【0059】日本語の単音節は子音部とそれにつづく母
音部によって構成される。単音節標準パターンは、おな
じカテゴリー(単音節)の各学習用音声データから非線
形にフレームを抽出しこれらのフレームの特徴パラメー
タを時系列に並べたベクトルを求め、このベクトルの集
合から作成する。非線形にフレームを抽出する方法は以
下のとおりである。
A Japanese monosyllable is composed of a consonant part followed by a vowel part. The single-syllable standard pattern is created from a set of vectors in which frames are extracted non-linearly from the learning voice data of the same category (single syllable), and the feature parameters of these frames are arranged in time series. The method of extracting a frame in a non-linear manner is as follows.

【0060】子音はスペクトルの時間的変化に音素を識
別するための情報があり、その継続長は比較的短く発声
速度が異なっても伸縮しにくいという特徴がある。そこ
で子音部については、その子音の特徴を最も表している
時間的な位置を基準フレームとし、学習用音声データか
ら各基準フレームの前後数フレームを連続して抽出す
る。母音部はその連続した時間パターンの終端から、音
声の終端フレームまでの間を線形にフレームを伸縮させ
て抽出する。図2がその概念図を示している。
A consonant has information for identifying a phoneme in a temporal change of a spectrum, and has a feature that its continuation length is relatively short and does not easily expand or contract even if the utterance speed is different. Therefore, for the consonant part, a temporal position that best represents the feature of the consonant is set as a reference frame, and several frames before and after each reference frame are continuously extracted from the learning voice data. The vowel part is extracted by expanding and contracting the frame linearly from the end of the continuous time pattern to the end frame of the voice. FIG. 2 shows a conceptual diagram thereof.

【0061】図2において、子音の基準フレームは、子
音ごとに定められている一定の基準に基づいて、目視に
よって学習用音声データに音素ラベル21としてラベル
付けされている。本実施例では、無声破裂音(/c/,/p/,/
t/,/k/)は破裂フレーム、鼻音(/m/,/n/)および無声摩擦
音(/h/,/s/)は母音へのわたりの部分、有声破裂音(/b/,
/d/,/g/,/r/)は破裂フレーム(バズバーの終端)、/z/
は有声性から無声性へ変わる部分をそれぞれ基準フレー
ムとしている。また単母音(「あ」,「い」,「う」,
「え」,「お」)と半母音(「や」,「ゆ」,「よ」,
「わ」)は語頭の音声パワー22の立ち上がりのフレー
ムを基準フレームと定義している。そして特徴パラメー
タ時系列23において、この基準フレームを中心に前L1
フレーム、後L2フレームを連続して抽出する。L1および
L2の値は子音ごとに異なる。L1およびL2は子音を識別す
るために有効なフレームを予備実験により検討して決定
した。さらにこの連続した時間パターンの終端フレーム
から、音節の終端フレームまでの母音部を線形に伸縮し
て抽出することにより、時系列パターンCm24を作成
する。拗音の/j/は子音から後続母音へのゆっくりとし
たスペクトル遷移に特徴があり発声速度によって伸縮し
やすいため、母音部と同様に線形に伸縮する。
In FIG. 2, the reference frame of the consonant is visually labeled as a phoneme label 21 on the learning speech data based on a certain standard determined for each consonant. In the present embodiment, the unvoiced plosive (/ c /, / p /, /
t /, / k /) are plosive frames, nasal sounds (/ m /, / n /) and unvoiced fricatives (/ h /, / s /) are vowels, voiced plosives (/ b /,
/ d /, / g /, / r /) is the burst frame (end of buzz bar), / z /
Designates a portion from voiced to unvoiced as a reference frame. In addition, single vowels (“A”, “I”, “U”,
"E", "O") and semi-vowels ("Ya", "Yu", "Yo",
“Wa”) defines the rising frame of the voice power 22 at the beginning of the word as a reference frame. Then, in the characteristic parameter time series 23, the L1
The frame and the subsequent L2 frame are continuously extracted. L1 and
The value of L2 differs for each consonant. L1 and L2 were determined by examining the valid frames for discriminating consonants by preliminary experiments. Further, the vowel part from the end frame of the continuous time pattern to the end frame of the syllable is linearly expanded and contracted and extracted, thereby creating the time-series pattern Cm24. The / j / of the resonate is characterized by a slow spectral transition from the consonant to the succeeding vowel, and tends to expand and contract according to the utterance speed.

【0062】ある単音節ωnの標準パターンは次のよう
な手順で作成する。 (1)多数の人(ここでは100名)が単音節ωnを発声したM
個の学習用音声データを用意する。 (2)各データを非線形に伸縮を行ないJフレームに正規
化する。 (3)第m番目の発声データに対して伸縮後の特徴パラメー
タを時系列に並べ、時系列パターンCmを求める。(m=
1,...,M) (4)M個の時系列パターンCm(m=1,...,M)を用いてその統
計量(平均値、共分散)を求めることにより標準パター
ンを作成する。
The standard pattern of a single syllable ωn is created in the following procedure. (1) M that many people (here 100 people) uttered a monosyllable ωn
The learning voice data is prepared. (2) Each data is nonlinearly expanded and contracted and normalized to a J frame. (3) The feature parameters after expansion and contraction are arranged in time series with respect to the m-th utterance data, and a time series pattern Cm is obtained. (m =
(4) A standard pattern is created by using the M time-series patterns Cm (m = 1,..., M) to find their statistics (mean, covariance). I do.

【0063】第m番目の学習用音声データから、時系列
パターンCmを求める方法について述べる。
A method for obtaining the time-series pattern Cm from the m-th learning voice data will be described.

【0064】標準パターンのフレーム数をJフレームと
し、このうちのLフレーム(L=L1+L2+1)を連続にとると
する。第m番目の学習用音声データの{基準フレーム−L
1}フレームを1フレーム目、音声区間の終端フレームを
Iフレーム目とすると、このデータの第iフレームと伸
縮後の第jフレームの関係は(数13)で表される。た
だし、[]はその数を越えない最大の整数を表す。第1
の実施例ではJ=20、L=10とする。Jはすべての単音節
について同じ値でなければならないが、Lは単音節毎に
異なってもよい。
It is assumed that the number of frames of the standard pattern is J frames, and L frames (L = L1 + L2 + 1) among these are continuous. {Reference frame-L of the m-th learning voice data
Assuming that the 11 frame is the first frame and the end frame of the voice section is the I frame, the relationship between the i-th frame of this data and the j-th frame after expansion / contraction is represented by (Expression 13). Here, [] represents the largest integer not exceeding the number. First
In this embodiment, J = 20 and L = 10. J must be the same value for all monosyllables, but L may be different for each monosyllable.

【0065】[0065]

【数13】 (Equation 13)

【0066】伸縮後のJフレーム分の特徴パラメータを
時系列に並べ時間パターンCmを作成する。
The feature parameters for the J frames after expansion and contraction are arranged in time series to create a time pattern Cm.

【0067】[0067]

【数14】 [Equation 14]

【0068】これをM個の学習用音声データについて求
める。時間パターンCmを一つのベクトルとして扱うこ
とにより、パラメータのフレーム間の相関を考慮するこ
とになる。M個のJ×P次元のベクトルCm(m=1,...,
M)からその平均値ベクトルμおよび共分散行列Wを求
める。
This is obtained for M pieces of learning speech data. By treating the time pattern Cm as one vector, the correlation between the parameter frames is taken into account. M J × P-dimensional vectors Cm (m = 1, ...,
From M), the average vector μ and the covariance matrix W are obtained.

【0069】さらにこれをN個の認識対象とする単音節
に対してそれぞれ求める。以下、第n番目の単音節ωnに
対する平均値ベクトルをμn、共分散行列をWnと表記す
る。
Further, this is obtained for each of the N single syllables to be recognized. Hereinafter, the average value vector for the n-th single syllable ωn is denoted by μn, and the covariance matrix is denoted by Wn.

【0070】未知入力音声の特徴パラメータの時系列パ
ターンと単音節標準パターンとの距離計算は、共分散行
列を共通化したベイズ判定に基づく距離を用いて計算す
る。
The distance between the time-series pattern of the characteristic parameters of the unknown input speech and the standard single-syllable pattern is calculated using a distance based on Bayesian judgment using a common covariance matrix.

【0071】ベイズ判定に基づく距離は以下のようにし
て求める。いま、未知入力音声の伸縮後の特徴パラメー
タをJフレーム分並べてできる入力ベクトルXを
The distance based on the Bayes judgment is obtained as follows. Now, an input vector X that can be obtained by arranging the feature parameters of the unknown input voice after expansion and contraction for J frames is

【0072】[0072]

【数15】 (Equation 15)

【0073】入力ベクトルXが観測されたときにそれが
単音節ωnである確率P(ωn|X)は、従来例と同様にし
て求められる。ベイズの定理よりP(ωn|X)は、
When the input vector X is observed, the probability P (ωn | X) that it is a single syllable ωn is obtained in the same manner as in the conventional example. From Bayes' theorem, P (ωn | X) is

【0074】[0074]

【数16】 (Equation 16)

【0075】となる。P(X|ωn)は事前確率で、入力
がカテゴリーωnであったときにベクトルXが観測され
る確率、P(X)は生起し得るすべての入力を考えた場合
のベクトルXが観測される確率である。単語ωnの出現
確率P(ωn)は各単語同じと仮定して定数とし、入力X
が一定とするとP(X)が定数となるので、事前確率P
(X|ωn)を最大とするカテゴリーωnを判定結果とすれ
ばよい。
Is obtained. P (X | ωn) is the prior probability, the probability that vector X is observed when the input is category ωn, and P (X) is the vector X when all possible inputs are considered. Probability. The appearance probability P (ωn) of the word ωn is assumed to be the same for each word, and is assumed to be a constant.
Is constant, P (X) is a constant, so the prior probability P
The category ωn that maximizes (X | ωn) may be used as the determination result.

【0076】パラメータの分布を正規分布と考えると、
事前確率P(X|ωn)は(数17)で表される。
Assuming that the parameter distribution is a normal distribution,
The prior probability P (X | ωn) is represented by (Equation 17).

【0077】[0077]

【数17】 [Equation 17]

【0078】ここでtは転置行列を表す。両辺の対数を
とって識別に不要な定数項を省略しさらに−2倍すると
次式を得る。
Here, t represents a transposed matrix. By taking the logarithm of both sides and omitting a constant term unnecessary for identification and further multiplying by -2, the following equation is obtained.

【0079】[0079]

【数18】 (Equation 18)

【0080】この式は単音節ωnに対するベイズ判定に
基づく距離である。ここで、計算量および推定パラメー
タ数削減のため、従来例と同様に共分散行列を共通化し
てこの式を線形判別式に展開する。各単音節標準パター
ンの共分散行列Wnを共通化し、Wとする。Wは次式の
ようにして求める。
This equation is a distance based on Bayes judgment for a single syllable ωn. Here, in order to reduce the amount of calculation and the number of estimated parameters, the covariance matrix is shared as in the conventional example, and this equation is developed into a linear discriminant. The covariance matrix Wn of each single syllable standard pattern is shared, and is set to W. W is obtained by the following equation.

【0081】[0081]

【数19】 [Equation 19]

【0082】したがってTherefore,

【0083】[0083]

【数20】 (Equation 20)

【0084】とおくことができる。これを(数18)に
代入し識別に不要な定数項を省略すると
[0111] Substituting this into (Equation 18) and omitting the constant term unnecessary for identification

【0085】[0085]

【数21】 (Equation 21)

【0086】となり、[0086]

【0087】[0087]

【数22】 (Equation 22)

【0088】[0088]

【数23】 (Equation 23)

【0089】とおくことにより、By setting

【0090】[0090]

【数24】 (Equation 24)

【0091】のような線形一次判別式になることがわか
る。このようにしてAn,Bnを認識対象とする単音節の
各々に対して求め、標準パターン格納部4に格納してお
く。
It can be seen that the linear primary discriminant is as follows. In this way, An and Bn are obtained for each single syllable to be recognized and stored in the standard pattern storage unit 4.

【0092】以下、DP照合部5で、入力音声と単音節
標準パターンとを、DP法により動的に時間整合を行な
って照合し、距離を求める方法について詳しく説明す
る。
Hereinafter, a detailed description will be given of a method in which the DP collation unit 5 performs dynamic time matching between the input speech and the single syllable standard pattern by the DP method to collate and obtain a distance.

【0093】音声区間検出部で検出された音声区間の始
端フレームを第1フレーム、終端フレームを第Iフレー
ムとする。入力音声の第iフレームの特徴パラメータを
P個並べたものをxi
The start frame of the voice section detected by the voice section detection unit is the first frame, and the end frame is the I-th frame. Xi is a sequence of P feature parameters of the i-th frame of the input voice.

【0094】[0094]

【数25】 (Equation 25)

【0095】とする。そして、入力音声のr(1),r(2),
…,r(j),…,r(J)番目のフレームのxを並べてJフレー
ム分の時間パターンXを作成する。これが入力ベクトル
になる。
It is assumed that Then, r (1), r (2),
.., R (j),..., R (J) -th frame x are arranged to create a time pattern X for J frames. This becomes the input vector.

【0096】[0096]

【数26】 (Equation 26)

【0097】単音節ωnの標準パターンをAn,Bnと
し、Anを
The standard patterns of a single syllable ωn are An and Bn, and An is

【0098】[0098]

【数27】 [Equation 27]

【0099】と書くとき、入力ベクトルXと単音節ωn
の標準パターンとの距離Lnは
When writing, the input vector X and the monosyllable ωn
The distance Ln from the standard pattern is

【0100】[0100]

【数28】 [Equation 28]

【0101】であるから、Therefore,

【0102】[0102]

【数29】 (Equation 29)

【0103】となる。そこで、Lnが最小となるようなr
(j)をDP法により求めればよい。Lnが最小となるとき
の値をDP法によって以下のような漸化式で求める。
Is obtained. Therefore, r that minimizes Ln
(j) may be obtained by the DP method. The value at which Ln is minimum is obtained by the DP method using the following recurrence formula.

【0104】[0104]

【数30】 [Equation 30]

【0105】ただしmはmsからmeまでの整数でms,m
eの値は単音節毎、標準パターンのフレームごとに異な
る。j=1からj=Lまでの連続部では
Where m is an integer from ms to me and ms, m
The value of e differs for each single syllable and for each frame of the standard pattern. In the continuous part from j = 1 to j = L

【0106】[0106]

【数31】 (Equation 31)

【0107】とし、入力音声を伸縮させず連続的に標準
パターンと照合する。伸縮部のms,meの値は、本実施
例ではその単音節の標準パターンが
Then, the input voice is collated continuously with the standard pattern without expanding / contracting. In this embodiment, the values of ms and me of the expansion and contraction part are the standard patterns of the single syllable.

【0108】[0108]

【数32】 (Equation 32)

【0109】の間で伸縮するように決定した。これらの
DPパスを連続部に関しては図3(a)に、伸縮部に関
しては図3(b)に示す。
It was decided to expand and contract between the two. These DP paths are shown in FIG. 3A for the continuous portion, and FIG. 3B for the stretchable portion.

【0110】入力音声の終端フレームにおける単音節標
準パターンの最終フレームの累積距離g(I,J)をBnから
引いたものが、入力ベクトルXと単音節ωnの標準パタ
ーンとの距離Lnである。
The distance Ln between the input vector X and the standard pattern of the single syllable ωn is obtained by subtracting the cumulative distance g (I, J) of the last frame of the single syllable standard pattern in the last frame of the input speech from Bn.

【0111】[0111]

【数33】 [Equation 33]

【0112】これをすべての単音節標準パターンについ
て求める。なお、第1の実施例では入力音声の音声区間
を検出してから照合を行なう方法について説明したが、
入力音声の音声区間検出をせず、ノイズを含む全入力音
声区間について、
This is obtained for all single syllable standard patterns. In the first embodiment, the method of performing the matching after detecting the voice section of the input voice has been described.
Without detecting the voice section of the input voice, for all the input voice sections including noise,

【0113】[0113]

【数34】 (Equation 34)

【0114】で表される漸化式によって連続DPマッチ
ングを行ない、g(i,J)が最小となる入力フレームiを求
め、そのときのフレームをIminとするとき、
When continuous DP matching is performed by a recurrence formula expressed by the following formula, an input frame i with which g (i, J) is minimized is obtained.

【0115】[0115]

【数35】 (Equation 35)

【0116】を単音節ωnの標準パターンとの距離とす
ることによって、音声区間を検出しなくても、認識を行
なうことができる。これをワードスポッティングとい
う。
By setting the distance from the standard pattern of a single syllable ωn, recognition can be performed without detecting a voice section. This is called word spotting.

【0117】ただし、ワードスポッティングを行なう場
合には事後確率化された距離尺度を用いなければならな
い。その方法は以下のとおりである。(数16)におい
て、ワードスポッティングを行なう場合には異なった入
力区間における入力Xについて比較しなければならない
ため、入力Xが一定とはならない。したがってP(X)の
項を考慮した事後確率P(ωn|X)を最大とするカテゴ
リーωnを判定結果とする必要がある。
However, when performing word spotting, it is necessary to use a posteriorized distance scale. The method is as follows. In (Equation 16), when word spotting is performed, the input X in different input sections must be compared, so that the input X is not constant. Therefore, the category ωn that maximizes the posterior probability P (ωn | X) in consideration of the term of P (X) needs to be set as the determination result.

【0118】P(X)は生起し得るすべての入力を考えた
場合のベクトルXが観測される確率である。そこで、事
後確率化のための周囲情報パターンとして、生起し得る
すべての入力についての平均値ベクトルおよび共分散行
列を求めておく。すなわち、認識対象とする全単音節学
習用音声データの特徴パラメータ時系列に対してJフレ
ームの時間窓を1フレームずつシフトさせながら作成し
たJフレームの時系列パターンから平均値ベクトルμe
と共分散行列Weを求めておく。ただしノイズを含む区
間から、発声された音声をスポッティングするために
は、事後確率化のため周囲情報パターンにノイズ区間を
含めて作成しておく必要がある。P(X)は周囲情報パタ
ーンの平均値ベクトルμe、共分散行列Weから求まる。
P (X) is the probability of observing the vector X when all possible inputs are considered. Therefore, as a surrounding information pattern for posterior stochasticization, an average value vector and a covariance matrix of all possible inputs are obtained. That is, the average value vector μe is obtained from the J-frame time-series pattern created by shifting the J-frame time window by one frame with respect to the feature parameter time-series of all monosyllable learning speech data to be recognized.
And a covariance matrix We are obtained in advance. However, in order to spot an uttered voice from a section containing noise, it is necessary to create a surrounding information pattern including a noise section for posterior probability. P (X) is obtained from the average value vector μe of the surrounding information pattern and the covariance matrix We.

【0119】パラメータの分布を正規分布と考えると、
事後確率P(ωn|X)は(数36)で表される。
Assuming that the parameter distribution is a normal distribution,
The posterior probability P (ωn | X) is represented by (Equation 36).

【0120】[0120]

【数36】 [Equation 36]

【0121】ここでtは転置行列を表す。両辺の対数を
とって−2倍すると次式を得る。
Here, t represents a transposed matrix. Taking the logarithm of both sides and multiplying by -2 gives the following equation.

【0122】[0122]

【数37】 (37)

【0123】この式は単音節ωnに対する事後確率化し
たベイズ判定に基づく距離である。ここで、計算量およ
び推定パラメータ数削減のため、共分散行列を共通化し
てこの式を線形判別式に展開する。認識対象語彙の各々
の標準パターンの共分散行列Wnと周囲情報パターンの
共分散行列Weを共通化し、Wとする。Wは次式のよう
にして求める。gは周囲情報パターンを混入する割合で
あり、ここではg=Nとする。
This equation is a distance based on Bayesian judgment made into a posteriori probability for a single syllable ωn. Here, in order to reduce the amount of calculation and the number of estimated parameters, the covariance matrix is shared and this equation is developed into a linear discriminant. The covariance matrix Wn of the standard pattern of each vocabulary to be recognized and the covariance matrix We of the surrounding information pattern are shared, and are set to W. W is obtained by the following equation. g is the ratio of mixing surrounding information patterns, and here, g = N.

【0124】[0124]

【数38】 (38)

【0125】したがって、Therefore,

【0126】[0126]

【数39】 [Equation 39]

【0127】とおくことができる。これを(数37)に
代入すると
[0127] Substituting this into (Equation 37) gives

【0128】[0128]

【数40】 (Equation 40)

【0129】となり、Becomes

【0130】[0130]

【数41】 [Equation 41]

【0131】[0131]

【数42】 (Equation 42)

【0132】とおくことにより、By setting

【0133】[0133]

【数43】 [Equation 43]

【0134】のような線形一次判別式になることがわか
る。ワードスポッティングを行なう場合には、このよう
にしてAn,Bnを認識対象とする単音節の各々に対して
求め、標準パターン格納部4に格納しておく。
It can be seen that the linear primary discriminant is as follows. When word spotting is performed, An and Bn are obtained for each of the single syllables to be recognized in this way, and stored in the standard pattern storage unit 4.

【0135】なお、無声摩擦音や、語頭のバズバーなど
のようにスペクトルが定常で発声によって伸縮の激しい
音素については、基準フレームを中心とした連続パター
ンの時間的に前の部分に母音部と同様の線形伸縮するパ
ターンを設けてもよい。
Note that, for a phoneme such as an unvoiced fricative or a buzz bar at the beginning of a word, which has a steady spectrum and expands and contracts sharply due to vocalization, a similar part to a vowel part is temporally preceding a continuous pattern centered on a reference frame. A pattern that linearly expands and contracts may be provided.

【0136】また、第1の実施例では単音節を認識する
場合の例を述べたが、単語認識も同様に行なうことがで
きる。その場合も標準パターンは、子音部は基準フレー
ムを中心に連続に、母音部は線形に伸縮させて全体でJ
フレームになるように作成する。認識する際には、連続
部は伸縮させないようにしながら第1の実施例と同様に
DP法により照合を行なう。
In the first embodiment, an example in which a single syllable is recognized has been described, but word recognition can be performed in a similar manner. In this case as well, the standard pattern is such that the consonant part is continuously expanded around the reference frame, and the vowel part is expanded and contracted linearly, so that the J
Create to be a frame. When recognizing, the collation is performed by the DP method in the same manner as in the first embodiment, while keeping the continuous portion from expanding and contracting.

【0137】(実施例2)以下、本発明における第2の
実施例について説明する。
(Embodiment 2) Hereinafter, a second embodiment of the present invention will be described.

【0138】第2の実施例では、日本語単音節を認識対
象とし、ベイズ判定に基づく二次判別関数で表される統
計的距離尺度を用いて、入力音声と単音節標準パターン
のフレーム毎に得られる特徴パラメータベクトルと動的
特徴パラメータベクトルの照合を行ない認識する音声認
識方法について説明する。
In the second embodiment, Japanese monosyllables are to be recognized, and a statistical distance scale represented by a secondary discriminant function based on Bayesian judgment is used for each frame of the input speech and monosyllable standard patterns. A speech recognition method will be described in which the obtained feature parameter vector and the dynamic feature parameter vector are collated and recognized.

【0139】第2の実施例では第1の実施例と同じく未
知入力音声の単音節区間を検出し、これとあらかじめ作
成しておいた単音節標準パターンとの照合を行なうこと
により単音節の認識を行なう。
In the second embodiment, a single syllable is recognized by detecting a single syllable section of the unknown input voice and comparing it with a previously prepared single syllable standard pattern as in the first embodiment. Perform

【0140】第2の実施例について図4を参照しながら
説明する。図4は、第2の実施例の処理の流れを示すフ
ローチャートである。
A second embodiment will be described with reference to FIG. FIG. 4 is a flowchart showing the flow of the process of the second embodiment.

【0141】図4において1は未知入力音声をフレーム
ごとにLPC分析を行なう音響分析部、2は特徴パラメ
ータをフレームごとに求める特徴パラメータ抽出部、7
は特徴パラメータの時間変化量を求める動的特徴パラメ
ータ抽出部、3は入力音声の始終端フレームを検出する
音声区間検出部、4は単音節標準パターンを格納する標
準パターン格納部、5は入力音声と単音節標準パターン
との距離を求めるDP照合部、6はDP照合部5で求め
た距離の中で最小の値をもつ標準パターンに対応する音
声名を認識結果とする距離比較部である。
In FIG. 4, reference numeral 1 denotes an acoustic analysis unit for performing LPC analysis on an unknown input voice for each frame, 2 denotes a feature parameter extraction unit for obtaining feature parameters for each frame, and 7
Is a dynamic feature parameter extraction unit for calculating the time variation of feature parameters, 3 is a speech section detection unit for detecting the start and end frames of the input speech, 4 is a standard pattern storage unit for storing a single syllable standard pattern, and 5 is an input speech. A DP comparing unit 6 for obtaining a distance between the reference pattern and the single syllable standard pattern, and a distance comparing unit 6 for recognizing a speech name corresponding to the standard pattern having the smallest value among the distances obtained by the DP matching unit 5.

【0142】次にその動作を説明する。単音節標準パタ
ーンはあらかじめ作成して標準パターン格納部4に格納
しておく。単音節標準パターンの作成方法は後述する。
未知入力音声が入力されると音響分析部1でフレームご
とにLPC分析を行ない、特徴パラメータ抽出部2でP
個の特徴パラメータをフレームごとに求める。特徴パラ
メータは第1の実施例と同様である。そして動的特徴パ
ラメータ抽出部7で特徴パラメータの各次元についてそ
の時間変化量である回帰係数をフレーム毎にP個求め
る。次に音声区間検出部3で入力音声の始終端フレーム
を検出し、DP照合部5で、入力音声の特徴パラメータ
時系列と、単音節標準パターンとを二次判別関数で表さ
れる統計的距離尺度を用いてDP法により動的に照合を
行ない、各単音節標準パターンに対する距離を求める。
最後に距離比較部6で、DP照合部5で求めた各々の標
準パターンとの距離の中で最小の値をもつ標準パターン
に対応する音声名を認識結果として選択し、出力する。
Next, the operation will be described. The monosyllable standard pattern is created in advance and stored in the standard pattern storage unit 4. A method for creating a single syllable standard pattern will be described later.
When an unknown input voice is input, the acoustic analysis unit 1 performs LPC analysis for each frame, and the feature parameter extraction unit 2 performs PPC analysis.
The number of feature parameters is determined for each frame. The characteristic parameters are the same as in the first embodiment. Then, for each dimension of the feature parameter, the dynamic feature parameter extraction unit 7 obtains P regression coefficients, which are time variation amounts, for each frame. Next, the voice section detection unit 3 detects the start and end frames of the input voice, and the DP matching unit 5 calculates a statistical distance represented by a quadratic discriminant function between the feature parameter time series of the input voice and the single syllable standard pattern. Matching is dynamically performed by the DP method using the scale, and the distance to each monosyllable standard pattern is obtained.
Finally, the distance comparison unit 6 selects and outputs, as a recognition result, a speech name corresponding to the standard pattern having the minimum value among the distances from the respective standard patterns obtained by the DP matching unit 5.

【0143】未知入力音声の特徴パラメータの時系列パ
ターンと単音節標準パターンとの距離計算は、ベイズ判
定に基づく距離を用いて計算する。
The distance between the time-series pattern of the characteristic parameter of the unknown input speech and the standard single-syllable pattern is calculated using a distance based on Bayesian judgment.

【0144】ベイズ判定に基づく距離は二次判別関数で
あり、計算量が距離を求めるベクトルの次元数の2乗に
比例するため、ベクトルの次元数が大きいと計算量が爆
発的に増大する。また共分散の推定のためには膨大な学
習サンプルが必要となる。そこでベクトルの次元数を減
らす必要がある。第1の実施例では特徴パラメータの単
音節全体の時系列パターンを一つのベクトルとして入力
音声と単音節標準パターンの距離を求めたが、第2の実
施例では、これをフレーム毎に分割して扱う。すなわ
ち、P個の特徴パラメータからなるP次元のベクトルをJ
フレーム分並べたものを標準パターンとし、それぞれの
フレームと入力音声の対応するフレームとの距離をベイ
ズ判定に基づく距離によって求め、その和を入力音声と
単音節標準パターンとの距離とする。しかしこのように
フレームを独立に扱うと、特徴パラメータの動的な変化
を捉らえることができなくなる。そこで特徴パラメータ
の時間変化量を動的特徴パラメータとして導入する。本
実施例では、あるフレームの前後2フレーム(計5フレ
ーム)分のp番目の特徴パラメータの回帰係数をそのフ
レームのp番目の動的特徴パラメータとする。動的特徴
パラメータ抽出部7ではフレーム毎にP個の動的特徴パ
ラメータを求める。
The distance based on the Bayes judgment is a quadratic discriminant function, and the amount of calculation is proportional to the square of the number of dimensions of the vector for which the distance is to be obtained. Therefore, when the number of dimensions of the vector is large, the amount of calculation explosively increases. In addition, a large number of training samples are required for estimating the covariance. Therefore, it is necessary to reduce the number of dimensions of the vector. In the first embodiment, the distance between the input speech and the single syllable standard pattern is obtained using the time-series pattern of the entire single syllable of the feature parameter as one vector. In the second embodiment, the distance is divided for each frame. deal with. That is, a P-dimensional vector composed of P feature parameters is represented by J
The arrangement of the frames is used as a standard pattern, the distance between each frame and the corresponding frame of the input voice is determined by the distance based on Bayesian judgment, and the sum is used as the distance between the input voice and the single-syllable standard pattern. However, if the frames are handled independently in this way, it is not possible to capture dynamic changes in the feature parameters. Therefore, the time variation of the feature parameter is introduced as a dynamic feature parameter. In this embodiment, the regression coefficients of the p-th feature parameter of two frames before and after a certain frame (a total of five frames) are set as the p-th dynamic feature parameters of the frame. The dynamic feature parameter extraction unit 7 obtains P dynamic feature parameters for each frame.

【0145】いま、未知入力音声の第iフレームのP個の
特徴パラメータからなるベクトルを、
Now, a vector composed of P feature parameters of the i-th frame of the unknown input speech is

【0146】[0146]

【数44】 [Equation 44]

【0147】また、P個の動的特徴パラメータからなる
ベクトルを、
Further, a vector composed of P dynamic feature parameters is represented by

【0148】[0148]

【数45】 [Equation 45]

【0149】とする。単音節標準パターンは第1の実施
例と同様にして、各学習用音声データを非線形に伸縮を
行なってJフレームに正規化し、第n番目の単音節ωnに
対する第jフレームの特徴パラメータの平均値ベクトル
μnjおよび共分散行列Wnj、動的特徴パラメータの平均
値ベクトル
It is assumed that In the same manner as in the first embodiment, the monosyllabic standard pattern expands and contracts each of the learning speech data nonlinearly and normalizes it to a J frame, and averages the characteristic parameters of the jth frame with respect to the nth monosyllable ωn. Vector μnj, covariance matrix Wnj, mean vector of dynamic feature parameters

【0150】[0150]

【外1】 [Outside 1]

【0151】および共分散行列And the covariance matrix

【0152】[0152]

【外2】 [Outside 2]

【0153】を、j=1〜JまでJフレーム分求め、これら
を標準パターン格納部4に格納しておく。
Are obtained for J frames from j = 1 to J, and these are stored in the standard pattern storage unit 4.

【0154】このとき入力の第iフレームと単音節ωnの
第jフレームのベイズ判定に基づく距離は(数46)で
表される。
At this time, the distance based on the Bayes judgment between the input i-th frame and the j-th frame of the single syllable ωn is expressed by (Equation 46).

【0155】[0155]

【数46】 [Equation 46]

【0156】ここでtは転置行列を表す。単音節ωnに対
する標準パターンの1,2,…,j,…,J番目のフレームと、
入力音声のr(1),r(2),…,r(j),…,r(J)番目のフレーム
がそれぞれ対応するとき、入力音声と単音節ωnとの距
離Lnは
Here, t represents a transposed matrix. 1,2,…, j,…, J-th frame of the standard pattern for monosyllable ωn,
When the r (1), r (2),..., R (j),..., R (J) -th frames of the input voice correspond to each other, the distance Ln between the input voice and the monosyllable ωn is

【0157】[0157]

【数47】 [Equation 47]

【0158】とする。したがって(数46)(数47)
より
It is assumed that Therefore, (Equation 46) (Equation 47)
Than

【0159】[0159]

【数48】 [Equation 48]

【0160】となる。そこで、Lnが最小となるようなr
(j)をDP法により求めればよい。Lnが最小となるとき
の値を第1の実施例と同様に、DP法によって以下のよ
うな漸化式で求める。
Is as follows. Therefore, r such that Ln is minimized
(j) may be obtained by the DP method. The value at the time when Ln becomes the minimum is obtained by the following recurrence formula by the DP method as in the first embodiment.

【0161】[0161]

【数49】 [Equation 49]

【0162】ただしmはmsからmeまでの整数でms,m
eの値は第1の実施例と同様である。連続部では(数3
1)であり伸縮させずに照合を行なう。
Here, m is an integer from ms to me, and ms and m
The value of e is the same as in the first embodiment. In the continuous part (Equation 3
1) and the collation is performed without expanding / contracting.

【0163】入力音声の終端フレームにおける単音節標
準パターンの最終フレームの累積距離g(I,J)が、入力
音声と単音節ωn標準パターンとの距離Lnである。
The cumulative distance g (I, J) of the last frame of the single syllable standard pattern in the end frame of the input voice is the distance Ln between the input voice and the single syllable ωn standard pattern.

【0164】[0164]

【数50】 [Equation 50]

【0165】これをすべての単音節標準パターンについ
て求める。なお、第2の実施例ではフレーム毎に独立に
距離計算を行なうため、標準パターンのフレーム数は、
単音節毎に異なってもよい。その場合、入力音声と単音
節ωnとの距離Lnは(数47)のかわりに
This is obtained for all monosyllable standard patterns. In the second embodiment, since the distance is calculated independently for each frame, the number of frames of the standard pattern is
It may be different for each single syllable. In that case, the distance Ln between the input voice and the monosyllable ωn is

【0166】[0166]

【数51】 (Equation 51)

【0167】とする。ここでJnは単音節ωnのフレーム
数である。第2の実施例では、ベイズ判定に基づく距離
を用いているため、従来例に比べ計算量が多い。従来例
および第1の実施例では、音声全体を一つのベクトルと
して共分散行列を共通化したベイズ判定に基づく距離を
用いるため、フレーム数をJ、フレームあたりのパラメ
ータ数をP個とすると、1単音節あたりの積和の計算回
数はJP回である。これはJ=20、P=11とすると220回
になる。一方、ベイズ判定に基づく距離ではベクトルの
次元数をPとすると積和の計算回数はP(P+3)/2
回である。フレームを独立に扱い特徴パラメータベクト
ルと動的特徴パラメータベクトルを使用する場合、1フ
レームあたりの積和の計算回数はP(P+3)/2×2
回となるから、JフレームではJP(P+3)回とな
る。これはJ=20、P=11とすると3080回になる。すなわ
ち、第2の実施例の積和計算量は従来例の14倍になる。
It is assumed that Here, Jn is the number of frames of a single syllable ωn. In the second embodiment, since the distance based on the Bayes determination is used, the calculation amount is larger than that of the conventional example. In the conventional example and the first embodiment, since the distance based on the Bayes decision in which the covariance matrix is shared by using the entire speech as one vector is used, if the number of frames is J and the number of parameters per frame is P, 1 The number of calculations of the sum of products per syllable is JP times. This is 220 times if J = 20 and P = 11. On the other hand, in the distance based on Bayesian judgment, if the number of dimensions of the vector is P, the number of times of product sum calculation is P (P + 3) / 2
Times. When a frame is treated independently and a feature parameter vector and a dynamic feature parameter vector are used, the number of product sum calculations per frame is P (P + 3) / 2 × 2
Therefore, JP (P + 3) times in the J frame. This is 3080 times if J = 20 and P = 11. That is, the product-sum calculation amount of the second embodiment is 14 times that of the conventional example.

【0168】なお、第2の実施例では、照合の距離尺度
としてベイズ判定に基づく二次判別関数で表される統計
的距離尺度を用いたが、共分散行列を共通化したベイズ
判定に基づく一次判別関数で表される統計的距離尺度を
用いることもできる。これにより、従来例に比べ計算量
が二倍程度で従来例よりも高い認識率が得られる。
In the second embodiment, a statistical distance scale represented by a quadratic discriminant function based on Bayes decision is used as a distance measure for collation. However, a primary measure based on Bayes decision using a common covariance matrix is used. A statistical distance measure represented by a discriminant function can also be used. As a result, the amount of calculation is about twice that of the conventional example, and a higher recognition rate than the conventional example can be obtained.

【0169】また、第2の実施例では、入力音声と単音
節標準パターンのフレーム毎に得られる特徴パラメータ
ベクトルと動的特徴パラメータベクトルの照合を行ない
認識したが、特徴パラメータベクトルだけを用いてもよ
い。その場合には認識率はやや落ちるが、計算量が半分
ですむというメリットがある。
In the second embodiment, the feature parameter vector obtained for each frame of the input speech and the single syllable standard pattern is compared with the dynamic feature parameter vector for recognition. However, the feature parameter vector may be used alone. Good. In this case, the recognition rate is slightly lowered, but there is an advantage that the calculation amount is reduced by half.

【0170】また、第1の実施例と同様に連続DPマッ
チングを行なうことにより、ワードスポッティングを行
なうことが可能である。ワードスポッティングを行なう
場合、異なる入力区間について比較するため、距離尺度
は事後確率化された距離尺度を用いる必要がある。その
方法は以下のとおりである。
Also, by performing continuous DP matching as in the first embodiment, word spotting can be performed. When word spotting is performed, it is necessary to use a posterior-probabilistic distance measure as a distance measure in order to compare different input sections. The method is as follows.

【0171】事後確率化のための周囲情報パターンとし
て、生起し得るすべての入力についての平均値ベクトル
および共分散行列を求めておく必要がある。認識対象と
する全単音節学習用音声データの全音声区間に対して作
成した1フレームの特徴パラメータの平均値ベクトルμ
eおよび共分散行列We、動的特徴パラメータの平均値ベ
クトル
As the surrounding information pattern for posterior stochasticization, it is necessary to obtain an average value vector and a covariance matrix for all possible inputs. An average vector μ of feature parameters of one frame created for all speech sections of all syllable learning speech data to be recognized.
e, covariance matrix We, mean vector of dynamic feature parameters

【0172】[0172]

【外3】 [Outside 3]

【0173】および共分散行列And the covariance matrix

【0174】[0174]

【外4】 [Outside 4]

【0175】を求めておき、これらも標準パターンとし
て標準パターン格納部4に格納しておく。ただしノイズ
を含む区間から、発声された音声をスポッティングする
ためには、事後確率化のため周囲情報パターンにノイズ
区間を含めて作成しておく必要がある。
Are obtained and stored in the standard pattern storage unit 4 as standard patterns. However, in order to spot an uttered voice from a section containing noise, it is necessary to create a surrounding information pattern including a noise section for posterior probability.

【0176】事後確率化されたベイズ判定に基づく距離
は(数52)で表される。
The distance based on the Bayesian judgment made into the posterior probability is expressed by (Equation 52).

【0177】[0177]

【数52】 (Equation 52)

【0178】したがって、入力音声と単音節ωnとの距
離Lnは(数48)のかわりに(数53)を用い、DP
の漸化式は(数49)のかわりに(数54)を用いる。
Therefore, the distance Ln between the input voice and the monosyllable ωn is calculated by using (Equation 53) instead of (Equation 48), and
Uses (Expression 54) instead of (Expression 49).

【0179】[0179]

【数53】 (Equation 53)

【0180】[0180]

【数54】 (Equation 54)

【0181】(実施例3)以下、本発明における第3の
実施例について説明する。
Embodiment 3 Hereinafter, a third embodiment of the present invention will be described.

【0182】第3の実施例では、学習用単語音声データ
から音節を切りだし、第2の実施例と同様にしてフレー
ム毎の特徴パラメータベクトルと動的特徴パラメータベ
クトルから音節標準パターンを作成し、これらを連結し
て単語標準パターンを作成して、第2の実施例と同様に
してベイズ判定に基づく二次判別関数で表される統計的
距離尺度を用いて照合を行ない単語を認識する方法につ
いて説明する。
In the third embodiment, a syllable is cut out from the learning word voice data, and a syllable standard pattern is created from the feature parameter vector and the dynamic feature parameter vector for each frame in the same manner as in the second embodiment. A method of recognizing a word by creating a word standard pattern by concatenating them and performing collation using a statistical distance scale represented by a secondary discriminant function based on Bayes judgment in the same manner as in the second embodiment. explain.

【0183】第3の実施例について図5、図6を参照し
ながら説明する。図5は第3の実施例の処理の流れを示
すフローチャートである。
A third embodiment will be described with reference to FIGS. FIG. 5 is a flowchart showing the flow of the process of the third embodiment.

【0184】図5において1は未知入力音声をフレーム
ごとにLPC分析する音響分析部、2は特徴パラメータ
をフレームごとに求める特徴パラメータ抽出部、7は特
徴パラメータの時間変化量を求める動的特徴パラメータ
抽出部、3は入力音声の始終端フレームを検出する音声
区間検出部、8はかな表記単語辞書、9は音節標準パタ
ーンを格納する音節標準パターン格納部、5は入力音声
と各単語標準パターンとの距離を求めるDP照合部、6
はDP照合部5で求めた距離の中で最小(類似度が最
大)の値をもつ標準パターンに対応する音声名を認識結
果とする距離比較部である。
In FIG. 5, reference numeral 1 denotes an acoustic analysis unit for performing LPC analysis of an unknown input speech for each frame, 2 a feature parameter extraction unit for obtaining a feature parameter for each frame, and 7 a dynamic feature parameter for obtaining a time variation of the feature parameter. Extraction unit, 3 is a voice section detection unit that detects the start and end frames of the input voice, 8 is a kana notation word dictionary, 9 is a syllable standard pattern storage unit that stores syllable standard patterns, and 5 is the input voice and each word standard pattern. Matching unit for calculating distance of the object, 6
Reference numeral denotes a distance comparison unit that recognizes a speech name corresponding to a standard pattern having the smallest value (similarity is maximum) among the distances obtained by the DP comparison unit 5.

【0185】次にその動作を説明する。音節標準パター
ンはあらかじめ作成して音節標準パターン格納部9に格
納しておく。音節標準パターンの作成方法は後述する。
未知入力音声が入力されると音響分析部1でフレームご
とにLPC分析を行ない、特徴パラメータ抽出部2でP
個の特徴パラメータをフレームごとに求める。特徴パラ
メータは第1の実施例と同様である。そして動的特徴パ
ラメータ抽出部7で特徴パラメータの各次元についてそ
の時間変化量である回帰係数をフレーム毎にP個求め
る。次に音声区間検出部3で入力音声の始終端フレーム
を検出する。次にかな表記単語辞書8に書かれている単
語のかな文字表記にしたがって、音節標準パターン格納
部9に格納されている音節標準パターンを連結し、単語
標準パターンを作成する。DP照合部5で、第2の実施
例と同様に入力音声の特徴パラメータ時系列と、各単語
標準パターンとをDP法により動的に照合を行ない、各
単語標準パターンに対する距離を求める。最後に距離比
較部6で、DP照合部5で求めた各々の標準パターンと
の距離の中で最小(類似度が最大)の値をもつ標準パタ
ーンに対応する音声名を認識結果として選択し、出力す
る。
Next, the operation will be described. The syllable standard pattern is created in advance and stored in the syllable standard pattern storage 9. A method for creating the syllable standard pattern will be described later.
When an unknown input voice is input, the acoustic analysis unit 1 performs LPC analysis for each frame, and the feature parameter extraction unit 2 performs PPC analysis.
The number of feature parameters is determined for each frame. The characteristic parameters are the same as in the first embodiment. Then, for each dimension of the feature parameter, the dynamic feature parameter extraction unit 7 obtains P regression coefficients, which are time variation amounts, for each frame. Next, the voice section detector 3 detects the start and end frames of the input voice. Next, the syllable standard patterns stored in the syllable standard pattern storage unit 9 are linked according to the kana character notation of the words written in the kana notation word dictionary 8 to create a word standard pattern. As in the second embodiment, the DP collating unit 5 dynamically collates the feature parameter time series of the input speech and each word standard pattern by the DP method, and obtains a distance to each word standard pattern. Finally, the distance comparison unit 6 selects, as a recognition result, a speech name corresponding to the standard pattern having the minimum value (similarity is maximum) among the distances from the respective standard patterns obtained by the DP matching unit 5, Output.

【0186】以下、音節標準パターンを作成する方法に
ついて図6(a)を用いて説明する。音韻環境を考慮し
て、音韻バランスが取れた種々の単語セットを多数の人
が発声した音声データを学習用音声データとして用意す
る。学習用音声データにはあらかじめ音節64の始終端
位置と子音の基準フレームを目視によって音素ラベル6
1としてラベル付けを行なっておく。そして各音節の始
端から終端までの音声データを切りだし、音節毎に、第
2の実施例と同様に子音部は基準フレームを中心に連続
に母音部は線形伸縮させて音節標準パターンの特徴パラ
メータ時系列63を作成する。無声摩擦音や、語頭のバ
ズバーなどのようにスペクトルが定常で発声によって伸
縮の激しい音素については、基準フレームを中心とした
連続パターンの時間的に前の部分に母音部と同様の線形
伸縮するパターンを設けてもよい。
Hereinafter, a method for creating a syllable standard pattern will be described with reference to FIG. In consideration of the phonemic environment, voice data in which various people uttered various word sets with balanced phonemes are prepared as learning voice data. In the learning speech data, the start and end positions of the syllable 64 and the reference frame of the consonant are visually checked beforehand for the phoneme label 6.
Labeling is performed as 1. Then, speech data from the beginning to the end of each syllable is cut out, and for each syllable, the consonant part is continuously expanded and contracted linearly around the reference frame as in the second embodiment, and the characteristic parameters of the syllable standard pattern are obtained. A time series 63 is created. For phonemes whose spectrum is steady and sharply expands and contracts due to utterance, such as unvoiced fricatives and buzz bars at the beginning of the word, a linearly expanding and contracting pattern similar to the vowel part is added to the temporally preceding part of the continuous pattern centered on the reference frame. It may be provided.

【0187】入力音声を単語標準パターンとDP法によ
り時間伸縮して照合を行なうときも第2の実施例のよう
に、子音部は伸縮させず連続になるようにしながら単語
の始端から終端まで照合を行なう。DPパスは音節毎に
(数32)で表される範囲に届くようにフレーム毎に変
えてもよいし、音節標準パターンの長さをその音節の平
均継続長の1/2のように音節毎に変えれば伸縮部で一
律にしてもよい。
When the input speech is collated with the word standard pattern by time expansion and contraction by the DP method, as in the second embodiment, the consonant portion is collated from the beginning to the end of the word without being expanded or contracted. Perform The DP path may be changed for each frame so as to reach the range represented by (Equation 32) for each syllable, or the length of the syllable standard pattern may be changed for each syllable such as 1/2 of the average continuous length of the syllable. If it changes to, it may be uniform with the expansion and contraction part.

【0188】なお、第3の実施例では音節単位に認識を
するが、CV(子音+母音)、VC(母音+子音)、V
CV(母音+子音+母音)又はCVC(子音+母音+子
音)などの音声片を単位としてもよい。その場合も子音
部は基準フレームを中心として連続に照合を行なう。図
6(b)は認識の単位をCV・VCとしたときの切り出
し方の例である。
In the third embodiment, recognition is performed in syllable units, but CV (consonant + vowel), VC (vowel + consonant), V
A speech piece such as CV (vowel + consonant + vowel) or CVC (consonant + vowel + consonant) may be used as a unit. Also in this case, the consonant part continuously performs collation centering on the reference frame. FIG. 6B is an example of a cutting method when the recognition unit is CV / VC.

【0189】また、第3の実施例では、照合の距離尺度
としてベイズ判定に基づく二次判別関数で表される統計
的距離尺度を用いたが、共分散行列を共通化したベイズ
判定に基づく一次判別関数で表される統計的距離尺度を
用いることもできる。これにより、少ない計算量で認識
対象語彙の変更が容易な音声認識方法を実現することが
できる。
In the third embodiment, a statistical distance scale represented by a quadratic discriminant function based on Bayesian judgment is used as a distance scale for collation. However, a primary scale based on Bayesian judgment using a common covariance matrix is used. A statistical distance measure represented by a discriminant function can also be used. This makes it possible to realize a speech recognition method that can easily change the recognition target vocabulary with a small amount of calculation.

【0190】また、第3の実施例では、入力音声と単音
節標準パターンのフレーム毎に得られる特徴パラメータ
ベクトルと動的特徴パラメータベクトルの照合を行ない
認識したが、特徴パラメータベクトルだけを用いてもよ
い。その場合には認識率はやや落ちるが、計算量が半分
ですむというメリットがある。
In the third embodiment, the feature parameter vector obtained for each frame of the input speech and the monosyllable standard pattern is compared with the dynamic feature parameter vector for recognition. However, the feature parameter vector may be used alone. Good. In this case, the recognition rate is slightly lowered, but there is an advantage that the calculation amount is reduced by half.

【0191】また、連続DPマッチングを行なうことに
よって、第1、第2の実施例と同様にして、ワードスポ
ッティングを行なうことも可能である。
By performing continuous DP matching, word spotting can be performed in the same manner as in the first and second embodiments.

【0192】第1、第2、第3の実施例の効果を確認す
るため、男女計150名が発声した110単音節音声お
よび地名100単語音声を用いて認識実験を行なった。
このうち100名(男女各50名)のデータを用いて音
声標準パターンを作成し、残りの50名のデータを評価
した。
In order to confirm the effects of the first, second, and third embodiments, a recognition experiment was performed using 110 monosyllabic voices uttered by a total of 150 men and women and 100 word voices of place names.
A voice standard pattern was created using the data of 100 people (50 men and women), and the data of the remaining 50 people were evaluated.

【0193】(表1)に評価条件を示す。(表2)に従
来例による110単音節認識率および地名100単語認識率、
第1の実施例による110単音節認識率、第2の実施例に
よる110単音節認識率、第3の実施例による地名100単語
認識率を示す。
Table 1 shows the evaluation conditions. (Table 2) shows the recognition rate of 110 single syllables and 100 words of place names according to the conventional example.
The recognition rate of 110 single syllables according to the first embodiment, the recognition rate of 110 single syllables according to the second embodiment, and the recognition rate of 100 place names according to the third embodiment are shown.

【0194】[0194]

【表1】 [Table 1]

【0195】[0195]

【表2】 [Table 2]

【0196】(表2)において計算量は、標準パターン
のフレーム数Jを20、フレーム毎の特徴パラメータの個
数Pを11とした場合の、入力音声と標準パターンの距離
を求める際の積和の演算回数で従来例による方法を1と
したときの比を表している。第3の実施例による方法で
は、地名100単語に出現する音節の総フレーム数分だけ
距離計算を行なえばよいので計算量はそれほど増大しな
い。
In Table 2, the amount of calculation is the sum of products when calculating the distance between the input voice and the standard pattern when the number J of frames of the standard pattern is 20 and the number P of feature parameters per frame is 11. The ratio of the number of operations when the method according to the conventional example is set to 1 is shown. In the method according to the third embodiment, the distance is calculated only for the total number of frames of syllables appearing in 100 words of the place name, so that the calculation amount does not increase so much.

【0197】このように第1の実施例による方法では、
単音節認識率が従来法の47.2%に比べ68.0%
と、計算量や推定パラメータ数を増大させることなく認
識率を向上させることができる。
As described above, in the method according to the first embodiment,
Single syllable recognition rate is 68.0% compared to 47.2% of the conventional method
Thus, the recognition rate can be improved without increasing the amount of calculation and the number of estimated parameters.

【0198】また第2の実施例による方法では、単音節
認識率が第1の実施例による方法に比べ75.4%と、
さらに大きく認識率を向上させることができる。
In the method according to the second embodiment, the monosyllable recognition rate is 75.4% as compared with the method according to the first embodiment.
The recognition rate can be further improved.

【0199】また従来法では認識対象語彙の変更が困難
であったが、第3の実施例による方法では、かな表記か
ら単語標準パターンが作成できるため認識対象語彙の変
更が容易になり、認識率の面でも単語認識率が従来法の
97.3%から98.9%に向上した。
In the conventional method, it was difficult to change the vocabulary to be recognized. However, in the method according to the third embodiment, a word standard pattern can be created from kana notation. The word recognition rate also improved from 97.3% of the conventional method to 98.9%.

【0200】本実施例はいずれも、ワードスポッティン
グが可能な方法でありワードスポッティングを導入する
ことによって、騒音に対して頑強な、実用性の高い認識
装置が実現できる。
Each of the embodiments is a method capable of word spotting. By introducing word spotting, a highly practical recognition device that is robust against noise can be realized.

【0201】[0201]

【発明の効果】本発明は第一に、子音部は基準フレーム
を中心に連続にフレームをとり、母音部は線形伸縮させ
て標準パターンを作成し、認識時には子音部は伸縮させ
ずに照合を行ない、母音部はフレームを伸縮させて照合
を行なうことによって、子音部の局所的なスペクトルの
時間的変化の特徴と母音部の大局的なスペクトルの特徴
を発声速度に影響されずに適切にとらえることができる
ようになるため、認識性能の高い音声認識方法を実現す
ることができる。入力音声と標準パターンの照合に、音
声全体を一つのベクトルとしてフレーム間相関を考慮し
た一次判別関数で表される統計的距離尺度を用いること
により、計算量および標準パターンの推定パラメータ数
を増大させることなく、認識率を向上させることができ
る。また、計算量は2倍になるがフレームを独立に扱
い、そのかわりに特徴パラメータの時間変化量である動
的特徴パラメータを併用し一次判別関数で表される統計
的距離尺度を用いることによっても、認識率を向上させ
ることができる。
According to the present invention, first, the consonant part continuously takes a frame around the reference frame, and the vowel part is linearly expanded and contracted to create a standard pattern. The vowel part performs the matching by expanding and contracting the frame, so that the characteristic of the temporal change of the local spectrum of the consonant part and the characteristic of the global spectrum of the vowel part can be appropriately captured without being affected by the utterance speed. Therefore, a speech recognition method with high recognition performance can be realized. The amount of calculation and the number of estimated parameters of the standard pattern are increased by using a statistical distance scale expressed by a linear discriminant function that considers inter-frame correlation as a single vector for matching the input voice with the standard pattern. Without this, the recognition rate can be improved. Also, the amount of calculation is doubled, but the frames are treated independently, and instead, a dynamic distance parameter, which is the time variation of the characteristic parameter, is used together and a statistical distance scale expressed by a linear discriminant function is used. , The recognition rate can be improved.

【0202】本発明は第2に、さらに、時間パターンを
フレーム毎に独立のベクトルとして扱い、二次判別関数
で表される統計的距離尺度を用いることにより、さらに
音声認識性能を向上させることができる。また特徴パラ
メータの時間変化量である動的特徴パラメータを併用す
るとさらに、音声認識性能を向上させることができる。
Second, the present invention further improves speech recognition performance by treating a time pattern as an independent vector for each frame and using a statistical distance scale represented by a quadratic discriminant function. it can. When a dynamic feature parameter, which is the amount of change of the feature parameter over time, is used together, the speech recognition performance can be further improved.

【0203】本発明は第三に、さらに、音節やCV(子
音+母音)、VC(母音+子音)、VCV(母音+子音
+母音)又はCVC(子音+母音+子音)などの音声片
を組合わせることにより、認識対象語彙の変更が容易で
高精度な音声認識方法を実現することができる。
Thirdly, the present invention further recognizes syllables and voice segments such as CV (consonant + vowel), VC (vowel + consonant), VCV (vowel + consonant + vowel) or CVC (consonant + vowel + consonant). By combining them, it is possible to realize a highly accurate speech recognition method in which the vocabulary to be recognized can be easily changed.

【0204】また、ワードスポッティング機能を導入す
ることによって、騒音に対して頑強な、実用性の高い認
識装置が実現できる。
Also, by introducing the word spotting function, a highly practical recognition device that is robust against noise can be realized.

【0205】このように本発明は実用上有効な方法であ
り、その効果は大きい。
As described above, the present invention is a practically effective method, and its effect is great.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施例の処理の流れを示すフロ
ーチャート
FIG. 1 is a flowchart showing the flow of processing according to a first embodiment of the present invention;

【図2】同第1の実施例において標準パターンの作成方
法を説明する概念図
FIG. 2 is a conceptual diagram illustrating a method of creating a standard pattern in the first embodiment.

【図3】同第1の実施例におけるDPパスを示す図FIG. 3 is a diagram showing a DP path in the first embodiment.

【図4】同第2の実施例の処理の流れを示すフローチャ
ート
FIG. 4 is a flowchart showing the flow of processing according to the second embodiment;

【図5】同第3の実施例の処理の流れを示すフローチャ
ート
FIG. 5 is a flowchart showing the flow of processing according to the third embodiment;

【図6】同第3の実施例において標準パターンの作成方
法を説明する概念図
FIG. 6 is a conceptual diagram illustrating a method of creating a standard pattern in the third embodiment.

【図7】従来例の処理の流れを示すフローチャートFIG. 7 is a flowchart showing a processing flow of a conventional example.

【図8】従来例において標準パターンの作成方法を説明
する概念図
FIG. 8 is a conceptual diagram illustrating a method of creating a standard pattern in a conventional example.

【符号の説明】[Explanation of symbols]

1 音響分析部 2 特徴パラメータ抽出部 3 音声区間検出部 4 標準パターン格納部 5 DP照合部 6 距離比較部 7 動的特徴パラメータ抽出部 8 かな表記単語辞書 9 音節標準パターン格納部 10 時間軸線形正規化部 11 距離計算部 REFERENCE SIGNS LIST 1 acoustic analysis unit 2 feature parameter extraction unit 3 voice section detection unit 4 standard pattern storage unit 5 DP matching unit 6 distance comparison unit 7 dynamic feature parameter extraction unit 8 kana notation word dictionary 9 syllable standard pattern storage unit 10 time axis linear normal Conversion unit 11 Distance calculation unit

───────────────────────────────────────────────────── フロントページの続き (72)発明者 二矢田 勝行 神奈川県川崎市多摩区東三田3丁目10番 1号 松下技研株式会社内 (56)参考文献 特開 昭61−84695(JP,A) 特開 昭61−188599(JP,A) 特開 昭59−17600(JP,A) 特開 平1−298400(JP,A) 特開 昭58−145999(JP,A) 特開 平1−136197(JP,A) 特開 平3−249700(JP,A) 特開 昭58−57196(JP,A) 特開 平5−73087(JP,A) 特開 平2−23297(JP,A) 特公 平5−4678(JP,B2) 特公 平5−4679(JP,B2) 特公 平1−15076(JP,B2) 特許2712586(JP,B2) 日本音響学会平成7年度春季研究発表 会講演論文集▲I▼,1−Q−7,大附 克年外「統計的音韻中心における音韻の 特徴分析」p.109−110(平成7年3月 14日発行) L.R.Rabiner,B−H.J uang”Fundamentals of Speech Recognit ion”,1993,Prentice−H all,p.435−439 (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 17/00 ──────────────────────────────────────────────────続 き Continuation of the front page (72) Inventor Katsuyuki Niyada 3-10-1, Higashi-Mita, Tama-ku, Kawasaki-shi, Kanagawa Prefecture Matsushita Giken Co., Ltd. (56) References JP-A-61-84695 (JP, A) JP-A-61-188599 (JP, A) JP-A-59-17600 (JP, A) JP-A-1-298400 (JP, A) JP-A-58-145999 (JP, A) JP-A-1-136197 (JP, A) JP-A-3-249700 (JP, A) JP-A-58-57196 (JP, A) JP-A-5-73087 (JP, A) JP-A-2-23297 (JP, A) JP 5-4678 (JP, B2) JP 5-4679 (JP, B2) JP 1-15076 (JP, B2) Patent 2712586 (JP, B2) Lecture at the Spring Meeting of the Acoustical Society of Japan in 1995 Papers I, 1-Q-7, Katsutoshi Ohtsuki, "Statistical Phonology Phonological feature analysis of "in p. 109-110 (issued March 14, 1995) R. Rabiner, BH. Jiang "Fundamentals of Speech Recognition", 1993, Prentice-Hall, p. 435-439 (58) Field surveyed (Int. Cl. 7 , DB name) G10L 15/00-17/00

Claims (7)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 入力音声に対してフレームごとにP個
(Pは正の整数)の特徴パラメータを抽出した前記入力
音声と、認識対象とするN種(Nは正の整数)の単語音
声の各々に属する学習用単語音声データの始端から終端
までの間を、子音部は基準フレームを中心に連続にとり
母音部は各々のデータの母音区間を線形に伸縮すること
により単語全体をJフレーム(Jは正の整数)に非線形
に伸縮し、各フレームごとにP個(Pは正の整数)の特
徴パラメータを抽出して時間的順序に並べて得られるP
×J次元のベクトルを用いてあらかじめ作成した単語音
声標準パターンとを、統計的距離尺度を用いて、子音部
連続的に照合し、母音部は伸縮することにより時間整
合して照合し、入力音声と各単語音声標準パターンの類
似度を求め、前記類似度が最大となる単語音声標準パタ
ーンに対応する単語音声名を認識結果とすることを特徴
とする音声認識方法。
1. A P-number for each frame with respect to the input speech (P is a positive integer) the input obtained by extracting feature parameters
Speech and N types (N is a positive integer) of word sounds to be recognized
From the beginning to the end of the training word voice data belonging to each voice
Until the consonant section is continuously centered on the reference frame.
For vowel parts, linearly expand and contract the vowel section of each data
Makes the whole word J-frame (J is a positive integer) nonlinear
And P (P is a positive integer) for each frame
P obtained by extracting symbol parameters and arranging them in chronological order
The consonant part is collated continuously by using a statistical distance scale, and the vowel part is collated in a time-matched manner by expanding and contracting , using a J-dimensional vector and a word voice standard pattern created in advance. A speech recognition method comprising: obtaining a similarity between a voice and each word voice standard pattern; and using a word voice name corresponding to the word voice standard pattern having the highest similarity as a recognition result.
【請求項2】 入力音声に対してフレームごとにP個
(Pは正の整数)の特徴パラメータを抽出した前記入力
音声と、認識対象とするN種(Nは正の整数)の単語音
声の各々に属する学習用単語音声データの始端から終端
までの間を、子音部は基準フレームを中心に連続にとり
母音部は各々のデータの母音区間を線形に伸縮すること
により単語全体をJフレーム(Jは正の整数)に非線形
に伸縮し、各フレームごとにP個(Pは正の整数)の特
徴パラメータを抽出して時間的順序に並べて得られるJ
個のP次元のベクトルを用いてあらかじめ作成した単語
音声標準パターンとを、統計的距離尺度を用いて、子音
部は連続的に照合し、母音部は伸縮することにより時間
整合して照合し、入力音声と各単語音声標準パターンの
類似度を求め、前記類似度が最大となる単語音声標準パ
ターンに対応する単語音声名を認識結果とすることを特
徴とする音声認識方法。
2. The method according to claim 1, wherein P (P is a positive integer) characteristic parameters are extracted for each frame of the input speech.
Speech and N types (N is a positive integer) of word sounds to be recognized
From the beginning to the end of the training word voice data belonging to each voice
Until the consonant section is continuously centered on the reference frame.
For vowel parts, linearly expand and contract the vowel section of each data
Makes the whole word J-frame (J is a positive integer) nonlinear
And P (P is a positive integer) for each frame
J obtained by extracting symbol parameters and arranging them in temporal order
Using a statistical distance scale, the consonant part is continuously matched with the word speech standard pattern created in advance using the P-dimensional vectors, and the vowel part is expanded and contracted to match in time, A speech recognition method, wherein a similarity between an input speech and each word speech standard pattern is obtained, and a word speech name corresponding to the word speech standard pattern having the highest similarity is used as a recognition result.
【請求項3】 統計的距離尺度が、共分散行列を共通化
したベイズ判定に基づく距離などの一次判別関数で表さ
れることを特徴とする請求項1または2記載の音声認識
方法。
3. A statistical distance measure is, speech recognition method of claim 1 or 2, wherein the represented by a linear discriminant function, such as the distance based on Bayesian decision in common the covariance matrix.
【請求項4】 統計的距離尺度が、ベイズ判定に基づく
距離やマハラノビス距離などの二次判別関数で表される
ことを特徴とする請求項2記載の音声認識方法。
4. The speech recognition method according to claim 2 , wherein the statistical distance scale is represented by a quadratic discriminant function such as a distance based on Bayesian judgment or a Mahalanobis distance.
【請求項5】 日本語の単音節を認識対象とすることを
特徴とする請求項1ないしのいずれか記載の音声認識
方法。
5. A method according to claim 1 to the speech recognition method according to any one of 4, characterized in that the recognition target single syllable of Japanese.
【請求項6】 母音部は動的計画法(DP法)より時間
整合して照合することを特徴とする請求項1ないし
いずれか記載の音声認識方法。
6. vowel unit dynamic programming speech recognition method according to any one of claims 1 to 5, characterized in that matching aligned (DP method) than the time.
【請求項7】 事後確率を基本とした統計的距離尺度を
用いて連続DPマッチングを行なうことにより、未知入
力音声の音声区間検出をせず、ノイズを含む十分に長い
区間から音声の部分を抽出して認識するワードスポッテ
ィング機能を持つことを特徴とする請求項1ないし
いずれか記載の音声認識方法。
7. Performing continuous DP matching using a statistical distance scale based on posterior probabilities to detect a speech section of an unknown input speech and extract a speech portion from a sufficiently long section including noise. claims 1 to methods speech recognition according to any one of 6, characterized by having a recognized word spotting function with.
JP07226173A 1995-09-04 1995-09-04 Voice recognition method Expired - Fee Related JP3129164B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP07226173A JP3129164B2 (en) 1995-09-04 1995-09-04 Voice recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP07226173A JP3129164B2 (en) 1995-09-04 1995-09-04 Voice recognition method

Publications (2)

Publication Number Publication Date
JPH0968995A JPH0968995A (en) 1997-03-11
JP3129164B2 true JP3129164B2 (en) 2001-01-29

Family

ID=16841032

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07226173A Expired - Fee Related JP3129164B2 (en) 1995-09-04 1995-09-04 Voice recognition method

Country Status (1)

Country Link
JP (1) JP3129164B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101502302B1 (en) * 2013-11-02 2015-03-12 김상규 Pedestal for sanitary toilet bowl

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4109747B2 (en) 1998-05-07 2008-07-02 キヤノン株式会社 Active vibration isolator and exposure apparatus
JP2002189487A (en) 2000-12-20 2002-07-05 Mitsubishi Electric Corp Speech recognition device and speech recognition method
CN101465123B (en) * 2007-12-20 2011-07-06 株式会社东芝 Verification method and device for speaker authentication and speaker authentication system
KR101250565B1 (en) * 2010-12-22 2013-04-03 재단법인 포항산업과학연구원 Watercrushed blast furnace slag aggregates for concrete or mortar composition and manufacturing method thereof
WO2016036163A2 (en) * 2014-09-03 2016-03-10 삼성전자 주식회사 Method and apparatus for learning and recognizing audio signal

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
L.R.Rabiner,B−H.Juang"Fundamentals of Speech Recognition",1993,Prentice−Hall,p.435−439
日本音響学会平成7年度春季研究発表会講演論文集▲I▼,1−Q−7,大附克年外「統計的音韻中心における音韻の特徴分析」p.109−110(平成7年3月14日発行)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101502302B1 (en) * 2013-11-02 2015-03-12 김상규 Pedestal for sanitary toilet bowl

Also Published As

Publication number Publication date
JPH0968995A (en) 1997-03-11

Similar Documents

Publication Publication Date Title
US6553342B1 (en) Tone based speech recognition
EP2888669B1 (en) Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems
EP1647970A1 (en) Hidden conditional random field models for phonetic classification and speech recognition
Schuller et al. Static and dynamic modelling for the recognition of non-verbal vocalisations in conversational speech
US20070203700A1 (en) Speech Recognition Apparatus And Speech Recognition Method
Nasereddin et al. Classification techniques for automatic speech recognition (ASR) algorithms used with real time speech translation
Ranjan et al. Isolated word recognition using HMM for Maithili dialect
Nivetha A survey on speech feature extraction and classification techniques
Kurian A survey on speech recognition in Indian languages
Barras et al. Vocapia-limsi system for 2020 shared task on code-switched spoken language identification
JP3129164B2 (en) Voice recognition method
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Abdo et al. Semi-automatic segmentation system for syllables extraction from continuous Arabic audio signal
JP3444108B2 (en) Voice recognition device
JPS6138479B2 (en)
Manjunath et al. Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali
Pranjol et al. Bengali speech recognition: An overview
Parris et al. Language identification using multiple knowledge sources
Raghudathesh et al. Analysis and Classification of Spoken Utterance Using Feature Vector Statistics and Machine Learning Algorithms
Li et al. A detection method of lip-smack in spontaneous speech
JP3277522B2 (en) Voice recognition method
Heracleous et al. A novel approach for modeling non-keyword intervals in a keyword spotter exploiting acoustic similarities of languages
JP2862306B2 (en) Voice recognition device
Deekshitha et al. Segmentation of continuous speech for broad phonetic engine
Yu et al. A neural network for 500 vocabulary word spotting using acoustic sub-word units

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees