JPH0594198A - Method and device for recognizing voice - Google Patents

Method and device for recognizing voice

Info

Publication number
JPH0594198A
JPH0594198A JP25362291A JP25362291A JPH0594198A JP H0594198 A JPH0594198 A JP H0594198A JP 25362291 A JP25362291 A JP 25362291A JP 25362291 A JP25362291 A JP 25362291A JP H0594198 A JPH0594198 A JP H0594198A
Authority
JP
Japan
Prior art keywords
state
voice
parameter
normal distribution
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP25362291A
Other languages
Japanese (ja)
Inventor
Tetsuo Kosaka
哲夫 小坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP25362291A priority Critical patent/JPH0594198A/en
Publication of JPH0594198A publication Critical patent/JPH0594198A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To improve the recognition accuracy of phonemes having a transient feature such as a plosive, a nasal sound by deriving separately a covariance matrix for representing the variance of a normal distribution for every state. CONSTITUTION:The device is provided with a microphone 1 for inputting voice information, an A/D converter 2 for executing analog/digital conversion (A/D conversion) of the voice information inputted from the microphone 1, and a CPU(Central Processing Unit) 3 for taking charge of control of each part. Also, a read-only memory(ROM) 4 stores an average value and a covariance of each standard pattern, and moreover, stores a program of a processing, and a random access memory(RAM) 5 is used as a memory for a work space, and each part is connected by a system bus 6. In such a state, at the time of extracting an analytic parameter from a sound signal, a dynamic feature parameter and a static feature parameter are both derived, and at the time of DP matching, pattern matching is executed, based on the respective output probability.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は音声を分析することによ
って得られるパラメータから、音韻、音節、単語などを
認識する音声認識方法及び装置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition method and apparatus for recognizing phonemes, syllables, words, etc. from parameters obtained by analyzing speech.

【0002】[0002]

【従来の技術】従来、音声を認識する方法としては、H
MM法など、音声を統計的手法により認識する手段が多
く使われている。これらの手法の一つとして、統計的距
離尺度を用いるDPマッチングによる認識手法であるス
トキャスティックDP法がある。このストキャスティッ
クDP法とは、中川、「ストキャスティックDP法およ
び統計的手法による不特定話者の英語子音の認識」、電
子通信学会論文誌(D)、J70−D、1,p.p.1
55−163(昭62−01)に詳しいが、距離尺度と
して確率の尺度に対応するもの、パスコストのかわりに
遷移確率を用いたものである。
2. Description of the Related Art Conventionally, as a method for recognizing voice, H
Many means such as the MM method for recognizing speech by a statistical method are used. One of these methods is the stochastic DP method, which is a recognition method based on DP matching using a statistical distance measure. The Stochastic DP method is referred to by Nakagawa, "Recognition of English Consonants of Unspecified Speakers by Stochastic DP Method and Statistical Method", IEICE Transactions (D), J70-D, 1, p. p. 1
55-163 (Sho 62-01), the distance measure corresponds to the probability measure, and the transition probability is used instead of the path cost.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、上記従
来の方法では、1音韻カテゴリーに対して1共分散行列
を用いているため、過渡的な特徴を持つ音韻は特徴が表
現しきれないという欠点があった。
However, in the above-mentioned conventional method, since one covariance matrix is used for one phoneme category, there is a drawback that a phoneme having a transient feature cannot be fully expressed. there were.

【0004】さらに、音声パラメータとして音声スペク
トルの絶対的な位置を表わすベクトル量である静的特徴
を用いているため、やはり過渡的な特徴を持つ音韻が認
識しにくいという欠点があった。
Further, since a static feature which is a vector quantity representing an absolute position of a voice spectrum is used as a voice parameter, there is a drawback that a phoneme having a transient feature is difficult to recognize.

【0005】またこの手法は基本的にDPマッチング法
を用いているため、標準パターンを基本軸とする非対称
型のDPパスを使用することにより、スポッティングア
ルゴリズムへの変更が可能である。この手法については
中川、「確率モデルによる音声認識」、電子情報通信学
会編、pp.87−89(昭63−7)に詳しい。しか
しながら、出力確率の計算回数が一定でないため、標準
パタンの長さが異なる場合は短いパタンに認識されやす
いという欠点があった。
Further, since this method basically uses the DP matching method, it is possible to change to the spotting algorithm by using an asymmetric DP path having the standard pattern as the basic axis. This method is described in Nakagawa, “Speech Recognition by Probabilistic Model”, edited by IEICE, pp. 87-89 (Sho 63-7). However, since the number of times the output probability is calculated is not constant, there is a drawback in that if the standard patterns have different lengths, they are likely to be recognized as short patterns.

【0006】[0006]

【課題を解決するための手段】上記課題を解決するため
に、本発明はスペクトルの距離尺度として、正規分布の
仮定に基づく統計的距離尺度を用い、状態遷移確率を用
いる動的計画法による音声認識装置であって、正規分布
の分散を表わす共分散行列を、各状態ごと別個に求める
ことを特徴とする音声認識装置を提供する。
In order to solve the above-mentioned problems, the present invention uses a statistical distance measure based on the assumption of normal distribution as a distance measure of a spectrum, and speech by dynamic programming using a state transition probability. Provided is a recognition device, which is characterized in that a covariance matrix representing the variance of a normal distribution is obtained separately for each state.

【0007】上記課題を解決するために、本発明は前記
音声認識装置は、入力音声を分析してパラメーターを得
る分析手段を有し、前記分析は静的特徴と動的特徴を併
用するものとすることを特徴とする請求項1に記載の音
声認識装置。
In order to solve the above-mentioned problems, the present invention is characterized in that the speech recognition apparatus has an analysis means for analyzing input speech to obtain parameters, and the analysis uses both static features and dynamic features. The voice recognition device according to claim 1, wherein

【0008】上記課題を解決するために、本発明は、ス
ペクトルの距離尺度として、正規分布の仮定に基づく統
計的距離尺度を用い、状態遷移確率を用いる動的計画法
による音声認識方法及び装置であって、正規分布の分散
を表わす共分散行列を、各状態ごと別個に求めることを
特徴とする音声認識方法及び装置。
In order to solve the above problems, the present invention provides a speech recognition method and apparatus by dynamic programming that uses a statistical distance measure based on the assumption of normal distribution as a distance measure of a spectrum and uses a state transition probability. A speech recognition method and apparatus, wherein a covariance matrix representing the variance of a normal distribution is obtained separately for each state.

【0009】上記課題を解決するために、本発明は、前
記音声の認識は、入力音声を分析して得るパラメータを
用い、前記分析により静的特徴と動的特徴を導出し、認
識の際に併用するものとする。
In order to solve the above-mentioned problems, the present invention uses the parameters obtained by analyzing the input voice for the recognition of the voice, derives the static feature and the dynamic feature by the analysis, and recognizes the feature. It should be used together.

【0010】上記課題を解決するために、本発明は、前
記動的計画法の積分軸を標準パタン側におき、状態数で
正規化する。
In order to solve the above problems, the present invention places the integration axis of the dynamic programming on the side of the standard pattern and normalizes it by the number of states.

【0011】[0011]

【実施例】以下、本発明の好適な実施例を、図面を用い
て詳細に説明する。
Preferred embodiments of the present invention will be described in detail below with reference to the drawings.

【0012】図1は、本実施例の音声認識装置の構成を
示すブロック図である。図中、1は音声情報を入力する
為のマイク、2はマイク1から入力された音声情報をア
ナログ/デジタル変換(A/D変換)するA/D変換
器、3はCPU(Central Processin
g Unit)であり、これら各部の制御を司る。4は
リード・オンリー・メモリ(ROM)であり、音声の各
標準パタンの平均値および共分散を格納し、また、後述
するフローチャートに示すような処理のプログラムを格
納する。5はランダム・アクセス・メモリ(RAM)で
あり、ワークスペース用のメモリとして用いる。6はシ
ステムバスであり、上記各部はこのシステムバスによっ
て接続される。
FIG. 1 is a block diagram showing the configuration of the speech recognition apparatus of this embodiment. In the figure, 1 is a microphone for inputting voice information, 2 is an A / D converter that performs analog / digital conversion (A / D conversion) of voice information input from the microphone 1, and 3 is a CPU (Central Process).
g Unit) and controls the control of each of these parts. A read-only memory (ROM) 4 stores the average value and covariance of each standard pattern of voice, and also stores a processing program as shown in a flowchart described later. A random access memory (RAM) 5 is used as a workspace memory. Reference numeral 6 denotes a system bus, and the above-mentioned units are connected by this system bus.

【0013】ここで、ROM4に格納する標準パタンの
平均値の求め方について説明する。
Now, how to obtain the average value of the standard patterns stored in the ROM 4 will be described.

【0014】標準パタンの学習法としては、まずLPC
ケプストラムなどの音声パラメータを用いて、標準パタ
ンと入力パラメータ系列とのDPマッチングをとる。こ
こで標準パタンの初期値としては、統計すべきクラスに
属する任意の音声パラメータ系列をえらぶ。DPマッチ
ングによってアライメントがとれれば、標準パタンの各
フレームを状態とみたて、各状態ごとそれに対応する入
力パラメータの和及び、自乗和を計算する。入力パラメ
ータの和から、各状態ごとの平均値を計算する。平均値
は1入力ごとに毎回更新する。またすべてのデータが入
力された時点で、自乗和を用いて共分散行列を計算す
る。またアライメントをとったところで、各状態ごとの
DPパスが選ばれた回数をカウントしておき、すべての
データが入力された時点で、状態遷移確率を求める。
As a standard pattern learning method, first, LPC is used.
DP matching between the standard pattern and the input parameter sequence is performed using a voice parameter such as cepstrum. Here, as the initial value of the standard pattern, an arbitrary voice parameter sequence belonging to the class to be statistically selected is selected. If alignment is achieved by DP matching, each frame of the standard pattern is regarded as a state, and the sum of the input parameters corresponding to each state and the sum of squares are calculated for each state. The average value for each state is calculated from the sum of the input parameters. The average value is updated every input. When all data are input, the covariance matrix is calculated using the sum of squares. In addition, when alignment is taken, the number of times the DP path is selected for each state is counted, and the state transition probability is calculated at the time when all the data are input.

【0015】入力パラメータ系列と各状態とのアライメ
ントはDPマッチングによってとられるため、1つの入
力データがあると必ず各状態とも1回は計算をおこなう
ことになる。このため共分散行列の計算に次数の2乗程
度のデータが必要とするなら、例えばパラメータ次数が
12次とすると、144データがあれば1状態ごとの共
分散行列が設計可能となる。
Since the alignment between the input parameter series and each state is obtained by DP matching, if there is one input data, each state is always calculated once. For this reason, if the data of about the square of the order is required for the calculation of the covariance matrix, for example, assuming that the parameter order is the 12th order, the covariance matrix for each state can be designed with 144 data.

【0016】このように求められた標準パタンの各状態
ごとの平均値と状態遷移確率はROM4に格納される。
The average value and the state transition probability of each state of the standard pattern thus obtained are stored in the ROM 4.

【0017】次にこの標準パタンデータを用いて音声の
認識を行う処理について図2のフローチャートを用いて
説明する。尚、この図2のフローチャートの処理は、マ
イク1から入力された音声情報をA/D変換器2によっ
てデジタル信号に変換された後の処理である。
Next, a process of recognizing a voice using the standard pattern data will be described with reference to the flowchart of FIG. The process of the flowchart of FIG. 2 is a process after the voice information input from the microphone 1 is converted into a digital signal by the A / D converter 2.

【0018】音声信号は、音声スペクトルの絶対的な位
置を表わすベクトル量である静的な特徴パラメータ(例
えばLPCケプストラム)と、音声スペクトルの時間的
な動きを表わすベクトル量である動的な特徴パラメータ
(例えばデルタケプストラム)とに変換する(S−
1)。
The voice signal has a static feature parameter (eg LPC cepstrum) which is a vector quantity representing an absolute position of the voice spectrum and a dynamic feature parameter which is a vector quantity representing a temporal movement of the voice spectrum. (For example, delta cepstrum) (S-
1).

【0019】S2で式(1−1)〜式(1−3)を用い
てDPマッチングの初期値を与える。
At S2, the initial value of DP matching is given by using the equations (1-1) to (1-3).

【0020】 Q(−1,j)=Q(0,j)=−∞ 式(1−1) Q(i,1)=logP(ai|1) 式(1−2) Q(i,0)=0 式(1−3) (ただし、aiはベクトルを表すものとする。)S3で
すべてのクラス(単語、音韻など)のDPの計算が終了
したか否かの判断を行う。
Q (−1, j) = Q (0, j) = − ∞ Formula (1-1) Q (i, 1) = logP (a i | 1) Formula (1-2) Q (i, 0) = 0 Expression (1-3) (where a i represents a vector) In S3, it is determined whether or not the DP calculation for all classes (words, phonemes, etc.) has been completed.

【0021】S3において、終了していないと判断され
る場合は、S4に進み、式(2−1)〜式(2−3)の
漸加式を用いてDPの計算を行う。求めるDPの値(D
Pの累積距離)Q(i,j)は、式(2−1)〜式(2
−3)の最大値とする。
If it is determined in S3 that the processing has not ended, the processing proceeds to S4, and DP is calculated using the gradual addition equations of equations (2-1) to (2-3). Required DP value (D
(Cumulative distance of P) Q (i, j) is expressed by equations (2-1) to (2).
-3) maximum value.

【0022】 Q(i−2,j−1)+0.5logP(ai-1|j)+0.5logP (ai|j)+logP1(j) 式(2−1) Q(i−1,j−1)+logP(ai|j)+logP2(j) 式( 2−2) Q(i−1,j−2)+logP(ai|j−1)+logP(ai|j) +logP3(j) 式(2−3) 但しPi(j)は状態jへの遷移確率。Q (i−2, j−1) + 0.5logP (a i−1 | j) + 0.5logP (a i | j) + logP 1 (j) Formula (2-1) Q (i−1, j) j-1) + logP (a i | j) + logP 2 (j) equation (2-2) Q (i-1 , j-2) + logP (a i | j-1) + logP (a i | j) + logP 3 (J) Formula (2-3) where P i (j) is the transition probability to the state j.

【0023】なお、式(2−1)〜式(2−3)におい
て用いられている出力確率を表わすP(ai|j)は、
以下の式(3)のように表せる。
Note that P (a i | j) representing the output probability used in the equations (2-1) to (2-3) is
It can be expressed as the following formula (3).

【0024】 P(ai|j)=λPCEP(ai|j)+(1−λ)PDCEP(ai|j) (0≦λ≦1) ・・・式(3) 但し、PCEP(ai|j)は静的特徴パラメータによる出
力確率であり、PDCEP(ai|j)は動的特徴パラメー
タによる出力確率である。
P (a i | j) = λP CEP (a i | j) + (1−λ) P DCEP (a i | j) (0 ≦ λ ≦ 1) (3) where P CEP (a i | j) is the output probability due to the static feature parameter, and P DCEP (a i | j) is the output probability due to the dynamic feature parameter.

【0025】つまり、式(2−1)〜式(2−3)にお
いてP(ai|j)を用いる為、この式を基にして求め
るパラメータは静的特徴と動的特徴を併用することがで
きる。
That is, since P (a i | j) is used in the equations (2-1) to (2-3), the parameter obtained based on this equation should be a combination of the static feature and the dynamic feature. You can

【0026】なお、式(3)においてPCEP(ai|j)
及びPDCEP(ai|j)として用いられる出力確率は以
下の式(4)によって表される。
In equation (3), P CEP (a i | j)
And the output probabilities used as P DCEP (a i | j) are represented by the following equation (4).

【0027】 (2π)-d/2|Σj|-1/2・exp{−(ai−μjtΣj -1(ai−μj) }・・・式(4) ただし、dはパラメータの次元数、μjは状態jでの平
均値ベクトル、Σjは状態jでの共分散行列、aiはベク
トルを表す。
(2π) −d / 2 | Σj | −1 / 2 · exp {− (a i −μ j ) t Σ j −1 (a i −μ j )} (4) where d is the dimension number of the parameter, μ j is the average value vector in the state j, Σ j is the covariance matrix in the state j, and a i is the vector.

【0028】S3においてすべてのクラスのDPの計算
が終了すると判断されるまで以上のような計算を繰り返
し、S3ですべてのクラスのDPの計算が終了したと判
断されたらS4に進む。
The above calculation is repeated until it is determined in S3 that the DPs of all the classes have been completed. If it is determined that the DPs of all the classes have been calculated in S3, the process proceeds to S4.

【0029】S4では状態数の正規化する為にQ(i,
J)/J(Jはモデルの状態数)を標準パタンごとに計
算し、最大を与える標準パタンが属するクラスを時刻i
における認識クラス(音韻、単語など)とする。(Jは
モデルの状態数である) 尚、以上の式(1)〜式(4)はCPU3により演算が
行われる。また、各標準パタンの平均値及び共分散はR
OM4に格納される。
In S4, in order to normalize the number of states, Q (i,
J) / J (where J is the number of model states) is calculated for each standard pattern, and the class to which the standard pattern giving the maximum belongs is time i
The recognition class (phoneme, word, etc.) in. (J is the number of states of the model) The above equations (1) to (4) are calculated by the CPU 3. The average value and covariance of each standard pattern is R
It is stored in OM4.

【0030】[0030]

【発明の効果】以上説明したように共分散を各状態ごと
に持ち、さらに静的特徴をあらわすパラメータと動的特
徴をあらわすパラメータを併用することにより、破裂
音、鼻音などの過渡的な特徴を持つ音韻の認識の精度が
向上する。また状態数で正規化することにより、スポッ
ティングした場合の性能が向上する。
As described above, the covariance is provided for each state, and by using the parameter showing the static feature and the parameter showing the dynamic feature together, transient features such as plosive sounds and nasal sounds can be obtained. The accuracy of recognizing the phoneme possessed is improved. Further, by normalizing with the number of states, the performance when spotting is improved.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の実施例の処理を示すフローチャートFIG. 1 is a flowchart showing a process of an embodiment of the present invention.

【図2】本発明の音声認識装置の構成を示すブロック図FIG. 2 is a block diagram showing a configuration of a voice recognition device of the present invention.

【符号の説明】[Explanation of symbols]

1 マイク 2 A/D変換器 3 CPU 4 ROM 5 RAM 6 システムバス 1 Microphone 2 A / D converter 3 CPU 4 ROM 5 RAM 6 System bus

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 スペクトルの距離尺度として、正規分布
の仮定に基づく統計的距離尺度を用い、状態遷移確率を
用いる動的計画法による音声認識装置であって、 正規分布の分散を表わす共分散行列を、各状態ごと別個
に求めることを特徴とする音声認識装置。
1. A speech recognition apparatus by dynamic programming using state transition probabilities, which uses a statistical distance measure based on the assumption of normal distribution as a spectral distance measure, and a covariance matrix representing the variance of a normal distribution. A voice recognition device characterized in that is obtained separately for each state.
【請求項2】 前記音声認識装置は、入力音声を分析し
てパラメーターを得る分析手段を有し、 前記分析により静的特徴と動的特徴を導出し、認識の際
に併用することを特徴とする請求項1に記載の音声認識
装置。
2. The voice recognition device has an analysis unit for analyzing input voice to obtain a parameter, and the static feature and the dynamic feature are derived by the analysis and are used together during recognition. The voice recognition device according to claim 1.
【請求項3】 前記動的計画法の積分軸を標準パタン側
におき、状態数で正規化することを特徴とする請求項1
に記載の音声認識装置。
3. The integration axis of the dynamic programming is placed on the side of the standard pattern and is normalized by the number of states.
The voice recognition device described in 1.
【請求項4】 スペクトルの距離尺度として、正規分布
の仮定に基づく統計的距離尺度を用い、状態遷移確率を
用いる動的計画法による音声認識方法であって、 正規分布の分散を表わす共分散行列を、各状態ごと別個
に求めることを特徴とする音声認識方法。
4. A speech recognition method by dynamic programming using state transition probabilities, wherein a statistical distance measure based on the assumption of normal distribution is used as a distance measure of the spectrum, and a covariance matrix representing the variance of the normal distribution. A method for recognizing speech, characterized in that is calculated separately for each state.
【請求項5】 前記音声の認識は、入力音声を分析して
得るパラメータを用い、 前記分析により静的特徴と動的特徴を導出し、認識の際
に併用することを特徴とする請求項4に記載の音声認識
方法。
5. The voice recognition is performed by using a parameter obtained by analyzing an input voice, deriving a static feature and a dynamic feature by the analysis, and using them together for recognition. Speech recognition method described in.
【請求項6】 前記動的計画法の積分軸を標準パタン側
におき、状態数で正規化することを特徴とする請求項4
に記載の音声認識方法。
6. An integration axis of the dynamic programming is placed on the side of a standard pattern and is normalized by the number of states.
Speech recognition method described in.
JP25362291A 1991-10-01 1991-10-01 Method and device for recognizing voice Pending JPH0594198A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25362291A JPH0594198A (en) 1991-10-01 1991-10-01 Method and device for recognizing voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25362291A JPH0594198A (en) 1991-10-01 1991-10-01 Method and device for recognizing voice

Publications (1)

Publication Number Publication Date
JPH0594198A true JPH0594198A (en) 1993-04-16

Family

ID=17253918

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25362291A Pending JPH0594198A (en) 1991-10-01 1991-10-01 Method and device for recognizing voice

Country Status (1)

Country Link
JP (1) JPH0594198A (en)

Similar Documents

Publication Publication Date Title
US4908865A (en) Speaker independent speech recognition method and system
JPH02195400A (en) Speech recognition device
JP2815579B2 (en) Word candidate reduction device in speech recognition
JPH0422276B2 (en)
JPH07334184A (en) Calculating device for acoustic category mean value and adapting device therefor
JP4353202B2 (en) Prosody identification apparatus and method, and speech recognition apparatus and method
JP2002539482A (en) Method and apparatus for determining sample speech
Beulen et al. Experiments with linear feature extraction in speech recognition.
US20050267755A1 (en) Arrangement for speech recognition
JP3403838B2 (en) Phrase boundary probability calculator and phrase boundary probability continuous speech recognizer
JP3129164B2 (en) Voice recognition method
JPH0594198A (en) Method and device for recognizing voice
JP2980382B2 (en) Speaker adaptive speech recognition method and apparatus
Khasawneh et al. The application of polynomial discriminant function classifiers to isolated Arabic speech recognition
JPH08314490A (en) Word spotting type method and device for recognizing voice
JP2003271185A (en) Device and method for preparing information for voice recognition, device and method for recognizing voice, information preparation program for voice recognition, recording medium recorded with the program, voice recognition program and recording medium recorded with the program
JP3299170B2 (en) Voice registration recognition device
JP3254933B2 (en) Voice recognition method
JP2862306B2 (en) Voice recognition device
JP3036706B2 (en) Voice recognition method
JPH0619497A (en) Speech recognizing method
JPH06337700A (en) Voice synthesizer
JPH05197397A (en) Speech recognizing method and its device
JP3449165B2 (en) Word standard pattern creation device, speech recognition device and method thereof
JPH03201027A (en) Dynamic programming method applying learning