JPH045391B2 - - Google Patents

Info

Publication number
JPH045391B2
JPH045391B2 JP59058173A JP5817384A JPH045391B2 JP H045391 B2 JPH045391 B2 JP H045391B2 JP 59058173 A JP59058173 A JP 59058173A JP 5817384 A JP5817384 A JP 5817384A JP H045391 B2 JPH045391 B2 JP H045391B2
Authority
JP
Japan
Prior art keywords
phoneme
dictionary
word
speech
nasal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP59058173A
Other languages
Japanese (ja)
Other versions
JPS60202494A (en
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed filed Critical
Priority to JP59058173A priority Critical patent/JPS60202494A/en
Publication of JPS60202494A publication Critical patent/JPS60202494A/en
Publication of JPH045391B2 publication Critical patent/JPH045391B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は入力音声と、音素表記された単語辞書
を照合して単語を認識する単語音声認識方法に関
するものである。
DETAILED DESCRIPTION OF THE INVENTION (Field of Industrial Application) The present invention relates to a word speech recognition method for recognizing words by comparing input speech with a word dictionary in which phonemes are expressed.

(従来例の構成とその問題点) 第1図は従来の単語音声認識方法の一例及び本
発明の単語音声認識方法の実施例を実行するため
の装置の機能ブロツク図である。従来例を第1
図、第2図及び第3図とともに説明する。第1図
において、1は入力音声からパラメータの時系列
を作成するパラメータ抽出部、2は音素標準パタ
ンを照合して、音素の確率密度を算出する確率密
度計算部、3は音素毎のセグメンテーシヨン、尤
度計算、単語類似度計算を行なう単語認識部であ
る。また、4は各音素毎の各種パラメータにおけ
る分布を各音素毎の平均値(μi)、及び各種パラ
メータ間の半分散行列(Σi)の形で表わした音素
標準パタンを記憶する音素標準パタン部、5は認
識すべき全単語を音素単位の記号列で表記した単
語辞書が記憶されている単語辞書部である。その
単語辞書は、例えば単語「サツポロ」、「カンケ
イ」は「SAQPORO」、「KAN=NAI」等と表記
されている。
(Constitution of Conventional Example and Problems thereof) FIG. 1 is a functional block diagram of an example of a conventional word speech recognition method and an apparatus for carrying out an embodiment of the word speech recognition method of the present invention. Conventional example first
This will be explained with reference to FIGS. 2 and 3. In Figure 1, 1 is a parameter extraction unit that creates a time series of parameters from input speech, 2 is a probability density calculation unit that calculates the probability density of a phoneme by comparing standard patterns of phonemes, and 3 is a segmentation unit for each phoneme. This is a word recognition unit that performs similarity calculations, likelihood calculations, and word similarity calculations. 4 is a phoneme standard pattern section that stores a phoneme standard pattern representing the distribution of various parameters for each phoneme in the form of an average value (μi) for each phoneme and a semivariance matrix (Σi) between various parameters; Reference numeral 5 denotes a word dictionary section in which a word dictionary in which all words to be recognized are expressed in symbol strings in units of phonemes is stored. In the word dictionary, for example, the words ``Satsuporo'' and ``Kankei'' are written as ``SAQPORO'' and ``KAN=NAI.''

次に上記従来例の動作について説明する。パラ
メータ抽出部1において、入力音素を10msのフ
レーム毎に分析しパラメータを抽出して、パラメ
ータ時系列を作成する。次に確率密度計算部2に
おいて、フレーム毎に得られたパラメータと音素
標準パタン部4の音素標準パタンを照合し、音素
の確率密度を算出する。次に、単語認識部3にお
いて、各辞書項目毎に、その辞書項目を構成する
辞書音素系列に従つて音素のセグメンテーシヨン
を行ない、下記式に従いその音素の種類と、そ
の音素に対応してセグメンテーシヨンされた区間
の尤度lを計算し、その辞書項目における、各音
素の尤度の平均として類似度を求める。ここで、
その音素をXとし、Xに対応してセグメンテーシ
ヨンされた区間の始端と終端のフレーム番号を
Ns、Neとし、第nフレームにおける各パラメー
タの値をCoとすると、音素Xの尤度lxは下式で定
義される。
Next, the operation of the above conventional example will be explained. The parameter extraction unit 1 analyzes input phonemes every 10 ms frame, extracts parameters, and creates a parameter time series. Next, the probability density calculation section 2 compares the parameters obtained for each frame with the phoneme standard pattern of the phoneme standard pattern section 4, and calculates the probability density of the phoneme. Next, the word recognition unit 3 performs phoneme segmentation for each dictionary item according to the dictionary phoneme series that makes up the dictionary item, and then segments the phoneme according to the type of phoneme and the phoneme corresponding to the phoneme according to the following formula. The likelihood l of the segmented interval is calculated, and the similarity is determined as the average of the likelihoods of each phoneme in the dictionary entry. here,
Let the phoneme be X, and the frame numbers at the start and end of the segmented section corresponding to X are
Let Ns and Ne be Ns, and the value of each parameter in the n-th frame be Co , then the likelihood l x of phoneme X is defined by the following formula.

φi(Co)はある音素iの確率密度を表わし、
式のように定義される。
φ i (C o ) represents the probability density of a certain phoneme i,
It is defined as Eq.

φi(Co)=1/(2π)N/2|Σi1/2exp〔
−1/2(Co−μiTΣ-1 i(Co−μi)〕…… Co:第nフレームにおけるN個のパラメータ (ベクトル) μi:ある音楽iのパラメータの平均値 (ベクトル) Σi:共分散行列 式において、確率密度の割り算における分母
のサメンシヨンのiの範囲は、音素Xが何である
かによつて異なり、例えばXが音楽A(ア)の時はi
の範囲は5母音、A、E、I、O、U、としてい
る。以上により得られる単語類似度LMを式に
従つて各辞書項目毎に求め、LMが最大となる辞
書項目をもつて、認識単語としていた。
φ i (C o )=1/(2π) N/2 | Σ i | 1/2 exp [
-1/2 (C oi ) T Σ -1 i (C oi )]... Co : N parameters (vector) in the n-th frame μ i : Average of parameters of music i Value (vector) Σ i : Covariance matrix In the formula, the range of i in the denominator summension in probability density division differs depending on the phoneme X. For example, when X is music A, i
The range is five vowels: A, E, I, O, and U. The word similarity L M obtained above was determined for each dictionary item according to the formula, and the dictionary item with the maximum L M was selected as a recognized word.

LMNPj=1 lj/NP …… (LM:辞書中のM番目の単語の類似度 lj:辞書音素系列中のj番目の音素の尤度 NP:辞書音素類) 第2図は/KAN=NAI/(関内)と発声した
時の/AN=NA/の部分の各音素の確率密度の
時間変化を表わしている。この場合の/AN=
NA/の部分のセグメンテーシヨン及び尤度計算
は、各音素/A/、/N=/、/N/、/A/の
確率密度の値φA、φN=、φN、φAの時間変化に従つ
てセグメンテーシヨンを行なう。/AN=NA/
の場合は第1番目の/A/に対してセグメンテー
シヨンした区間(a−b)を対応させ、式に従
い、φAを用いてlAを計算し、/N=/、/
N/、/A/についても同様にlN=、lN、lAを計算
する。
L M = NPj=1 l j /NP... (L M : Similarity of the M-th word in the dictionary l j : Likelihood of the j-th phoneme in the dictionary phoneme series NP: Dictionary phoneme class) Figure 2 shows the temporal change in the probability density of each phoneme in the /AN=NA/ part when /KAN=NAI/ (Kannai) is uttered. /AN= in this case
Segmentation and likelihood calculation for the NA/ part are performed using probability density values φ A , φ N= , φ N , φ A for each phoneme /A/, /N = /, /N/, /A/. Segmentation is performed according to time changes. /AN=NA/
In the case of , the segmented interval (a-b) is made to correspond to the first /A/, and according to the formula, l A is calculated using φ A , and /N=/, /
For N/ and /A/, l N= , l N , and l A are calculated in the same way.

第3図は同じ単語/KAN=NAI/を別の話者
が発声した場合の各音素の確率密度の時間変化を
示している。第3図において、/AN=NA/の
部分のセグメンテーシヨン及び尤度計算はφA
φN=、φN、φAの時間変化によつて行なうが、/N
=/のセグメンテーシヨンをする場合/N=/の
次に来る音素/N/の確率密度φNが/N/の区
間で十分大きくならずφN=が/N/の区間に大き
な値を持ち、次の音素/A/の区間の始まりまで
きている。従つて/N=/のセグメンテーシヨン
区間は区間(g−h)となり、/N/の区間を含
むため、/N=/の次の音素/N/のセグメンテ
ーンシヨンを誤り、尤度lNも低くなるため、撥
音、鼻音の連続2音素を含む単語は誤認識し易い
欠点があつた。
Figure 3 shows the temporal change in the probability density of each phoneme when the same word /KAN=NAI/ is uttered by different speakers. In Figure 3, the segmentation and likelihood calculation for /AN=NA/ are φ A ,
This is done by changing φ N= , φ N , φ A over time, but /N
When segmenting =/, the probability density φ N of the phoneme /N/ that comes after /N=/ is not large enough in the /N/ interval, and φ N= has a large value in the /N/ interval. and reaches the beginning of the next phoneme /A/. Therefore, the segmentation interval of /N=/ becomes the interval (gh), which includes the interval of /N/, so the segmentation of the next phoneme /N/ after /N=/ is incorrect, and the likelihood l Since N is also low, words containing two consecutive phonemes, such as a phonic or nasal sound, have the disadvantage of being easily misrecognized.

(発明の目的) 本発明は、上記従来例の欠点を除去するもので
あり、尤度計算の精度を向上させ、それにより単
語認識率を向上させることを目的とする。
(Objective of the Invention) The present invention is intended to eliminate the drawbacks of the conventional example described above, and aims to improve the accuracy of likelihood calculation, thereby improving the word recognition rate.

(発明の構成) 本発明は、上記目的を達成するために、撥音、
鼻音が連続する音素系列のセグメンテーシヨン及
び尤度計算を行なう際、撥音、鼻音の連続2音素
をまとめてセグメンテーシヨンし尤度計算を行な
うことにより、セグメンテーシヨン及び尤度計算
の精度を向上させる効果を得るものである。
(Structure of the Invention) In order to achieve the above object, the present invention provides repellent sound,
When segmenting and calculating the likelihood of a phoneme sequence with continuous nasal sounds, the accuracy of the segmentation and likelihood calculation can be improved by segmenting and calculating the likelihood of two consecutive phonemes, a nasal sound and a nasal sound. It has the effect of improving.

(実施例の説明) 以下に本発明の一実施例について第1図及び第
3図とともに説明する。第1図において、音素標
準パタンは従来例と同様である。単語辞書は、認
識すべき単語を音素の記号列で表記してある。ま
たパラメータ抽出により得られるパラメータ時系
列は従来例と同様である。本実施例の動作につい
て説明する。先ず、パラメータ抽出部1で入力音
声からフレーム毎のパラメータを得、さらに確率
密度計算部2でそのパラメータの値及び、各音素
標準パタンから得られる確率密度を計算する。次
に、単語認識部3において、単語辞書部5内の各
辞書項目毎にその辞書項目を構成する辞書音声系
列に従つて音素Xのセグメンテーシヨンを行な
い、その音素Xとその音素Xに対応してセグメン
テーシヨンされた区間の尤度lXを計算するのであ
るが、辞書音素系列中に撥音、鼻音の2連続音素
系列がある場合、第1番目の音素である撥音の確
率密度の値が、次の鼻音の終りまで優勢である。
従つて撥音、鼻音の連続2音素をまとめてセグメ
ンテーシヨンし、そのセグメンテーシヨンした区
間に対して尤度を計算する。第3図の/AN=
NA/の部分の各音素/A/、/N=/、/
N/、/A/の確率密度φA、φN=、φN、φAをみる
と、φN=は/N/の部分でφNよりも大きな値を持
ち/A/の始まり(h)まで続いている。従つて、
φN=の値を用いて、/N=N/の連続2音素をま
とめてgからhまでセグメンテーシヨンを行な
い、セグメンテーシヨンした区間(g−h)に対
してφN=の値を用いて式に従つて2音素分の尤
度lN=Nを求める。ここで式と対比して普通の音
素の場合は従来同様式を用いて尤度計算を行な
う。
(Description of Embodiment) An embodiment of the present invention will be described below with reference to FIGS. 1 and 3. In FIG. 1, the phoneme standard pattern is the same as in the conventional example. In a word dictionary, words to be recognized are expressed as phoneme symbol strings. Further, the parameter time series obtained by parameter extraction is the same as in the conventional example. The operation of this embodiment will be explained. First, a parameter extraction section 1 obtains parameters for each frame from input speech, and a probability density calculation section 2 calculates the values of the parameters and probability densities obtained from each phoneme standard pattern. Next, in the word recognition unit 3, segmentation of the phoneme X is performed for each dictionary item in the word dictionary unit 5 according to the dictionary phonetic sequence that constitutes the dictionary item, and the phoneme X and the phoneme The likelihood lX of the segmented interval is calculated by is dominant until the end of the next nasal sound.
Therefore, the continuous two phonemes of a nasal and a nasal are segmented together, and the likelihood is calculated for the segmented interval. /AN= in Figure 3
Each phoneme in the NA/ part /A/, /N=/, /
Looking at the probability densities φ A , φ N= , φ N , φ A of N/, /A/, φ N= has a larger value than φ N at the /N/ part, and at the beginning of /A/ (h ). Therefore,
Using the value of φ N= , segment the two consecutive phonemes /N=N/ from g to h, and then set the value of φ N= for the segmented interval (gh-h). The likelihood l N=N for two phonemes is calculated using the formula. Here, in contrast to the formula, in the case of ordinary phonemes, the likelihood is calculated using the formula as in the past.

本実施ににおいては、撥音、鼻音の音素系列を
1つにまとめてセグメンテーシヨン及び尤度計算
を行なうため、撥音、鼻音の連続2音素を含む単
語の認識率が向上する利点がある。
In this implementation, the segmentation and likelihood calculation are performed by combining the phoneme sequences of the pellic and nasal sounds, so there is an advantage that the recognition rate of words containing two consecutive phonemes of the pellic and nasal sounds is improved.

但し、記号の使用は、式に準ずる。 However, the use of symbols is in accordance with the formula.

(発明の効果) 本発明は上記のように撥音、鼻音の連続2音素
をまとめてセグメンテーシヨンし、尤度計算を行
なうことにより、従来法に比べ精度よくセグメン
テーシヨン及び尤度計算を行うことができる。
(Effects of the Invention) As described above, the present invention performs segmentation and likelihood calculation with higher precision than conventional methods by segmenting two continuous phonemes of a nasal and a nasal and performing likelihood calculation. be able to.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は従来及び本発明の一実施例における単
語音声認識方法を説明するための図、第2図は/
KAN=NAI/(カンナイ)と発声した場合の/
AN=NA/の部分の各要素/A/、/N
=/、/N/、/A/の確率密度φA、φN=、φN
φAの時間変化を示す図、第3図は第2図の場合
とは別の話者が/KAN=NAI/と発生した場合
φA、φN=、φN、φAの時間変化を示す図である。 1……パラメータ抽出部、2……確率密度計算
部、3……単語認識部、4……音素標準パタン
部、5……単語辞書部。
FIG. 1 is a diagram for explaining the word speech recognition method in the conventional method and an embodiment of the present invention, and FIG.
KAN=NAI/ (Kannai) /
Each element /A/, /N of AN=NA/ part
Probability density of =/, /N/, /A/ φ A , φ N= , φ N ,
Figure 3 shows the temporal changes in φ A when a different speaker than in Figure 2 generates / KAN = NAI/. FIG. 1... Parameter extraction section, 2... Probability density calculation section, 3... Word recognition section, 4... Phoneme standard pattern section, 5... Word dictionary section.

Claims (1)

【特許請求の範囲】[Claims] 1 認識すべき単語を音素単位の記号列で表記し
た単語辞書と、各音素の音響パラメータの分布形
で表わされた各音素の標準パタンを用いて、入力
音声の単語認識を行なう単語音声認識方法におい
て、入力音声を単語辞書の各辞書項目と照合し、
各辞書項目を構成する辞書音素系列に従い各音素
毎に入力音声をセグメンテーシヨンし、その音素
の標準パタンを用いて、そのセグメンテーシヨン
された音声の区間がその音素から生成される確率
密度を計算し、セグメンテーシヨンされた音声の
区間に対して、上記確率密度の値を用いて各辞書
項目と入力音声の類似度を求めて、単語を認識す
る際、辞書単語中の撥音、鼻音が連続した音素系
列に対しては、撥音と鼻音の連続2音素をまとめ
てセグメンテーシヨンし、尤度計算を行なうこと
を特徴とする単語音声認識方法。
1. Word speech recognition that recognizes words in input speech using a word dictionary that describes the words to be recognized as symbol strings in phoneme units and standard patterns for each phoneme that are expressed as distributions of acoustic parameters for each phoneme. In the method, the input speech is matched with each dictionary entry of a word dictionary,
Segment the input speech for each phoneme according to the dictionary phoneme sequence that constitutes each dictionary entry, and use the standard pattern of that phoneme to calculate the probability density that the segmented speech section is generated from that phoneme. The similarity between each dictionary item and the input speech is calculated using the above probability density value for the segmented speech interval, and when recognizing words, the phonic and nasal sounds in the dictionary word are calculated. A word speech recognition method characterized in that, for a continuous phoneme sequence, two consecutive phonemes, a nasal and a nasal, are segmented together and a likelihood calculation is performed.
JP59058173A 1984-03-28 1984-03-28 Word voice recognition Granted JPS60202494A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59058173A JPS60202494A (en) 1984-03-28 1984-03-28 Word voice recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59058173A JPS60202494A (en) 1984-03-28 1984-03-28 Word voice recognition

Publications (2)

Publication Number Publication Date
JPS60202494A JPS60202494A (en) 1985-10-12
JPH045391B2 true JPH045391B2 (en) 1992-01-31

Family

ID=13076606

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59058173A Granted JPS60202494A (en) 1984-03-28 1984-03-28 Word voice recognition

Country Status (1)

Country Link
JP (1) JPS60202494A (en)

Also Published As

Publication number Publication date
JPS60202494A (en) 1985-10-12

Similar Documents

Publication Publication Date Title
JPH045391B2 (en)
Matsui et al. Smoothed N-best-based speaker adaptation for speech recognition
JPH0431116B2 (en)
JPH045392B2 (en)
Bhardwaj et al. A Study of Methods Involved In Voice Emotion Recognition
JPH045393B2 (en)
JPH045394B2 (en)
JPH0412480B2 (en)
JPH045396B2 (en)
JPH045397B2 (en)
JP3291073B2 (en) Voice recognition method
JPH0619497A (en) Speech recognizing method
JPH06130993A (en) Rough classifying and recognizing method for segmentation and phoneme
JPH045395B2 (en)
JPH0431115B2 (en)
JPH05303391A (en) Speech recognition device
JPS62111292A (en) Voice recognition equipment
JPH0155476B2 (en)
JPH0413719B2 (en)
JPH0412479B2 (en)
Loizou Robust speaker-independent recognition of a confusable vocabulary
JPH0431114B2 (en)
JPH0635494A (en) Speech recognizing device
JPH067359B2 (en) Voice recognizer
JP2000242292A (en) Voice recognizing method, device for executing the method, and storage medium storing program for executing the method