JPS60202496A - Word voice recognition - Google Patents

Word voice recognition

Info

Publication number
JPS60202496A
JPS60202496A JP59058177A JP5817784A JPS60202496A JP S60202496 A JPS60202496 A JP S60202496A JP 59058177 A JP59058177 A JP 59058177A JP 5817784 A JP5817784 A JP 5817784A JP S60202496 A JPS60202496 A JP S60202496A
Authority
JP
Japan
Prior art keywords
phoneme
dictionary
word
speech
segmented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59058177A
Other languages
Japanese (ja)
Other versions
JPH045395B2 (en
Inventor
金指 久則
入間野 孝雄
秋場 国夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Basic Technology Research Association Corp
Original Assignee
Computer Basic Technology Research Association Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Basic Technology Research Association Corp filed Critical Computer Basic Technology Research Association Corp
Priority to JP59058177A priority Critical patent/JPS60202496A/en
Publication of JPS60202496A publication Critical patent/JPS60202496A/en
Publication of JPH045395B2 publication Critical patent/JPH045395B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、入力音声と、音素表記された単語辞書を照合
して単語を認識する単語音声認識方法に関するものであ
る。
DETAILED DESCRIPTION OF THE INVENTION (Field of Industrial Application) The present invention relates to a word speech recognition method for recognizing words by comparing input speech with a word dictionary in which phonemes are expressed.

(従来例の構成とその問題点) 従来の単語音声認識方法を、第1図、第2図及び第3図
とともに説明する。第1図において単語辞書部3の単語
辞書は認識すべき全単語を音素系列で表記したものであ
り、例えば単語「サラポロ」、「フッサ」はr 5AQ
POROJ r )IUQSA J等と表記されている
(Structure of conventional example and its problems) A conventional word speech recognition method will be explained with reference to FIGS. 1, 2, and 3. In FIG. 1, the word dictionary of the word dictionary section 3 represents all the words to be recognized in phoneme sequences. For example, the words "saraporo" and "fussa" are written as r5AQ.
POROJ r ) IUQSA J etc.

パラメータ抽出部1で入力音声を10m5のフレーム毎
に分析し、パラメータを抽出して、パラメータ時系列を
作成する。次に単語認識部2において上記のノやラメー
タを用いて各辞書項目毎に、その辞書項目を構成する辞
書音素系列に従って、1音素毎に音素のセグメンテーシ
ョンを行ない、音(9) 素の種類と、その音素に対応してセグメンテーションさ
れた区間の尤度tを、上記・やラメータを用いて計算し
、■式に従ってその辞書項目における、各音素の尤度の
平均として類似度をめる。
A parameter extraction unit 1 analyzes input audio every frame of 10m5, extracts parameters, and creates a parameter time series. Next, the word recognition unit 2 performs phoneme segmentation for each phoneme according to the dictionary phoneme series that constitutes the dictionary item for each dictionary entry using the above-mentioned parameter. , the likelihood t of the segmented interval corresponding to that phoneme is calculated using the above-mentioned y parameter, and the degree of similarity is calculated as the average of the likelihoods of each phoneme in the dictionary entry according to formula (2).

以上によシ得られる単語類似度しMを各辞書項目毎にめ
、LMが最大となる辞書項目をもって認識単語とする。
The word similarity obtained above is determined for each dictionary item, and the dictionary item with the maximum LM is determined as a recognized word.

LM=ΣL i/NP ・・・ ■ i=1 上記のような方法において、促音のセグメンテーション
及び尤度計算は、■式に示される音声の対数正規化パワ
ー、P■(Nはフレーム番号(扁))及び0式に示され
る隣接フレーム間ケプヌトラム距離CDHの値をもとに
セグメンテーションを行ない、セグメンテーションされ
た促音の持続時間長、LNGから0式に従って促音の尤
度をめる。
LM=ΣLi/NP... ■ i=1 In the above method, segmentation and likelihood calculation of consonants are performed using the logarithmic normalized power of the speech shown in the formula (■), P (N is the frame number (flat) )) and the value of the inter-adjacent frame cepnutrum distance CDH shown in Equation 0. Segmentation is performed based on the value of the cepnutrum distance CDH between adjacent frames, and the likelihood of the consonant is calculated from the segmented duration length of the consonant and LNG according to Equation 0.

第2図は/5AQPORO/ (札幌)と発声した時の
音声の対数正規化A’クワ−(N)の時間変化を表わし
ている。
FIG. 2 shows the temporal change in the logarithmically normalized A'ku (N) of the voice when /5AQPORO/ (Sapporo) is uttered.

この場合の促音/Qlのセグメンテーション及び尤度計
算は、/Vの後端フレームaからP(6)の大きさがT
P以下のフレームをサーチして、PHがTP以上である
か、又は、隣接フレーム間ケゾヌトラム距離CD(転)
が、いき値T。Dより大きくなるフレーム(b)を促音
/Q/の後端フレームとじ/Q/のセグメンテーション
された区間(a−b)の持続時間長LNGを用いて0式
に従って尤度を計算する。
In this case, the segmentation and likelihood calculation of the consonant /Ql are as follows: The size of P(6) from the rear end frame a of /V is T
Search for frames below P and check whether PH is above TP or the quezonutrum distance CD (transition) between adjacent frames.
is the threshold value T. For the frame (b) that is larger than D, the likelihood is calculated according to the formula 0 using the duration length LNG of the segmented section (a-b) of the consonant /Q/, which ends the frame at the end of the consonant /Q/.

第3図は/HTJQ8A/ (福生)と発声した時の音
声パワーP(財)及び隣接フレーム間ケシストラム距離
CDfiの時間変化を表わしている。第3図の促音/Q
/の部分に着目すると、/U/の後端フレーム(C)か
らA/の後端フレーム(d)を探索する場合、第2図の
/Q/の場合と比べ、P@の大きさはQ区間において、
いき値Tp以下になることはなく、CDl[の値もT。
FIG. 3 shows the temporal changes in the voice power P (goods) and the inter-adjacent frame casistrum distance CDfi when /HTJQ8A/ (Fussa) is uttered. Figure 3 consonant/Q
Focusing on the / part, when searching from the trailing frame (C) of /U/ to the trailing frame (d) of A/, the size of P@ is smaller than that of /Q/ in Figure 2. In the Q interval,
It never goes below the threshold Tp, and the value of CDl[ is also T.

D以上になることはない。このため、促音Qのセグメン
テーションを行なう場合本来の7v区間の後端(d)を
通シ越し、後端フレーム(d)の探索を誤り、尤度も低
くなるため、促音、無声摩擦音が連続した音素系列を含
む単語は誤認識する(5) 欠点があった。
It will never be higher than D. Therefore, when performing segmentation of the consonant Q, it passes through the rear end (d) of the original 7v interval and searches for the rear end frame (d) incorrectly, lowering the likelihood that the consonant and voiceless fricative are consecutive. There was a drawback that words containing phoneme sequences were incorrectly recognized (5).

(発明の目的) 本発明は、上記従来技術の欠点を除去し、セグメンテー
ション及び尤度計算の精度を向上させ、それによシ単語
認識率を向上させることを目的とするものである。
(Objective of the Invention) An object of the present invention is to eliminate the drawbacks of the prior art described above, improve the accuracy of segmentation and likelihood calculation, and thereby improve the word recognition rate.

(発明の構成) 本発明は、上記目的を達成するために、促音、無声摩擦
音が連続する音素系列のセグメンテーション及び尤度計
算を行なう際、促音、無声摩擦音の連続2音素をまとめ
てセグメンテーションし、次に音素の音響パラメータの
分布形で表わされた標準ノeタンを用いて、そのセグメ
ンテーションされた音声の区間が各音素から生成される
確率密度を計算し、セグメンテーションされた音声の区
間に対して上記確率密度の値を利用して尤度計算を行な
うものである。
(Structure of the Invention) In order to achieve the above object, the present invention, when performing segmentation and likelihood calculation of a phoneme sequence in which a consonant and a voiceless fricative are continuous, segments two consecutive phonemes of a consonant and a voiceless fricative together, Next, using the standard no-e tan expressed in the distribution form of the acoustic parameters of phonemes, calculate the probability density that the segmented speech section is generated from each phoneme, and calculate the probability density for the segmented speech section. The likelihood calculation is performed using the above probability density value.

(実施例の説明) 以下に本発明の実施例について第3図及び第4図ととも
に説明する。第4図は本実施例の方法を(6) 実行するだめの装置の機能ブロック図であシ、・ぐラメ
ータ抽出部1、音素の確率密度計算部2、単語認識部3
、音素標準バタン部6、単語辞書7等からなる。第1図
に示す従来例と異なるのは、音響パラメータの分布形で
表わされた音素の標準・やタンを備えていることである
。また、単語辞書は、認識すべき単語を音素の記号列で
表記しであるが、促音、無声摩擦音の2連続音素系列に
対して予めそれを識別するための符号をつけである。・
母うメータ抽出によシ得られる/Pラメータ時系列は従
来例と同様である。
(Description of Examples) Examples of the present invention will be described below with reference to FIGS. 3 and 4. FIG. 4 is a functional block diagram of a device for executing the method of this embodiment (6). Grammeter extraction unit 1, phoneme probability density calculation unit 2, word recognition unit 3
, a phoneme standard button part 6, a word dictionary 7, and the like. What differs from the conventional example shown in FIG. 1 is that it includes standard phonemes represented by acoustic parameter distributions. Furthermore, in the word dictionary, words to be recognized are expressed as phoneme symbol strings, and codes are attached in advance to the two consecutive phoneme sequences of consonants and voiceless fricatives to identify them.・
The /P parameter time series obtained by mother meter extraction is the same as in the conventional example.

本実施例の動作について説明する。先ずパラメータ抽出
部1において入力音声からフレーム毎のパラメータを得
、さらにそのノ4ラメータの値を使って、確率密度計算
部2おいて各音素の標準バタンとから得られる確率密度
を計算する。次に単語認識部3によシ各辞書項目毎に、
その辞書項目を構成する辞書音素系列に従って音素Xの
セグメンテーションを行ない、その音素Xとその音素X
に対応してセグメンテーションされた区間の尤度tXを
計算するのであるが、促音、無声摩擦音が連続する音素
系列中の促音の部分の性質は、促音、破裂音が連続する
音素系列中の促音の部分の性質とは異なシ、促音の部分
の性質が無声摩擦音の性質に近くなる。従って、無声摩
擦音の確率密度の値を用いて促音、無声摩擦音の2連続
音素をまとめてセグメンテーションし尤度計算を行なう
The operation of this embodiment will be explained. First, a parameter extraction section 1 obtains parameters for each frame from the input speech, and then, using the value of the four parameters, a probability density calculation section 2 calculates the probability density obtained from the standard bang of each phoneme. Next, the word recognition unit 3 performs the following for each dictionary item:
Segmentation of phoneme X is performed according to the dictionary phoneme series that constitutes the dictionary entry, and the phoneme X and its phoneme
We calculate the likelihood tX of the segmented interval corresponding to The nature of the part is different from shi, and the nature of the part of the consonant is close to that of the voiceless fricative. Therefore, using the probability density value of the unvoiced fricative, two consecutive phonemes of the consonant and the unvoiced fricative are collectively segmented and the likelihood is calculated.

第3図は、/HTJQSA/と発声した時の音声・ぐワ
ーP(へ)、隣接フレーム間ケノヌトラム距離、CDI
J)及び音素/%’ 、 A/ 、 /S/ 、 ’/
IV’の確率密度φ□。
Figure 3 shows the sound when /HTJQSA/ is uttered, the voice P (he), the Kenonutrum distance between adjacent frames, and the CDI.
J) and phoneme /%', A/, /S/, '/
The probability density of IV' is φ□.

φ0.φ8.φえの時間変化を示す。第3図において、
促音A/の部分のパワーP輌はいき値TP以下にはなら
ず次の音素A/のノ4ワーP凶と同程度であり、/Vと
の境界(d)の隣接フレーム間ケプストラム距離、CD
(d)の値もいき値T。Dを超えず大きな変化がない。
φ0. φ8. It shows the change in φe over time. In Figure 3,
The power P of the part of the consonant A/ does not fall below the threshold TP, and is about the same as the power of the next phoneme A/, and the cepstral distance between adjacent frames at the boundary (d) with /V, CD
The value of (d) is also the threshold value T. It does not exceed D and there is no significant change.

また/Q/区間の確率密度は/S/の確率密度、φ8が
優勢であシ、/S/の後端(f)まで優勢である。従っ
て、促音、無声摩擦音の2連続音素系 8列に対しては
、上記2連続音素系列を持続時間の長い無声摩擦音とみ
なし、無声子音の確率密度を用いて、/S/の後端(f
)を見つけ、セグメンテーションヲ行ない、セグメンテ
ーション区間長、LQ8及び無声摩擦音の確率密度値φ
8を用いて■式に従い促音、無声摩擦音の2連続音素系
列の尤度tQ8をめる。
Also, the probability density of the /Q/ section is the probability density of /S/, φ8 is dominant, and is dominant up to the rear end (f) of /S/. Therefore, for the 8 series of two consecutive phoneme systems of consonants and voiceless fricatives, we regard the two consecutive phoneme series as voiceless fricatives with a long duration, and use the probability density of voiceless consonants to calculate the rear end of /S/ (f
), perform segmentation, and find the segmentation interval length, LQ8, and the probability density value φ of the voiceless fricative.
8 is used to calculate the likelihood tQ8 of two consecutive phoneme sequences of consonants and voiceless fricatives according to formula (■).

本実施例においては、促音、無声摩擦音の2連続音素系
列を持続時間の長い1つの無声摩擦音とみなし、無声摩
擦音の確率密度を用いてセグメンテーション及び尤度計
算を行なうため、促音、無声摩擦音の2連続音素系列を
含む単語の認識率が向上する利点がある。
In this example, two consecutive phoneme sequences of a consonant and a voiceless fricative are regarded as one unvoiced fricative with a long duration, and segmentation and likelihood calculation are performed using the probability density of the unvoiced fricative. This has the advantage of improving the recognition rate for words containing continuous phoneme sequences.

C,D:定数 (9) (TLGQ、TL、THは予備実験等によシ予めめてお
く。)φ、(CN)はある音素iの確率密度を表わし、
0式のように定義される。
C, D: Constant (9) (TLGQ, TL, TH are prepared in advance through preliminary experiments, etc.) φ, (CN) represent the probability density of a certain phoneme i,
It is defined as equation 0.

CN=第Nフレームにおけるに個のノ4ラメータ(ベク
トル)μ、:ある音素iのパラメータの平均値(ベクト
ル)Σ、:共分散行列 ■式において、確率密度の割シ算における分母のiの範
囲は5母音、鼻音、有声子音、無声子音合わせて15個
の音素グループとしている。
CN = 4 parameters (vector) μ in the Nth frame: Average value (vector) of the parameters of a certain phoneme i Σ: Covariance matrix The range is 15 phoneme groups, including 5 vowels, nasals, voiced consonants, and voiceless consonants.

(発明の効果) 本発明は、促音と無声摩擦音が2連続する音素系列のセ
グメンテーション及び尤度計算を行なう際、無声摩擦音
の確率密度を用いて、促音、摩擦音の連続2音素をまと
めてセグメンテーションし尤度計算を行なうことによシ
、従来法に比べ精度よくセグメンテーション及び尤度計
算を行なうことができる利点を有する。
(Effects of the Invention) When performing segmentation and likelihood calculation of a phoneme sequence consisting of two consecutive consonants and unvoiced fricatives, the present invention uses the probability density of unvoiced fricatives to segment two consecutive phonemes of consonants and fricatives together. By performing the likelihood calculation, there is an advantage that segmentation and likelihood calculation can be performed with higher precision than the conventional method.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は従来例における単語音声認識方法を説明するた
めの図、第2図は/5AQPORO/ (札幌)と発声
した場合の音声の正規化対数パワーP■及び隣接フレー
ム間ケプストラム距離、CD−の時間変化を示す図、第
3図は/)IUQSA/ (福生)と発声した場合のP
(N)、CD−及び音素/)I/ 、 /U/ 、 /
S/。 A/の確率密度φ、、φ。、φ8.φ。の時間変化を示
す図、第4図は本発明の一実施例における単語音声認識
方法を説明するための図である。 11・・りぐラメータ抽出部、12・・・音素の確率密
度計算部、13・・・単語認識部、14・・・音素標準
バタン部、15・・・単語辞書部。 (11) 第1図
Figure 1 is a diagram for explaining the word speech recognition method in the conventional example, and Figure 2 shows the normalized logarithmic power P■ of the voice when uttering /5AQPORO/ (Sapporo), the cepstral distance between adjacent frames, CD- Figure 3 shows the time change of /) IUQSA/ (Fussa).
(N), CD- and the phoneme /) I/ , /U/ , /
S/. The probability density of A/φ,,φ. , φ8. φ. FIG. 4 is a diagram for explaining a word speech recognition method in an embodiment of the present invention. 11... Rigram meter extraction section, 12... Phoneme probability density calculation section, 13... Word recognition section, 14... Phoneme standard slam section, 15... Word dictionary section. (11) Figure 1

Claims (1)

【特許請求の範囲】 認識すべき単語を音素単位の記号列で表記した単語辞書
の辞書項目と入力音声を照合し、各辞書項目を構成する
辞書音素系列に従い、各辞書毎に入力音声を単位時間毎
に分析した音響・ぐラメータを用いて、入力音声に対し
セグメンテーションを行ない、そのセグメンテーション
された区間に対して、上記音響i+ラメータを用いて、
各辞書項目と入力音声の類似度をめて、単語を認識する
単語音声認識方法において、辞書単語中の促音、無声摩
擦音が連続した音素系列に対しては促音と無声摩擦音の
連続2音素をまとめてセグメンテーションし、音素の音
響パラメータの分布形で表わされた標準バタンを用いて
、そのセグメンテーションされた音声の区間が、各音素
から生成される確率密度を計算し、セグメンテーション
された音声(1) の区間に対して上記確率密度の値を用いて尤度計算を行
なうことを特徴とする単語音声認識方法。
[Claims] The input speech is compared with the dictionary entries of a word dictionary in which words to be recognized are expressed as symbol strings in phoneme units, and the input speech is divided into units for each dictionary according to the dictionary phoneme series that constitutes each dictionary entry. Segmentation is performed on the input audio using the acoustic parameter analyzed for each time, and the above acoustic i+ parameter is used for the segmented section,
In the word speech recognition method, which recognizes words by determining the similarity between each dictionary item and the input speech, for a phoneme series in which a consonant and a voiceless fricative are consecutive in a dictionary word, two consecutive phonemes of a consonant and a voiceless fricative are grouped together. The segmented speech (1) is segmented by segmentation, and the probability density that the segmented speech section is generated from each phoneme is calculated using a standard baton expressed in the distribution form of the acoustic parameters of the phoneme. A word speech recognition method characterized in that likelihood calculation is performed using the above probability density value for the interval.
JP59058177A 1984-03-28 1984-03-28 Word voice recognition Granted JPS60202496A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59058177A JPS60202496A (en) 1984-03-28 1984-03-28 Word voice recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59058177A JPS60202496A (en) 1984-03-28 1984-03-28 Word voice recognition

Publications (2)

Publication Number Publication Date
JPS60202496A true JPS60202496A (en) 1985-10-12
JPH045395B2 JPH045395B2 (en) 1992-01-31

Family

ID=13076717

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59058177A Granted JPS60202496A (en) 1984-03-28 1984-03-28 Word voice recognition

Country Status (1)

Country Link
JP (1) JPS60202496A (en)

Also Published As

Publication number Publication date
JPH045395B2 (en) 1992-01-31

Similar Documents

Publication Publication Date Title
Loizou et al. High-performance alphabet recognition
US6615170B1 (en) Model-based voice activity detection system and method using a log-likelihood ratio and pitch
Chang et al. Large vocabulary Mandarin speech recognition with different approaches in modeling tones.
JPS6336676B2 (en)
Rahman et al. Continuous bangla speech segmentation using short-term speech features extraction approaches
Barakat et al. Keyword spotting based on the analysis of template matching distances
KR100480790B1 (en) Method and apparatus for continous speech recognition using bi-directional n-gram language model
Ishihara et al. Automatic transformation of environmental sounds into sound-imitation words based on Japanese syllable structure.
JP2938865B1 (en) Voice recognition device
JPS60202496A (en) Word voice recognition
Deekshitha et al. Speech Signal Based Broad Phoneme Classification and Search Space Reduction for Spoken Term Detection
Sharma Implementation of ZCR and STE techniques for the detection of the voiced and unvoiced signals in Continuous Punjabi Speech
Seman et al. Hybrid methods of Brandt’s generalised likelihood ratio and short-term energy for Malay word speech segmentation
Shafieian Hidden Markov model and Persian speech recognition
Sahu et al. An overview: context-dependent acoustic modeling for LVCSR
JP3291073B2 (en) Voice recognition method
Elghonemy et al. Speaker independent isolated Arabic word recognition system
Liu et al. Improved DNN-HMM English Acoustic Model Specially For Phonotactic Language Recognition
JP2979912B2 (en) Voice recognition device
Zeng et al. Approaches to language identification using Gaussian mixture model and linear discriminant analysis
Sweeny et al. Speech perception using real-time phoneme detection: The BeBe system
JPH05303391A (en) Speech recognition device
Franco Recognition of intervocalic stops in continuous speech using context-dependent HMMs
JPS60149099A (en) Voice recognition
JPH0413719B2 (en)