JPS60202487A - 単語音声認識方法 - Google Patents
単語音声認識方法Info
- Publication number
- JPS60202487A JPS60202487A JP59058174A JP5817484A JPS60202487A JP S60202487 A JPS60202487 A JP S60202487A JP 59058174 A JP59058174 A JP 59058174A JP 5817484 A JP5817484 A JP 5817484A JP S60202487 A JPS60202487 A JP S60202487A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- word
- dictionary
- vowels
- probability density
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は、入力音声と、音素表記された単語辞書を照合
して単語を認識する単語音声認識方法に関するものであ
る。
して単語を認識する単語音声認識方法に関するものであ
る。
(従来例の構成とその問題点)
第1図は従来の単語音声認識方法の一例及び本発明の単
語音声認識方法の実施例騎実行するだめの装置の機能ブ
ロック図である。従来例を第1図および第2図とともに
説明する。第1図において、1は入力音声から・母うメ
ータの時系列を作成す′る・母うメータ抽出部、2は音
素標準パタンを照合して、音素の確率密度を算出する確
率密度計算部、3は音素毎のセグメンテーション、尤度
計算、単語類似度計算等を行なう単語認識部である。ま
た、4は予め予備実験等により作成された、各音素毎の
各種パラメータにおける分布を各音素毎の平均値(jI
il)、及び各種・ぐラメータ間の共分散行列(Σi)
の形で表わした音素標準・やタンを記憶する音素標準・
ぐタン部、5は認識すべき全Qi語を音素単位の記号列
で表記した単語辞書が記憶されている単語辞書部である
。その単語辞書は、例えば単語「サラポロ」、「クルメ
」等は、それぞれr 5AQPOROJ、rKURU■
幻等と表記されている。
語音声認識方法の実施例騎実行するだめの装置の機能ブ
ロック図である。従来例を第1図および第2図とともに
説明する。第1図において、1は入力音声から・母うメ
ータの時系列を作成す′る・母うメータ抽出部、2は音
素標準パタンを照合して、音素の確率密度を算出する確
率密度計算部、3は音素毎のセグメンテーション、尤度
計算、単語類似度計算等を行なう単語認識部である。ま
た、4は予め予備実験等により作成された、各音素毎の
各種パラメータにおける分布を各音素毎の平均値(jI
il)、及び各種・ぐラメータ間の共分散行列(Σi)
の形で表わした音素標準・やタンを記憶する音素標準・
ぐタン部、5は認識すべき全Qi語を音素単位の記号列
で表記した単語辞書が記憶されている単語辞書部である
。その単語辞書は、例えば単語「サラポロ」、「クルメ
」等は、それぞれr 5AQPOROJ、rKURU■
幻等と表記されている。
次に上記従来例の動作について説明する。入力音素をパ
ラメータ抽出部lにより10m5のフレーム毎に分析し
パラメータを抽出して、・ぐラメータ時系列を作成する
1、確率密度計算部2はフレーム毎に得られた・やラメ
ータと音素標準・やタンを照合し、音素の確率密度を算
出する。次に単語認識部3において、上記のA’ラメー
タと得られた確率密度値を用いて各辞書項目毎に、その
辞書項目を構成する辞書音素系列に従って1音素毎に音
素のセグメンテーションを行ない、下記0式に従いその
音素の種類と、その音素に対応してセグメンテーション
された区間の尤度tを言1算しうその辞書項目における
、各音素の尤度の平均として類似度をめる。ここで、そ
の音素をXとし、Xに対応してセグメンテーションされ
た区間の始端と終端のフレーム番号をN 、N とし、
第nフレームにおける各・ぐラメータの値をCとすると
、音素Xの尤度txは下式で定義される。
ラメータ抽出部lにより10m5のフレーム毎に分析し
パラメータを抽出して、・ぐラメータ時系列を作成する
1、確率密度計算部2はフレーム毎に得られた・やラメ
ータと音素標準・やタンを照合し、音素の確率密度を算
出する。次に単語認識部3において、上記のA’ラメー
タと得られた確率密度値を用いて各辞書項目毎に、その
辞書項目を構成する辞書音素系列に従って1音素毎に音
素のセグメンテーションを行ない、下記0式に従いその
音素の種類と、その音素に対応してセグメンテーション
された区間の尤度tを言1算しうその辞書項目における
、各音素の尤度の平均として類似度をめる。ここで、そ
の音素をXとし、Xに対応してセグメンテーションされ
た区間の始端と終端のフレーム番号をN 、N とし、
第nフレームにおける各・ぐラメータの値をCとすると
、音素Xの尤度txは下式で定義される。
φ、(C)はある音素lの確率密度を表わし、■式のよ
うに定義される。
うに定義される。
・・・■
C:第nフレームにおけるN個のノeラメータ(ベクト
ル) カ、:ある音素lのi9ラメータの平均値(ペクトル) Σ、:共分散行列 0式において、確率密度の割り算における分母のサメン
ションlの範囲は、音素Xが何であるかによって異なり
、例えばXが音素A(力の時はiの範囲は5母音、A、
E、T、O,Uとしている。
ル) カ、:ある音素lのi9ラメータの平均値(ペクトル) Σ、:共分散行列 0式において、確率密度の割り算における分母のサメン
ションlの範囲は、音素Xが何であるかによって異なり
、例えばXが音素A(力の時はiの範囲は5母音、A、
E、T、O,Uとしている。
以上により得られる単語類似度しMを0式に従って各辞
書項目毎にめ、LMが最大となる辞書項目をもって、認
識単語としていた。
書項目毎にめ、LMが最大となる辞書項目をもって、認
識単語としていた。
P
LM:辞書中のM番目の単語の類似度
t、:辞書音素系列中の音素jの尤度
NP:辞書音素数
第2図は/KURI)ME/(久留米)と発声した時の
各音素/に/、/U/、/R/、/U/。
各音素/に/、/U/、/R/、/U/。
/M/、/E/、の確率密度φ1.φ10.φ8.φ、
1゜φオ、φ。の時間変化を表わしている。この場合の
辞書単語/KURUME/に対する各音素のセグメンテ
ーション及び尤度計算は、辞書の音素系列/に/、/U
/、/R/、/U/、/M/、/E/。
1゜φオ、φ。の時間変化を表わしている。この場合の
辞書単語/KURUME/に対する各音素のセグメンテ
ーション及び尤度計算は、辞書の音素系列/に/、/U
/、/R/、/U/、/M/、/E/。
(5)
の順序に使い、第1番目の音素/に/に対してφえを用
いてセグメンテーションした区間(a −b )を対応
させ、0式に従いφ、を用いてtKを計算し、同様にし
てLu + AR+ Zu * ZM + Zg +を
める。
いてセグメンテーションした区間(a −b )を対応
させ、0式に従いφ、を用いてtKを計算し、同様にし
てLu + AR+ Zu * ZM + Zg +を
める。
第3図は同じ単語/KURUME/を別の話者が発声し
た場合の各音素の確率密度の時間的変化を示している。
た場合の各音素の確率密度の時間的変化を示している。
第3図において、辞書単語/KURUME/に対する各
音素のセグメンテーションは、辞書の音素系列/に/、
/U/、/R/。
音素のセグメンテーションは、辞書の音素系列/に/、
/U/、/R/。
/U/e/M/、/E/の順序に従って行なうが、ンを
行なう場合、/に/の確率密度φえは辞書の音 、第1
番目の音素である/に/のセグメンテーショ素系列中の
第2番目に現われる/U/の始まり付近まで優勢であり
、辞書の音素系列中の最初に現 □われる/U/の区間
においてφ。はφえに比べ小さ :な値となっている。
行なう場合、/に/の確率密度φえは辞書の音 、第1
番目の音素である/に/のセグメンテーショ素系列中の
第2番目に現われる/U/の始まり付近まで優勢であり
、辞書の音素系列中の最初に現 □われる/U/の区間
においてφ。はφえに比べ小さ :な値となっている。
また/R/の区間においてφ。もφ、に比べほぼ同程度
の値である。
の値である。
このため、本来、(c−d)となるべき/に/の区間を
区間(c−e)又は区間(c−f)と誤るため、第2番
目以後の音素のセグメンテーショ(6) ンを誤り尤度も低くなるため、結果として無声子音、無
声化母音又は発声のナマヶ易い母音、有声子音が連続;
また音素系列を含む単語は、誤認識(−易い欠点があっ
た。
区間(c−e)又は区間(c−f)と誤るため、第2番
目以後の音素のセグメンテーショ(6) ンを誤り尤度も低くなるため、結果として無声子音、無
声化母音又は発声のナマヶ易い母音、有声子音が連続;
また音素系列を含む単語は、誤認識(−易い欠点があっ
た。
(発明の目的)
本発明は、」二記従来例の欠点を除去するものであり、
尤度計算の精度を向」−させ、それにより単語認識率を
向」ニさせることを目的とする。
尤度計算の精度を向」−させ、それにより単語認識率を
向」ニさせることを目的とする。
(発明の構成)
本発明は、上記目的を達成するために、無声子音及び有
声子音に挾まれた無声化母音又は発声がナマケだ母音の
セグメンテーション及び尤度計算を行なう際、無声化母
音又は、発声がナマヶだ母音を含む、無声子音、母音、
有声子音の連続3音素をまとめてセグメンテーションし
尤度割算を行なうことにより、セグメンテーション及び
尤度計算の精度を向上させる効果を得るものである。
声子音に挾まれた無声化母音又は発声がナマケだ母音の
セグメンテーション及び尤度計算を行なう際、無声化母
音又は、発声がナマヶだ母音を含む、無声子音、母音、
有声子音の連続3音素をまとめてセグメンテーションし
尤度割算を行なうことにより、セグメンテーション及び
尤度計算の精度を向上させる効果を得るものである。
(実施例の説明)
以下に本発明の一実施例について械1図及び第3図とと
もに説明する。第1図において、音素標準・やタンは従
来例と同様である。単語辞書は、認識すべき単語を音素
の記号列で表記しであるが従来例と異なるのは、無声化
母音又はナマヶだ発声をし易い母音に対して予め符号を
つけである。またパラメータ抽出によシ得られる・ぐラ
メータ時系列は従来例と同様である。
もに説明する。第1図において、音素標準・やタンは従
来例と同様である。単語辞書は、認識すべき単語を音素
の記号列で表記しであるが従来例と異なるのは、無声化
母音又はナマヶだ発声をし易い母音に対して予め符号を
つけである。またパラメータ抽出によシ得られる・ぐラ
メータ時系列は従来例と同様である。
本実施例の動作について説明する。先ず入力音声からフ
レーム毎のノクラメータを得、さらにそのパラメータの
値を使って、各音素標準・ぐタンから得られる確率密度
を計算する。ここまでは、前記従来例と同様である。次
に各辞書項目毎にその辞書項目を構成する辞書音素系列
に従って音素Xのセグメンテーションを行ない、その音
素Xとその音素Xに対応してセグメンテーションされた
区間の尤度tXを計算するのであるが、辞書音素系列中
に無声子音C4、有声子音C2に挾まれた無声化母音又
はナマケた発声をし易い母音Vがある場合、■の確率密
度の値は母音の性質を不埒ず、無声子音又は有声子音の
性質を示す。従って、無声子音、無声化母音又は発声の
ナマケだ母音、有声子音(C4VC2)の並びにおける
各音素の種類及びその音素並びに対応して、各々の音素
の確率密度の値を利用して、3音素まとめてセグメンテ
ーションを行ない、そのセグメンテーションされた区間
に対して尤度tc vc を計算する。
レーム毎のノクラメータを得、さらにそのパラメータの
値を使って、各音素標準・ぐタンから得られる確率密度
を計算する。ここまでは、前記従来例と同様である。次
に各辞書項目毎にその辞書項目を構成する辞書音素系列
に従って音素Xのセグメンテーションを行ない、その音
素Xとその音素Xに対応してセグメンテーションされた
区間の尤度tXを計算するのであるが、辞書音素系列中
に無声子音C4、有声子音C2に挾まれた無声化母音又
はナマケた発声をし易い母音Vがある場合、■の確率密
度の値は母音の性質を不埒ず、無声子音又は有声子音の
性質を示す。従って、無声子音、無声化母音又は発声の
ナマケだ母音、有声子音(C4VC2)の並びにおける
各音素の種類及びその音素並びに対応して、各々の音素
の確率密度の値を利用して、3音素まとめてセグメンテ
ーションを行ない、そのセグメンテーションされた区間
に対して尤度tc vc を計算する。
2
第3図において、/に/の次の/U/の区間(d−e)
において/U/の確率密度φ1.の値はほとんどなく、
代わシに/に/の確率密度φ、が第2番目の/U/の始
まり付近まで優勢となっている。
において/U/の確率密度φ1.の値はほとんどなく、
代わシに/に/の確率密度φ、が第2番目の/U/の始
まり付近まで優勢となっている。
また/R/の確率密度φ、は/R/の区間においてφ、
と同程度の直である。従って区間(c−f)を/に/、
/U/、/R/を1つにまとめた音素系列/K U R
/のセグメンテーション区間とし、AUVのセグメンテ
ーション区間内においてφ1.φ□の値を用いて0式に
従い、3音素分の尤度”KURを計算する。
と同程度の直である。従って区間(c−f)を/に/、
/U/、/R/を1つにまとめた音素系列/K U R
/のセグメンテーション区間とし、AUVのセグメンテ
ーション区間内においてφ1.φ□の値を用いて0式に
従い、3音素分の尤度”KURを計算する。
0式と対比して、他の普通の音素については従来(9)
と同様0式を用いて尤度計算を行なう。
本実施例においては、発声のナマケだ母音を1つの母音
として扱わず、無声子音、発声のナマケだ母音、無声子
音の音素並びをまとめてセグメンテーション及び尤度計
算を行なうため、発声のナマヶだ母音を含む単語の認識
率が向上する利点がある。
として扱わず、無声子音、発声のナマケだ母音、無声子
音の音素並びをまとめてセグメンテーション及び尤度計
算を行なうため、発声のナマヶだ母音を含む単語の認識
率が向上する利点がある。
(発明の効果)
本発明は上記のような構成であり、り下に示す効果が得
られるものである。
られるものである。
無声子音と有声子音に挾まれ、発声のナマヶだ母音のセ
グメンテーション及び尤度計算を行なう際、発声のナマ
ケた母音を含む無声子音、発声のナマケた母音、無声子
音の連続3音素をまとめてセグメンテーションし、尤度
計算を行なうことにより、従来法に比べ精度よくセグメ
ンテーション及び尤度計算を行うことができる利点を有
する。
グメンテーション及び尤度計算を行なう際、発声のナマ
ケた母音を含む無声子音、発声のナマケた母音、無声子
音の連続3音素をまとめてセグメンテーションし、尤度
計算を行なうことにより、従来法に比べ精度よくセグメ
ンテーション及び尤度計算を行うことができる利点を有
する。
第1図は従来及び本発明の一実施例における単語音声認
識方法を説明するための図、第2図は(10) /KURUME/(久留米)と発声した場合の各音素/
に/、/U/、/R/、/U/、/M/。 /E/の確率密度φ11作、φ。、φ□、φ8.φ。 の時間変化を示す図、第3図は第2図の場合と別の話者
が/ K U RII M E /と発声した場合のφ
1゜φ0.φ8.φ。、φ7.φ。の時間変化を表わす
図である。 ■・・・パラメータ抽出部、2・・確率密度計算部、3
・・・単語認識部、4・・・音素標準バタン部、5・・
・単語辞書部。 (11) 第1図
識方法を説明するための図、第2図は(10) /KURUME/(久留米)と発声した場合の各音素/
に/、/U/、/R/、/U/、/M/。 /E/の確率密度φ11作、φ。、φ□、φ8.φ。 の時間変化を示す図、第3図は第2図の場合と別の話者
が/ K U RII M E /と発声した場合のφ
1゜φ0.φ8.φ。、φ7.φ。の時間変化を表わす
図である。 ■・・・パラメータ抽出部、2・・確率密度計算部、3
・・・単語認識部、4・・・音素標準バタン部、5・・
・単語辞書部。 (11) 第1図
Claims (1)
- 認識すべき単語を音素単位の記号列で表記した単語辞書
と、各音素の音響・母うメータの分布形で表わされた各
音素の標準パタンを用いて、入力音声の単誤認識を行な
う単語音声認識方法において、入力音声を単語辞書の各
辞書項目と照合し、各辞書項目を構成する辞書音素系列
に従い各音素毎に入力音声をセグメンテーションし、そ
の音素の標準パタンを用いて、そのセグメンテーション
された音声の区間がその音素から生成される確率密度を
計算し、セグメンテーションされた音声の区間に対して
、上記確率密度の値を用いて各辞書項目と入力音声の類
似度をめて単語を認識する際、無声子音と有声子音の間
に挾まれた、無声化母音や発声のナマケだ母音に対して
は、■無声化母、音や発声のナマヶだ母音を含む無声子
音、■無声化母音又は発声のナマケた母音、および■有
声子音の連続3音素をまとめてセグメンテーションし、
尤度計算を行なうことを特許とする単語音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59058174A JPS60202487A (ja) | 1984-03-28 | 1984-03-28 | 単語音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59058174A JPS60202487A (ja) | 1984-03-28 | 1984-03-28 | 単語音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS60202487A true JPS60202487A (ja) | 1985-10-12 |
JPH045392B2 JPH045392B2 (ja) | 1992-01-31 |
Family
ID=13076632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59058174A Granted JPS60202487A (ja) | 1984-03-28 | 1984-03-28 | 単語音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS60202487A (ja) |
-
1984
- 1984-03-28 JP JP59058174A patent/JPS60202487A/ja active Granted
Also Published As
Publication number | Publication date |
---|---|
JPH045392B2 (ja) | 1992-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rao et al. | Speech recognition using articulatory and excitation source features | |
Sainath et al. | Exemplar-based sparse representation features: From TIMIT to LVCSR | |
Chandrakala et al. | Representation learning based speech assistive system for persons with dysarthria | |
JPH07306691A (ja) | 不特定話者音声認識装置およびその方法 | |
JPWO2008087934A1 (ja) | 拡張認識辞書学習装置と音声認識システム | |
Gulzar et al. | A systematic analysis of automatic speech recognition: an overview | |
Ravinder | Comparison of hmm and dtw for isolated word recognition system of punjabi language | |
Sajjan et al. | Continuous Speech Recognition of Kannada language using triphone modeling | |
Ali et al. | Automatic speech recognition of Urdu words using linear discriminant analysis | |
JP5300000B2 (ja) | 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム | |
Khan et al. | Feature extraction and modeling techniques in speech recognition: A review | |
JPS60202487A (ja) | 単語音声認識方法 | |
Ganesh et al. | Grapheme Gaussian model and prosodic syllable based Tamil speech recognition system | |
JP3277522B2 (ja) | 音声認識方法 | |
Sahu et al. | An overview: context-dependent acoustic modeling for LVCSR | |
Manjunath et al. | Two-stage phone recognition system using articulatory and spectral features | |
Wang et al. | Pitch-Aware RNN-T for Mandarin Chinese Mispronunciation Detection and Diagnosis | |
JP3291073B2 (ja) | 音声認識方式 | |
Zhou et al. | Multisegment multiple VQ codebooks-based speaker independent isolated-word recognition using unbiased mel cepstrum | |
JP2862306B2 (ja) | 音声認識装置 | |
JP2943445B2 (ja) | 音声認識方法 | |
Deller et al. | Methods, models, and algorithms for modern speech processing | |
JPH0619497A (ja) | 音声認識方法 | |
JPS60182499A (ja) | 音声認識装置 | |
JPH06348291A (ja) | 単語音声認識方法 |