JPS60147794A - 単語音声認識方法 - Google Patents
単語音声認識方法Info
- Publication number
- JPS60147794A JPS60147794A JP59003586A JP358684A JPS60147794A JP S60147794 A JPS60147794 A JP S60147794A JP 59003586 A JP59003586 A JP 59003586A JP 358684 A JP358684 A JP 358684A JP S60147794 A JPS60147794 A JP S60147794A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- dictionary
- word
- likelihood
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は、入力音声と、音素表記された単語辞書を照合
して単語を認識する単語音声認識方法に関するものであ
る。
して単語を認識する単語音声認識方法に関するものであ
る。
(従来例の構成とその問題点)
第1図は従来の単語音声認識方法の一例及び本発明の単
語音声認識方法の実施例等を実行するための装置の機能
ブロック図°である。従来例を第1図〜第3図とともに
説明する。第1図において、■は入力音声からパラメー
タの時系列を作成するパラメータ抽出部、2は音素標準
ノeタンを照合して、音素の確率密度を算出する確率密
度計算部、3は音素毎のセグメンテーション、尤度計算
、単語類似度計算等を行なう単語認識部である。また、
4は予め予備実験等によシ作成された、各音素毎の各種
・母うメータにおける分布を各音素毎の平均値(/lt
、)、及び各種パラメータ間の共分散行列(Σ1〕の形
で表わした音素標準パタンを記討る音素標準ノ4タン部
、5は認識すべき全単語を音素単位の記号列で表記した
単語辞書が記憶されている単語辞書部である。その単語
辞書は、例えば「サラポロ」、「アサヒカワ」は、それ
ぞれr 5AQPOROJ、r ASAHIKAWA
J等と表記されている。
語音声認識方法の実施例等を実行するための装置の機能
ブロック図°である。従来例を第1図〜第3図とともに
説明する。第1図において、■は入力音声からパラメー
タの時系列を作成するパラメータ抽出部、2は音素標準
ノeタンを照合して、音素の確率密度を算出する確率密
度計算部、3は音素毎のセグメンテーション、尤度計算
、単語類似度計算等を行なう単語認識部である。また、
4は予め予備実験等によシ作成された、各音素毎の各種
・母うメータにおける分布を各音素毎の平均値(/lt
、)、及び各種パラメータ間の共分散行列(Σ1〕の形
で表わした音素標準パタンを記討る音素標準ノ4タン部
、5は認識すべき全単語を音素単位の記号列で表記した
単語辞書が記憶されている単語辞書部である。その単語
辞書は、例えば「サラポロ」、「アサヒカワ」は、それ
ぞれr 5AQPOROJ、r ASAHIKAWA
J等と表記されている。
次に上記従来例の動作について説明する。入力音素をパ
ラメータ抽出部1によl) 1 ’Omsのフレーム毎
に分析しノぐラメータを抽出して、ノ母うメータ時系列
を作成する。確率密度計算部2はフレーム毎に得られた
パラメータと音素標準パタンを照合し、そのノやラメー
タの値から生成される音素の確率密度を算出する。次に
、単語認識部3において、各辞書項目毎に、その辞書項
目を構成する辞書音素系列に従って音素のセグメンテー
ションを行ない、下記0式に従いその音素の種類と、そ
の音素に対応してセグメンテーションされた区間の尤度
tを計算し、その辞書項目における、各音素の尤度の平
均として類似度をめる。ここで、その音素をXとし、X
に対応してセグメンテーションされた区間の始端と終端
のフレーム番号をNs r N。
ラメータ抽出部1によl) 1 ’Omsのフレーム毎
に分析しノぐラメータを抽出して、ノ母うメータ時系列
を作成する。確率密度計算部2はフレーム毎に得られた
パラメータと音素標準パタンを照合し、そのノやラメー
タの値から生成される音素の確率密度を算出する。次に
、単語認識部3において、各辞書項目毎に、その辞書項
目を構成する辞書音素系列に従って音素のセグメンテー
ションを行ない、下記0式に従いその音素の種類と、そ
の音素に対応してセグメンテーションされた区間の尤度
tを計算し、その辞書項目における、各音素の尤度の平
均として類似度をめる。ここで、その音素をXとし、X
に対応してセグメンテーションされた区間の始端と終端
のフレーム番号をNs r N。
とし、第nフレームにおける各パラメータの値をCnと
すると、音素Xの尤度tXは下式で定義される。
すると、音素Xの尤度tXは下式で定義される。
φ1(Cn )はある音素iの確率密度を表わし、■式
のように定義される。
のように定義される。
C: 1つのフレームにおけるj個の・やラメータ(ベ
クトル)#1 :ある音素iのパラメータの平均値(ベ
クトル)Σi :共分散行列 ■式において、確率密度の割シ算における分母のサメン
ションiの範囲は、音素Xが何であるかによって異なシ
、例えばXが音素Zの時はiの範囲は5母音及び12種
類の子音としている。以上によシ得られる単語類似度L
Mヲ■式に従って各辞書項目毎にめ、LMが最大となる
辞書項目をもって、認識単語としていた。
クトル)#1 :ある音素iのパラメータの平均値(ベ
クトル)Σi :共分散行列 ■式において、確率密度の割シ算における分母のサメン
ションiの範囲は、音素Xが何であるかによって異なシ
、例えばXが音素Zの時はiの範囲は5母音及び12種
類の子音としている。以上によシ得られる単語類似度L
Mヲ■式に従って各辞書項目毎にめ、LMが最大となる
辞書項目をもって、認識単語としていた。
LM=Σti/IVJP ■
i=1
LM:辞書中のM番目の単語の類似度
ti:辞書音素系列中の音素iの尤度
NP:辞書辞書数
素数図は/ZAMA/ (座間)と発声したときの各音
素/Z/ 、 /lv’ 、 /%’ 、 /Alの確
率密度の値φ2゜φえ、φユ、φえの時間変化を表わし
ている。この例のように辞書項目に対応する各音素の確
率密度の値が、セグメンテーションされた区間に対応し
、かつセグメンテーションされた区間内で、他の音素と
比べ大きければ問題ないが、セグメンテーションされた
区間内で、対応した音素の確率密度の値よシも他の音素
の確率密度の値が大きくなる場合がある。
素/Z/ 、 /lv’ 、 /%’ 、 /Alの確
率密度の値φ2゜φえ、φユ、φえの時間変化を表わし
ている。この例のように辞書項目に対応する各音素の確
率密度の値が、セグメンテーションされた区間に対応し
、かつセグメンテーションされた区間内で、他の音素と
比べ大きければ問題ないが、セグメンテーションされた
区間内で、対応した音素の確率密度の値よシも他の音素
の確率密度の値が大きくなる場合がある。
第3図は、第2図の場合と同様に/ZAMA/と発声し
た時の各音素の確率密度の値の時間変化を表わしている
。語頭のAVの区間内で/Z/の確率密度の値よりも/
B/ 、 AVの確率密度の値φ3.φ8の方が大きく
なっている。従って、上記従来例においては、AVの確
率密度の値が小さいため、/Z/の十分な尤度が得られ
ず、結果として単語誤認識の要因となる欠点があった。
た時の各音素の確率密度の値の時間変化を表わしている
。語頭のAVの区間内で/Z/の確率密度の値よりも/
B/ 、 AVの確率密度の値φ3.φ8の方が大きく
なっている。従って、上記従来例においては、AVの確
率密度の値が小さいため、/Z/の十分な尤度が得られ
ず、結果として単語誤認識の要因となる欠点があった。
(発明の目的)
本発明は上記従来例の欠点を除去するものであり、尤度
計算の精度を向上させ、それにょシ単語認識率を向上さ
せることf ’g b’iとする。
計算の精度を向上させ、それにょシ単語認識率を向上さ
せることf ’g b’iとする。
(発明の構成)
本発明は、認識すべき単語を音素単位の記号列で表記し
た単語辞書と、各音素の音響パラメータの分布形で表わ
された各音素の標漁ツクタンを用い、入力音声の単語認
識を行なうにあたり、入力音声を前記単語辞書の各辞書
項目と照合し、各辞書項目を構成する辞書音素系列に従
い各音素毎に入力音声をセグメンテーションし、その音
素の前記標準ツクタンを用いてそのセグメンテーション
された音声の区間に対して尤度計算を行なう単語音声認
識方法において、有声破裂音A/については、セグメン
テーションされた。49′の区間内において、有声破裂
音、及び無声摩擦音の確率密度の値の時間変化・eタン
により尤度をめ、この尤度の値を用いて、辞書項目と入
力音声の類似度をめて単語を認識を行なうことを特徴と
する。
た単語辞書と、各音素の音響パラメータの分布形で表わ
された各音素の標漁ツクタンを用い、入力音声の単語認
識を行なうにあたり、入力音声を前記単語辞書の各辞書
項目と照合し、各辞書項目を構成する辞書音素系列に従
い各音素毎に入力音声をセグメンテーションし、その音
素の前記標準ツクタンを用いてそのセグメンテーション
された音声の区間に対して尤度計算を行なう単語音声認
識方法において、有声破裂音A/については、セグメン
テーションされた。49′の区間内において、有声破裂
音、及び無声摩擦音の確率密度の値の時間変化・eタン
により尤度をめ、この尤度の値を用いて、辞書項目と入
力音声の類似度をめて単語を認識を行なうことを特徴と
する。
(実施例の説明)
以下に本発明の一実施例について第1図及び第3図とと
もに説明する。第1図において、音素標準バタン、及び
単語辞書は従来例と同様である。
もに説明する。第1図において、音素標準バタン、及び
単語辞書は従来例と同様である。
またパラメータ抽出により得られる・ぐラメータ時系列
も従来例と同様である。
も従来例と同様である。
本実施例の動作について説明する。先ず入力音声からフ
レーム毎の・ぐラメータを得、さらにそのパラメータの
値を使って各音素標準バタンから得られる確率密度を計
算する。ここまでは前記従来例と同様である。次に単語
認識部3において、各辞書項目毎に、その辞書項目を構
成する辞書音素系列に従って音素のセグメンテーシヨン
を行ない、その音素と、その音素に対応してセグメンテ
ーションされた区間の尤度txを計算するのであるが、
/z/の尤度t2を計算するにあたり、■式の代りにセ
グメンテーションされた区間に出現する、有声破裂音/
Vの確率密度の値及び無声摩擦音/S/の確率密度の値
の時間変化をみて音素A/の尤度を0式に従ってめる。
レーム毎の・ぐラメータを得、さらにそのパラメータの
値を使って各音素標準バタンから得られる確率密度を計
算する。ここまでは前記従来例と同様である。次に単語
認識部3において、各辞書項目毎に、その辞書項目を構
成する辞書音素系列に従って音素のセグメンテーシヨン
を行ない、その音素と、その音素に対応してセグメンテ
ーションされた区間の尤度txを計算するのであるが、
/z/の尤度t2を計算するにあたり、■式の代りにセ
グメンテーションされた区間に出現する、有声破裂音/
Vの確率密度の値及び無声摩擦音/S/の確率密度の値
の時間変化をみて音素A/の尤度を0式に従ってめる。
第3図の/2/のセグメンテーション区間において有声
破裂音/Vと無声摩擦音/S/の確率密度の値の時間変
化に着目すると、(FS−81)間でφ8が先ず大きな
値を示し、o−+a−+b−+cと台形の彫金して変化
するのに対して、φ8は0→d→6−+ cと、φ8に
対して対称な形で台形の形をして変化する。
破裂音/Vと無声摩擦音/S/の確率密度の値の時間変
化に着目すると、(FS−81)間でφ8が先ず大きな
値を示し、o−+a−+b−+cと台形の彫金して変化
するのに対して、φ8は0→d→6−+ cと、φ8に
対して対称な形で台形の形をして変化する。
従って、このような変化を把えての式に従って249′
の尤度を計算する。
の尤度を計算する。
本実施例においては、/Z/の尤度計算に際しセグメン
テーションされた区間において、有声破裂音/B/及び
無声摩擦音/S/の時間変化・ぐタンを利用した尤度計
算を行なうことによシ、高い精度の尤度が得られる利点
がある。
テーションされた区間において、有声破裂音/B/及び
無声摩擦音/S/の時間変化・ぐタンを利用した尤度計
算を行なうことによシ、高い精度の尤度が得られる利点
がある。
(発明の効果)
本発明は上記のよう々構成であり、以下に示す効果が得
られるものである。A/の尤度計算を行なうにあたシ、
セグメンテーションされた区間内において、有声破裂音
及び無声摩擦音の確率密度の時間変化を利用して尤度計
算全行なうことによシ高い精度の尤度を得ることができ
る。
られるものである。A/の尤度計算を行なうにあたシ、
セグメンテーションされた区間内において、有声破裂音
及び無声摩擦音の確率密度の時間変化を利用して尤度計
算全行なうことによシ高い精度の尤度を得ることができ
る。
第1図は従来例および本発明の実施例の単語音声認識方
法を実施するために用いる装置の機能の概略金示すブロ
ック図、第2図及び第3図は/ZAMA7’と発声した
場合の各音素の確率密度の時間変化を示す図である。 1・・・・ぐラメータ抽出部、2・・・確率密度計算部
、3・・・単語認識部、4・・・音素標準・ぐタン部、
5・・・単語辞書部。 第1図 第2図 第3図 フレーか
法を実施するために用いる装置の機能の概略金示すブロ
ック図、第2図及び第3図は/ZAMA7’と発声した
場合の各音素の確率密度の時間変化を示す図である。 1・・・・ぐラメータ抽出部、2・・・確率密度計算部
、3・・・単語認識部、4・・・音素標準・ぐタン部、
5・・・単語辞書部。 第1図 第2図 第3図 フレーか
Claims (1)
- 認識すべき単語を音素単位の記号列で表記した単語辞書
と、各音素の音響パラメータの分布形で表わされた各音
素の標準パタンを具備し、入力音声の単語認識を行なう
にあたシ、入力音声を前記単語辞書の各辞書項目と照合
し、各辞書項目を構成する辞書音素系列に従い各音素毎
に入力音声をセグメンテーションし、その音素の前記標
準ノeタンを用いてそのセグメンテーションされた音声
の区間に対して尤度ii算を行なう際、有声破裂音/Z
/については、セグメンテーションされた/Z/の区間
内において、有声破裂音、及び無声摩擦音の確率密度の
値の時間変化パタンにより尤度をめ、この尤度の値を用
いて、辞書項目と入力音声の類似度をめて単語を認識す
ることを特徴とする単語音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59003586A JPS60147794A (ja) | 1984-01-13 | 1984-01-13 | 単語音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59003586A JPS60147794A (ja) | 1984-01-13 | 1984-01-13 | 単語音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS60147794A true JPS60147794A (ja) | 1985-08-03 |
JPH0431115B2 JPH0431115B2 (ja) | 1992-05-25 |
Family
ID=11561556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59003586A Granted JPS60147794A (ja) | 1984-01-13 | 1984-01-13 | 単語音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS60147794A (ja) |
-
1984
- 1984-01-13 JP JP59003586A patent/JPS60147794A/ja active Granted
Also Published As
Publication number | Publication date |
---|---|
JPH0431115B2 (ja) | 1992-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6912499B1 (en) | Method and apparatus for training a multilingual speech model set | |
Wang et al. | Tree-based unit selection for English speech synthesis | |
Lin et al. | Learning acoustic frame labeling for phoneme segmentation with regularized attention mechanism | |
JPS60147794A (ja) | 単語音声認識方法 | |
JP3128251B2 (ja) | 音声認識装置 | |
JP3291073B2 (ja) | 音声認識方式 | |
JPS60182499A (ja) | 音声認識装置 | |
JPS60149096A (ja) | 単語音声認識方法 | |
JP2979912B2 (ja) | 音声認識装置 | |
JPH0619497A (ja) | 音声認識方法 | |
JPS60150098A (ja) | 音声認識装置 | |
JPH05303391A (ja) | 音声認識装置 | |
Loizou | Robust speaker-independent recognition of a confusable vocabulary | |
Nakagawa et al. | A Recognition System of Connected Spoken Words Based on Word Boundary Detection. | |
JPS6180298A (ja) | 音声認識装置 | |
Nakagawa et al. | A word recognition method from a classified phoneme string in the LITHAN speech understanding system | |
JPS61137198A (ja) | 音声認識装置 | |
JPS60202497A (ja) | 単語音声認識方法 | |
JPS60202495A (ja) | 単語音声認識方法 | |
JPS63236095A (ja) | 音声認識方法 | |
JPS60202487A (ja) | 単語音声認識方法 | |
JPH0573039B2 (ja) | ||
JPS62206597A (ja) | 音声認識用単語予備選択方式 | |
Nakagawa et al. | A real time phonetically based spoken word recognition system and recognizer for unspecified speakers | |
Watanabe | Speaker-independent connected Japanese digit recognition based on phonetic approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
EXPY | Cancellation because of completion of term |