JPS58152300A - 音素認識方法 - Google Patents
音素認識方法Info
- Publication number
- JPS58152300A JPS58152300A JP3604882A JP3604882A JPS58152300A JP S58152300 A JPS58152300 A JP S58152300A JP 3604882 A JP3604882 A JP 3604882A JP 3604882 A JP3604882 A JP 3604882A JP S58152300 A JPS58152300 A JP S58152300A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- recognition
- distribution
- word
- phoneme recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
本発明は、単語音声認識を行なうために用いられる音韻
記号の時系列を与える音素認識方式に関する。
記号の時系列を与える音素認識方式に関する。
最初に、単語音声認識における音素認識の位置づけを、
図面を参照しながら簡単に説明する。
図面を参照しながら簡単に説明する。
第1図Oま、音素認識部を含む単語音声認識方式を示す
グロック図である。音声入力部1に入った+15.語音
声テータは、特徴抽出部2に送られ、特徴パラメータが
抽出される。抽出された特徴パラメータは、次の音素認
識部3で音素標準パターン格納部4の音素標準パターン
パラメータと逐次比較され、一致の度合を示す類似度が
計算される。ここで、類似度最大となった標準パターン
の音素が音素認識部3での音素認識結果となり、この様
にして得られた認識音素の時系列が1次の誤り訂正処理
部5へ送られる。認識音素の時系列は、誤り訂正処理部
5で、言語の車形規則等を基に修正が加えられ、今度は
、単語認識部6で単語標準パターン格納部7の標準パタ
ーンと逐次比較され、類似度の計算が行なわれる。得ら
れた類似度の中で最大となった標準パターンの単語が単
語認識結果となり、認識結果出力部8動・ら出力される
。この様に、音素認識を行なう単語音声認識方式では。
グロック図である。音声入力部1に入った+15.語音
声テータは、特徴抽出部2に送られ、特徴パラメータが
抽出される。抽出された特徴パラメータは、次の音素認
識部3で音素標準パターン格納部4の音素標準パターン
パラメータと逐次比較され、一致の度合を示す類似度が
計算される。ここで、類似度最大となった標準パターン
の音素が音素認識部3での音素認識結果となり、この様
にして得られた認識音素の時系列が1次の誤り訂正処理
部5へ送られる。認識音素の時系列は、誤り訂正処理部
5で、言語の車形規則等を基に修正が加えられ、今度は
、単語認識部6で単語標準パターン格納部7の標準パタ
ーンと逐次比較され、類似度の計算が行なわれる。得ら
れた類似度の中で最大となった標準パターンの単語が単
語認識結果となり、認識結果出力部8動・ら出力される
。この様に、音素認識を行なう単語音声認識方式では。
通常、音素認識部と単語認識部との二段わになっており
、単語認識の前処理として、音素認識は重要な役割を果
たしている。
、単語認識の前処理として、音素認識は重要な役割を果
たしている。
従来より音声波形のパワースペクトルのピークが多くの
音韻情報を含んでいる事が音響学的に認められている。
音韻情報を含んでいる事が音響学的に認められている。
このことに着目して、音声波形のパワースペクトルの第
1及び第2フオルマントの位置f、、f2の分布を利用
して音素認識を行なうものとして、従来、判別図による
方法が考えられている。この判別図による方法というの
は、第2図に示す様に、各音韻毎に求めたr、、r2の
分布をf、−f2平面上にとり、各音韻毎に境界を定め
、境界の重なる部分は両者の曖昧部分とした判別図を用
い、認識されるべき音声波形のパワースペクトルより求
められたfl 、f2が、該判別図のどの境界内に入る
かによって認識音素を決定する方法である。
1及び第2フオルマントの位置f、、f2の分布を利用
して音素認識を行なうものとして、従来、判別図による
方法が考えられている。この判別図による方法というの
は、第2図に示す様に、各音韻毎に求めたr、、r2の
分布をf、−f2平面上にとり、各音韻毎に境界を定め
、境界の重なる部分は両者の曖昧部分とした判別図を用
い、認識されるべき音声波形のパワースペクトルより求
められたfl 、f2が、該判別図のどの境界内に入る
かによって認識音素を決定する方法である。
第2図f15fB音についての判別図の例で、9,10
゜11.12.13はそれぞれ母音/’i/ 、/e/
、/a/ 。
゜11.12.13はそれぞれ母音/’i/ 、/e/
、/a/ 。
o7・’ 、/u/の領域に、また、14,15,16
゜17.18はそれぞれ曖昧領域に対応する。しかし、
この方法によると、境界の中央にあっても。
゜17.18はそれぞれ曖昧領域に対応する。しかし、
この方法によると、境界の中央にあっても。
境界の端にあっても、あるいは、分布の中心にあっても
1分布の端にあっても一率に認識音素が決ま−)でしま
うため、後の誤り訂正処理等への情報量の欠落を生ずる
と共に、一度音素認識誤りを生ずると、誤り訂正処理が
内錐になってしまうという欠点があり、央に、このJj
法では、パワースペクトルのピークの位置の情報のみし
か用いていない為、個人差によるピークの位置のバラツ
キにより、誤認識を起こし易いという欠点があった。
1分布の端にあっても一率に認識音素が決ま−)でしま
うため、後の誤り訂正処理等への情報量の欠落を生ずる
と共に、一度音素認識誤りを生ずると、誤り訂正処理が
内錐になってしまうという欠点があり、央に、このJj
法では、パワースペクトルのピークの位置の情報のみし
か用いていない為、個人差によるピークの位置のバラツ
キにより、誤認識を起こし易いという欠点があった。
本発明は1以上の様な従来の)i法の欠点を解決する為
の手段を与えるものである。
の手段を与えるものである。
本発明は大勢の話者の発した多くの単語音声データにつ
いてのパワースペクトルのピークの位置の統計的分布を
求め、それぞれに重みづけを行なったものを利用して音
素認識を行なおうとするものである。
いてのパワースペクトルのピークの位置の統計的分布を
求め、それぞれに重みづけを行なったものを利用して音
素認識を行なおうとするものである。
以下5図面を参照しながら本発明の詳細な説明する。
音素認識の対象となる音素は、母音、有声子音。
無声子音などのいくつかのカテゴリーに分類でき、各々
のカテ−tり一内で音素認識を行なう。ここでは簡単の
ため、母音のみを例にとり説明する。
のカテ−tり一内で音素認識を行なう。ここでは簡単の
ため、母音のみを例にとり説明する。
先ず、大勢の話者の発声した多くの単語音声データの中
から母音の区間を抜き出し、フィルタパンク法や線形予
測法等を用いてそれらのパワースペクトルを求め、各母
音毎にフォルマント周波数の分布を求める。第3図は、
その−例として、横軸に同波数、縦軸に出現頻度をとり
、多数話者による音^テ゛−夕を基に、各母音の第1か
ら第3フイルマントまでのフォルマント周波数の出現頻
度分量を求めたものであり1周波数の低い方から順に、
第1.第2.第37オルマント周波数の分布を示す。各
母音の第1から第37オルマント間波数の分布は、それ
ぞれの音韻に特徴的な分布を示しており、このことから
も、フォルマント周波数が、音@識別の重要なパラメー
タの一つであることがわかる。実際に、これらの分布を
用いる際には、各分布が正規分布するものと見做せるの
で、それぞれを正規分布で近似したものを用いてもよい
。
から母音の区間を抜き出し、フィルタパンク法や線形予
測法等を用いてそれらのパワースペクトルを求め、各母
音毎にフォルマント周波数の分布を求める。第3図は、
その−例として、横軸に同波数、縦軸に出現頻度をとり
、多数話者による音^テ゛−夕を基に、各母音の第1か
ら第3フイルマントまでのフォルマント周波数の出現頻
度分量を求めたものであり1周波数の低い方から順に、
第1.第2.第37オルマント周波数の分布を示す。各
母音の第1から第37オルマント間波数の分布は、それ
ぞれの音韻に特徴的な分布を示しており、このことから
も、フォルマント周波数が、音@識別の重要なパラメー
タの一つであることがわかる。実際に、これらの分布を
用いる際には、各分布が正規分布するものと見做せるの
で、それぞれを正規分布で近似したものを用いてもよい
。
ここで、6母音/a/ 、 /i/ 、 /u/ 、
/e/ 、 10/について1それぞれ添字i (i
==1.2,3,4.6)を対置・させ先に得られた、
各母音の第2フオルマントに対するフォルマント周波数
の分布関数を、同波数fの関数として* Flj(f)
とおく。?!rlJの出現頻度は一様ではないので、こ
のままの分布を用いると各音韻について同等の比較が出
来ないため、各分布とも、全体が1となる様に正規化を
施したものを、あらためてFij(f)とする。
/e/ 、 10/について1それぞれ添字i (i
==1.2,3,4.6)を対置・させ先に得られた、
各母音の第2フオルマントに対するフォルマント周波数
の分布関数を、同波数fの関数として* Flj(f)
とおく。?!rlJの出現頻度は一様ではないので、こ
のままの分布を用いると各音韻について同等の比較が出
来ないため、各分布とも、全体が1となる様に正規化を
施したものを、あらためてFij(f)とする。
次に、以上で求めた各フォルマント周波数の分布関数F
工j (f)を用いて音素認識を行なう1際の尺度とな
る尤度を定義する。この場合の尤度は、ある音素につい
て、入力がその音素の特徴を良く表わしているもの程ス
コアの高くなる様に設定された尺度であり、認識すべき
音声波形のパワースペクトルノ第コフォルマントに対す
るフォルマント周波数を09重みづけ糸数をムij 、
5 fi)音の谷尤度をRiとして(1)式の様に定
義する。
工j (f)を用いて音素認識を行なう1際の尺度とな
る尤度を定義する。この場合の尤度は、ある音素につい
て、入力がその音素の特徴を良く表わしているもの程ス
コアの高くなる様に設定された尺度であり、認識すべき
音声波形のパワースペクトルノ第コフォルマントに対す
るフォルマント周波数を09重みづけ糸数をムij 、
5 fi)音の谷尤度をRiとして(1)式の様に定
義する。
1’li= Σ ム1jFij(fコ) ・川・川
・(1)コー1 (i:1,2,3,4,5 ; k :整数)−tなわ
ち、尤度R工は、 人力音声の各フォルマント周波数f
j に対応する分布関数の値Fij(rj)に、係数ム
ijを卦けて重みづけしたものの総和で表わされる。
・(1)コー1 (i:1,2,3,4,5 ; k :整数)−tなわ
ち、尤度R工は、 人力音声の各フォルマント周波数f
j に対応する分布関数の値Fij(rj)に、係数ム
ijを卦けて重みづけしたものの総和で表わされる。
ここで1重みづけ係数ムijは各母音毎に、それぞれの
母音の認識率が最大となる様に決定する。
母音の認識率が最大となる様に決定する。
実際には計算機によってムijの値を変えながら、認識
のシミーレーションを行なって決定するのがよいが、計
算時間等の問題から、簡単の為ムijの代わりに各分布
の分散σijを用いることも出来る。
のシミーレーションを行なって決定するのがよいが、計
算時間等の問題から、簡単の為ムijの代わりに各分布
の分散σijを用いることも出来る。
σijを用いた場合には1分散による各分布の重みの影
響を除去するこ−が出来る。
響を除去するこ−が出来る。
更に、ムij の他に、音韻情報を含んだ重みづけ係
数1例えば、第4図に示す入力音声波形のパワースペク
トルの各フォルマント周波&fjKiけるスペクトルの
大きさ句を卦けた(2)式%式%: を用いれば、より一層各母音の認識率を向上させること
が可能である。
数1例えば、第4図に示す入力音声波形のパワースペク
トルの各フォルマント周波&fjKiけるスペクトルの
大きさ句を卦けた(2)式%式%: を用いれば、より一層各母音の認識率を向上させること
が可能である。
以上の様な方法により求めた各母音の尤度のうち、最大
の値をとる母音を認識結果とする事により音素認識を行
なう。
の値をとる母音を認識結果とする事により音素認識を行
なう。
ここで、本方式を用いた事による効果の例を説明する。
簡単の為に、式(1)においてムij =1 (i=1
.2,3゜4.5;1==1.2.3)とすれば、尤度
Riは、各フォルマント周波数におけるそれぞれの分布
関数値の和として表わされる。分布関数Fij(f)は
、各母音の各フォルマント周波数が分布の中心にある程
高い値をとるから、それぞれのフォルマント周波数が分
布の中心に近い程、尤度Riは高い値をとる。
.2,3゜4.5;1==1.2.3)とすれば、尤度
Riは、各フォルマント周波数におけるそれぞれの分布
関数値の和として表わされる。分布関数Fij(f)は
、各母音の各フォルマント周波数が分布の中心にある程
高い値をとるから、それぞれのフォルマント周波数が分
布の中心に近い程、尤度Riは高い値をとる。
第5図は、入力音声/i/ のパワースペクトル20の
第17オルマントのフォルマン) 周波1k flが、
発声者の個人性の為に周波数の高い方へずれて、/U/
の第1フォルマント周波数の分布の中心に来た例である
。この場合、入力音声のパワースペクトルの第1から第
37オルマントまでのフォルマント周波数f1.f2.
f3全てが/i /及び/ U /の各フォルマント周
波数分布の領域内に入っている為、従来の判別図による
方法では両者のあいまい領域に入ってしまい区別されな
い。
第17オルマントのフォルマン) 周波1k flが、
発声者の個人性の為に周波数の高い方へずれて、/U/
の第1フォルマント周波数の分布の中心に来た例である
。この場合、入力音声のパワースペクトルの第1から第
37オルマントまでのフォルマント周波数f1.f2.
f3全てが/i /及び/ U /の各フォルマント周
波数分布の領域内に入っている為、従来の判別図による
方法では両者のあいまい領域に入ってしまい区別されな
い。
しかし、本方式によれば、第6図で、第27オルマント
周波数f2に対する/i/の分布関数値F22 (fz
)が/u/の分布関数値F32 (fz )よりも大き
くなっておシ、全体として R2>R3 となって/i/と認識される。ここで、最適・化された
ムij及び、スペクトルの大きさSijを用い九ば。
周波数f2に対する/i/の分布関数値F22 (fz
)が/u/の分布関数値F32 (fz )よりも大き
くなっておシ、全体として R2>R3 となって/i/と認識される。ここで、最適・化された
ムij及び、スペクトルの大きさSijを用い九ば。
史に明確に/1/と/uiの分離を行なう事ができる。
もし仮りに、僅かの差で
R2〈R3
となった場合でも、それが僅かの差であるという数値情
報を誤り訂正処理部に伝える事が出来るため、誤り訂!
EII1.8理に於ても効果を発揮する。すなわち、本
方式によれば、従来の判別図による方法に於て曖昧領域
として残していた部分に対してより確実な音素認識を行
なう手だてを与える事を可能にすると共に、複数の音素
を認識結果として尤度情報と併せて誤り訂正処理部へ送
れば、情報量を減らすことなく、効果的な誤り訂正処理
を可能とし、その結果、特定話者に対してはもちろん。
報を誤り訂正処理部に伝える事が出来るため、誤り訂!
EII1.8理に於ても効果を発揮する。すなわち、本
方式によれば、従来の判別図による方法に於て曖昧領域
として残していた部分に対してより確実な音素認識を行
なう手だてを与える事を可能にすると共に、複数の音素
を認識結果として尤度情報と併せて誤り訂正処理部へ送
れば、情報量を減らすことなく、効果的な誤り訂正処理
を可能とし、その結果、特定話者に対してはもちろん。
特に、不特定話者に対し音素認識率及び単語認識率を大
幅に向上させる効果がある。
幅に向上させる効果がある。
以上の説明では母音を例にとったが、本発明は何ら母音
のみの場合に限定される鳥のではなく。
のみの場合に限定される鳥のではなく。
半母音、有声子音、無声子音等についても本発明の原理
を適用する事により、同様の効果が得られるものである
。
を適用する事により、同様の効果が得られるものである
。
第1図は音素認識部を含む単語音声認識方式の基本的な
構成を示すブロック図、第2図は母音判別方法の一例を
示す図、第3図は1本発明の方式において利用する各母
音の第37オルマントまでのフォルマント周波数の分布
を示す図、第4図は、入力音声波形のパワースペクトル
の例を示す図、第6図は、入力音声波形/ i /のパ
ワースペクトルと/i/及び/u/の各フォルマント同
波数分布との対比を示す図である。 1・・・・・・音声入力部、2・・・・・・特徴抽出部
、3・・・・・・音素認識部、4・・・・・・音素標準
バタ・−ン格納部、5・・・・・・誤り訂正処理部、6
・・・・・・単語認識部、7・・・・・・単語標準パタ
ーン格納部、8・・・・・・認識結果出力部。 代理人の氏名 弁理士 中 尾 敗 男 ほか1名2
図 20eIDH2 0− 島 第4図 第5図
構成を示すブロック図、第2図は母音判別方法の一例を
示す図、第3図は1本発明の方式において利用する各母
音の第37オルマントまでのフォルマント周波数の分布
を示す図、第4図は、入力音声波形のパワースペクトル
の例を示す図、第6図は、入力音声波形/ i /のパ
ワースペクトルと/i/及び/u/の各フォルマント同
波数分布との対比を示す図である。 1・・・・・・音声入力部、2・・・・・・特徴抽出部
、3・・・・・・音素認識部、4・・・・・・音素標準
バタ・−ン格納部、5・・・・・・誤り訂正処理部、6
・・・・・・単語認識部、7・・・・・・単語標準パタ
ーン格納部、8・・・・・・認識結果出力部。 代理人の氏名 弁理士 中 尾 敗 男 ほか1名2
図 20eIDH2 0− 島 第4図 第5図
Claims (1)
- 多くの音韻情報を担っている音声波形のパワースペクト
ルのピークの位置と上記ピークの大きさの情報に着目し
、大勢の話者の発声した多くの単語音声テークから抽出
された各音素についてピークの位置の統計的分布を求め
、それぞれの分布に重みづけを行なったものを利用して
、入力音声の必素認識を行なう事を特徴とする音素認識
方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3604882A JPS58152300A (ja) | 1982-03-08 | 1982-03-08 | 音素認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3604882A JPS58152300A (ja) | 1982-03-08 | 1982-03-08 | 音素認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS58152300A true JPS58152300A (ja) | 1983-09-09 |
JPS6336677B2 JPS6336677B2 (ja) | 1988-07-21 |
Family
ID=12458820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3604882A Granted JPS58152300A (ja) | 1982-03-08 | 1982-03-08 | 音素認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS58152300A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003065836A (ja) * | 2001-08-28 | 2003-03-05 | Nippon Telegr & Teleph Corp <Ntt> | 雑音源判別装置及び方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5518919A (en) * | 1978-07-26 | 1980-02-09 | Copyer Co Ltd | Detection of magnetic powder |
-
1982
- 1982-03-08 JP JP3604882A patent/JPS58152300A/ja active Granted
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5518919A (en) * | 1978-07-26 | 1980-02-09 | Copyer Co Ltd | Detection of magnetic powder |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003065836A (ja) * | 2001-08-28 | 2003-03-05 | Nippon Telegr & Teleph Corp <Ntt> | 雑音源判別装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
JPS6336677B2 (ja) | 1988-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS59226400A (ja) | 音声認識装置 | |
US4817159A (en) | Method and apparatus for speech recognition | |
Shahzadi et al. | Recognition of emotion in speech using spectral patterns | |
Tzudir et al. | Dialect Identification Using Tonal and Spectral Features in Two Dialects of Ao. | |
Blomberg et al. | Auditory models in isolated word recognition | |
Kalinli | Automatic phoneme segmentation using auditory attention features | |
JPS58152300A (ja) | 音素認識方法 | |
Salim et al. | Automatic Speaker Verification System for Dysarthria Patients. | |
Makino et al. | Speaker independent word recognition system based on phoneme recognition for a large size (212 words) vocabulary | |
Nidhyananthan et al. | A framework for multilingual text-independent speaker identification system | |
Majda-Zdancewicz et al. | Text independent automatic speaker recognition system using fusion of features | |
Driaunys et al. | Implementation of hierarchical phoneme classification approach on LTDIGITS corpora | |
Salim et al. | Combined approach to dysarthric speaker verification using data augmentation and feature fusion | |
JPS5936759B2 (ja) | 音声認識方法 | |
JPS6136797A (ja) | 音声セグメンテ−シヨン法 | |
Delvaux et al. | Discriminant analysis of nasal vs. oral vowels in French: comparison between different parametric representations. | |
JP2744622B2 (ja) | 破裂子音識別方式 | |
JPS6363920B2 (ja) | ||
Kane et al. | Using phonetic feature extraction to determine optimal speech regions for maximising the effectiveness of glottal source analysis. | |
Zahorian et al. | Dynamic spectral shape features for speaker-independent automatic recognition of stop consonants | |
Pervouchine et al. | Comparative Study of Several Novel Acoustic Features for Speaker Recognition. | |
Lee et al. | The IIR submission to CSLP 2006 speaker recognition evaluation | |
JPH01260499A (ja) | 子音認識法 | |
JPH0316040B2 (ja) | ||
JPS6350898A (ja) | 音声認識装置 |