JPS58152300A - 音素認識方法 - Google Patents

音素認識方法

Info

Publication number
JPS58152300A
JPS58152300A JP3604882A JP3604882A JPS58152300A JP S58152300 A JPS58152300 A JP S58152300A JP 3604882 A JP3604882 A JP 3604882A JP 3604882 A JP3604882 A JP 3604882A JP S58152300 A JPS58152300 A JP S58152300A
Authority
JP
Japan
Prior art keywords
phoneme
recognition
distribution
word
phoneme recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3604882A
Other languages
English (en)
Other versions
JPS6336677B2 (ja
Inventor
郁夫 井上
二矢田 勝行
藤井 諭
森井 秀司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP3604882A priority Critical patent/JPS58152300A/ja
Publication of JPS58152300A publication Critical patent/JPS58152300A/ja
Publication of JPS6336677B2 publication Critical patent/JPS6336677B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は、単語音声認識を行なうために用いられる音韻
記号の時系列を与える音素認識方式に関する。
最初に、単語音声認識における音素認識の位置づけを、
図面を参照しながら簡単に説明する。
第1図Oま、音素認識部を含む単語音声認識方式を示す
グロック図である。音声入力部1に入った+15.語音
声テータは、特徴抽出部2に送られ、特徴パラメータが
抽出される。抽出された特徴パラメータは、次の音素認
識部3で音素標準パターン格納部4の音素標準パターン
パラメータと逐次比較され、一致の度合を示す類似度が
計算される。ここで、類似度最大となった標準パターン
の音素が音素認識部3での音素認識結果となり、この様
にして得られた認識音素の時系列が1次の誤り訂正処理
部5へ送られる。認識音素の時系列は、誤り訂正処理部
5で、言語の車形規則等を基に修正が加えられ、今度は
、単語認識部6で単語標準パターン格納部7の標準パタ
ーンと逐次比較され、類似度の計算が行なわれる。得ら
れた類似度の中で最大となった標準パターンの単語が単
語認識結果となり、認識結果出力部8動・ら出力される
。この様に、音素認識を行なう単語音声認識方式では。
通常、音素認識部と単語認識部との二段わになっており
、単語認識の前処理として、音素認識は重要な役割を果
たしている。
従来より音声波形のパワースペクトルのピークが多くの
音韻情報を含んでいる事が音響学的に認められている。
このことに着目して、音声波形のパワースペクトルの第
1及び第2フオルマントの位置f、、f2の分布を利用
して音素認識を行なうものとして、従来、判別図による
方法が考えられている。この判別図による方法というの
は、第2図に示す様に、各音韻毎に求めたr、、r2の
分布をf、−f2平面上にとり、各音韻毎に境界を定め
、境界の重なる部分は両者の曖昧部分とした判別図を用
い、認識されるべき音声波形のパワースペクトルより求
められたfl 、f2が、該判別図のどの境界内に入る
かによって認識音素を決定する方法である。
第2図f15fB音についての判別図の例で、9,10
゜11.12.13はそれぞれ母音/’i/ 、/e/
 、/a/ 。
o7・’ 、/u/の領域に、また、14,15,16
゜17.18はそれぞれ曖昧領域に対応する。しかし、
この方法によると、境界の中央にあっても。
境界の端にあっても、あるいは、分布の中心にあっても
1分布の端にあっても一率に認識音素が決ま−)でしま
うため、後の誤り訂正処理等への情報量の欠落を生ずる
と共に、一度音素認識誤りを生ずると、誤り訂正処理が
内錐になってしまうという欠点があり、央に、このJj
法では、パワースペクトルのピークの位置の情報のみし
か用いていない為、個人差によるピークの位置のバラツ
キにより、誤認識を起こし易いという欠点があった。
本発明は1以上の様な従来の)i法の欠点を解決する為
の手段を与えるものである。
本発明は大勢の話者の発した多くの単語音声データにつ
いてのパワースペクトルのピークの位置の統計的分布を
求め、それぞれに重みづけを行なったものを利用して音
素認識を行なおうとするものである。
以下5図面を参照しながら本発明の詳細な説明する。
音素認識の対象となる音素は、母音、有声子音。
無声子音などのいくつかのカテゴリーに分類でき、各々
のカテ−tり一内で音素認識を行なう。ここでは簡単の
ため、母音のみを例にとり説明する。
先ず、大勢の話者の発声した多くの単語音声データの中
から母音の区間を抜き出し、フィルタパンク法や線形予
測法等を用いてそれらのパワースペクトルを求め、各母
音毎にフォルマント周波数の分布を求める。第3図は、
その−例として、横軸に同波数、縦軸に出現頻度をとり
、多数話者による音^テ゛−夕を基に、各母音の第1か
ら第3フイルマントまでのフォルマント周波数の出現頻
度分量を求めたものであり1周波数の低い方から順に、
第1.第2.第37オルマント周波数の分布を示す。各
母音の第1から第37オルマント間波数の分布は、それ
ぞれの音韻に特徴的な分布を示しており、このことから
も、フォルマント周波数が、音@識別の重要なパラメー
タの一つであることがわかる。実際に、これらの分布を
用いる際には、各分布が正規分布するものと見做せるの
で、それぞれを正規分布で近似したものを用いてもよい
ここで、6母音/a/ 、 /i/ 、 /u/ 、 
/e/ 、 10/について1それぞれ添字i (i 
==1.2,3,4.6)を対置・させ先に得られた、
各母音の第2フオルマントに対するフォルマント周波数
の分布関数を、同波数fの関数として* Flj(f)
とおく。?!rlJの出現頻度は一様ではないので、こ
のままの分布を用いると各音韻について同等の比較が出
来ないため、各分布とも、全体が1となる様に正規化を
施したものを、あらためてFij(f)とする。
次に、以上で求めた各フォルマント周波数の分布関数F
工j (f)を用いて音素認識を行なう1際の尺度とな
る尤度を定義する。この場合の尤度は、ある音素につい
て、入力がその音素の特徴を良く表わしているもの程ス
コアの高くなる様に設定された尺度であり、認識すべき
音声波形のパワースペクトルノ第コフォルマントに対す
るフォルマント周波数を09重みづけ糸数をムij 、
 5 fi)音の谷尤度をRiとして(1)式の様に定
義する。
1’li=  Σ ム1jFij(fコ)  ・川・川
・(1)コー1 (i:1,2,3,4,5 ; k :整数)−tなわ
ち、尤度R工は、 人力音声の各フォルマント周波数f
j に対応する分布関数の値Fij(rj)に、係数ム
ijを卦けて重みづけしたものの総和で表わされる。
ここで1重みづけ係数ムijは各母音毎に、それぞれの
母音の認識率が最大となる様に決定する。
実際には計算機によってムijの値を変えながら、認識
のシミーレーションを行なって決定するのがよいが、計
算時間等の問題から、簡単の為ムijの代わりに各分布
の分散σijを用いることも出来る。
σijを用いた場合には1分散による各分布の重みの影
響を除去するこ−が出来る。
更に、ムij  の他に、音韻情報を含んだ重みづけ係
数1例えば、第4図に示す入力音声波形のパワースペク
トルの各フォルマント周波&fjKiけるスペクトルの
大きさ句を卦けた(2)式%式%: を用いれば、より一層各母音の認識率を向上させること
が可能である。
以上の様な方法により求めた各母音の尤度のうち、最大
の値をとる母音を認識結果とする事により音素認識を行
なう。
ここで、本方式を用いた事による効果の例を説明する。
簡単の為に、式(1)においてムij =1 (i=1
.2,3゜4.5;1==1.2.3)とすれば、尤度
Riは、各フォルマント周波数におけるそれぞれの分布
関数値の和として表わされる。分布関数Fij(f)は
、各母音の各フォルマント周波数が分布の中心にある程
高い値をとるから、それぞれのフォルマント周波数が分
布の中心に近い程、尤度Riは高い値をとる。
第5図は、入力音声/i/ のパワースペクトル20の
第17オルマントのフォルマン) 周波1k flが、
発声者の個人性の為に周波数の高い方へずれて、/U/
の第1フォルマント周波数の分布の中心に来た例である
。この場合、入力音声のパワースペクトルの第1から第
37オルマントまでのフォルマント周波数f1.f2.
f3全てが/i /及び/ U /の各フォルマント周
波数分布の領域内に入っている為、従来の判別図による
方法では両者のあいまい領域に入ってしまい区別されな
い。
しかし、本方式によれば、第6図で、第27オルマント
周波数f2に対する/i/の分布関数値F22 (fz
)が/u/の分布関数値F32 (fz )よりも大き
くなっておシ、全体として R2>R3 となって/i/と認識される。ここで、最適・化された
ムij及び、スペクトルの大きさSijを用い九ば。
史に明確に/1/と/uiの分離を行なう事ができる。
もし仮りに、僅かの差で R2〈R3 となった場合でも、それが僅かの差であるという数値情
報を誤り訂正処理部に伝える事が出来るため、誤り訂!
EII1.8理に於ても効果を発揮する。すなわち、本
方式によれば、従来の判別図による方法に於て曖昧領域
として残していた部分に対してより確実な音素認識を行
なう手だてを与える事を可能にすると共に、複数の音素
を認識結果として尤度情報と併せて誤り訂正処理部へ送
れば、情報量を減らすことなく、効果的な誤り訂正処理
を可能とし、その結果、特定話者に対してはもちろん。
特に、不特定話者に対し音素認識率及び単語認識率を大
幅に向上させる効果がある。
以上の説明では母音を例にとったが、本発明は何ら母音
のみの場合に限定される鳥のではなく。
半母音、有声子音、無声子音等についても本発明の原理
を適用する事により、同様の効果が得られるものである
【図面の簡単な説明】
第1図は音素認識部を含む単語音声認識方式の基本的な
構成を示すブロック図、第2図は母音判別方法の一例を
示す図、第3図は1本発明の方式において利用する各母
音の第37オルマントまでのフォルマント周波数の分布
を示す図、第4図は、入力音声波形のパワースペクトル
の例を示す図、第6図は、入力音声波形/ i /のパ
ワースペクトルと/i/及び/u/の各フォルマント同
波数分布との対比を示す図である。 1・・・・・・音声入力部、2・・・・・・特徴抽出部
、3・・・・・・音素認識部、4・・・・・・音素標準
バタ・−ン格納部、5・・・・・・誤り訂正処理部、6
・・・・・・単語認識部、7・・・・・・単語標準パタ
ーン格納部、8・・・・・・認識結果出力部。 代理人の氏名 弁理士 中 尾 敗 男 ほか1名2 
図 20eIDH2 0− 島 第4図 第5図

Claims (1)

    【特許請求の範囲】
  1. 多くの音韻情報を担っている音声波形のパワースペクト
    ルのピークの位置と上記ピークの大きさの情報に着目し
    、大勢の話者の発声した多くの単語音声テークから抽出
    された各音素についてピークの位置の統計的分布を求め
    、それぞれの分布に重みづけを行なったものを利用して
    、入力音声の必素認識を行なう事を特徴とする音素認識
    方式。
JP3604882A 1982-03-08 1982-03-08 音素認識方法 Granted JPS58152300A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3604882A JPS58152300A (ja) 1982-03-08 1982-03-08 音素認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3604882A JPS58152300A (ja) 1982-03-08 1982-03-08 音素認識方法

Publications (2)

Publication Number Publication Date
JPS58152300A true JPS58152300A (ja) 1983-09-09
JPS6336677B2 JPS6336677B2 (ja) 1988-07-21

Family

ID=12458820

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3604882A Granted JPS58152300A (ja) 1982-03-08 1982-03-08 音素認識方法

Country Status (1)

Country Link
JP (1) JPS58152300A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003065836A (ja) * 2001-08-28 2003-03-05 Nippon Telegr & Teleph Corp <Ntt> 雑音源判別装置及び方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5518919A (en) * 1978-07-26 1980-02-09 Copyer Co Ltd Detection of magnetic powder

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5518919A (en) * 1978-07-26 1980-02-09 Copyer Co Ltd Detection of magnetic powder

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003065836A (ja) * 2001-08-28 2003-03-05 Nippon Telegr & Teleph Corp <Ntt> 雑音源判別装置及び方法

Also Published As

Publication number Publication date
JPS6336677B2 (ja) 1988-07-21

Similar Documents

Publication Publication Date Title
JPS59226400A (ja) 音声認識装置
US4817159A (en) Method and apparatus for speech recognition
Shahzadi et al. Recognition of emotion in speech using spectral patterns
Tzudir et al. Dialect Identification Using Tonal and Spectral Features in Two Dialects of Ao.
Blomberg et al. Auditory models in isolated word recognition
Kalinli Automatic phoneme segmentation using auditory attention features
JPS58152300A (ja) 音素認識方法
Salim et al. Automatic Speaker Verification System for Dysarthria Patients.
Makino et al. Speaker independent word recognition system based on phoneme recognition for a large size (212 words) vocabulary
Nidhyananthan et al. A framework for multilingual text-independent speaker identification system
Majda-Zdancewicz et al. Text independent automatic speaker recognition system using fusion of features
Driaunys et al. Implementation of hierarchical phoneme classification approach on LTDIGITS corpora
Salim et al. Combined approach to dysarthric speaker verification using data augmentation and feature fusion
JPS5936759B2 (ja) 音声認識方法
JPS6136797A (ja) 音声セグメンテ−シヨン法
Delvaux et al. Discriminant analysis of nasal vs. oral vowels in French: comparison between different parametric representations.
JP2744622B2 (ja) 破裂子音識別方式
JPS6363920B2 (ja)
Kane et al. Using phonetic feature extraction to determine optimal speech regions for maximising the effectiveness of glottal source analysis.
Zahorian et al. Dynamic spectral shape features for speaker-independent automatic recognition of stop consonants
Pervouchine et al. Comparative Study of Several Novel Acoustic Features for Speaker Recognition.
Lee et al. The IIR submission to CSLP 2006 speaker recognition evaluation
JPH01260499A (ja) 子音認識法
JPH0316040B2 (ja)
JPS6350898A (ja) 音声認識装置