JPS58152300A

JPS58152300A - 音素認識方法

Info

Publication number: JPS58152300A
Application number: JP3604882A
Authority: JP
Inventors: 郁夫井上; 二矢田　勝行; 藤井　諭; 森井　秀司
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1982-03-08
Filing date: 1982-03-08
Publication date: 1983-09-09
Also published as: JPS6336677B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は、単語音声認識を行なうために用いられる音韻
記号の時系列を与える音素認識方式に関する。

最初に、単語音声認識における音素認識の位置づけを、
図面を参照しながら簡単に説明する。

第１図Ｏま、音素認識部を含む単語音声認識方式を示す
グロック図である。音声入力部１に入った＋１５．語音
声テータは、特徴抽出部２に送られ、特徴パラメータが
抽出される。抽出された特徴パラメータは、次の音素認
識部３で音素標準パターン格納部４の音素標準パターン
パラメータと逐次比較され、一致の度合を示す類似度が
計算される。ここで、類似度最大となった標準パターン
の音素が音素認識部３での音素認識結果となり、この様
にして得られた認識音素の時系列が１次の誤り訂正処理
部５へ送られる。認識音素の時系列は、誤り訂正処理部
５で、言語の車形規則等を基に修正が加えられ、今度は
、単語認識部６で単語標準パターン格納部７の標準パタ
ーンと逐次比較され、類似度の計算が行なわれる。得ら
れた類似度の中で最大となった標準パターンの単語が単
語認識結果となり、認識結果出力部８動・ら出力される
。この様に、音素認識を行なう単語音声認識方式では。

通常、音素認識部と単語認識部との二段わになっており
、単語認識の前処理として、音素認識は重要な役割を果
たしている。

従来より音声波形のパワースペクトルのピークが多くの
音韻情報を含んでいる事が音響学的に認められている。

このことに着目して、音声波形のパワースペクトルの第
１及び第２フオルマントの位置ｆ、、ｆ２の分布を利用
して音素認識を行なうものとして、従来、判別図による
方法が考えられている。この判別図による方法というの
は、第２図に示す様に、各音韻毎に求めたｒ、、ｒ２の
分布をｆ、−ｆ２平面上にとり、各音韻毎に境界を定め
、境界の重なる部分は両者の曖昧部分とした判別図を用
い、認識されるべき音声波形のパワースペクトルより求
められたｆｌ　、ｆ２が、該判別図のどの境界内に入る
かによって認識音素を決定する方法である。

第２図ｆ１５ｆＢ音についての判別図の例で、９，１０
゜１１．１２．１３はそれぞれ母音／’ｉ／　、／ｅ／
　、／ａ／　。

ｏ７・’　、／ｕ／の領域に、また、１４，１５，１６
゜１７．１８はそれぞれ曖昧領域に対応する。しかし、
この方法によると、境界の中央にあっても。

境界の端にあっても、あるいは、分布の中心にあっても
１分布の端にあっても一率に認識音素が決ま−）でしま
うため、後の誤り訂正処理等への情報量の欠落を生ずる
と共に、一度音素認識誤りを生ずると、誤り訂正処理が
内錐になってしまうという欠点があり、央に、このＪｊ
法では、パワースペクトルのピークの位置の情報のみし
か用いていない為、個人差によるピークの位置のバラツ
キにより、誤認識を起こし易いという欠点があった。

本発明は１以上の様な従来の）ｉ法の欠点を解決する為
の手段を与えるものである。

本発明は大勢の話者の発した多くの単語音声データにつ
いてのパワースペクトルのピークの位置の統計的分布を
求め、それぞれに重みづけを行なったものを利用して音
素認識を行なおうとするものである。

以下５図面を参照しながら本発明の詳細な説明する。

音素認識の対象となる音素は、母音、有声子音。

無声子音などのいくつかのカテゴリーに分類でき、各々
のカテ−ｔり一内で音素認識を行なう。ここでは簡単の
ため、母音のみを例にとり説明する。

先ず、大勢の話者の発声した多くの単語音声データの中
から母音の区間を抜き出し、フィルタパンク法や線形予
測法等を用いてそれらのパワースペクトルを求め、各母
音毎にフォルマント周波数の分布を求める。第３図は、
その−例として、横軸に同波数、縦軸に出現頻度をとり
、多数話者による音＾テ゛−夕を基に、各母音の第１か
ら第３フイルマントまでのフォルマント周波数の出現頻
度分量を求めたものであり１周波数の低い方から順に、
第１．第２．第３７オルマント周波数の分布を示す。各
母音の第１から第３７オルマント間波数の分布は、それ
ぞれの音韻に特徴的な分布を示しており、このことから
も、フォルマント周波数が、音＠識別の重要なパラメー
タの一つであることがわかる。実際に、これらの分布を
用いる際には、各分布が正規分布するものと見做せるの
で、それぞれを正規分布で近似したものを用いてもよい
。

ここで、６母音／ａ／　、　／ｉ／　、　／ｕ／　、　
／ｅ／　、　１０／について１それぞれ添字ｉ　（ｉ　
＝＝１．２，３，４．６）を対置・させ先に得られた、
各母音の第２フオルマントに対するフォルマント周波数
の分布関数を、同波数ｆの関数として＊　Ｆｌｊ（ｆ）
とおく。？！ｒｌＪの出現頻度は一様ではないので、こ
のままの分布を用いると各音韻について同等の比較が出
来ないため、各分布とも、全体が１となる様に正規化を
施したものを、あらためてＦｉｊ（ｆ）とする。

次に、以上で求めた各フォルマント周波数の分布関数Ｆ
工ｊ　（ｆ）を用いて音素認識を行なう１際の尺度とな
る尤度を定義する。この場合の尤度は、ある音素につい
て、入力がその音素の特徴を良く表わしているもの程ス
コアの高くなる様に設定された尺度であり、認識すべき
音声波形のパワースペクトルノ第コフォルマントに対す
るフォルマント周波数を０９重みづけ糸数をムｉｊ　、
　５　ｆｉ）音の谷尤度をＲｉとして（１）式の様に定
義する。

１’ｌｉ＝　　Σ　ム１ｊＦｉｊ（ｆコ）　　・川・川
・（１）コー１（ｉ：１，２，３，４，５　；　ｋ　：整数）−ｔなわ
ち、尤度Ｒ工は、　人力音声の各フォルマント周波数ｆ
ｊ　に対応する分布関数の値Ｆｉｊ（ｒｊ）に、係数ム
ｉｊを卦けて重みづけしたものの総和で表わされる。

ここで１重みづけ係数ムｉｊは各母音毎に、それぞれの
母音の認識率が最大となる様に決定する。

実際には計算機によってムｉｊの値を変えながら、認識
のシミーレーションを行なって決定するのがよいが、計
算時間等の問題から、簡単の為ムｉｊの代わりに各分布
の分散σｉｊを用いることも出来る。

σｉｊを用いた場合には１分散による各分布の重みの影
響を除去するこ−が出来る。

更に、ムｉｊ　　の他に、音韻情報を含んだ重みづけ係
数１例えば、第４図に示す入力音声波形のパワースペク
トルの各フォルマント周波＆ｆｊＫｉけるスペクトルの
大きさ句を卦けた（２）式％式％：を用いれば、より一層各母音の認識率を向上させること
が可能である。

以上の様な方法により求めた各母音の尤度のうち、最大
の値をとる母音を認識結果とする事により音素認識を行
なう。

ここで、本方式を用いた事による効果の例を説明する。

簡単の為に、式（１）においてムｉｊ　＝１　（ｉ＝１
．２，３゜４．５；１＝＝１．２．３）とすれば、尤度
Ｒｉは、各フォルマント周波数におけるそれぞれの分布
関数値の和として表わされる。分布関数Ｆｉｊ（ｆ）は
、各母音の各フォルマント周波数が分布の中心にある程
高い値をとるから、それぞれのフォルマント周波数が分
布の中心に近い程、尤度Ｒｉは高い値をとる。

第５図は、入力音声／ｉ／　のパワースペクトル２０の
第１７オルマントのフォルマン）　周波１ｋ　ｆｌが、
発声者の個人性の為に周波数の高い方へずれて、／Ｕ／
の第１フォルマント周波数の分布の中心に来た例である
。この場合、入力音声のパワースペクトルの第１から第
３７オルマントまでのフォルマント周波数ｆ１．ｆ２．
ｆ３全てが／ｉ　／及び／　Ｕ　／の各フォルマント周
波数分布の領域内に入っている為、従来の判別図による
方法では両者のあいまい領域に入ってしまい区別されな
い。

しかし、本方式によれば、第６図で、第２７オルマント
周波数ｆ２に対する／ｉ／の分布関数値Ｆ２２　（ｆｚ
）が／ｕ／の分布関数値Ｆ３２　（ｆｚ　）よりも大き
くなっておシ、全体としてＲ２＞Ｒ３となって／ｉ／と認識される。ここで、最適・化された
ムｉｊ及び、スペクトルの大きさＳｉｊを用い九ば。

史に明確に／１／と／ｕｉの分離を行なう事ができる。

もし仮りに、僅かの差でＲ２〈Ｒ３となった場合でも、それが僅かの差であるという数値情
報を誤り訂正処理部に伝える事が出来るため、誤り訂！
ＥＩＩ１．８理に於ても効果を発揮する。すなわち、本
方式によれば、従来の判別図による方法に於て曖昧領域
として残していた部分に対してより確実な音素認識を行
なう手だてを与える事を可能にすると共に、複数の音素
を認識結果として尤度情報と併せて誤り訂正処理部へ送
れば、情報量を減らすことなく、効果的な誤り訂正処理
を可能とし、その結果、特定話者に対してはもちろん。

特に、不特定話者に対し音素認識率及び単語認識率を大
幅に向上させる効果がある。

以上の説明では母音を例にとったが、本発明は何ら母音
のみの場合に限定される鳥のではなく。

半母音、有声子音、無声子音等についても本発明の原理
を適用する事により、同様の効果が得られるものである
。

【図面の簡単な説明】

第１図は音素認識部を含む単語音声認識方式の基本的な
構成を示すブロック図、第２図は母音判別方法の一例を
示す図、第３図は１本発明の方式において利用する各母
音の第３７オルマントまでのフォルマント周波数の分布
を示す図、第４図は、入力音声波形のパワースペクトル
の例を示す図、第６図は、入力音声波形／　ｉ　／のパ
ワースペクトルと／ｉ／及び／ｕ／の各フォルマント同
波数分布との対比を示す図である。１・・・・・・音声入力部、２・・・・・・特徴抽出部
、３・・・・・・音素認識部、４・・・・・・音素標準
バタ・−ン格納部、５・・・・・・誤り訂正処理部、６
・・・・・・単語認識部、７・・・・・・単語標準パタ
ーン格納部、８・・・・・・認識結果出力部。代理人の氏名　弁理士　中　尾　敗　男　ほか１名２　
図２０ｅＩＤＨ２０− 島第４図第５図

Claims

【特許請求の範囲】

多くの音韻情報を担っている音声波形のパワースペクト
ルのピークの位置と上記ピークの大きさの情報に着目し
、大勢の話者の発声した多くの単語音声テークから抽出
された各音素についてピークの位置の統計的分布を求め
、それぞれの分布に重みづけを行なったものを利用して
、入力音声の必素認識を行なう事を特徴とする音素認識
方式。