JPH0220900A - 音素判別方法 - Google Patents

音素判別方法

Info

Publication number
JPH0220900A
JPH0220900A JP13498389A JP13498389A JPH0220900A JP H0220900 A JPH0220900 A JP H0220900A JP 13498389 A JP13498389 A JP 13498389A JP 13498389 A JP13498389 A JP 13498389A JP H0220900 A JPH0220900 A JP H0220900A
Authority
JP
Japan
Prior art keywords
phoneme
lpc
distance
recognition
linear prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP13498389A
Other languages
English (en)
Inventor
Katsuyuki Futayada
二矢田 勝行
Satoshi Fujii
藤井 諭
Hideji Morii
森井 秀司
Ikuo Inoue
郁夫 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP13498389A priority Critical patent/JPH0220900A/ja
Publication of JPH0220900A publication Critical patent/JPH0220900A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は不特定話者認識における音素判別方法に関する
ものである。
日本語の音声は/ a / 、 / i /、・・・な
ど20種類強の音素によって表現できることが知られて
いる。たとえば「赤い」という発声は、/ls/、/に
/。
/i/という音素をAKAIというように接続して、音
素系列として表現される。本発明は、このように音声を
認識する1祭に先ず音声を音素に分解して各音素の認識
を行ない、音素の系列として単語を認識する方式の音素
認識に用いる音素判別方法に関する。
1イ素判別は、話者識別とその考え方を明らかに異にす
る。即ち昔話判別は、人の口から発せられた音声の中に
含捷れる・11マ報のうち、音韻性情報(話者が話した
い意味内容を表現する情報)を抽出して認識するもので
あるのに対し、話者識別は話者1肯報(話をしている人
が誰であるかを表わす情報)のみを抽出するもので基本
的な考え方が異なる。
第1図に音素認識を行うことを特徴とする音声認識方式
のブロック図を示す。
図において、マイク等で入力さfした入力音声は、音響
分析都1によって分析される。分析出力はフレーム周期
(本実施例でU 10 m1lec としている)ごと
に出力される。分析方法としては帯域フィルりが群がよ
く使用されるが、本発明では線形予測分析(LPC分析
)法を使用する。(線形予1il1分析については例え
ば 中田和男著、「音声」、(コロナ社)に化1成され
ている。)特徴抽出部2は、音響分析部1で得た情報を
使用して、音声の判別やセグメンテーション(音素の境
界を定めること)を行うための特徴を抽出する部分であ
る。音素判別部3は特徴パラメータを使って音素の判別
を行い、入力音声を音素系列に変換する。単語認識部4
は、この入力音素系列を単語辞書5に格納されている多
くの音素系列の各々と比較し、入力音素系列にもっとも
l偵似している辞書中の音素系列を認識結果として出力
する。
行累認識を行う音声認識力式は、多くの音声を対(夕に
できる、話者を特定しない認識に有利である、対象音声
の変力が容易である・・・・・・など多くの待敵全有す
る。このような有利な特徴を生かすための前提条件は、
音素認識が正確に行われることである。音素認識の誤り
が多いと方式の特徴を生かせないばかりか、従来例の多
くがそうであったように、音声認識率が低下してしまう
本発明の目的は不特定話者における音素認識率全向上さ
せることにある。
不特定話者の音素認識を正確に行うためのキーポイント
は、特徴パラメータと音素判別に使う距離尺度である。
不発明では、平均値と共分散行列からなる標準パターン
を音素ごとに予め準備し、特徴パラメータとしてLPC
ケプヌトラム係数を使用し、距離尺度として統計的な距
離尺度を使用することが特徴であり七の結果、従来の方
法と比較して音素認識率を大きく向上させることができ
るものである。
本発明は特徴パラメータとしてLPCケプストラム係数
を用いている。ケプストラム係数は対数スペクトルの逆
フーリエ係数として定義されるものである。LPCケプ
ストラム係数は、LPG分析後に′得られるスペクト)
vf対象としたケプヌトラム係数であり、音響分析部1
によって得られる線形予測系数α1(i=1〜n、nは
分析次数)を使用して次式で簡単に計算できる。
LPCケプストフム部数 LPCケプヌトラム係数は、LPG分析後に得られるス
ペクトルの概形を記述するものである。
また不発明は距離尺度として統計的な距離尺度(ベイズ
判定に基づく距離およびマハラノピス距唯)、すなわち
パラメータの分布を統計的に正規分布に従うと仮定し、
分布を考慮した距離尺度を用いる。
L月準パターンとして、パラメータの平均値ベクトルμ
P(μmP・・・・・・μnP)および共分散行列Σp
(n行n列)を音素p(pは/a/、/i/・・・・・
・2本実施例では6種類)ごとに作成しておく。各音素
の標準パターンは、多数の人が発声した単語音声(21
2単語)データの中から該当する音素(音素P)の部分
を切り出してLPC分析し、LPCケプストフム係数を
求めて作成する。したがって標準パターンは音素Pの、
多数の話者単語中の種々の音素環境に対する統計的な性
質を表現している。判別すべき特徴パラメータをx (
xl・・・・・・xn)とすると、Xと音素Pに対する
標準パターン/μP。
ΣPとの間のベイズ判定に基づく距離(尤度)LPは で定義され、またマハラノビス距離MPハ’Mp = 
(!−μp )TΣp−’(x−μp)で定義される。
1ΣP1はΣPの行列式の値、添字−1は逆行列、添字
Tは転置行列であることを示す。ベイズ判定に基づく距
離ではLPが最大となる時の音素Pが判別結果であり、
マハラノビス距離ではMP が最小となる音素Pが判別
結果を与える。
次にLPCケプヌトラム作数と統計的な距離尺度を組合
わせて使用することによって生ずる本発明の効果を、従
来例と比較して評価データによって示す。従来例として
は、国内外でよく使用されている予測残差尺度を対象と
する。(予測残差尺度については、鹿野、好田:会話音
声中の母音認識を目的としたLPC距虐尺度の評価電子
通信学会論文誌80 / 6vo l 163 DAs
参照)評価用データは、男声10名が発声した212単
語を使用した。このデータには人間が目視によって音素
認識を行って、各フレームごとに音素ラベルが付しであ
る。認識装置による音素判別結果が、目視によって付し
たラベlしと一致すれば、正しく判別し念と評価する。
評価音素は、単語中の母音とし、母音としてラベル付け
されている全フレームを対象とした。212単語、10
人の発声による各母音に対するフレーム数は、各々1万
〜2万もあり、以下に述べる結果は信頼性が十分高いも
のである。評価のために使用する音素判別率は次のよう
にした。
以下、本発明の評価結果を従来例と比較しながら述べる
第2図は本発明と従来例の音素判別率を示したものであ
る。実線がLPCケグヌトラムパラメータを使用し几ベ
イズ判定に基づく距離を用いた本発明の第1の実施例、
破線がマハラノビス距屋全用いた本発明の第2の実施り
]による結果である。
−点鎖線は従来例による結果である。5母音の平均認識
率(全母音の認識率き加えて6でd」ったもの)を比1
咬すると、LPGケプヌトラムとベイズ判定に基づ゛く
距離による結果が85.2%、マハフノビス距ぽによる
留果が84.6%でめ9、従来例による結果(78,3
%)比較して、それぞれ6.9%。
6.3%と大きく向上している。また、従来例でに各音
素に対する判別率にばらつきが多く、特に廿累/a/が
低い。それに対して本発明では、めまりばらつきがない
という待機がめ9、後の処理に好影響を与える。
LPCケプストラム係数と統計的距離尺度を組合わせる
ことによって大きな効果が生ずること全実証するために
、本発明による結果と、特徴パラメータのみ変更した場
合2よび距離尺度のみを変更した場合の結果を比較する
。第3図において実線Oは16次のLPCケプストラム
係数とベイズ判定による距離を組合せた本発明の第1の
実施例である。それに対し、破線■は特徴パラメータと
して16次の自己相関係数全屈い、距離尺度としてベイ
ズ判定に基づく距離を使った第1の比較例の結果である
。−点鎖線Cは特徴パフメータとして16次のLPCケ
プヌトラム係数を用い、距離尺度としてユークリッド距
離を使用した第2の比l数例の結果である。6母音の平
均認識率は本発明の第1の実施例■が86.2%である
のに対し、第1の比較例@が71%、第2の比1咬例■
77.3%である。第2の比較例は鹿野、好田による前
述の分献における「LPCケプヌトラム距離」と同じも
のである。距離尺度としてベイズ判定に基づく距離のか
わりにマハラノビヌ距gIを使用した本発明の第2の実
施例においても第1の実施例とほぼ同様の結果となる。
この結果から明らかなように、LPCケプストフムパラ
メータと統計的な距離尺度を組合わせて使わなくては、
効果がないことが判明した。
第4図は本発明を実施する方式を示したものである。第
4図は第1図における音響分析部1.特徴抽出部20部
分および音素判別部3の1部分に(ご目当する。前処理
部6は入力音声のレベル調整の後、サンプリングしてデ
ィジタル信号に変換する部分である。LPC分析部7は
自己相関法によってLPC分析を行い、線形予測係数を
求める。
前処理部6とLPC分析部7が第1図の音響分析部1に
相当する。特徴抽出部8は線形予測係数を使用してLP
Cケプストラム係数およびその他のパラメータ(セグメ
ンテーシヨンや音声区Rの検出に使用する)を求める部
分であり第1図に示す特徴抽出部2に相当する。距離計
算部9は標準パターン格納部1oに含まれている各音素
の標準バクーンと、特徴抽出部8から送られて来たLP
Gケデヌトラムパラメータとの間の統計的な距離を計算
し、各音素に対する類似度を求める。比較部11は、距
離計算部9の出力結果を類似度の順に並べかえ、音素判
別結果として出力する。以上の処理はフレームごとに行
われる。フレームごとの昔話認識結果は、後の処理でセ
グメンテーション用の情報と共に利用されて音素系列に
変換される。
距離計算部9.標準パターン格納部10.比較部11、
およびセグメンテーションを含めたものが第1図の音素
判別部3に相当する。
音素判別部3以降の処理は第1図と同様であるので省略
するが、このような構成に基づき、不特定話者(20名
を対象)が発声した274単語の認識実験を行ったとこ
ろ、従来は音声認識率が86.2%であったものが、9
0.2%に向上した。
以上のように本発明は、不特定話者の音声の認識を音素
認識に基づいて行う音素判別方法において、平均値と共
分散行列からなる標準パターンを音素ごとに予め準備し
音素認識を行うためのパラメータとしてLPGケプスト
ラム係数を使用し、音素の判別を行う距離尺度として統
計的な距離尺度を用いるもので、音素認識率の大幅な向
上をはかることができる。
【図面の簡単な説明】
第1図は音素認識を行う音声認識システムのブロック図
、第2図は不発明と従来例の音素判別率の比較図、第3
図は、本発明と特徴パラメータを変更した場合、距離尺
度を変更した場合の認識率の比較図、第4図は本発明の
一実施例を説明するブロック図である。 1・・・・・・音響分析部、2・・・・・・特徴抽出部
、3・曲・音素判別部、4・・・・・・単語認識部、6
・・・・・・単語辞書、6・・・・・・前処理部、7・
・・・・・LPC分析部、8・・・・・・特徴抽出部1
.9・・・・・・距離計算部、10・・・・・・標準パ
ターン格給部、11・・・・・・比較部。

Claims (2)

    【特許請求の範囲】
  1. (1)不特定話者の音声認識を行うために、その特徴パ
    ラメータとしてLPCケプストラム係数を使用し、各音
    素の標準パターンとして、音素ごとに平均値と共分散行
    列を予め作成しておき、音素の判別を行う距離尺度とし
    て統計的な距離尺度を用いることを特徴とする音素判別
    方法。
  2. (2)統計的距離尺度がベイズ判定に基づく距離または
    マハラノビス距離であることを特徴とする特許請求の範
    囲第1項記載の音素判別方法。
JP13498389A 1989-05-29 1989-05-29 音素判別方法 Pending JPH0220900A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13498389A JPH0220900A (ja) 1989-05-29 1989-05-29 音素判別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13498389A JPH0220900A (ja) 1989-05-29 1989-05-29 音素判別方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP57093627A Division JPS58209800A (ja) 1982-05-31 1982-05-31 音素判別方法

Publications (1)

Publication Number Publication Date
JPH0220900A true JPH0220900A (ja) 1990-01-24

Family

ID=15141182

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13498389A Pending JPH0220900A (ja) 1989-05-29 1989-05-29 音素判別方法

Country Status (1)

Country Link
JP (1) JPH0220900A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05280740A (ja) * 1992-03-31 1993-10-26 Rinnai Corp 調理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05280740A (ja) * 1992-03-31 1993-10-26 Rinnai Corp 調理装置

Similar Documents

Publication Publication Date Title
Ahmad et al. A unique approach in text independent speaker recognition using MFCC feature sets and probabilistic neural network
EP2482277B1 (en) Method for identifying a speaker using formant equalization
US8271283B2 (en) Method and apparatus for recognizing speech by measuring confidence levels of respective frames
JPS59226400A (ja) 音声認識装置
JPS62231997A (ja) 音声認識システム及びその方法
KR20010102549A (ko) 화자 인식 방법 및 장치
JP3298858B2 (ja) 低複雑性スピーチ認識器の区分ベースの類似性方法
KR20180057970A (ko) 음성감성 인식 장치 및 방법
Debnath et al. Text-dependent speaker verification system: A review
Ilyas et al. Speaker verification using vector quantization and hidden Markov model
Unnibhavi et al. LPC based speech recognition for Kannada vowels
JP3444108B2 (ja) 音声認識装置
Pati et al. Speaker recognition from excitation source perspective
Swathy et al. Review on feature extraction and classification techniques in speaker recognition
JPH0220900A (ja) 音素判別方法
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
EP1524650A1 (en) Confidence measure in a speech recognition system
JPS6336678B2 (ja)
Sharma et al. Text-independent speaker identification using backpropagation mlp network classifier for a closed set of speakers
Bora et al. Speaker identification for biometric access control using hybrid features
JPH07210197A (ja) 話者識別方法
JPH05323990A (ja) 話者認識方法
JPH0695690A (ja) 話者認識方法
Mut et al. Improved Weighted Matching for Speaker Recognition.
JPH10214096A (ja) 話者認識装置