JPH0220900A

JPH0220900A - 音素判別方法

Info

Publication number: JPH0220900A
Application number: JP13498389A
Authority: JP
Inventors: Katsuyuki Futayada; 二矢田　勝行; Satoshi Fujii; 藤井　諭; Hideji Morii; 森井　秀司; Ikuo Inoue; 郁夫井上
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1989-05-29
Filing date: 1989-05-29
Publication date: 1990-01-24

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は不特定話者認識における音素判別方法に関する
ものである。

日本語の音声は／　ａ　／　、　／　ｉ　／、・・・な
ど２０種類強の音素によって表現できることが知られて
いる。たとえば「赤い」という発声は、／ｌｓ／、／に
／。

／ｉ／という音素をＡＫＡＩというように接続して、音
素系列として表現される。本発明は、このように音声を
認識する１祭に先ず音声を音素に分解して各音素の認識
を行ない、音素の系列として単語を認識する方式の音素
認識に用いる音素判別方法に関する。

１イ素判別は、話者識別とその考え方を明らかに異にす
る。即ち昔話判別は、人の口から発せられた音声の中に
含捷れる・１１マ報のうち、音韻性情報（話者が話した
い意味内容を表現する情報）を抽出して認識するもので
あるのに対し、話者識別は話者１肯報（話をしている人
が誰であるかを表わす情報）のみを抽出するもので基本
的な考え方が異なる。

第１図に音素認識を行うことを特徴とする音声認識方式
のブロック図を示す。

図において、マイク等で入力さｆした入力音声は、音響
分析都１によって分析される。分析出力はフレーム周期
（本実施例でＵ　１０　ｍ１ｌｅｃ　としている）ごと
に出力される。分析方法としては帯域フィルりが群がよ
く使用されるが、本発明では線形予測分析（ＬＰＣ分析
）法を使用する。（線形予１ｉｌ１分析については例え
ば　中田和男著、「音声」、（コロナ社）に化１成され
ている。）特徴抽出部２は、音響分析部１で得た情報を
使用して、音声の判別やセグメンテーション（音素の境
界を定めること）を行うための特徴を抽出する部分であ
る。音素判別部３は特徴パラメータを使って音素の判別
を行い、入力音声を音素系列に変換する。単語認識部４
は、この入力音素系列を単語辞書５に格納されている多
くの音素系列の各々と比較し、入力音素系列にもっとも
ｌ偵似している辞書中の音素系列を認識結果として出力
する。

行累認識を行う音声認識力式は、多くの音声を対（夕に
できる、話者を特定しない認識に有利である、対象音声
の変力が容易である・・・・・・など多くの待敵全有す
る。このような有利な特徴を生かすための前提条件は、
音素認識が正確に行われることである。音素認識の誤り
が多いと方式の特徴を生かせないばかりか、従来例の多
くがそうであったように、音声認識率が低下してしまう
。

本発明の目的は不特定話者における音素認識率全向上さ
せることにある。

不特定話者の音素認識を正確に行うためのキーポイント
は、特徴パラメータと音素判別に使う距離尺度である。

不発明では、平均値と共分散行列からなる標準パターン
を音素ごとに予め準備し、特徴パラメータとしてＬＰＣ
ケプヌトラム係数を使用し、距離尺度として統計的な距
離尺度を使用することが特徴であり七の結果、従来の方
法と比較して音素認識率を大きく向上させることができ
るものである。

本発明は特徴パラメータとしてＬＰＣケプストラム係数
を用いている。ケプストラム係数は対数スペクトルの逆
フーリエ係数として定義されるものである。ＬＰＣケプ
ストラム係数は、ＬＰＧ分析後に′得られるスペクト）
ｖｆ対象としたケプヌトラム係数であり、音響分析部１
によって得られる線形予測系数α１（ｉ＝１〜ｎ、ｎは
分析次数）を使用して次式で簡単に計算できる。

ＬＰＣケプストフム部数ＬＰＣケプヌトラム係数は、ＬＰＧ分析後に得られるス
ペクトルの概形を記述するものである。

また不発明は距離尺度として統計的な距離尺度（ベイズ
判定に基づく距離およびマハラノピス距唯）、すなわち
パラメータの分布を統計的に正規分布に従うと仮定し、
分布を考慮した距離尺度を用いる。

Ｌ月準パターンとして、パラメータの平均値ベクトルμ
Ｐ（μｍＰ・・・・・・μｎＰ）および共分散行列Σｐ
（ｎ行ｎ列）を音素ｐ（ｐは／ａ／、／ｉ／・・・・・
・２本実施例では６種類）ごとに作成しておく。各音素
の標準パターンは、多数の人が発声した単語音声（２１
２単語）データの中から該当する音素（音素Ｐ）の部分
を切り出してＬＰＣ分析し、ＬＰＣケプストフム係数を
求めて作成する。したがって標準パターンは音素Ｐの、
多数の話者単語中の種々の音素環境に対する統計的な性
質を表現している。判別すべき特徴パラメータをｘ　（
ｘｌ・・・・・・ｘｎ）とすると、Ｘと音素Ｐに対する
標準パターン／μＰ。

ΣＰとの間のベイズ判定に基づく距離（尤度）ＬＰはで定義され、またマハラノビス距離ＭＰハ’Ｍｐ　＝　
（！−μｐ　）ＴΣｐ−’（ｘ−μｐ）で定義される。

１ΣＰ１はΣＰの行列式の値、添字−１は逆行列、添字
Ｔは転置行列であることを示す。ベイズ判定に基づく距
離ではＬＰが最大となる時の音素Ｐが判別結果であり、
マハラノビス距離ではＭＰ　が最小となる音素Ｐが判別
結果を与える。

次にＬＰＣケプヌトラム作数と統計的な距離尺度を組合
わせて使用することによって生ずる本発明の効果を、従
来例と比較して評価データによって示す。従来例として
は、国内外でよく使用されている予測残差尺度を対象と
する。（予測残差尺度については、鹿野、好田：会話音
声中の母音認識を目的としたＬＰＣ距虐尺度の評価電子
通信学会論文誌８０　／　６ｖｏ　ｌ　１６３　ＤＡｓ
参照）評価用データは、男声１０名が発声した２１２単
語を使用した。このデータには人間が目視によって音素
認識を行って、各フレームごとに音素ラベルが付しであ
る。認識装置による音素判別結果が、目視によって付し
たラベｌしと一致すれば、正しく判別し念と評価する。

評価音素は、単語中の母音とし、母音としてラベル付け
されている全フレームを対象とした。２１２単語、１０
人の発声による各母音に対するフレーム数は、各々１万
〜２万もあり、以下に述べる結果は信頼性が十分高いも
のである。評価のために使用する音素判別率は次のよう
にした。

以下、本発明の評価結果を従来例と比較しながら述べる
。

第２図は本発明と従来例の音素判別率を示したものであ
る。実線がＬＰＣケグヌトラムパラメータを使用し几ベ
イズ判定に基づく距離を用いた本発明の第１の実施例、
破線がマハラノビス距屋全用いた本発明の第２の実施り
］による結果である。

−点鎖線は従来例による結果である。５母音の平均認識
率（全母音の認識率き加えて６でｄ」ったもの）を比１
咬すると、ＬＰＧケプヌトラムとベイズ判定に基づ゛く
距離による結果が８５．２％、マハフノビス距ぽによる
留果が８４．６％でめ９、従来例による結果（７８，３
％）比較して、それぞれ６．９％。

６．３％と大きく向上している。また、従来例でに各音
素に対する判別率にばらつきが多く、特に廿累／ａ／が
低い。それに対して本発明では、めまりばらつきがない
という待機がめ９、後の処理に好影響を与える。

ＬＰＣケプストラム係数と統計的距離尺度を組合わせる
ことによって大きな効果が生ずること全実証するために
、本発明による結果と、特徴パラメータのみ変更した場
合２よび距離尺度のみを変更した場合の結果を比較する
。第３図において実線Ｏは１６次のＬＰＣケプストラム
係数とベイズ判定による距離を組合せた本発明の第１の
実施例である。それに対し、破線■は特徴パラメータと
して１６次の自己相関係数全屈い、距離尺度としてベイ
ズ判定に基づく距離を使った第１の比較例の結果である
。−点鎖線Ｃは特徴パフメータとして１６次のＬＰＣケ
プヌトラム係数を用い、距離尺度としてユークリッド距
離を使用した第２の比ｌ数例の結果である。６母音の平
均認識率は本発明の第１の実施例■が８６．２％である
のに対し、第１の比較例＠が７１％、第２の比１咬例■
７７．３％である。第２の比較例は鹿野、好田による前
述の分献における「ＬＰＣケプヌトラム距離」と同じも
のである。距離尺度としてベイズ判定に基づく距離のか
わりにマハラノビヌ距ｇＩを使用した本発明の第２の実
施例においても第１の実施例とほぼ同様の結果となる。

この結果から明らかなように、ＬＰＣケプストフムパラ
メータと統計的な距離尺度を組合わせて使わなくては、
効果がないことが判明した。

第４図は本発明を実施する方式を示したものである。第
４図は第１図における音響分析部１．特徴抽出部２０部
分および音素判別部３の１部分に（ご目当する。前処理
部６は入力音声のレベル調整の後、サンプリングしてデ
ィジタル信号に変換する部分である。ＬＰＣ分析部７は
自己相関法によってＬＰＣ分析を行い、線形予測係数を
求める。

前処理部６とＬＰＣ分析部７が第１図の音響分析部１に
相当する。特徴抽出部８は線形予測係数を使用してＬＰ
Ｃケプストラム係数およびその他のパラメータ（セグメ
ンテーシヨンや音声区Ｒの検出に使用する）を求める部
分であり第１図に示す特徴抽出部２に相当する。距離計
算部９は標準パターン格納部１ｏに含まれている各音素
の標準バクーンと、特徴抽出部８から送られて来たＬＰ
Ｇケデヌトラムパラメータとの間の統計的な距離を計算
し、各音素に対する類似度を求める。比較部１１は、距
離計算部９の出力結果を類似度の順に並べかえ、音素判
別結果として出力する。以上の処理はフレームごとに行
われる。フレームごとの昔話認識結果は、後の処理でセ
グメンテーション用の情報と共に利用されて音素系列に
変換される。

距離計算部９．標準パターン格納部１０．比較部１１、
およびセグメンテーションを含めたものが第１図の音素
判別部３に相当する。

音素判別部３以降の処理は第１図と同様であるので省略
するが、このような構成に基づき、不特定話者（２０名
を対象）が発声した２７４単語の認識実験を行ったとこ
ろ、従来は音声認識率が８６．２％であったものが、９
０．２％に向上した。

以上のように本発明は、不特定話者の音声の認識を音素
認識に基づいて行う音素判別方法において、平均値と共
分散行列からなる標準パターンを音素ごとに予め準備し
音素認識を行うためのパラメータとしてＬＰＧケプスト
ラム係数を使用し、音素の判別を行う距離尺度として統
計的な距離尺度を用いるもので、音素認識率の大幅な向
上をはかることができる。

【図面の簡単な説明】

第１図は音素認識を行う音声認識システムのブロック図
、第２図は不発明と従来例の音素判別率の比較図、第３
図は、本発明と特徴パラメータを変更した場合、距離尺
度を変更した場合の認識率の比較図、第４図は本発明の
一実施例を説明するブロック図である。１・・・・・・音響分析部、２・・・・・・特徴抽出部
、３・曲・音素判別部、４・・・・・・単語認識部、６
・・・・・・単語辞書、６・・・・・・前処理部、７・
・・・・・ＬＰＣ分析部、８・・・・・・特徴抽出部１
．９・・・・・・距離計算部、１０・・・・・・標準パ
ターン格給部、１１・・・・・・比較部。

Claims

【特許請求の範囲】

（１）不特定話者の音声認識を行うために、その特徴パ
ラメータとしてＬＰＣケプストラム係数を使用し、各音
素の標準パターンとして、音素ごとに平均値と共分散行
列を予め作成しておき、音素の判別を行う距離尺度とし
て統計的な距離尺度を用いることを特徴とする音素判別
方法。
（２）統計的距離尺度がベイズ判定に基づく距離または
マハラノビス距離であることを特徴とする特許請求の範
囲第１項記載の音素判別方法。