JP2704216B2

JP2704216B2 - 発音評価法

Info

Publication number: JP2704216B2
Application number: JP63246733A
Authority: JP
Inventors: 洋浜田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1988-09-29
Filing date: 1988-09-29
Publication date: 1998-01-26
Anticipated expiration: 2013-01-26
Also published as: JPH0293500A

Description

【発明の詳細な説明】〔産業上の利用分野〕この発明は外国語等の発音の良さを評価する発音評価
法に関するものである。

〔従来の技術〕

従来は、発音の評価を行う、あるいは、発音の訓練を
行うための装置において、単に教師音声と被験者（被訓
練者）の音声とのスペクトル間の距離を求め、その結果
を発声の良さを表わす値とする方式が取られていた。し
かし、この方式はスペクトル間の距離に含まれる教師の
音声と被験者の音声との様々な違いを一括にして扱うた
め、厳密な評価ができない、発音において何が問題であ
るかが明かでなく被験者に発声の何処に問題点があるか
を指摘できない、などの欠点があった。発音の良さを決
める要因としては、（１）種々音韻が正しく発音されているか、（２）音韻のスペクトルが時間的になめらかに変化して
いるか、（３）発声における音韻の時間長、音声パワー、ピッチ
などの韻律的特徴が正しく発音されているか、の３点が
挙げられる。一方、発声された音声、特に連続に発声さ
れた音声中の音韻は調音結合の影響で変形しており、個
々の音韻を正しく抽出することは非常に困難である。従
って、発音の評価を行うために、また、評価結果から被
験者の発声の問題点を明確に指摘するため、これらの要
因を分離し厳密に評価する方式、しかも、それらの処理
が個々の音韻を抽出することなしに扱える方式の実現が
望まれていた。

〔課題を解決するための手段〕

この発明は被験者の音声をベクトル量子化することに
より得られるコードブックを教師音声のコードブックに
適応化することにより得られる適応化ベクトルの妥当性
を用いて、被験者の音声と教師音声との音韻間の対応が
正しく取られているかを定量的に判定し、上記発音の良
さを決定する要因のうち「種々の音韻が正しく発声され
ているか」を厳密に評価することにある。また、同時に
ベクトル量子化−話者適応化−適応化ベクトルの評価と
いう手順により、音素を抽出することなしに統計的手法
によって発声の良さを評価することにある。

〔実施例〕

以下に、この発明の実施例を図面を用いて詳細に説明
する。

第１図はこの発明の発音評価法の処理を表わすブロッ
ク図である。

まず、コードブック生成部１において教師および被験
者が発声した音声のクラスタ分析を行い教師および被験
者のコードブックを生成する。教師が発声した音声２
を、音声分析部３において音声のスペクトルの特徴を表
わすパラメータに変換する。音声分析の方法としては、
バンドパスフィルタ分析、線形予測分析、FFT分析など
種々の方法が提案されており、そのいずれかの方式を用
いて分析を行えば良い。ここでは、ｐ次のLPC分析によ
り得られるLPCケプストラムを特徴パラメータとする場
合を考える。次に、クラスタリング演算部４において教
師音声の特徴パラメータのクラスタ分析を行い、あらか
じめ定められた数ｎの代表的なスペクトルパタン（コー
ドブック） _t1,_t2,・・・，_tn を持つ教師音声のコードブック５を生成する。ただし、
_tiはｐ次のLPCケプストラム _ti＝｛Ｖ_ti,1,V_ti,2，・・・,V_ti,p｝により表わされる。クラスタリングの手法については、
Linde,Buzo and Gray“An algorighm for vector quant
izer design"（IEEE Trans.Comm.,vol.COM−28,1980）
に詳しい。

一方、被験者が教師と同じ音声（単語、文章等）を発
声する。被験者の音声６も教師の音声と同様に音声分析
部７でｐ次のLPCケプストラムに変換された後、クラス
タリング演算部８でクラスタ分析されｎ個のコードベク
トルを持つ被験者のコードブック９、 _s1,_s2,・・・，_sn が得られる。ただし、_siはｐ次のLPCケプストラム_si ＝｛Ｖ_si,1,V_si,2，・・・,V_si,p｝により表わされる。

次に、話者適応化部10において、被験者のコードブッ
ク９を教師のコードブック５に適応化する。話者適応化
の手法については種々提案されているが、ここでは鹿野
により提案されたヒストグラムを用いる方法（Shikano,
Lee and Reddy,“Speaker adaptation through vector
quantization"（IEEE,ICASSP86,49.5,1986）参照）を用
いた例を示す。

まず、ベクトル量子化部11において、コードブック生
成部１で作成された被験者のコードブック９を用いて被
験者の音声をベクトル量子化（符号化）する。また、ベ
クトル量子化部12において同様に、教師のコードブック
５を用いて教師の音声をベクトル量子化（符号化）す
る。

次に、マッチング演算部13において、被験者の音声を
表わすベクトルコード例と教師の音声を表わすベクトル
コード列とのマッチング演算を行い、被験者の音声と教
師音声との時間軸上での対応を取る。マッチング演算に
は、DPマッチング法、HMMなどの手法を用いれば良い。

次に、ヒストグラム生成部14においてマッチング演算
部13で得られた被験者のコードベクトルと教師のコード
ベクトルとの対応を表わすヒストグラムを生成する。

最後に、最適化コードブック生成部15において、ヒス
トグラムに従って教師のコードベクトルの線形結合によ
り教師の音声に適応した被験者のコードベクトルを作成
する。具体的には以下の式により教師音声に適応した被
験者のコードブック16を得る。

ただし、a_ijは被験者のコードベクトル_siに対応す
る教師のコードベクトル_tjのヒストグラムの値_aiは
教師の音声に適応した被験者のコードブック16を構成す
るコードベクトルで_ai ＝｛Ｖ_ai,1,V_ai,2，・・・,V_ai,p｝である。

話者適応化の方法についてはこの手法に限らず他の手
法も適用することができる。その場合は、適応化演算部
17をその方式に置き替えれば良い。

以上の一連の処理で得られた被験者のコードブック
９、及び、教師音声に適応化した被験者のコードブック
16を用いて、適応化ベクトル評価部18において適応化ベ
クトルの妥当性を評価し、発音の良さを評価する。

被験者のコードブック９内のコードベクトルおよび教
師のコードブック５内のコードベクトルは、被験者およ
び教師の音韻スペクトルを表わしている。音韻の数は音
素の数よりも通常は多く、その数はｎを変えることによ
り自由に決定することができる。ｎの値としては128や2
56が通常用いられる。また、適応化後のコードブック16
内のコードベクトルは、教師音声のスペクトル空間上に
写像した被験者の音韻スペクトルを表わしている。従っ
て、適応化前の被験者のコードブロックと適応化後のコ
ードブックとの間の関係を表わす適応化ベクトルは被験
者が音韻を正しく発声しているかを表わすベクトルであ
ると考えることができる。第２図に適応化ベクトルの模
式図を示す。第２図（ａ）は被験者が音韻を誤って発声
している場合で、被験者の音韻と教師の音韻とが異なっ
た対応を示している。第２図（ｂ）は被験者が音韻をは
っきり区別していない場合で、適応化後のコードベクト
ルの分離が非常に悪くなっている。さらに、第２図
（ｃ）は被験者が音韻を区別してはいるが分離が悪い場
合である。一方、正しい発声をした場合は、第２図
（ｄ）に示す場合のように適応化ベクトルが被験者と教
師との声道長などの差に起因する個人性のみを表わして
いるものになり、それぞれの適応化ベクトルは平行に近
いものになる。従って、適応化ベクトルが平行かつベク
トル長が均一であるほどよい発声である。

まず、「適応化ベクトルの各方向成分の分散を用いる
方法」の場合について、以下に第１図に従って手順を示
す。初めに、適応化ベクトル演算部19において被験者の
コードブック９と教師の音声に適応したコードブック16
との間の対応を表わす適応化ベクトル20を求める。適応
化ベクトル_ｉは次式により求められる。

_ｉ＝_ai−_si ＝｛Ｖ_ai,1,V_si,1，・・・,V_si,2−Ｖ_si,2，・・
・,V_ai,p−Ｖ_si,p｝＝｛Ｕ_i,1,U_i,2，・・・Ｕ_i,p｝次に、得られた適応化ベクトル_ｉの各成分ごとの分
散の総和を評価値演算部21において求める。すなわち評
価値E_vaLは、により求められる。ただしＵ_ave,jは第ｊ方向成分の平
均値でである。この評価値E_vaLが小さいほど適応化ベクトルと
しては平行かつ長さが安定したものであり、良い発音で
あるといえる。最終的に、評価値E_vaLをそのままの値、
あるいは、100点満点の評価値、５段階評価等に変換し
て発音評価結果22を出力する。

次に、適応化ベクトルの妥当性を表わす評価値とし
て、平均適応化ベクトルと各適応化ベクトルとの間の角
度を用いる場合について説明する。この場合は、先に述
べた適応化ベクトルの平行性のみについて評価する方法
である。まず、先の場合と同様に適応化ベクトル演算部
19において被験者のコードブックと教師の音声に適応し
たコードブックとの間の対応を表わす適応化ベクトル
_ｉを求める。また、適応化ベクトルの平均ベクトル
_aveを求める。次に、評価値演算部においてｎ個の適応
化ベクトルと平均ベクトルとの間の角度θ_ｉ（ｉ＝1,・
・・,n）を次式により求める。

θ_ｉ＝cos^-1〔（_ｉ、_ave）／（‖_ｉ‖・‖_ave‖）〕ただし、（_ｉ、_ave）は適応化ベクトル_ｉと平
均適応ベクトル_aveとの内積を表わし、である。また‖_ｉ‖はベクトル_ｉのノルムを表わ
し、である。以上の処理により求められたｎ個の角度から評
価値E_vaLを計算する。評価値としては、角度θ_ｉの絶対
値の総和や、角度θ_ｉの２乗和を用いればよい。この値が小さいほど良い発音である。
最終的に得られた評価値、あるいは、100点満点の評価
値や５段階評価等に変換して発音評価結果22を出力す
る。

次に、適応化ベクトルの妥当性を表わす評価値とし
て、適応化前のコードブック内のベクトルコードの分散
と適応化後のコードブック内のコードベクトルの分散の
比を用いる場合について説明する。これは、第２図
（ｂ），（ｃ）に示したように被験者が音韻をはっきり
区別していない場合、被験者が音韻を区別してはいるが
分離が悪い場合に、適応化前のコードベクトルの分布範
囲と適応化後のコードベクトルの分布範囲が大きく異な
ることを利用したものである。まず、適応化前のコード
ブック内のコードベクトルの分散と、適応化後のコードブック内のコードベクトルの分散を求める。ただしV_s ^ave、V_a ^aveはそれぞれ適応化前、適
応化後のコードベクトルの平均値、dist（_i,_ｊ）は
コードベクトル_ｉとコードベクトル_ｊとの間のスペ
クトル距離である。スペクトル距離としてはそれぞれの
パラメータにあったものを用いれば良く、LPCケプスト
ラムの場合はユークリッド距離などがよく使われる。評
価値E_vaLは以上で求められた分散D₀,D₁を用いて、例え
ば、 E_vaL＝min（D₀,D₁）/max（D₀,D₁）により求めることができる。評価値の計算はこの式に限
らずD₀とD₁の等しさを表わすものであれば良い。上の式
を用いた場合は値が１に近い程よい発声である。この場
合も他の適応化ベクトル評価の時と同様、評価値E_vaLを
そのままの値、あるいは、100点満点の評価値、５段階
評価等に変換して発音評価結果22を出力する。

評価値としては上記３例に限らず、適応化前のコード
ブックと適応化後のコードブックの関係が音韻の対応と
してみた場合に妥当であるか否かを表わしているもので
あれば良い。また、例えば上記３例の評価値の線形和な
ど種々の評価値の組みあわせで最終的な評価値を求めて
も良い。

〔発明の効果〕

以上説明したように、この発明によれば、従来被験者
と教師との音声のスペクトル間距離のみにより行ってい
た発音の良さの評価を、特に音韻が正しく発声されたか
という点に関して厳密に行うことができる。また、ベク
トル量子化の手法を用いてコードブックを作成し、教師
音声に適応化した後、適応化ベクトルを用いて発音の良
さを評価しているため、個々の音韻を抽出する必要がな
く、統計的に処理できるという利点がある。

【図面の簡単な説明】

第１図はこの発明による発音評価法の実施例を示すブロ
ック図、第２図は適応化ベクトルの評価の考え方を表わ
す模式図である。

Claims

(57)【特許請求の範囲】

【請求項１】発音の標準とされる教師が発声した音声を
分析した後クラスタリングしコードブックを作成し、被験者の音声を分析した後クラスタリングしてコードブ
ックを作成し、その被験者音声のコードブックと上記教師音声のコード
ブックとから上記被験者音声から上記教師音声への適応
化ベクトルを求め、その得られた適応化ベクトルから上記被験者の音声の発
声の良さを表わす評価値を求めることを特徴とする発音
評価法。