JP2007050143A

JP2007050143A - 声道断面積関数の推定装置及びコンピュータプログラム

Info

Publication number: JP2007050143A
Application number: JP2005238235A
Authority: JP
Inventors: Mokhtari Parham; パーハム・モクタリ; Tatsuya Kitamura; 達也北村; Hironori Takemoto; 浩典竹本; Kiyoshi Honda; 清志本多
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2005-08-19
Filing date: 2005-08-19
Publication date: 2007-03-01
Anticipated expiration: 2025-08-19
Also published as: JP4586675B2

Abstract

【課題】測定の容易なパラメータを用い、精度の高い声道断面積関数の推定をリアルタイムで行なえるようにする。
【解決手段】装置１００は、母音発話時の静止ＭＲＩ画像１１０と、連続発話時のＭＲＩ動画像１１４と、連続発話時の音声データ１１６とに基づき、声道断面積関数の平均及び第１、第２の主成分と、連続発話時の声道断面積関数を主成分により近似するための重みを、音声データ１１６から得られるケプストラム係数の線形和で近似するための係数とを算出するパラメータ算出部１１８と、ケプストラム係数をフレームごとに算出するケプストラム係数算出部１８２と、このケプストラム係数に対し、パラメータ算出部１１８で算出された係数を用いた線形和で各フレームに対する主成分の重みを算出する線形変換処理部１８４と、この重みと主成分とを用いて各フレームに対し声道断面積を推定する声道断面積関数推定部１８６とを含む。
【選択図】図１

Description

この発明はＭＲＩ（ＭａｇｎｅｔｉｃＲｅｓｏｎａｎｃｅＩｍａｇｉｎｇ）画像のような透過画像を用いた人間の調音機構の分析技術に関し、特に、静止透過画像と透過動画像とに基づき、人間の発話から得られる音声に基づき、発話時の声道断面積関数をリアルタイムで推定する声道断面積関数の推定装置に関する。

音響から調音器官の構成への変換は逆推定法と呼ばれるが、一般的に非線形で１対１の関係が成立しない事が知られている。これは（音源を含む）調音器官の間での補償的関係から生じ、そのために互いに異なる声道形状から非常に良く似た音質の音声が生じる事があるためである。

しかし、これらの問題の困難さは結局のところ選択する調音機構の形状パラメータと音響的パラメータとに依存しており、適切な制約を課す事により解決できる。従来技術において提案された最も重要な制約のタイプには二つある。人間の発声機構をより厳密に模擬した人間型のモデルを提唱するもの（非特許文献１）と、調音器官の時間的軌跡に連続性を課すものとである（非特許文献２）。

これに代えて、仮に調音器官の間で自然に生ずる共変動を、より少ない自由度で捕らえる事ができれば、制約をさらに加える事なく、容易にモデルを逆推定法に用いる事ができる可能性がある。実際のところ、そのような、測定された調音器官のデータの次元数を削減する事は、母音生成に関するいくつかの研究での関心事となっている。アメリカ英語の母音については、声道形状の変化のうち９０％については、平均を中心とする変化を記述する、わずか二つの直交成分で説明できる事が明らかにされている。同様の成分についてはアイスランド語の母音でも報告されており、ドイツ語の母音に関する研究でそれらについての言語間に共通した有効性が支持されている。実際、非特許文献３に記載された、モデルを用いた実験により得られた結果の類似性によれば、それら二つの成分が言語に対して独立であるだけではなく、人間の声道の解剖学的及び生体力学的な属性に本質的に備わっているものである、という仮説が妥当と思われる。
Ｊ．シュレータ他、「音声信号から声道形状を推定する技術」、ＩＥＥＥ音声及び音響処理論文集、２（１）、ｐｐ．１３３−１５０、１９９４年 (Schroeter, J. & Sondhi, M. M., "Techniques for estimating vocal-tract shapes from the speech signal", IEEE Trans. Speech & Audio Proc., 2(1), 133-150, 1994.) Ｊ．ダン他、「生理的調音モデルを用いた、発話音声からの声道形状推定」、ジャーナル・オブ・フォネティクス、３０（３）、ｐｐ．５１１−５３２、２００２年 (Dang, J. & Honda, K., "Estimation of vocal tract shapes from speech sounds with a physiological articulatory model", J. Phonetics., 30(3): 511-532, 2002.) Ｐ．ペリエ他、「発話における舌運動の自由度は生体力学により制限されている可能性がある」、第６回音声言語処理国際会議(ＩＣＳＬＰ)予稿集、北京、中国、第ＩＩ巻、ｐｐ．１６２−１６５、２０００年 (Perrier, P., Perkell, J., Payan, Y., Zandipour, M., Guenther, F. & Khalighi, A., "Degrees of freedom of tongue movements in speech may be constrained by biomechanics", in Proc. 6th Int. Conf. Spoken Lang. Process. (ICSLP), Beijing, China, Vol. II: 162-165, 2000.) Ｂ．Ｈ．ストーリ他、「経験的直交モードによる声道断面積関数のパラメータ化」、ジャーナル・オブ・フォネティクス、２６（３）、ｐｐ．２２３−２６０、１９９８年 (Story, B. H., & Titze, I. R., "Parameterization of vocal tract area functions by empirical orthogonal modes", J. Phonetics, 26(3): 223-260, 1998.) Ｐ．ラドフォジッド他、「フォルマント周波数からの声道形状生成」、米国音響学会ジャーナル、６４（４）、ｐｐ．１０２７−１０３５、１９７８年 (Ladefoged, P., Harshman, R., Goldstein, L. & Rice, L., "Generating vocal tract shapes from formant frequencies", J. Acoust. Soc. Am., 64(4): 1027-1035, 1978.) Ｈ．ワキタ、「声道長を用いた母音の正規化及びその母音識別への応用」、ＩＥＥＥ音響・音声・信号処理論文集、２５（２）、ｐｐ．１８３−１９２、１９７７年 (Wakita, H. "Normalization of vowels by vocal-tract length and its application to vowel identification", IEEE Transactions on Acoustics, Speech, and Signal Processing, 25(2), 183-192, 1977)

従って、声道形状に関する上記した二つの成分を逆推定法に用いる事により、よい結果を得られる可能性がある。こうした試み自体、過去に行なわれた事はある（非特許文献４）。しかしこの従来技術では合成音声のフォルマントを用いており、従って逆推定法ではフォルマントを得るために使用した特定の声道伝達線モデルの特性を学習したものとなり、人間の声道の音響的特徴を学習したものとはならない。

対照的に、非特許文献５では、透過撮影法による撮影と同時に録音された音声から容易ではない手段で測定したフォルマントに対する線形回帰を適用し、各フォルマントに対する舌形状を定める第１及び第２の要素とそれぞれ０．９３５及び０．９０２の相関がある事を見出している。

しかし、音声の発生期間が長く安定している母音についてさえ、フォルマントを簡単な処理で安定して精度高く測定できない事は良く知られている。従って、今まで、多くの研究により、逆推定法のために、安定して精度高く測定できる音響パラメータを用いる事の重要性が強調されてきたが、そのための具体的な方策は与えられていない。

従って、本発明の目的は、測定の容易なパラメータを用い、精度の高い推定をリアルタイムで行なう事ができる声道断面積関数の推定装置を提供する事である。

本発明の第１の局面によれば、声道断面積関数の推定装置は、複数個の母音の各々についての、所定の話者の個々の発話時における静止透過画像と、複数個の母音の連続発話時の、所定の話者の透過動画像と、連続発話時の所定の話者の音声データとに基づいて、個々の発話時の話者の声道断面積関数の平均及び当該平均回りの変化を表わす第１〜第ｍ（ｍは２以上の自然数）の主成分と、連続発話時の発話者の声道断面積関数を平均及び第１〜第ｍの主成分により近似するための第１〜第ｍの主成分の重みを、所定の話者の音声データに対するケプストラム分析により得られる第１次〜第ｎ次（ｎは予め定められた１０以上の自然数）のケプストラム係数の線形和で近似するための係数とを準備するためのパラメータ準備手段と、話者の音声をキャプチャして得られる、フレーム化された音声信号に対し、フレームごとにケプストラム分析を行ない、第１次〜第ｎ次のケプストラム係数をフレームごとに算出するための第１のケプストラム分析手段と、第１のケプストラム分析手段の算出する第１次〜第ｎ次のケプストラム係数に対し、パラメータ準備手段により準備された係数を用いた線形和を用いて、話者の音声信号の各フレームに対する第１〜第ｍの主成分のための重みを算出するための線形変換部と、線形変換部により算出された第１〜第ｍの主成分のための重みと、パラメータ準備手段により準備された平均及び第１〜第ｍの主成分とを用いて、話者の音声信号の各フレームに対し、声道断面積を推定するための声道断面積推定手段とを含む。

静止透過画像からは、個々の母音の発話時の声道断面積関数の平均値と、平均値を中心とする変動を表わす第１〜第ｍの主成分が準備される。透過動画像からは、連続発話時の声道断面積関数を、静止透過画像から得た声道断面積関数の平均値と、第１〜第ｍの主成分とで近似するための、第１〜第ｍの主成分に対する重みがフレームごとに準備される。音声データに対するケプストラム分析により得られた第１次〜第ｎ次のケプストラム係数でこれら重みを線形和で近似するための係数が準備される。これらが準備された後、話者の音声をキャプチャして得られたフレーム化された音声信号から第１次〜第ｎ次のケプストラム係数が得られる。このケプストラム係数に対し、パラメータ準備手段に準備された係数を用いた線形変換を行なう事により、フレームごとの第１〜第ｍの主成分のための重みが得られる。この重みと、声道断面積関数の平均と、第１〜第ｍの主成分とを用いて、声道断面積関数の近似値がフレームごとに算出される。フォルマントのように測定が困難なパラメータではなく、ケプストラム係数という測定の容易なパラメータを用い、精度の高い推定をリアルタイムで行なう事ができる。

さらに好ましくは、パラメータ準備手段は、複数個の母音の各々についての、所定の話者の個々の発話時の声道部分の静止透過画像により得られる声道断面積関数に基づいて、当該複数個の母音に関する声道断面積関数の平均と、第１〜第ｍの主成分とを主成分分析により求めるための主成分分析手段と、透過動画像よりフレームごとに得られる連続発話時の声道断面積関数を第１〜第ｍの主成分により形成される空間に射影する事により、連続発話時の声道断面積関数を第１〜第ｍの主成分と平均とにより表わすための、第１〜第ｍの主成分の重みを算出するための重み算出手段と、連続発話時の所定の話者の音声データに対するケプストラム分析を行なう事により、第１次〜第ｎ次のケプストラム係数を求めるための第２のケプストラム分析手段と、第２のケプストラム分析手段により得られる第１次〜第ｎ次のケプストラム係数の線形和で、連続発話時の第１〜第ｍの主成分の重みを近似するための重回帰分析を行なって係数を算出するための重回帰分析手段と、平均、第１及び第２の主成分、並びに第１〜第ｍの主成分の重みを近似するための係数を記憶するための記憶手段とを含む。

上記した各パラメータを算出するための手段を備える事により、一つの声道断面積関数の推定装置で、パラメータの学習と実際の処理との双方を行なう事ができる。

第１のケプストラム分析手段と、第２のケプストラム分析手段とは、同じ周波数帯域の音声信号に対するケプストラム分析を行なうようにしてもよい。

パラメータ準備手段により準備されるのと同じ周波数帯域の音声信号から得られたケプストラム係数を動作時に用いる事により、声道断面積関数の推定を正しく行なう事ができる。

好ましくは、第１のケプストラム分析手段と、第２のケプストラム分析手段とは、ともに０〜４ｋＨｚの周波数帯域の音声信号に対するケプストラム分析を行なう。

話者にもよるが、この周波数帯域の音声信号に対するケプストラム分析の結果を用いる事により、声道断面積関数の推定を精度良く行なえる事が判った。

さらに好ましくは、パラメータ準備手段は、声道断面積関数の平均及び第１〜第ｍの主成分と、係数とを記憶するための記憶手段を含む。ｍ＝２、ｎ＝２４でもよい。

実験によれば、主成分としては第１及び第２の主成分を用いると十分な精度で推定が行なえる。またケプストラム係数として第１次〜第２４次までを用いた場合が最も推定の精度が高い。

声道断面積関数が、所定の話者の声道の中心線上の、互いの等しい間隔をおいた所定個数のセクション位置での声道の断面積と、セクション位置間の距離とを含むようにしてもよい。

セクション位置間の距離まで含めて主成分分析を行なう事により、母音により異なる声道長まで含めた推定を精度高く行なう事ができる。

本発明の第２の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの声道断面積関数の推定装置として動作させるものである。従って、上記した声道断面積関数の推定装置と同様の効果を得る事ができる。

＜構成＞
図１に、本発明の一実施の形態に係る、逆推定法を用いて音声から声道断面積関数をリアルタイムで推定し表示する声道断面積関数推定システム１００のブロック図を示す。図１を参照して、声道断面積関数推定システム１００は、ある特定の話者について「ア」「イ」「ウ」「エ」「オ」の各母音を発話しているときの声道画像を撮影して得られる５組の静止ＭＲＩ画像１１０と、同じ話者が「アイウエオ」という一連の発話をしているときの声道の動画像を撮影したＭＲＩ動画像１１４と、同じ話者が「アイウエオ」という一連の発話をしているときの音声を録音した音声データ１１６とを用い、逆推定法に必要なパラメータを算出するためのパラメータ算出部１１８を含む。理想的には、音声データ１１６はＭＲＩ動画像１１４を撮影するときの話者の音声を録音すればよいが、実際にはＭＲＩの撮影には非常に大きな音が発生するため、撮影と録音とを同時に行なう事は困難である。従って本実施の形態では、ＭＲＩ動画像１１４を撮影するときとは別の時点に音声データ１１６の録音をする。しかし、両者は互いに同期している必要があるため、話者にヘッドフォンを装着させ、同期音発生装置１１２により発生させた規則的な同期音をこのヘッドフォンを通じて話者に聞かせ、その同期音にあわせて「アイウエオ」の発声を行なうようにする。なお、音声データ１１６の録音時には、声道の形状がＭＲＩ動画像１１４の撮影時のそれとできるだけ一致するよう、話者の姿勢もＭＲＩ動画像１１４の撮影時と同様にした。

声道断面積関数推定システム１００はさらに、パラメータ算出部１１８により算出されたパラメータを用いて、マイクロフォン１２２により音声信号に変換された上記話者の音声からその声道断面積関数をリアルタイムで逆推定し、表示装置１２４に表示するための逆推定処理部１２０を含む。

パラメータ算出部１１８が推定するパラメータは、静止ＭＲＩ画像１１０から推定された、各母音の発声中の発話者の声道断面積関数の平均、その変動に関する主成分分析（ＰＣＡ）の第１成分と第２成分の値、及びＭＲＩ動画像１１４から得られる上記二つの主成分に対する重みの変化と、音声データ１１６から得られるケプストラム係数との間の重回帰分析により得られる回帰係数である。この重回帰分析の詳細については後述するが、得られる回帰係数は、５個の母音を連続して発声したときの二つの主成分に対する重み（の変化）を、音声データ１１６から得られるケプストラム係数の線形和で近似するための、各ケプストラム係数の重みである。

本実施の形態では、ＭＲＩ動画像１１４は、発話者が「アイウエオ」を連続して発声する際の声道形状を撮影して得られる、連続した３５フレーム分の画像からなっている。好ましくは、ＭＲＩ動画像１１４は複数回の撮影から得るようにする。同期音発生装置１１２を用いる事により、それら複数回の撮影でも一定のタイミングで「アイウエオ」の発声を行なう事ができる。

パラメータ算出部１１８は、静止ＭＲＩ画像１１０の５個の母音に対して得られた５組のＭＲＩ静止画像の各々から各母音の発声時の声道断面積関数を求め、それらに対するＰＣＡ処理を行なって、それら声道断面積関数の平均値と、平均値を中心とした声道断面積関数の変動を主に支配する第１及び第２の主成分（それぞれ「ＰＣＩ」及び「ＰＣＩＩ」と略記する。）とを出力するためのＰＣＡ処理部１４０と、ＰＣＡ処理部１４０から出力された声道断面積関数の平均値、ＰＣＩ及びＩＩ、並びにそれらに付随する後述する所定の定数を記憶するための記憶部１４２と、ＭＲＩ動画像１１４から得られた、時間的に変化する声道断面積関数に対して記憶部１４２に格納されている声道断面積関数の平均値及びＰＣＩ及びＩＩとを射影する事により、ＭＲＩ動画像１１４により表わされる声道断面積関数の変化に対応する、ＰＣＩ及びＩＩに対するフレームごとの重みｋ_１及びｋ_２の変化曲線を算出するための動画像データ射影処理部１４４と、動画像データ射影処理部１４４により算出された、ＰＣＩ及びＩＩに対するフレームごとの重みｋ_１及びｋ_２を記憶するための記憶部１４６とを含む。ＰＣＡ処理部１４０での処理及び動画像データ射影処理部１４４での処理の詳細については後述する。

パラメータ算出部１１８はさらに、音声データ１１６により得られた「アイウエオ」に関する連続発声について、ｄＢスケールでＦＦＴ（高速フーリエ変換）された所定周波数帯域内のスペクトルサンプルに対する離散コサイン変換（ＤＣＴ）によって、先頭（ｃ_０）を除く、先頭から所定数のケプストラム係数（ｃ_１〜ｃ_Ｎ）を算出するためのケプストラム係数算出部１４８と、ケプストラム係数算出部１４８により算出されたケプストラム係数を記憶するための記憶部１５０と、記憶部１４６に記憶されたＰＣＩ及びＩＩの重みｋ_１及びｋ_２の時間的変化曲線及び記憶部１５０に記憶されたケプストラム係数の間の重回帰分析により、次の線形式を解く事によりｋ_１及びｋ_２を近似する回帰係数α_ｍ０〜α_ｍｎを算出するための重回帰分析処理部１５２とを含む。

ただしＮは算出されたケプストラム係数の数、Ｍは主成分の数、α_ｍ0は定数、α_ｍｎ（ｎ＝１〜Ｎ）はｍ番目の主成分を近似するための、ｎ番目のケプストラム係数ｃ_ｎにかかる回帰係数である。本実施の形態では、Ｎ＝２４、Ｍ＝２であり、α_ｍ0及びα_ｍ1〜α_ｍ２４は、動画像データ射影処理部１４４により算出されたｋ_１及びｋ_２と重回帰分析処理部１５２により算出されたケプストラム係数ｃ１〜ｃ２４とを式（１）に代入してα_ｍ0及びα_ｍ1〜α_ｍ２４について式（１）を解く事により得られる。式（１）により、この重回帰分析により得られる重回帰モデルが表わされる。

パラメータ算出部１１８はさらに、重回帰分析処理部１５２により算出された回帰係数α_ｍ1〜α_ｍ２４を記憶するための記憶部１５４を含む。

一方、逆推定処理部１２０は、マイクロフォン１２２から得られた音声信号をキャプチャし、フレーム化したデジタル信号に変換するための音声キャプチャ処理部１８０と、音声キャプチャ処理部１８０によりデジタル信号に変換された音声信号に対し、ケプストラム係数算出部１４８と同様の処理を行なってケプストラム係数ｃ_１〜ｃ_２４をフレームごとに算出するためのケプストラム係数算出部１８２と、ケプストラム係数算出部１８２により算出されたケプストラム係数ｃ_１〜ｃ_２４、及び記憶部１５４に記憶された回帰係数α_ｍ0及びα_ｍ1〜α_ｍ２４を用い、式（１）により示される線形変換に従ってＰＣＩ及びＩＩのための重みｋ_１及びｋ_２を算出するための線形変換処理部１８４と、線形変換処理部１８４により各フレームに対して算出された重みｋ_１及びｋ_２と、記憶部１４２に記憶された平均声道断面積関数及びＰＣＩ及びＩＩとを用い、後述する式に従って各フレームにおける声道断面積関数の推定値を算出するための声道断面積関数推定部１８６とを含む。線形変換処理部１８４及び声道断面積関数推定部１８６の機能の詳細については後述する。本実施の形態では、このようにして各フレームごとに算出された声道断面積関数を、表示装置１２４に与え、表示する。この表示により、例えば被験者が所定の発声をするときの声道断面積関数の変化を確認する事ができる。外国語の学習などにおいて、この声道断面積関数とともに手本となる声道断面積関数を表示すれば、正しい発音をするためには声道断面積関数をどのように変化させればよいかを確認しながら発音の練習ができる。

以下、ＰＣＡ処理部１４０で行なわれる処理について説明する。本実施の形態では、ＭＲＩ画像から０．２５ｃｍのスライス間隔で声道断面画像を作成し、さらに声道の中心線上に沿って、互いに等しいセクション長の間隔を隔てた４４個の位置での声道断面積を再サンプリングする。さらに、こうして求められた声道断面積の平方根を算出する。これにより各声道断面積関数を表わす４４次元のベクトルｘが得られる。母音による声道長の変化を補償するため、このベクトルｘの４５番目の要素として、上記セクション長を加える。ただし、このセクション長の変動は、声道断面積の変動の最大値と一致するように正規化される。

従って、再サンプリングされた要素からなる、ｉ番目（１≦ｉ≦４４）のセクション位置の、ｖ番目（１≦ｖ≦５）の母音に関する声道断面積をＡ_ｉ,ｖとすると、ｖ番目の母音に関する声道断面積関数を表わすベクトルｘ_ｖの各要素ｘ_ｉ、ｖは次の式（２）により表わされる。

ただし／δ（「／」は式中の上線を表わす。）及びσ_δはそれぞれ、ｖ個の母音に対応するｖ個のセクション長δ_ｖの平均及び標準偏差である。σ_Ａは断面積の平方根ｘ_ｉ,ｖ（ｉ＝１〜４４）の標準偏差の最大値を表わす。さらに、ＰＣＡ処理部１４０は、これらベクトルｘの平均値ベクトル／ｘも算出する。こうした値はいずれも記憶部１４２に記憶される。

このベクトルに対する主成分分析により、平均ベクトル／ｘと４５個の固有ベクトルｅ_ｍとが得られる。これらの固有ベクトルのうち少なくとも（ｖ−１）＝４個の固有ベクトルが一意に求められ、非零の固有値と関連付けられる。

このようにして求められた最初の二つの主成分の例を図２（ＰＣＩ）及び図３（ＰＣＩＩ）に示す。さらに、第３の主成分（ＰＣＩＩＩ）についても図４に示す。

図２（Ａ）、図３（Ａ）及び図４（Ａ）はそれぞれ固有ベクトルを示し、図２（Ｂ）、図３（Ｂ）及び図４（Ｂ）は、各固有ベクトルによって平均声道断面積関数がどのような影響を受けるかを示す。図２（Ｂ）、図３（Ｂ）及び図４（Ｂ）において、実線は上記のようにして求められた声道断面積関数を示す。破線は正の方向に、点線は負の方向に、各主成分を、対応する固有ベクトルの方向に標準偏差に対応する量だけ変化させたときに得られる、変化後の声道断面積関数を示す。このグラフから、各主成分を変化させたときに声道断面積関数がどのように変化するかが判る。図２（Ａ）、図３（Ａ）及び図４（Ａ）において、「●」は正の固有ベクトルの４４個の要素とセクション長、「○」は負に符号を変えた固有ベクトルの４４個の要素の値とセクション長をそれぞれ示す。

発明者らが行なった事前実験によれば、二つの成分ＰＣＩ及びＩＩにより、全変動量の８８．８％及び８．５％がそれぞれ表わされている。従って、これら二つの成分により、合計で発話者の母音生成空間内における全変動量の９７％が表わされる。

ＰＣＩは開口時の咽頭の狭窄と、咽頭腔を開いた状態での口腔狭窄との間での変動を表わす。ＰＣＩはまた、口腔前部での母音については短く、後部での母音については長くなるように、（発話者にとって）正しく声道長を調整するための共変動も表わす。

図３に示すＰＣＩＩは、上部咽頭及び軟口蓋域付近の領域（声門から７ないし１３ｃｍ）と、唇とにおける、付随する狭窄の程度の変動を表わす。これら二つの位置における狭窄が大きくなると、それに伴い声道長が長くなる。これと対照的に、図４に示す第３番目の主成分ＰＣＩＩＩは、全変動のうちの残りのうち、１．５％しか表わさず、その状態もエラー及び雑音を含むように見受けられ、調音上の用語で説明するのは困難である。

なお、上記したように静止ＭＲＩ画像から得たＰＣＩ及びＩＩにより表わされた声道面積と声道長とが、日本語の５つの母音に関して、後述するように動画像ＭＲＩから得た実際のデータとよく一致する事は、発明者たちが確認している。これら二つの主成分を用いる事により、以下に述べるように音声から声道断面積関数への逆推定を行なう事が可能と考えられる。

次に、動画像データ射影処理部１４４で行なわれる処理について説明する。本実施の形態では、ＭＲＩ動画像１１４は毎秒３０フレーム（フレーム間隔３３ミリ秒）で記録する。そして、各フレームにおける３Ｄ画像から、声門から唇の放射面までの声道断面を、０．２５ｃｍ間隔でサンプリングし、さらに声門から唇までの声道を互いに等しい長さに等分した４４個のセクション位置で声道断面積を再サンプリングする。ただしこの前に、歯の影響を考慮するために３Ｄ画像にデジタル的に歯の映像を追加する。この結果、「ア」から「オ」までの連続発声に関し、３５フレームの画像の各々について、声道断面積関数が得られる。

動画像データ射影処理部１４４は、このＭＲＩ動画像の３５フレーム分の声道断面積関数の各々を、ＰＣＩ−ＰＣＩＩ空間に射影する事により、声道断面積関数を逆推定するために必要なＰＣＩ及びＩＩの重みｋ_１及びｋ_２のフレームごとの値を算出する。一般に、あるベクトルｘを、主成分に対応する固有ベクトルで表すための、各固有ベクトルに対する重みｋ_ｍ（ｍ＝１〜使用する固有ベクトルの数）は、次の式（３）で求められる。

ただしベクトルｋは重みｋ_ｍを要素とするベクトル、Ｅは固有ベクトルｅ_ｍを各列に持つ行列、「Ｅ^Ｔ」は行列Ｅの転置行列、／ｘはベクトルｘの平均値ベクトルを、それぞれ示す。

ケプストラム係数算出部１４８は、本実施の形態においては、発話者の音声のうち、０〜４ｋＨｚの周波数帯域から２４個のケプストラム係数を算出する。これは、ある被験者について繰返した実験において、動画像ＭＲＩから得られた声道断面積関数を再構成する上で、この組合せが最も高い精度を示したためである。従ってこの組合せは人により異なる可能性がある。ただし、ケプストラム係数は、ほぼ実用的な精度を得るためには少なくとも１０個、より実用的な精度を得るためには少なくとも１１個は必要である事が実験により確認された。

重回帰分析処理部１５２は、記憶部１４６に記憶されているｋ_１及びｋ_２の値と、記憶部１５０に記憶されたケプストラム係数ｃ_１〜ｃ_２４とを用いて、前述した式（１）を立て、その式を解く事で回帰係数α_ｍ０〜α_ｍＮ（ｍ＝１，２、Ｎ＝２４）を得る。

逆推定処理部１２０の線形変換処理部１８４は次のような機能を持つ。マイクロフォン１２２からの音声信号を音声キャプチャ処理部１８０及びケプストラム係数算出部１８２で処理する事により、各フレームごとの発話者の音声のケプストラム係数ｃ_１〜ｃ_２４が得られる。一方、記憶部１５４にはパラメータ算出部１１８により式（１）で使用される回帰係数α_ｍ０〜α_ｍ２４（ｍ＝１，２）が記憶されている。線形変換処理部１８４は、このケプストラム係数ｃ_１〜ｃ_２４及び回帰係数α_ｍ０〜α_ｍ２４を式（１）に代入して得られる式を用い、各フレームにおけるＰＣＩ及びＩＩに対する重みｋ_１及びｋ_２を算出する機能を持つ。

声道断面積関数推定部１８６は、線形変換処理部１８４から各フレームごとに与えられた重みｋ_１及びｋ_２と、記憶部１４２に記憶された平均声道断面積関数及びＰＣＩ及びＩＩとを用い、各フレームごとにまず次の式によって声道断面積の平方根からなるベクトル＾ｘを推定する。なお本明細書中における記号「＾」は、式中では直後の文字の上に置かれている。

ただし本実施の形態では式（４）におけるＭ＝２、／ｘはＰＣＡ処理部１４０により算出されたベクトルｘの平均値、ｅ_ｍはＰＣＡ処理部１４０で算出されたｍ番目の固有ベクトルを、それぞれ示す。

声道断面積関数推定部１８６は、こうして各フレームに対しベクトル＾ｘを推定した後、以下の式（５）により単純に式（１）の逆変換を行なう事により、各フレームにおけるｉ番目（１≦ｉ≦４４）のセクション位置における推定声道断面積＾Ａ_ｉと、推定セクション長＾δとを算出する。

ただし＾ｘ_ｉはベクトル＾ｘのｉ番目の要素を、＾ｘ_４５はベクトル＾ｘの４５番目の要素を、σ_ＡはＰＣＡ処理部１４０により算出された断面積の平方根ｘ_ｉ,ｖ（ｉ＝１〜４４）の標準偏差の最大値を、／δ及びσ_δはそれぞれ、ｖ個の母音に対応するｖ個のセクション長δ_ｖの平均及び標準偏差を、それぞれ示す。ｉ個の推定声道断面積＾Ａ_ｉを要素とするベクトル＾Ａが、当該フレームにおける推定声道断面積関数を表わす。

＜動作＞
声道断面積関数推定システム１００は以下のように動作する。声道断面積関数推定システム１００の動作には二つのフェーズがある。第１のフェーズは、パラメータ算出部１１８によるパラメータの学習を行なう学習フェーズである。より具体的には、図１を参照して、ある話者に対する「ア」「イ」「ウ」「エ」「オ」という発話時の静止ＭＲＩ画像１１０、「アイウエオ」という連続発声時のＭＲＩ動画像１１４、及びＭＲＩ動画像１１４の撮影時と時間的に同期するようにして測定した音声データ１１６から、「ア」「イ」「ウ」「エ」「オ」という発話時の発話者の平均声道断面積関数及びその第１及び第２の主成分ＰＣＩ及びＩＩと、式（１）に示される回帰係数α_ｍ０〜α_ｍ２４（ｍ＝１，２）を算出する。第２のフェーズは推定フェーズである。推定フェーズでは、学習フェーズで得られた発話者の平均声道断面積関数及びＰＣＩ及びＩＩと、回帰係数α_ｍ０〜α_ｍ２４とを用い、マイクロフォン１２２から入力される、同じ発話者の音声に基づいてその声道断面積関数をリアルタイムに推定し、表示装置１２４に表示する。以下、これら第１のフェーズと第２のフェーズとにおける声道断面積関数推定システム１００の動作を順に説明する。

−学習フェーズにおけるパラメータ算出部１１８の動作−
この学習フェーズでは、ある話者についてまず静止ＭＲＩ画像１１０、ＭＲＩ動画像１１４、及び音声データ１１６を以下のようにして準備する。

静止ＭＲＩ画像１１０は、発話者に母音「ア」「イ」「ウ」「エ」「オ」をそれぞれ長めに発音してもらい、その間の発話者のＭＲＩ画像を撮影する。静止ＭＲＩ画像１１０画像の撮影自体は通常のものと変わりない。

ＭＲＩ動画像１１４の画像にあたっては、発話者にヘッドフォンを装着させ、同期音発生装置１１２により発生される同期音にあわせて「アイウエオ」という連続した発話を一定時間かけて繰返させ、その間にＭＲＩ動画像を撮影する。本実施の形態では、１回の繰返しで３５フレームからなるＭＲＩ動画像を撮影する。好ましくは、この撮影を多数回繰返し、それら繰返しによって得られた多数の動画像を合成して３５フレームの画像を得るようにする。

音声データ１１６の収録にあたっては、ＭＲＩ動画像１１４の撮影と同じ条件で発話者が発話する事が必要である。そこで、発話者にはＭＲＩ動画像１１４の撮影時と同じ姿勢（仰向け）をとってもらい、ヘッドフォンを装着させ、ＭＲＩ動画像１１４の収録時と同じように同期音発生装置１１２からの同期音に従って「アイウエオ」という発話を繰返させる。

静止ＭＲＩ画像１１０が準備されると、ＰＣＡ処理部１４０が、「ア」「イ」「ウ」「エ」「オ」という５種類の母音の各々に対し、互いに等しいセクション長を隔てた４４箇所における声道断面積をＭＲＩ画像から算出する。さらにＰＣＡ処理部１４０は、母音により異なるセクション長の変動を、声道断面積の変動の最大値と一致するように正規化する。ＰＣＡ処理部１４０は、こうして各母音に対して、４４個の声道断面積と１個の正規化後のセクション長とからなるベクトルｘを算出する。ベクトルｘの各成分については式（２）により表わされている。

ＰＣＡ処理部１４０はさらに、得られた５個のベクトルｘに対しＰＣＡ処理を行ない、ベクトルｘの平均値ベクトル／ｘと、平均値ベクトル／ｘを中心とするベクトルｘの変動を表わす第１及び第２の主成分ＰＣＩ及びＩＩとを算出する。得られた平均値ベクトル／ｘとＰＣＩ及びＩＩとは記憶部１４２に格納される。

動画像データ射影処理部１４４は、ＭＲＩ動画像１１４の各フレームから声道断面積関数を算出する。算出された各フレームの声道断面積関数を、記憶部１４２に記憶されている平均声道断面積関数並びにＰＣＩ及びＩＩを用い、式（３）に従ってＰＣＩ−ＰＣＩＩ空間に射影する。その結果、声道断面積関数を第１及び第２の主成分に対応する固有ベクトルで表わすための重みｋ_１及びｋ_２が各フレームにおいて算出される。各フレームごとの重みｋ_１及びｋ_２は記憶部１４６に記憶される。

ケプストラム係数算出部１４８は、音声データ１１６の各フレームの音声データについて、０〜４ｋＨｚの周波数帯域についてケプストラム係数ｃ_１〜ｃ_２４を算出し、記憶部１５０に記憶させる。重回帰分析処理部１５２は、記憶部１４６に記憶された重みｋ_１及びｋ_２と、記憶部１５０に記憶されたケプストラム係数ｃ_１〜ｃ_２４とを式（１）に代入し、この式を解く事により、回帰係数α_ｍ0及びα_ｍ1〜α_ｍ２４を算出する。算出された回帰係数α_ｍ0及びα_ｍ1〜α_ｍ２４は記憶部１５４に記憶される。

以上がパラメータ算出部１１８の動作である。

−推定フェーズにおける逆推定処理部１２０の動作−
発話者がマイクロフォン１２２前で発話すると、その音声はマイクロフォン１２２により電気信号に変換されて音声キャプチャ処理部１８０に与えられる。音声キャプチャ処理部１８０は、この音声信号をデジタル化し、フレーム化してケプストラム係数算出部１８２に与える。ケプストラム係数算出部１８２は、音声キャプチャ処理部１８０から与えられるデジタル化された各フレームの音声信号のうち、０〜４ｋＨｚの周波数帯域からケプストラム係数ｃ_１〜ｃ_２４を算出し、線形変換処理部１８４に与える。

線形変換処理部１８４は、ケプストラム係数算出部１８２から与えられる各フレームのケプストラム係数ｃ_１〜ｃ_２４と記憶部１５４に記憶されている回帰係数α_ｍ0及びα_ｍ1〜α_ｍ２４とを式（１）に代入する。これにより、ＰＣＩ及びＩＩにそれぞれ対応する重みｋ_１及びｋ_２が各フレームに対し算出される。線形変換処理部１８４は、算出された重みｋ_１及びｋ_２を、フレームごとに声道断面積関数推定部１８６に与える。

声道断面積関数推定部１８６は、各フレームごとに、線形変換処理部１８４から与えられた重みｋ_１及びｋ_２と、記憶部１４２に記憶された平均声道断面積関数／ｘ及びＰＣＩ及びＩＩに対応する固有ベクトルｅ_１及びｅ_２とを式（４）に代入する事により、推定声道断面積の平方根からなるベクトル＾ｘを算出する。声道断面積関数推定部１８６はさらに、得られたベクトル＾ｘの各要素と、記憶部１４２に記憶された定数（セクション長の平均／δ及び標準偏差σ_δ、断面積の平方根ｘ_ｉ,ｖ（ｉはセクション番号で、ｉ＝１〜４４）の標準偏差の最大値σ_Ａ）とを用い、式（５）によって各フレームにおける推定声道断面積＾Ａ_ｉ（ｉ＝１〜４４）を推定する。これにより、各フレームにおける推定声道断面積関数を表わすベクトル＾Ａが得られる。声道断面積関数予測部１８６は、各フレームにおける声道断面積関数をリアルタイムで視覚化し、表示装置１２４に表示させる。視覚化の例については図６を参照して後述する。

＜実験＞
上記した実施の形態では、ある発話者についての音声データ１１６のうち、０〜４ｋＨｚの周波数帯域の音声についてケプストラム係数ｃ_１〜ｃ_２４を算出している。しかし、この値は発話者により変動する可能性がある。そのため、使用する周波数帯域と算出するケプストラム係数の個数とを様々に変えて得られる重回帰モデルを用いて、他は同じ条件で声道断面積関数の推定を行なった。その結果、いずれの周波数帯域を使用した場合も同様によい結果が得られた。しかし、４ｋＨｚ以下の周波数帯域を用いると、それ以上の周波数帯域を用いた場合と比較して一般的に良い結果が得られた。最もよい結果が得られたのが、上記した実施の形態で述べた０〜４ｋＨｚの周波数帯域を用いた場合である。ケプストラム係数としては、ある程度の効果を得るためには最低でもｃ_１〜ｃ_１０を用いる必要があり、より確実によい結果を得るためには最低でもｃ_１〜ｃ_１１を用いる必要があった。最もよい結果が得られたのが、上記した実施の形態の説明で述べたとおりｃ_１〜ｃ_２４を使用した場合であった。

図５（Ａ）及び（Ｂ）は、最も正確な予測が得られたモデルを示し、３５フレームにわたる、測定値から得られた実際のＰＣＩ及びＩＩの値の変動（実線）と、０〜４ｋＨｚの周波数帯域で定義された２４個のケプストラム定数を用いて推定したそれらの値（●印）とをそれぞれ示す。図５（Ａ）及び（Ｂ）にはさらに、対比のために、０〜３ｋＨｚの周波数帯域で１０個のケプストラム係数を用いて推定したＰＣＩ及びＩＩの値（△印）をそれぞれ示す。最も良い回帰モデルでは、ＰＣＩ及びＩＩの重みｋ_１及びｋ_２を推定するに際し、それぞれ０．９９１及び０．９６８の相関、並びに標準偏差にして０．０８６と０．２２６の二乗平均誤差という結果であった。

図６に、ケプストラムを用いた最も性能のよい回帰モデルにより得られた結果を視覚化した例を示す。図６（Ａ）〜（Ｅ）はそれぞれ、ＭＲＩ動画像から得られた、各母音の発音時の声道断面積関数（点線）と、声道断面積関数の計測値から得られたＰＣＩ及びＩＩを用いて表わされた声道断面積関数（細線）と、上記実施の形態に従う最も性能のよい回帰モデルにより得られた重みを用いて推定された声道断面積関数（太線）とを示す。

図６では、「アイウエオ」と連続して発話した場合の、各母音に対応するフレームのみを示しているが、連続する各フレームに対してこうしたグラフが得られる。従って、それらフレームのグラフをフレームごとに切替えて表示する事により、発話者の発話と同時に、リアルタイムでその声道断面積関数の変化を表示する事ができる。

ＰＣＡとケプストラムとを組合わせた上記実施の形態によれば、３５個のフレーム全てに対する平均として、声道断面積において０．３６７ｃｍ^２、声道長において０．１５０ｃｍの誤差という結果が得られた。この誤差は、元のＭＲＩ動画像から計算されたＰＣＡにより表わした声道断面積及び声道長の誤差と比較してわずかに大きいだけである。一方、非特許文献４に紹介された技術では、クローズドテストで得られた声道断面積の誤差が０．３３４ｃｍ^２となっており、本実施の形態によるモデルはこれと遜色がない。さらに、非特許文献６において線形予測モデルにより推定された日本語の５つの母音の声道長での平均誤差０．８４ｃｍと比較して、本実施の形態によるモデルでの誤差ははるかに小さい。実際、本実施の形態での最も性能のよいモデルを用いたケースの声道長の誤差０．１５０ｃｍは、ＭＲＩ画像で声道断面積画像を得るときのスライス長０．２５ｃｍよりも短く、十分に正確であるといえる。

以上のように、本実施の形態によれば、正確な声道断面積関数を、発話者の音声にあわせてリアルタイムで計算する事ができる。上記実施の形態では、学習時の発話者と、動作時の発話者とが同じ人物である事が想定されているが、地声の声質が類似した発話者であれば、別の発話者についてもリアルタイムで音声から声道断面積関数を計算できる。さらに、発話者による音質の相違を解消するように、発話者の音声を正規化できれば、適用できる発話者の範囲はさらに広がる事が期待される。

＜コンピュータによる実現＞
この実施の形態のシステムは、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図７はこのコンピュータシステム３３０の外観を示し、図８はコンピュータシステム３３０の内部構成を示す。

図７を参照して、このコンピュータシステム３３０は、ＦＤ（フレキシブルディスク）ドライブ３５２及びＣＤ−ＲＯＭ（コンパクトディスク読出専用メモリ）ドライブ３５０を有するコンピュータ３４０と、キーボード３４６と、マウス３４８と、モニタ３４２と、マイク３７０と、スピーカ３７２とを含む。

図８を参照して、コンピュータ３４０は、ＦＤドライブ３５２及びＣＤ−ＲＯＭドライブ３５０に加えて、ＣＰＵ（中央処理装置）３５６と、ＣＰＵ３５６、ＦＤドライブ３５２及びＣＤ−ＲＯＭドライブ３５０に接続されたバス３６６と、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）３５８と、バス３６６に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）３６０と、バス３６６、マイク３７０及びスピーカ３７２に接続され、マイク３７０からの電気信号をデジタル化しフレーム化する処理と、ＣＰＵ３５６により生成された音声をアナログ信号化し、スピーカ３７２に与えるためのサウンドボード３６８とを含む。コンピュータシステム３３０はさらに、図示しないプリンタを含んでもよい。

ここでは示さないが、コンピュータ３４０はさらに、ローカルエリアネットワーク（ＬＡＮ）への接続を提供するネットワークアダプタボードを含んでもよい。

コンピュータシステム３３０に本実施の形態に係る声道断面積関数推定システム１００、又はその一部をなすパラメータ算出部１１８若しくは逆推定処理部１２０としての動作を行なわせるためのコンピュータプログラムは、ＣＤ−ＲＯＭドライブ３５０又はＦＤドライブ３５２に挿入されるＣＤ−ＲＯＭ３６２又はＦＤ３６４に記憶され、さらにハードディスク３５４に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ３４０に送信されハードディスク３５４に記憶されてもよい。プログラムは実行の際にＲＡＭ３６０にロードされる。ＣＤ−ＲＯＭ３６２から、ＦＤ３６４から、又はネットワークを介して、直接にＲＡＭ３６０にプログラムをロードしてもよい。

このプログラムは、コンピュータ３４０にこの実施の形態に係る声道断面積関数推定システム１００、又はその一部をなすパラメータ算出部１１８若しくは逆推定処理部１２０としての動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ３４０上で動作するオペレーティングシステム（ＯＳ）もしくはサードパーティのプログラム、又はコンピュータ３４０にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態のシステムを実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又は「ツール」を呼出す事により、上記した声道断面積関数推定システム１００、又はその一部をなすパラメータ算出部１１８若しくは逆推定処理部１２０としての動作を実行する命令のみを含んでいればよい。コンピュータシステム３３０の動作は周知であるので、ここでは繰返さない。

＜変形＞
なお、上記実施の形態では、ＭＲＩ画像を用いて声道断面積関数の推定のためのパラメータの学習を行なった。しかし本発明はそのような実施の形態には限定されない。ＭＲＩ画像と同様の３Ｄ透過画像が得られ、それによって声道断面積が測定できるような画像が得られるのであれば、どのような方法を用いてもよい。上記実施の形態では、静止透過画像と透過動画像とはともにＭＲＩを用いている。しかし両者が一致している必要はない。静止透過画像と、透過動画像とを異なる手法で入手するようにしてもよい。さらに、上記実施の形態では、ＭＲＩ動画像１１４の撮影と、音声データ１１６の収録とは別々に、ただし同期音発生装置１１２を使用して同期させて行なった。これはＭＲＩの撮影においては大きな騒音が発生するため、音声データを良好な状態で収録する事ができないという制約によるものであった。従って、ＭＲＩ以外の方法で、静かな環境で透過動画像が撮影できるのであれば、同時に音声データ１１６の収録を行なっても差し支えない。また、ＭＲＩを用いる場合でも、音声データ１１６の収録が良好にできるのであれば、撮影と音声の収録とを同時に行なってもよい。

又、上記実施の形態では、音声データに対しケプストラム分析を行ない、得られたケプストラム係数のうち第１次〜第２４次の係数の線形和で主成分の重みを近似している。これは、実験で２４次までのケプストラム係数を用いるとよい結果が得られたためである。しかし、話者によっては最適な次数が多少変わることはあり得るし、また、同一人物でも、用いるケプストラム係数の次数を多少増減させてもよい事はいうまでもない。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。

本発明の一実施の形態に係る声道断面積関数推定システム１００の機能的構成を示すブロック図である。声道断面積関数に関する第１の主成分のフレームごとの値と、対応する声道断面積関数とを示す図である。声道断面積関数に関する第２の主成分のフレームごとの値と、対応する声道断面積関数とを示す図である。声道断面積関数に関する第３の主成分のフレームごとの値と、対応する声道断面積関数とを示す図である。ＭＲＩ動画像から得られた第１及び第２の主成分、及び推定された２種類の第１及び第２の主成分の、フレームごとの値を示す図である。発話者の連続音声から推定された声道断面積関数を、学習時に用いられたＭＲＩ動画像から得られた声道断面積関数、及びその第１及び第２の主成分による表現とを示す図である。本発明の一実施の形態に係る声道断面積関数推定システム１００、又はその一部をなすパラメータ算出部１１８又は逆推定処理部１２０を実現するコンピュータシステムの外観図である。図７に示すコンピュータシステムのブロック図である。

符号の説明

１００声道断面積関数推定システム
１１０静止ＭＲＩ画像
１１２同期音発生装置
１１４ＭＲＩ動画像
１１６音声データ
１１８パラメータ算出部
１２０逆推定処理部
１４０ＰＣＡ処理部
１４２,１４６,１５０,１５４記憶部
１４４動画像データ射影処理部
１４８ケプストラム係数算出部
１５２重回帰分析処理部
１８０音声キャプチャ処理部
１８２ケプストラム係数算出部
１８４線形変換処理部
１８６声道断面積関数推定部

Claims

複数個の母音の各々についての、所定の話者の個々の発話時における静止透過画像と、前記複数個の母音の連続発話時の、前記所定の話者の透過動画像と、前記連続発話時の前記所定の話者の音声データとに基づいて、前記個々の発話時の前記話者の声道断面積関数の平均及び当該平均回りの変化を表わす第１〜第ｍ（ｍは２以上の自然数）の主成分と、前記連続発話時の前記発話者の声道断面積関数を前記平均及び前記第１〜第ｍの主成分により近似するための前記第１〜第ｍの主成分の重みを、前記所定の話者の音声データに対するケプストラム分析により得られる第１次〜第ｎ次（ｎは予め定められた１０以上の自然数）のケプストラム係数の線形和で近似するための係数とを準備するためのパラメータ準備手段と、
話者の音声をキャプチャして得られる、フレーム化された音声信号に対し、フレームごとに前記ケプストラム分析を行ない、前記第１次〜第ｎ次のケプストラム係数をフレームごとに算出するための第１のケプストラム分析手段と、
前記第１のケプストラム分析手段の算出する前記第１次〜第ｎ次のケプストラム係数に対し、前記パラメータ準備手段により準備された前記係数を用いた前記線形和を用いて、前記話者の音声信号の各フレームに対する前記第１〜第ｍの主成分のための重みを算出するための線形変換部と、
前記線形変換部により算出された前記第１〜第ｍの主成分のための重みと、前記パラメータ準備手段により準備された前記平均及び前記第１〜第ｍの主成分とを用いて、前記話者の前記音声信号の各フレームに対し、声道断面積を推定するための声道断面積推定手段とを含む、声道断面積関数の推定装置。
前記パラメータ準備手段は、
前記複数個の母音の各々についての、前記所定の話者の個々の発話時の声道部分の静止透過画像により得られる声道断面積関数に基づいて、当該複数個の母音に関する声道断面積関数の平均と、前記第１〜第ｍの主成分とを主成分分析により求めるための主成分分析手段と、
前記透過動画像よりフレームごとに得られる前記連続発話時の声道断面積関数を前記第１〜第ｍの主成分により形成される空間に射影する事により、前記連続発話時の声道断面積関数を前記第１〜第ｍの主成分と前記平均とにより表わすための、前記第１〜第ｍの主成分の重みを算出するための重み算出手段と、
前記連続発話時の前記所定の話者の音声データに対する前記ケプストラム分析を行なう事により、前記第１次〜第ｎ次のケプストラム係数を求めるための第２のケプストラム分析手段と、
前記第２のケプストラム分析手段により得られる前記第１次〜第ｎ次のケプストラム係数の線形和で、前記連続発話時の前記第１〜第ｍの主成分の重みを近似するための重回帰分析を行なって前記係数を算出するための重回帰分析手段と、
前記平均、前記第１及び第２の主成分、並びに前記第１〜第ｍの主成分の重みを近似するための前記係数を記憶するための記憶手段とを含む、請求項１に記載の声道断面積関数の推定装置。
前記パラメータ準備手段は、前記声道断面積関数の平均及び前記第１〜第ｍの主成分と、前記係数とを記憶するための記憶手段を含む、請求項１に記載の声道断面積関数の推定装置。
コンピュータにより実行されると、当該コンピュータを請求項１〜請求項３のいずれかに記載の声道断面積関数の推定装置として動作させる、コンピュータプログラム。