JP2007050143A - 声道断面積関数の推定装置及びコンピュータプログラム - Google Patents

声道断面積関数の推定装置及びコンピュータプログラム Download PDF

Info

Publication number
JP2007050143A
JP2007050143A JP2005238235A JP2005238235A JP2007050143A JP 2007050143 A JP2007050143 A JP 2007050143A JP 2005238235 A JP2005238235 A JP 2005238235A JP 2005238235 A JP2005238235 A JP 2005238235A JP 2007050143 A JP2007050143 A JP 2007050143A
Authority
JP
Japan
Prior art keywords
sectional area
vocal tract
cross
area function
cepstrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005238235A
Other languages
English (en)
Other versions
JP4586675B2 (ja
Inventor
Mokhtari Parham
パーハム・モクタリ
Tatsuya Kitamura
達也 北村
Hironori Takemoto
浩典 竹本
Kiyoshi Honda
清志 本多
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005238235A priority Critical patent/JP4586675B2/ja
Publication of JP2007050143A publication Critical patent/JP2007050143A/ja
Application granted granted Critical
Publication of JP4586675B2 publication Critical patent/JP4586675B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Abstract

【課題】測定の容易なパラメータを用い、精度の高い声道断面積関数の推定をリアルタイムで行なえるようにする。
【解決手段】装置100は、母音発話時の静止MRI画像110と、連続発話時のMRI動画像114と、連続発話時の音声データ116とに基づき、声道断面積関数の平均及び第1、第2の主成分と、連続発話時の声道断面積関数を主成分により近似するための重みを、音声データ116から得られるケプストラム係数の線形和で近似するための係数とを算出するパラメータ算出部118と、ケプストラム係数をフレームごとに算出するケプストラム係数算出部182と、このケプストラム係数に対し、パラメータ算出部118で算出された係数を用いた線形和で各フレームに対する主成分の重みを算出する線形変換処理部184と、この重みと主成分とを用いて各フレームに対し声道断面積を推定する声道断面積関数推定部186とを含む。
【選択図】 図1

Description

この発明はMRI(Magnetic Resonance Imaging)画像のような透過画像を用いた人間の調音機構の分析技術に関し、特に、静止透過画像と透過動画像とに基づき、人間の発話から得られる音声に基づき、発話時の声道断面積関数をリアルタイムで推定する声道断面積関数の推定装置に関する。
音響から調音器官の構成への変換は逆推定法と呼ばれるが、一般的に非線形で1対1の関係が成立しない事が知られている。これは(音源を含む)調音器官の間での補償的関係から生じ、そのために互いに異なる声道形状から非常に良く似た音質の音声が生じる事があるためである。
しかし、これらの問題の困難さは結局のところ選択する調音機構の形状パラメータと音響的パラメータとに依存しており、適切な制約を課す事により解決できる。従来技術において提案された最も重要な制約のタイプには二つある。人間の発声機構をより厳密に模擬した人間型のモデルを提唱するもの(非特許文献1)と、調音器官の時間的軌跡に連続性を課すものとである(非特許文献2)。
これに代えて、仮に調音器官の間で自然に生ずる共変動を、より少ない自由度で捕らえる事ができれば、制約をさらに加える事なく、容易にモデルを逆推定法に用いる事ができる可能性がある。実際のところ、そのような、測定された調音器官のデータの次元数を削減する事は、母音生成に関するいくつかの研究での関心事となっている。アメリカ英語の母音については、声道形状の変化のうち90%については、平均を中心とする変化を記述する、わずか二つの直交成分で説明できる事が明らかにされている。同様の成分についてはアイスランド語の母音でも報告されており、ドイツ語の母音に関する研究でそれらについての言語間に共通した有効性が支持されている。実際、非特許文献3に記載された、モデルを用いた実験により得られた結果の類似性によれば、それら二つの成分が言語に対して独立であるだけではなく、人間の声道の解剖学的及び生体力学的な属性に本質的に備わっているものである、という仮説が妥当と思われる。
J.シュレータ他、「音声信号から声道形状を推定する技術」、IEEE音声及び音響処理論文集、2(1)、pp.133−150、1994年 (Schroeter, J. & Sondhi, M. M., "Techniques for estimating vocal-tract shapes from the speech signal", IEEE Trans. Speech & Audio Proc., 2(1), 133-150, 1994.) J.ダン他、「生理的調音モデルを用いた、発話音声からの声道形状推定」、ジャーナル・オブ・フォネティクス、30(3)、pp.511−532、2002年 (Dang, J. & Honda, K., "Estimation of vocal tract shapes from speech sounds with a physiological articulatory model", J. Phonetics., 30(3): 511-532, 2002.) P.ペリエ他、「発話における舌運動の自由度は生体力学により制限されている可能性がある」、第6回音声言語処理国際会議(ICSLP)予稿集、北京、中国、第II巻、pp.162−165、2000年 (Perrier, P., Perkell, J., Payan, Y., Zandipour, M., Guenther, F. & Khalighi, A., "Degrees of freedom of tongue movements in speech may be constrained by biomechanics", in Proc. 6th Int. Conf. Spoken Lang. Process. (ICSLP), Beijing, China, Vol. II: 162-165, 2000.) B.H.ストーリ他、「経験的直交モードによる声道断面積関数のパラメータ化」、ジャーナル・オブ・フォネティクス、26(3)、pp.223−260、1998年 (Story, B. H., & Titze, I. R., "Parameterization of vocal tract area functions by empirical orthogonal modes", J. Phonetics, 26(3): 223-260, 1998.) P.ラドフォジッド他、「フォルマント周波数からの声道形状生成」、米国音響学会ジャーナル、64(4)、pp.1027−1035、1978年 (Ladefoged, P., Harshman, R., Goldstein, L. & Rice, L., "Generating vocal tract shapes from formant frequencies", J. Acoust. Soc. Am., 64(4): 1027-1035, 1978.) H.ワキタ、「声道長を用いた母音の正規化及びその母音識別への応用」、IEEE音響・音声・信号処理論文集、25(2)、pp.183−192、1977年 (Wakita, H. "Normalization of vowels by vocal-tract length and its application to vowel identification", IEEE Transactions on Acoustics, Speech, and Signal Processing, 25(2), 183-192, 1977)
従って、声道形状に関する上記した二つの成分を逆推定法に用いる事により、よい結果を得られる可能性がある。こうした試み自体、過去に行なわれた事はある(非特許文献4)。しかしこの従来技術では合成音声のフォルマントを用いており、従って逆推定法ではフォルマントを得るために使用した特定の声道伝達線モデルの特性を学習したものとなり、人間の声道の音響的特徴を学習したものとはならない。
対照的に、非特許文献5では、透過撮影法による撮影と同時に録音された音声から容易ではない手段で測定したフォルマントに対する線形回帰を適用し、各フォルマントに対する舌形状を定める第1及び第2の要素とそれぞれ0.935及び0.902の相関がある事を見出している。
しかし、音声の発生期間が長く安定している母音についてさえ、フォルマントを簡単な処理で安定して精度高く測定できない事は良く知られている。従って、今まで、多くの研究により、逆推定法のために、安定して精度高く測定できる音響パラメータを用いる事の重要性が強調されてきたが、そのための具体的な方策は与えられていない。
従って、本発明の目的は、測定の容易なパラメータを用い、精度の高い推定をリアルタイムで行なう事ができる声道断面積関数の推定装置を提供する事である。
本発明の第1の局面によれば、声道断面積関数の推定装置は、複数個の母音の各々についての、所定の話者の個々の発話時における静止透過画像と、複数個の母音の連続発話時の、所定の話者の透過動画像と、連続発話時の所定の話者の音声データとに基づいて、個々の発話時の話者の声道断面積関数の平均及び当該平均回りの変化を表わす第1〜第m(mは2以上の自然数)の主成分と、連続発話時の発話者の声道断面積関数を平均及び第1〜第mの主成分により近似するための第1〜第mの主成分の重みを、所定の話者の音声データに対するケプストラム分析により得られる第1次〜第n次(nは予め定められた10以上の自然数)のケプストラム係数の線形和で近似するための係数とを準備するためのパラメータ準備手段と、話者の音声をキャプチャして得られる、フレーム化された音声信号に対し、フレームごとにケプストラム分析を行ない、第1次〜第n次のケプストラム係数をフレームごとに算出するための第1のケプストラム分析手段と、第1のケプストラム分析手段の算出する第1次〜第n次のケプストラム係数に対し、パラメータ準備手段により準備された係数を用いた線形和を用いて、話者の音声信号の各フレームに対する第1〜第mの主成分のための重みを算出するための線形変換部と、線形変換部により算出された第1〜第mの主成分のための重みと、パラメータ準備手段により準備された平均及び第1〜第mの主成分とを用いて、話者の音声信号の各フレームに対し、声道断面積を推定するための声道断面積推定手段とを含む。
静止透過画像からは、個々の母音の発話時の声道断面積関数の平均値と、平均値を中心とする変動を表わす第1〜第mの主成分が準備される。透過動画像からは、連続発話時の声道断面積関数を、静止透過画像から得た声道断面積関数の平均値と、第1〜第mの主成分とで近似するための、第1〜第mの主成分に対する重みがフレームごとに準備される。音声データに対するケプストラム分析により得られた第1次〜第n次のケプストラム係数でこれら重みを線形和で近似するための係数が準備される。これらが準備された後、話者の音声をキャプチャして得られたフレーム化された音声信号から第1次〜第n次のケプストラム係数が得られる。このケプストラム係数に対し、パラメータ準備手段に準備された係数を用いた線形変換を行なう事により、フレームごとの第1〜第mの主成分のための重みが得られる。この重みと、声道断面積関数の平均と、第1〜第mの主成分とを用いて、声道断面積関数の近似値がフレームごとに算出される。フォルマントのように測定が困難なパラメータではなく、ケプストラム係数という測定の容易なパラメータを用い、精度の高い推定をリアルタイムで行なう事ができる。
さらに好ましくは、パラメータ準備手段は、複数個の母音の各々についての、所定の話者の個々の発話時の声道部分の静止透過画像により得られる声道断面積関数に基づいて、当該複数個の母音に関する声道断面積関数の平均と、第1〜第mの主成分とを主成分分析により求めるための主成分分析手段と、透過動画像よりフレームごとに得られる連続発話時の声道断面積関数を第1〜第mの主成分により形成される空間に射影する事により、連続発話時の声道断面積関数を第1〜第mの主成分と平均とにより表わすための、第1〜第mの主成分の重みを算出するための重み算出手段と、連続発話時の所定の話者の音声データに対するケプストラム分析を行なう事により、第1次〜第n次のケプストラム係数を求めるための第2のケプストラム分析手段と、第2のケプストラム分析手段により得られる第1次〜第n次のケプストラム係数の線形和で、連続発話時の第1〜第mの主成分の重みを近似するための重回帰分析を行なって係数を算出するための重回帰分析手段と、平均、第1及び第2の主成分、並びに第1〜第mの主成分の重みを近似するための係数を記憶するための記憶手段とを含む。
上記した各パラメータを算出するための手段を備える事により、一つの声道断面積関数の推定装置で、パラメータの学習と実際の処理との双方を行なう事ができる。
第1のケプストラム分析手段と、第2のケプストラム分析手段とは、同じ周波数帯域の音声信号に対するケプストラム分析を行なうようにしてもよい。
パラメータ準備手段により準備されるのと同じ周波数帯域の音声信号から得られたケプストラム係数を動作時に用いる事により、声道断面積関数の推定を正しく行なう事ができる。
好ましくは、第1のケプストラム分析手段と、第2のケプストラム分析手段とは、ともに0〜4kHzの周波数帯域の音声信号に対するケプストラム分析を行なう。
話者にもよるが、この周波数帯域の音声信号に対するケプストラム分析の結果を用いる事により、声道断面積関数の推定を精度良く行なえる事が判った。
さらに好ましくは、パラメータ準備手段は、声道断面積関数の平均及び第1〜第mの主成分と、係数とを記憶するための記憶手段を含む。m=2、n=24でもよい。
実験によれば、主成分としては第1及び第2の主成分を用いると十分な精度で推定が行なえる。またケプストラム係数として第1次〜第24次までを用いた場合が最も推定の精度が高い。
声道断面積関数が、所定の話者の声道の中心線上の、互いの等しい間隔をおいた所定個数のセクション位置での声道の断面積と、セクション位置間の距離とを含むようにしてもよい。
セクション位置間の距離まで含めて主成分分析を行なう事により、母音により異なる声道長まで含めた推定を精度高く行なう事ができる。
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの声道断面積関数の推定装置として動作させるものである。従って、上記した声道断面積関数の推定装置と同様の効果を得る事ができる。
<構成>
図1に、本発明の一実施の形態に係る、逆推定法を用いて音声から声道断面積関数をリアルタイムで推定し表示する声道断面積関数推定システム100のブロック図を示す。図1を参照して、声道断面積関数推定システム100は、ある特定の話者について「ア」「イ」「ウ」「エ」「オ」の各母音を発話しているときの声道画像を撮影して得られる5組の静止MRI画像110と、同じ話者が「アイウエオ」という一連の発話をしているときの声道の動画像を撮影したMRI動画像114と、同じ話者が「アイウエオ」という一連の発話をしているときの音声を録音した音声データ116とを用い、逆推定法に必要なパラメータを算出するためのパラメータ算出部118を含む。理想的には、音声データ116はMRI動画像114を撮影するときの話者の音声を録音すればよいが、実際にはMRIの撮影には非常に大きな音が発生するため、撮影と録音とを同時に行なう事は困難である。従って本実施の形態では、MRI動画像114を撮影するときとは別の時点に音声データ116の録音をする。しかし、両者は互いに同期している必要があるため、話者にヘッドフォンを装着させ、同期音発生装置112により発生させた規則的な同期音をこのヘッドフォンを通じて話者に聞かせ、その同期音にあわせて「アイウエオ」の発声を行なうようにする。なお、音声データ116の録音時には、声道の形状がMRI動画像114の撮影時のそれとできるだけ一致するよう、話者の姿勢もMRI動画像114の撮影時と同様にした。
声道断面積関数推定システム100はさらに、パラメータ算出部118により算出されたパラメータを用いて、マイクロフォン122により音声信号に変換された上記話者の音声からその声道断面積関数をリアルタイムで逆推定し、表示装置124に表示するための逆推定処理部120を含む。
パラメータ算出部118が推定するパラメータは、静止MRI画像110から推定された、各母音の発声中の発話者の声道断面積関数の平均、その変動に関する主成分分析(PCA)の第1成分と第2成分の値、及びMRI動画像114から得られる上記二つの主成分に対する重みの変化と、音声データ116から得られるケプストラム係数との間の重回帰分析により得られる回帰係数である。この重回帰分析の詳細については後述するが、得られる回帰係数は、5個の母音を連続して発声したときの二つの主成分に対する重み(の変化)を、音声データ116から得られるケプストラム係数の線形和で近似するための、各ケプストラム係数の重みである。
本実施の形態では、MRI動画像114は、発話者が「アイウエオ」を連続して発声する際の声道形状を撮影して得られる、連続した35フレーム分の画像からなっている。好ましくは、MRI動画像114は複数回の撮影から得るようにする。同期音発生装置112を用いる事により、それら複数回の撮影でも一定のタイミングで「アイウエオ」の発声を行なう事ができる。
パラメータ算出部118は、静止MRI画像110の5個の母音に対して得られた5組のMRI静止画像の各々から各母音の発声時の声道断面積関数を求め、それらに対するPCA処理を行なって、それら声道断面積関数の平均値と、平均値を中心とした声道断面積関数の変動を主に支配する第1及び第2の主成分(それぞれ「PC I」及び「PC II」と略記する。)とを出力するためのPCA処理部140と、PCA処理部140から出力された声道断面積関数の平均値、PC I及びII、並びにそれらに付随する後述する所定の定数を記憶するための記憶部142と、MRI動画像114から得られた、時間的に変化する声道断面積関数に対して記憶部142に格納されている声道断面積関数の平均値及びPC I及びIIとを射影する事により、MRI動画像114により表わされる声道断面積関数の変化に対応する、PC I及びIIに対するフレームごとの重みk及びkの変化曲線を算出するための動画像データ射影処理部144と、動画像データ射影処理部144により算出された、PC I及びIIに対するフレームごとの重みk及びkを記憶するための記憶部146とを含む。PCA処理部140での処理及び動画像データ射影処理部144での処理の詳細については後述する。
パラメータ算出部118はさらに、音声データ116により得られた「アイウエオ」に関する連続発声について、dBスケールでFFT(高速フーリエ変換)された所定周波数帯域内のスペクトルサンプルに対する離散コサイン変換(DCT)によって、先頭(c)を除く、先頭から所定数のケプストラム係数(c〜c)を算出するためのケプストラム係数算出部148と、ケプストラム係数算出部148により算出されたケプストラム係数を記憶するための記憶部150と、記憶部146に記憶されたPC I及びIIの重みk及びkの時間的変化曲線及び記憶部150に記憶されたケプストラム係数の間の重回帰分析により、次の線形式を解く事によりk及びkを近似する回帰係数αm0〜αmnを算出するための重回帰分析処理部152とを含む。
Figure 2007050143
ただしNは算出されたケプストラム係数の数、Mは主成分の数、αm0は定数、αmn(n=1〜N)はm番目の主成分を近似するための、n番目のケプストラム係数cにかかる回帰係数である。本実施の形態では、N=24、M=2であり、αm0及びαm1〜αm24は、動画像データ射影処理部144により算出されたk及びkと重回帰分析処理部152により算出されたケプストラム係数c1〜c24とを式(1)に代入してαm0及びαm1〜αm24について式(1)を解く事により得られる。式(1)により、この重回帰分析により得られる重回帰モデルが表わされる。
パラメータ算出部118はさらに、重回帰分析処理部152により算出された回帰係数αm1〜αm24を記憶するための記憶部154を含む。
一方、逆推定処理部120は、マイクロフォン122から得られた音声信号をキャプチャし、フレーム化したデジタル信号に変換するための音声キャプチャ処理部180と、音声キャプチャ処理部180によりデジタル信号に変換された音声信号に対し、ケプストラム係数算出部148と同様の処理を行なってケプストラム係数c〜c24をフレームごとに算出するためのケプストラム係数算出部182と、ケプストラム係数算出部182により算出されたケプストラム係数c〜c24、及び記憶部154に記憶された回帰係数αm0及びαm1〜αm24を用い、式(1)により示される線形変換に従ってPC I及びIIのための重みk及びkを算出するための線形変換処理部184と、線形変換処理部184により各フレームに対して算出された重みk及びkと、記憶部142に記憶された平均声道断面積関数及びPC I及びIIとを用い、後述する式に従って各フレームにおける声道断面積関数の推定値を算出するための声道断面積関数推定部186とを含む。線形変換処理部184及び声道断面積関数推定部186の機能の詳細については後述する。本実施の形態では、このようにして各フレームごとに算出された声道断面積関数を、表示装置124に与え、表示する。この表示により、例えば被験者が所定の発声をするときの声道断面積関数の変化を確認する事ができる。外国語の学習などにおいて、この声道断面積関数とともに手本となる声道断面積関数を表示すれば、正しい発音をするためには声道断面積関数をどのように変化させればよいかを確認しながら発音の練習ができる。
以下、PCA処理部140で行なわれる処理について説明する。本実施の形態では、MRI画像から0.25cmのスライス間隔で声道断面画像を作成し、さらに声道の中心線上に沿って、互いに等しいセクション長の間隔を隔てた44個の位置での声道断面積を再サンプリングする。さらに、こうして求められた声道断面積の平方根を算出する。これにより各声道断面積関数を表わす44次元のベクトルxが得られる。母音による声道長の変化を補償するため、このベクトルxの45番目の要素として、上記セクション長を加える。ただし、このセクション長の変動は、声道断面積の変動の最大値と一致するように正規化される。
従って、再サンプリングされた要素からなる、i番目(1≦i≦44)のセクション位置の、v番目(1≦v≦5)の母音に関する声道断面積をAi,vとすると、v番目の母音に関する声道断面積関数を表わすベクトルxの各要素xi、vは次の式(2)により表わされる。
Figure 2007050143
ただし/δ(「/」は式中の上線を表わす。)及びσδはそれぞれ、v個の母音に対応するv個のセクション長δの平均及び標準偏差である。σは断面積の平方根xi,v(i=1〜44)の標準偏差の最大値を表わす。さらに、PCA処理部140は、これらベクトルxの平均値ベクトル/xも算出する。こうした値はいずれも記憶部142に記憶される。
このベクトルに対する主成分分析により、平均ベクトル/xと45個の固有ベクトルeとが得られる。これらの固有ベクトルのうち少なくとも(v−1)=4個の固有ベクトルが一意に求められ、非零の固有値と関連付けられる。
このようにして求められた最初の二つの主成分の例を図2(PC I)及び図3(PC II)に示す。さらに、第3の主成分(PC III)についても図4に示す。
図2(A)、図3(A)及び図4(A)はそれぞれ固有ベクトルを示し、図2(B)、図3(B)及び図4(B)は、各固有ベクトルによって平均声道断面積関数がどのような影響を受けるかを示す。図2(B)、図3(B)及び図4(B)において、実線は上記のようにして求められた声道断面積関数を示す。破線は正の方向に、点線は負の方向に、各主成分を、対応する固有ベクトルの方向に標準偏差に対応する量だけ変化させたときに得られる、変化後の声道断面積関数を示す。このグラフから、各主成分を変化させたときに声道断面積関数がどのように変化するかが判る。図2(A)、図3(A)及び図4(A)において、「●」は正の固有ベクトルの44個の要素とセクション長、「○」は負に符号を変えた固有ベクトルの44個の要素の値とセクション長をそれぞれ示す。
発明者らが行なった事前実験によれば、二つの成分PC I及びIIにより、全変動量の88.8%及び8.5%がそれぞれ表わされている。従って、これら二つの成分により、合計で発話者の母音生成空間内における全変動量の97%が表わされる。
PC Iは開口時の咽頭の狭窄と、咽頭腔を開いた状態での口腔狭窄との間での変動を表わす。PC Iはまた、口腔前部での母音については短く、後部での母音については長くなるように、(発話者にとって)正しく声道長を調整するための共変動も表わす。
図3に示すPC IIは、上部咽頭及び軟口蓋域付近の領域(声門から7ないし13cm)と、唇とにおける、付随する狭窄の程度の変動を表わす。これら二つの位置における狭窄が大きくなると、それに伴い声道長が長くなる。これと対照的に、図4に示す第3番目の主成分PC IIIは、全変動のうちの残りのうち、1.5%しか表わさず、その状態もエラー及び雑音を含むように見受けられ、調音上の用語で説明するのは困難である。
なお、上記したように静止MRI画像から得たPC I及びIIにより表わされた声道面積と声道長とが、日本語の5つの母音に関して、後述するように動画像MRIから得た実際のデータとよく一致する事は、発明者たちが確認している。これら二つの主成分を用いる事により、以下に述べるように音声から声道断面積関数への逆推定を行なう事が可能と考えられる。
次に、動画像データ射影処理部144で行なわれる処理について説明する。本実施の形態では、MRI動画像114は毎秒30フレーム(フレーム間隔33ミリ秒)で記録する。そして、各フレームにおける3D画像から、声門から唇の放射面までの声道断面を、0.25cm間隔でサンプリングし、さらに声門から唇までの声道を互いに等しい長さに等分した44個のセクション位置で声道断面積を再サンプリングする。ただしこの前に、歯の影響を考慮するために3D画像にデジタル的に歯の映像を追加する。この結果、「ア」から「オ」までの連続発声に関し、35フレームの画像の各々について、声道断面積関数が得られる。
動画像データ射影処理部144は、このMRI動画像の35フレーム分の声道断面積関数の各々を、PC I−PC II空間に射影する事により、声道断面積関数を逆推定するために必要なPC I及びIIの重みk及びkのフレームごとの値を算出する。一般に、あるベクトルxを、主成分に対応する固有ベクトルで表すための、各固有ベクトルに対する重みk(m=1〜使用する固有ベクトルの数)は、次の式(3)で求められる。
Figure 2007050143
ただしベクトルkは重みkを要素とするベクトル、Eは固有ベクトルeを各列に持つ行列、「E」は行列Eの転置行列、/xはベクトルxの平均値ベクトルを、それぞれ示す。
ケプストラム係数算出部148は、本実施の形態においては、発話者の音声のうち、0〜4kHzの周波数帯域から24個のケプストラム係数を算出する。これは、ある被験者について繰返した実験において、動画像MRIから得られた声道断面積関数を再構成する上で、この組合せが最も高い精度を示したためである。従ってこの組合せは人により異なる可能性がある。ただし、ケプストラム係数は、ほぼ実用的な精度を得るためには少なくとも10個、より実用的な精度を得るためには少なくとも11個は必要である事が実験により確認された。
重回帰分析処理部152は、記憶部146に記憶されているk及びkの値と、記憶部150に記憶されたケプストラム係数c〜c24とを用いて、前述した式(1)を立て、その式を解く事で回帰係数αm0〜αmN(m=1,2、N=24)を得る。
逆推定処理部120の線形変換処理部184は次のような機能を持つ。マイクロフォン122からの音声信号を音声キャプチャ処理部180及びケプストラム係数算出部182で処理する事により、各フレームごとの発話者の音声のケプストラム係数c〜c24が得られる。一方、記憶部154にはパラメータ算出部118により式(1)で使用される回帰係数αm0〜αm24(m=1,2)が記憶されている。線形変換処理部184は、このケプストラム係数c〜c24及び回帰係数αm0〜αm24を式(1)に代入して得られる式を用い、各フレームにおけるPC I及びIIに対する重みk及びkを算出する機能を持つ。
声道断面積関数推定部186は、線形変換処理部184から各フレームごとに与えられた重みk及びkと、記憶部142に記憶された平均声道断面積関数及びPC I及びIIとを用い、各フレームごとにまず次の式によって声道断面積の平方根からなるベクトル^xを推定する。なお本明細書中における記号「^」は、式中では直後の文字の上に置かれている。
Figure 2007050143
ただし本実施の形態では式(4)におけるM=2、/xはPCA処理部140により算出されたベクトルxの平均値、eはPCA処理部140で算出されたm番目の固有ベクトルを、それぞれ示す。
声道断面積関数推定部186は、こうして各フレームに対しベクトル^xを推定した後、以下の式(5)により単純に式(1)の逆変換を行なう事により、各フレームにおけるi番目(1≦i≦44)のセクション位置における推定声道断面積^Aと、推定セクション長^δとを算出する。
Figure 2007050143
ただし^xはベクトル^xのi番目の要素を、^x45はベクトル^xの45番目の要素を、σはPCA処理部140により算出された断面積の平方根xi,v(i=1〜44)の標準偏差の最大値を、/δ及びσδはそれぞれ、v個の母音に対応するv個のセクション長δの平均及び標準偏差を、それぞれ示す。i個の推定声道断面積^Aを要素とするベクトル^Aが、当該フレームにおける推定声道断面積関数を表わす。
<動作>
声道断面積関数推定システム100は以下のように動作する。声道断面積関数推定システム100の動作には二つのフェーズがある。第1のフェーズは、パラメータ算出部118によるパラメータの学習を行なう学習フェーズである。より具体的には、図1を参照して、ある話者に対する「ア」「イ」「ウ」「エ」「オ」という発話時の静止MRI画像110、「アイウエオ」という連続発声時のMRI動画像114、及びMRI動画像114の撮影時と時間的に同期するようにして測定した音声データ116から、「ア」「イ」「ウ」「エ」「オ」という発話時の発話者の平均声道断面積関数及びその第1及び第2の主成分PC I及びIIと、式(1)に示される回帰係数αm0〜αm24(m=1,2)を算出する。第2のフェーズは推定フェーズである。推定フェーズでは、学習フェーズで得られた発話者の平均声道断面積関数及びPC I及びIIと、回帰係数αm0〜αm24とを用い、マイクロフォン122から入力される、同じ発話者の音声に基づいてその声道断面積関数をリアルタイムに推定し、表示装置124に表示する。以下、これら第1のフェーズと第2のフェーズとにおける声道断面積関数推定システム100の動作を順に説明する。
−学習フェーズにおけるパラメータ算出部118の動作−
この学習フェーズでは、ある話者についてまず静止MRI画像110、MRI動画像114、及び音声データ116を以下のようにして準備する。
静止MRI画像110は、発話者に母音「ア」「イ」「ウ」「エ」「オ」をそれぞれ長めに発音してもらい、その間の発話者のMRI画像を撮影する。静止MRI画像110画像の撮影自体は通常のものと変わりない。
MRI動画像114の画像にあたっては、発話者にヘッドフォンを装着させ、同期音発生装置112により発生される同期音にあわせて「アイウエオ」という連続した発話を一定時間かけて繰返させ、その間にMRI動画像を撮影する。本実施の形態では、1回の繰返しで35フレームからなるMRI動画像を撮影する。好ましくは、この撮影を多数回繰返し、それら繰返しによって得られた多数の動画像を合成して35フレームの画像を得るようにする。
音声データ116の収録にあたっては、MRI動画像114の撮影と同じ条件で発話者が発話する事が必要である。そこで、発話者にはMRI動画像114の撮影時と同じ姿勢(仰向け)をとってもらい、ヘッドフォンを装着させ、MRI動画像114の収録時と同じように同期音発生装置112からの同期音に従って「アイウエオ」という発話を繰返させる。
静止MRI画像110が準備されると、PCA処理部140が、「ア」「イ」「ウ」「エ」「オ」という5種類の母音の各々に対し、互いに等しいセクション長を隔てた44箇所における声道断面積をMRI画像から算出する。さらにPCA処理部140は、母音により異なるセクション長の変動を、声道断面積の変動の最大値と一致するように正規化する。PCA処理部140は、こうして各母音に対して、44個の声道断面積と1個の正規化後のセクション長とからなるベクトルxを算出する。ベクトルxの各成分については式(2)により表わされている。
PCA処理部140はさらに、得られた5個のベクトルxに対しPCA処理を行ない、ベクトルxの平均値ベクトル/xと、平均値ベクトル/xを中心とするベクトルxの変動を表わす第1及び第2の主成分PC I及びIIとを算出する。得られた平均値ベクトル/xとPC I及びIIとは記憶部142に格納される。
動画像データ射影処理部144は、MRI動画像114の各フレームから声道断面積関数を算出する。算出された各フレームの声道断面積関数を、記憶部142に記憶されている平均声道断面積関数並びにPC I及びIIを用い、式(3)に従ってPC I−PC II空間に射影する。その結果、声道断面積関数を第1及び第2の主成分に対応する固有ベクトルで表わすための重みk及びkが各フレームにおいて算出される。各フレームごとの重みk及びkは記憶部146に記憶される。
ケプストラム係数算出部148は、音声データ116の各フレームの音声データについて、0〜4kHzの周波数帯域についてケプストラム係数c〜c24を算出し、記憶部150に記憶させる。重回帰分析処理部152は、記憶部146に記憶された重みk及びkと、記憶部150に記憶されたケプストラム係数c〜c24とを式(1)に代入し、この式を解く事により、回帰係数αm0及びαm1〜αm24を算出する。算出された回帰係数αm0及びαm1〜αm24は記憶部154に記憶される。
以上がパラメータ算出部118の動作である。
−推定フェーズにおける逆推定処理部120の動作−
発話者がマイクロフォン122前で発話すると、その音声はマイクロフォン122により電気信号に変換されて音声キャプチャ処理部180に与えられる。音声キャプチャ処理部180は、この音声信号をデジタル化し、フレーム化してケプストラム係数算出部182に与える。ケプストラム係数算出部182は、音声キャプチャ処理部180から与えられるデジタル化された各フレームの音声信号のうち、0〜4kHzの周波数帯域からケプストラム係数c〜c24を算出し、線形変換処理部184に与える。
線形変換処理部184は、ケプストラム係数算出部182から与えられる各フレームのケプストラム係数c〜c24と記憶部154に記憶されている回帰係数αm0及びαm1〜αm24とを式(1)に代入する。これにより、PC I及びIIにそれぞれ対応する重みk及びkが各フレームに対し算出される。線形変換処理部184は、算出された重みk及びkを、フレームごとに声道断面積関数推定部186に与える。
声道断面積関数推定部186は、各フレームごとに、線形変換処理部184から与えられた重みk及びkと、記憶部142に記憶された平均声道断面積関数/x及びPC I及びIIに対応する固有ベクトルe及びeとを式(4)に代入する事により、推定声道断面積の平方根からなるベクトル^xを算出する。声道断面積関数推定部186はさらに、得られたベクトル^xの各要素と、記憶部142に記憶された定数(セクション長の平均/δ及び標準偏差σδ、断面積の平方根xi,v(iはセクション番号で、i=1〜44)の標準偏差の最大値σ)とを用い、式(5)によって各フレームにおける推定声道断面積^A(i=1〜44)を推定する。これにより、各フレームにおける推定声道断面積関数を表わすベクトル^Aが得られる。声道断面積関数予測部186は、各フレームにおける声道断面積関数をリアルタイムで視覚化し、表示装置124に表示させる。視覚化の例については図6を参照して後述する。
<実験>
上記した実施の形態では、ある発話者についての音声データ116のうち、0〜4kHzの周波数帯域の音声についてケプストラム係数c〜c24を算出している。しかし、この値は発話者により変動する可能性がある。そのため、使用する周波数帯域と算出するケプストラム係数の個数とを様々に変えて得られる重回帰モデルを用いて、他は同じ条件で声道断面積関数の推定を行なった。その結果、いずれの周波数帯域を使用した場合も同様によい結果が得られた。しかし、4kHz以下の周波数帯域を用いると、それ以上の周波数帯域を用いた場合と比較して一般的に良い結果が得られた。最もよい結果が得られたのが、上記した実施の形態で述べた0〜4kHzの周波数帯域を用いた場合である。ケプストラム係数としては、ある程度の効果を得るためには最低でもc〜c10を用いる必要があり、より確実によい結果を得るためには最低でもc〜c11を用いる必要があった。最もよい結果が得られたのが、上記した実施の形態の説明で述べたとおりc〜c24を使用した場合であった。
図5(A)及び(B)は、最も正確な予測が得られたモデルを示し、35フレームにわたる、測定値から得られた実際のPC I及びIIの値の変動(実線)と、0〜4kHzの周波数帯域で定義された24個のケプストラム定数を用いて推定したそれらの値(●印)とをそれぞれ示す。図5(A)及び(B)にはさらに、対比のために、0〜3kHzの周波数帯域で10個のケプストラム係数を用いて推定したPC I及びIIの値(△印)をそれぞれ示す。最も良い回帰モデルでは、PC I及びIIの重みk及びkを推定するに際し、それぞれ0.991及び0.968の相関、並びに標準偏差にして0.086と0.226の二乗平均誤差という結果であった。
図6に、ケプストラムを用いた最も性能のよい回帰モデルにより得られた結果を視覚化した例を示す。図6(A)〜(E)はそれぞれ、MRI動画像から得られた、各母音の発音時の声道断面積関数(点線)と、声道断面積関数の計測値から得られたPC I及びIIを用いて表わされた声道断面積関数(細線)と、上記実施の形態に従う最も性能のよい回帰モデルにより得られた重みを用いて推定された声道断面積関数(太線)とを示す。
図6では、「アイウエオ」と連続して発話した場合の、各母音に対応するフレームのみを示しているが、連続する各フレームに対してこうしたグラフが得られる。従って、それらフレームのグラフをフレームごとに切替えて表示する事により、発話者の発話と同時に、リアルタイムでその声道断面積関数の変化を表示する事ができる。
PCAとケプストラムとを組合わせた上記実施の形態によれば、35個のフレーム全てに対する平均として、声道断面積において0.367cm、声道長において0.150cmの誤差という結果が得られた。この誤差は、元のMRI動画像から計算されたPCAにより表わした声道断面積及び声道長の誤差と比較してわずかに大きいだけである。一方、非特許文献4に紹介された技術では、クローズドテストで得られた声道断面積の誤差が0.334cmとなっており、本実施の形態によるモデルはこれと遜色がない。さらに、非特許文献6において線形予測モデルにより推定された日本語の5つの母音の声道長での平均誤差0.84cmと比較して、本実施の形態によるモデルでの誤差ははるかに小さい。実際、本実施の形態での最も性能のよいモデルを用いたケースの声道長の誤差0.150cmは、MRI画像で声道断面積画像を得るときのスライス長0.25cmよりも短く、十分に正確であるといえる。
以上のように、本実施の形態によれば、正確な声道断面積関数を、発話者の音声にあわせてリアルタイムで計算する事ができる。上記実施の形態では、学習時の発話者と、動作時の発話者とが同じ人物である事が想定されているが、地声の声質が類似した発話者であれば、別の発話者についてもリアルタイムで音声から声道断面積関数を計算できる。さらに、発話者による音質の相違を解消するように、発話者の音声を正規化できれば、適用できる発話者の範囲はさらに広がる事が期待される。
<コンピュータによる実現>
この実施の形態のシステムは、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図7はこのコンピュータシステム330の外観を示し、図8はコンピュータシステム330の内部構成を示す。
図7を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352及びCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342と、マイク370と、スピーカ372とを含む。
図8を参照して、コンピュータ340は、FDドライブ352及びCD−ROMドライブ350に加えて、CPU(中央処理装置)356と、CPU356、FDドライブ352及びCD−ROMドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)360と、バス366、マイク370及びスピーカ372に接続され、マイク370からの電気信号をデジタル化しフレーム化する処理と、CPU356により生成された音声をアナログ信号化し、スピーカ372に与えるためのサウンドボード368とを含む。コンピュータシステム330はさらに、図示しないプリンタを含んでもよい。
ここでは示さないが、コンピュータ340はさらに、ローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
コンピュータシステム330に本実施の形態に係る声道断面積関数推定システム100、又はその一部をなすパラメータ算出部118若しくは逆推定処理部120としての動作を行なわせるためのコンピュータプログラムは、CD−ROMドライブ350又はFDドライブ352に挿入されるCD−ROM362又はFD364に記憶され、さらにハードディスク354に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。CD−ROM362から、FD364から、又はネットワークを介して、直接にRAM360にプログラムをロードしてもよい。
このプログラムは、コンピュータ340にこの実施の形態に係る声道断面積関数推定システム100、又はその一部をなすパラメータ算出部118若しくは逆推定処理部120としての動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)もしくはサードパーティのプログラム、又はコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態のシステムを実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又は「ツール」を呼出す事により、上記した声道断面積関数推定システム100、又はその一部をなすパラメータ算出部118若しくは逆推定処理部120としての動作を実行する命令のみを含んでいればよい。コンピュータシステム330の動作は周知であるので、ここでは繰返さない。
<変形>
なお、上記実施の形態では、MRI画像を用いて声道断面積関数の推定のためのパラメータの学習を行なった。しかし本発明はそのような実施の形態には限定されない。MRI画像と同様の3D透過画像が得られ、それによって声道断面積が測定できるような画像が得られるのであれば、どのような方法を用いてもよい。上記実施の形態では、静止透過画像と透過動画像とはともにMRIを用いている。しかし両者が一致している必要はない。静止透過画像と、透過動画像とを異なる手法で入手するようにしてもよい。さらに、上記実施の形態では、MRI動画像114の撮影と、音声データ116の収録とは別々に、ただし同期音発生装置112を使用して同期させて行なった。これはMRIの撮影においては大きな騒音が発生するため、音声データを良好な状態で収録する事ができないという制約によるものであった。従って、MRI以外の方法で、静かな環境で透過動画像が撮影できるのであれば、同時に音声データ116の収録を行なっても差し支えない。また、MRIを用いる場合でも、音声データ116の収録が良好にできるのであれば、撮影と音声の収録とを同時に行なってもよい。
又、上記実施の形態では、音声データに対しケプストラム分析を行ない、得られたケプストラム係数のうち第1次〜第24次の係数の線形和で主成分の重みを近似している。これは、実験で24次までのケプストラム係数を用いるとよい結果が得られたためである。しかし、話者によっては最適な次数が多少変わることはあり得るし、また、同一人物でも、用いるケプストラム係数の次数を多少増減させてもよい事はいうまでもない。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
本発明の一実施の形態に係る声道断面積関数推定システム100の機能的構成を示すブロック図である。 声道断面積関数に関する第1の主成分のフレームごとの値と、対応する声道断面積関数とを示す図である。 声道断面積関数に関する第2の主成分のフレームごとの値と、対応する声道断面積関数とを示す図である。 声道断面積関数に関する第3の主成分のフレームごとの値と、対応する声道断面積関数とを示す図である。 MRI動画像から得られた第1及び第2の主成分、及び推定された2種類の第1及び第2の主成分の、フレームごとの値を示す図である。 発話者の連続音声から推定された声道断面積関数を、学習時に用いられたMRI動画像から得られた声道断面積関数、及びその第1及び第2の主成分による表現とを示す図である。 本発明の一実施の形態に係る声道断面積関数推定システム100、又はその一部をなすパラメータ算出部118又は逆推定処理部120を実現するコンピュータシステムの外観図である。 図7に示すコンピュータシステムのブロック図である。
符号の説明
100 声道断面積関数推定システム
110 静止MRI画像
112 同期音発生装置
114 MRI動画像
116 音声データ
118 パラメータ算出部
120 逆推定処理部
140 PCA処理部
142,146,150,154 記憶部
144 動画像データ射影処理部
148 ケプストラム係数算出部
152 重回帰分析処理部
180 音声キャプチャ処理部
182 ケプストラム係数算出部
184 線形変換処理部
186 声道断面積関数推定部

Claims (4)

  1. 複数個の母音の各々についての、所定の話者の個々の発話時における静止透過画像と、前記複数個の母音の連続発話時の、前記所定の話者の透過動画像と、前記連続発話時の前記所定の話者の音声データとに基づいて、前記個々の発話時の前記話者の声道断面積関数の平均及び当該平均回りの変化を表わす第1〜第m(mは2以上の自然数)の主成分と、前記連続発話時の前記発話者の声道断面積関数を前記平均及び前記第1〜第mの主成分により近似するための前記第1〜第mの主成分の重みを、前記所定の話者の音声データに対するケプストラム分析により得られる第1次〜第n次(nは予め定められた10以上の自然数)のケプストラム係数の線形和で近似するための係数とを準備するためのパラメータ準備手段と、
    話者の音声をキャプチャして得られる、フレーム化された音声信号に対し、フレームごとに前記ケプストラム分析を行ない、前記第1次〜第n次のケプストラム係数をフレームごとに算出するための第1のケプストラム分析手段と、
    前記第1のケプストラム分析手段の算出する前記第1次〜第n次のケプストラム係数に対し、前記パラメータ準備手段により準備された前記係数を用いた前記線形和を用いて、前記話者の音声信号の各フレームに対する前記第1〜第mの主成分のための重みを算出するための線形変換部と、
    前記線形変換部により算出された前記第1〜第mの主成分のための重みと、前記パラメータ準備手段により準備された前記平均及び前記第1〜第mの主成分とを用いて、前記話者の前記音声信号の各フレームに対し、声道断面積を推定するための声道断面積推定手段とを含む、声道断面積関数の推定装置。
  2. 前記パラメータ準備手段は、
    前記複数個の母音の各々についての、前記所定の話者の個々の発話時の声道部分の静止透過画像により得られる声道断面積関数に基づいて、当該複数個の母音に関する声道断面積関数の平均と、前記第1〜第mの主成分とを主成分分析により求めるための主成分分析手段と、
    前記透過動画像よりフレームごとに得られる前記連続発話時の声道断面積関数を前記第1〜第mの主成分により形成される空間に射影する事により、前記連続発話時の声道断面積関数を前記第1〜第mの主成分と前記平均とにより表わすための、前記第1〜第mの主成分の重みを算出するための重み算出手段と、
    前記連続発話時の前記所定の話者の音声データに対する前記ケプストラム分析を行なう事により、前記第1次〜第n次のケプストラム係数を求めるための第2のケプストラム分析手段と、
    前記第2のケプストラム分析手段により得られる前記第1次〜第n次のケプストラム係数の線形和で、前記連続発話時の前記第1〜第mの主成分の重みを近似するための重回帰分析を行なって前記係数を算出するための重回帰分析手段と、
    前記平均、前記第1及び第2の主成分、並びに前記第1〜第mの主成分の重みを近似するための前記係数を記憶するための記憶手段とを含む、請求項1に記載の声道断面積関数の推定装置。
  3. 前記パラメータ準備手段は、前記声道断面積関数の平均及び前記第1〜第mの主成分と、前記係数とを記憶するための記憶手段を含む、請求項1に記載の声道断面積関数の推定装置。
  4. コンピュータにより実行されると、当該コンピュータを請求項1〜請求項3のいずれかに記載の声道断面積関数の推定装置として動作させる、コンピュータプログラム。
JP2005238235A 2005-08-19 2005-08-19 声道断面積関数の推定装置及びコンピュータプログラム Expired - Fee Related JP4586675B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005238235A JP4586675B2 (ja) 2005-08-19 2005-08-19 声道断面積関数の推定装置及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005238235A JP4586675B2 (ja) 2005-08-19 2005-08-19 声道断面積関数の推定装置及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2007050143A true JP2007050143A (ja) 2007-03-01
JP4586675B2 JP4586675B2 (ja) 2010-11-24

Family

ID=37914995

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005238235A Expired - Fee Related JP4586675B2 (ja) 2005-08-19 2005-08-19 声道断面積関数の推定装置及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP4586675B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008142836A1 (ja) * 2007-05-14 2008-11-27 Panasonic Corporation 声質変換装置および声質変換方法
JP2011022423A (ja) * 2009-07-16 2011-02-03 Meijo Univ 声道断面積関数の抽出装置及びその抽出方法
KR101020657B1 (ko) * 2009-03-26 2011-03-09 고려대학교 산학협력단 음성 인식을 이용한 음성 시각화 방법 및 장치
WO2013008471A1 (ja) * 2011-07-14 2013-01-17 パナソニック株式会社 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6010042502, 竹本浩典 等, "〔音声生成の情報処理機構の解明に向けて〕連続発話と遊離発話における日本語5母音の声道形状比較", 日本音響学会研究発表会講演論文集, 20040921, Vol.2004, 秋季1, 233−234 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008142836A1 (ja) * 2007-05-14 2008-11-27 Panasonic Corporation 声質変換装置および声質変換方法
US8898055B2 (en) 2007-05-14 2014-11-25 Panasonic Intellectual Property Corporation Of America Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech
KR101020657B1 (ko) * 2009-03-26 2011-03-09 고려대학교 산학협력단 음성 인식을 이용한 음성 시각화 방법 및 장치
JP2011022423A (ja) * 2009-07-16 2011-02-03 Meijo Univ 声道断面積関数の抽出装置及びその抽出方法
WO2013008471A1 (ja) * 2011-07-14 2013-01-17 パナソニック株式会社 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法
JP5194197B2 (ja) * 2011-07-14 2013-05-08 パナソニック株式会社 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法
US9240194B2 (en) 2011-07-14 2016-01-19 Panasonic Intellectual Property Management Co., Ltd. Voice quality conversion system, voice quality conversion device, voice quality conversion method, vocal tract information generation device, and vocal tract information generation method

Also Published As

Publication number Publication date
JP4586675B2 (ja) 2010-11-24

Similar Documents

Publication Publication Date Title
Janke et al. EMG-to-speech: Direct generation of speech from facial electromyographic signals
Narayanan et al. A multimodal real-time MRI articulatory corpus for speech research
Gonzalez et al. A silent speech system based on permanent magnet articulography and direct synthesis
Hueber et al. Statistical conversion of silent articulation into audible speech using full-covariance HMM
Hueber et al. Development of a silent speech interface driven by ultrasound and optical images of the tongue and lips
Lee et al. Relationship between tongue positions and formant frequencies in female speakers
Ramanarayanan et al. An investigation of articulatory setting using real-time magnetic resonance imaging
Doi et al. Alaryngeal speech enhancement based on one-to-many eigenvoice conversion
JP2000504849A (ja) 音響学および電磁波を用いた音声の符号化、再構成および認識
Lulich et al. Subglottal resonances of adult male and female native speakers of American English
Mokhtari et al. Principal components of vocal-tract area functions and inversion of vowels by linear regression of cepstrum coefficients
JP4586675B2 (ja) 声道断面積関数の推定装置及びコンピュータプログラム
Barker et al. Evidence of correlation between acoustic and visual features of speech
Cychosz et al. Spectral and temporal measures of coarticulation in child speech
Desai et al. Concatenative articulatory video synthesis using real-time MRI data for spoken language training
Harper et al. Variability in individual constriction contributions to third formant values in American English/ɹ
Kröger et al. Articulatory synthesis of speech and singing: State of the art and suggestions for future research
Brooke et al. Two-and three-dimensional audio-visual speech synthesis
JP4381404B2 (ja) 音声合成システム、音声合成方法、音声合成プログラム
Kitamura et al. Cyclicity of laryngeal cavity resonance due to vocal fold vibration
JP3413384B2 (ja) 調音状態の推定表示方法およびそのためのコンピュータプログラムを記録したコンピュータ読取可能な記録媒体
Bocquelet et al. Real-time Control of a DNN-based Articulatory Synthesizer for Silent Speech Conversion: a pilot study
Story Time dependence of vocal tract modes during production of vowels and vowel sequences
Csapó Extending text-to-speech synthesis with articulatory movement prediction using ultrasound tongue imaging
Bozorg et al. Comparing performance of acoustic-to-articulatory inversion for mandarin accented english and american english speakers

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100727

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100722

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100823

R150 Certificate of patent or registration of utility model

Ref document number: 4586675

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees