JP2007050143A - 声道断面積関数の推定装置及びコンピュータプログラム - Google Patents
声道断面積関数の推定装置及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2007050143A JP2007050143A JP2005238235A JP2005238235A JP2007050143A JP 2007050143 A JP2007050143 A JP 2007050143A JP 2005238235 A JP2005238235 A JP 2005238235A JP 2005238235 A JP2005238235 A JP 2005238235A JP 2007050143 A JP2007050143 A JP 2007050143A
- Authority
- JP
- Japan
- Prior art keywords
- sectional area
- vocal tract
- cross
- area function
- cepstrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
Abstract
【解決手段】装置100は、母音発話時の静止MRI画像110と、連続発話時のMRI動画像114と、連続発話時の音声データ116とに基づき、声道断面積関数の平均及び第1、第2の主成分と、連続発話時の声道断面積関数を主成分により近似するための重みを、音声データ116から得られるケプストラム係数の線形和で近似するための係数とを算出するパラメータ算出部118と、ケプストラム係数をフレームごとに算出するケプストラム係数算出部182と、このケプストラム係数に対し、パラメータ算出部118で算出された係数を用いた線形和で各フレームに対する主成分の重みを算出する線形変換処理部184と、この重みと主成分とを用いて各フレームに対し声道断面積を推定する声道断面積関数推定部186とを含む。
【選択図】 図1
Description
J.シュレータ他、「音声信号から声道形状を推定する技術」、IEEE音声及び音響処理論文集、2(1)、pp.133−150、1994年 (Schroeter, J. & Sondhi, M. M., "Techniques for estimating vocal-tract shapes from the speech signal", IEEE Trans. Speech & Audio Proc., 2(1), 133-150, 1994.) J.ダン他、「生理的調音モデルを用いた、発話音声からの声道形状推定」、ジャーナル・オブ・フォネティクス、30(3)、pp.511−532、2002年 (Dang, J. & Honda, K., "Estimation of vocal tract shapes from speech sounds with a physiological articulatory model", J. Phonetics., 30(3): 511-532, 2002.) P.ペリエ他、「発話における舌運動の自由度は生体力学により制限されている可能性がある」、第6回音声言語処理国際会議(ICSLP)予稿集、北京、中国、第II巻、pp.162−165、2000年 (Perrier, P., Perkell, J., Payan, Y., Zandipour, M., Guenther, F. & Khalighi, A., "Degrees of freedom of tongue movements in speech may be constrained by biomechanics", in Proc. 6th Int. Conf. Spoken Lang. Process. (ICSLP), Beijing, China, Vol. II: 162-165, 2000.) B.H.ストーリ他、「経験的直交モードによる声道断面積関数のパラメータ化」、ジャーナル・オブ・フォネティクス、26(3)、pp.223−260、1998年 (Story, B. H., & Titze, I. R., "Parameterization of vocal tract area functions by empirical orthogonal modes", J. Phonetics, 26(3): 223-260, 1998.) P.ラドフォジッド他、「フォルマント周波数からの声道形状生成」、米国音響学会ジャーナル、64(4)、pp.1027−1035、1978年 (Ladefoged, P., Harshman, R., Goldstein, L. & Rice, L., "Generating vocal tract shapes from formant frequencies", J. Acoust. Soc. Am., 64(4): 1027-1035, 1978.) H.ワキタ、「声道長を用いた母音の正規化及びその母音識別への応用」、IEEE音響・音声・信号処理論文集、25(2)、pp.183−192、1977年 (Wakita, H. "Normalization of vowels by vocal-tract length and its application to vowel identification", IEEE Transactions on Acoustics, Speech, and Signal Processing, 25(2), 183-192, 1977)
図1に、本発明の一実施の形態に係る、逆推定法を用いて音声から声道断面積関数をリアルタイムで推定し表示する声道断面積関数推定システム100のブロック図を示す。図1を参照して、声道断面積関数推定システム100は、ある特定の話者について「ア」「イ」「ウ」「エ」「オ」の各母音を発話しているときの声道画像を撮影して得られる5組の静止MRI画像110と、同じ話者が「アイウエオ」という一連の発話をしているときの声道の動画像を撮影したMRI動画像114と、同じ話者が「アイウエオ」という一連の発話をしているときの音声を録音した音声データ116とを用い、逆推定法に必要なパラメータを算出するためのパラメータ算出部118を含む。理想的には、音声データ116はMRI動画像114を撮影するときの話者の音声を録音すればよいが、実際にはMRIの撮影には非常に大きな音が発生するため、撮影と録音とを同時に行なう事は困難である。従って本実施の形態では、MRI動画像114を撮影するときとは別の時点に音声データ116の録音をする。しかし、両者は互いに同期している必要があるため、話者にヘッドフォンを装着させ、同期音発生装置112により発生させた規則的な同期音をこのヘッドフォンを通じて話者に聞かせ、その同期音にあわせて「アイウエオ」の発声を行なうようにする。なお、音声データ116の録音時には、声道の形状がMRI動画像114の撮影時のそれとできるだけ一致するよう、話者の姿勢もMRI動画像114の撮影時と同様にした。
声道断面積関数推定システム100は以下のように動作する。声道断面積関数推定システム100の動作には二つのフェーズがある。第1のフェーズは、パラメータ算出部118によるパラメータの学習を行なう学習フェーズである。より具体的には、図1を参照して、ある話者に対する「ア」「イ」「ウ」「エ」「オ」という発話時の静止MRI画像110、「アイウエオ」という連続発声時のMRI動画像114、及びMRI動画像114の撮影時と時間的に同期するようにして測定した音声データ116から、「ア」「イ」「ウ」「エ」「オ」という発話時の発話者の平均声道断面積関数及びその第1及び第2の主成分PC I及びIIと、式(1)に示される回帰係数αm0〜αm24(m=1,2)を算出する。第2のフェーズは推定フェーズである。推定フェーズでは、学習フェーズで得られた発話者の平均声道断面積関数及びPC I及びIIと、回帰係数αm0〜αm24とを用い、マイクロフォン122から入力される、同じ発話者の音声に基づいてその声道断面積関数をリアルタイムに推定し、表示装置124に表示する。以下、これら第1のフェーズと第2のフェーズとにおける声道断面積関数推定システム100の動作を順に説明する。
この学習フェーズでは、ある話者についてまず静止MRI画像110、MRI動画像114、及び音声データ116を以下のようにして準備する。
発話者がマイクロフォン122前で発話すると、その音声はマイクロフォン122により電気信号に変換されて音声キャプチャ処理部180に与えられる。音声キャプチャ処理部180は、この音声信号をデジタル化し、フレーム化してケプストラム係数算出部182に与える。ケプストラム係数算出部182は、音声キャプチャ処理部180から与えられるデジタル化された各フレームの音声信号のうち、0〜4kHzの周波数帯域からケプストラム係数c1〜c24を算出し、線形変換処理部184に与える。
上記した実施の形態では、ある発話者についての音声データ116のうち、0〜4kHzの周波数帯域の音声についてケプストラム係数c1〜c24を算出している。しかし、この値は発話者により変動する可能性がある。そのため、使用する周波数帯域と算出するケプストラム係数の個数とを様々に変えて得られる重回帰モデルを用いて、他は同じ条件で声道断面積関数の推定を行なった。その結果、いずれの周波数帯域を使用した場合も同様によい結果が得られた。しかし、4kHz以下の周波数帯域を用いると、それ以上の周波数帯域を用いた場合と比較して一般的に良い結果が得られた。最もよい結果が得られたのが、上記した実施の形態で述べた0〜4kHzの周波数帯域を用いた場合である。ケプストラム係数としては、ある程度の効果を得るためには最低でもc1〜c10を用いる必要があり、より確実によい結果を得るためには最低でもc1〜c11を用いる必要があった。最もよい結果が得られたのが、上記した実施の形態の説明で述べたとおりc1〜c24を使用した場合であった。
この実施の形態のシステムは、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図7はこのコンピュータシステム330の外観を示し、図8はコンピュータシステム330の内部構成を示す。
なお、上記実施の形態では、MRI画像を用いて声道断面積関数の推定のためのパラメータの学習を行なった。しかし本発明はそのような実施の形態には限定されない。MRI画像と同様の3D透過画像が得られ、それによって声道断面積が測定できるような画像が得られるのであれば、どのような方法を用いてもよい。上記実施の形態では、静止透過画像と透過動画像とはともにMRIを用いている。しかし両者が一致している必要はない。静止透過画像と、透過動画像とを異なる手法で入手するようにしてもよい。さらに、上記実施の形態では、MRI動画像114の撮影と、音声データ116の収録とは別々に、ただし同期音発生装置112を使用して同期させて行なった。これはMRIの撮影においては大きな騒音が発生するため、音声データを良好な状態で収録する事ができないという制約によるものであった。従って、MRI以外の方法で、静かな環境で透過動画像が撮影できるのであれば、同時に音声データ116の収録を行なっても差し支えない。また、MRIを用いる場合でも、音声データ116の収録が良好にできるのであれば、撮影と音声の収録とを同時に行なってもよい。
110 静止MRI画像
112 同期音発生装置
114 MRI動画像
116 音声データ
118 パラメータ算出部
120 逆推定処理部
140 PCA処理部
142,146,150,154 記憶部
144 動画像データ射影処理部
148 ケプストラム係数算出部
152 重回帰分析処理部
180 音声キャプチャ処理部
182 ケプストラム係数算出部
184 線形変換処理部
186 声道断面積関数推定部
Claims (4)
- 複数個の母音の各々についての、所定の話者の個々の発話時における静止透過画像と、前記複数個の母音の連続発話時の、前記所定の話者の透過動画像と、前記連続発話時の前記所定の話者の音声データとに基づいて、前記個々の発話時の前記話者の声道断面積関数の平均及び当該平均回りの変化を表わす第1〜第m(mは2以上の自然数)の主成分と、前記連続発話時の前記発話者の声道断面積関数を前記平均及び前記第1〜第mの主成分により近似するための前記第1〜第mの主成分の重みを、前記所定の話者の音声データに対するケプストラム分析により得られる第1次〜第n次(nは予め定められた10以上の自然数)のケプストラム係数の線形和で近似するための係数とを準備するためのパラメータ準備手段と、
話者の音声をキャプチャして得られる、フレーム化された音声信号に対し、フレームごとに前記ケプストラム分析を行ない、前記第1次〜第n次のケプストラム係数をフレームごとに算出するための第1のケプストラム分析手段と、
前記第1のケプストラム分析手段の算出する前記第1次〜第n次のケプストラム係数に対し、前記パラメータ準備手段により準備された前記係数を用いた前記線形和を用いて、前記話者の音声信号の各フレームに対する前記第1〜第mの主成分のための重みを算出するための線形変換部と、
前記線形変換部により算出された前記第1〜第mの主成分のための重みと、前記パラメータ準備手段により準備された前記平均及び前記第1〜第mの主成分とを用いて、前記話者の前記音声信号の各フレームに対し、声道断面積を推定するための声道断面積推定手段とを含む、声道断面積関数の推定装置。 - 前記パラメータ準備手段は、
前記複数個の母音の各々についての、前記所定の話者の個々の発話時の声道部分の静止透過画像により得られる声道断面積関数に基づいて、当該複数個の母音に関する声道断面積関数の平均と、前記第1〜第mの主成分とを主成分分析により求めるための主成分分析手段と、
前記透過動画像よりフレームごとに得られる前記連続発話時の声道断面積関数を前記第1〜第mの主成分により形成される空間に射影する事により、前記連続発話時の声道断面積関数を前記第1〜第mの主成分と前記平均とにより表わすための、前記第1〜第mの主成分の重みを算出するための重み算出手段と、
前記連続発話時の前記所定の話者の音声データに対する前記ケプストラム分析を行なう事により、前記第1次〜第n次のケプストラム係数を求めるための第2のケプストラム分析手段と、
前記第2のケプストラム分析手段により得られる前記第1次〜第n次のケプストラム係数の線形和で、前記連続発話時の前記第1〜第mの主成分の重みを近似するための重回帰分析を行なって前記係数を算出するための重回帰分析手段と、
前記平均、前記第1及び第2の主成分、並びに前記第1〜第mの主成分の重みを近似するための前記係数を記憶するための記憶手段とを含む、請求項1に記載の声道断面積関数の推定装置。 - 前記パラメータ準備手段は、前記声道断面積関数の平均及び前記第1〜第mの主成分と、前記係数とを記憶するための記憶手段を含む、請求項1に記載の声道断面積関数の推定装置。
- コンピュータにより実行されると、当該コンピュータを請求項1〜請求項3のいずれかに記載の声道断面積関数の推定装置として動作させる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005238235A JP4586675B2 (ja) | 2005-08-19 | 2005-08-19 | 声道断面積関数の推定装置及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005238235A JP4586675B2 (ja) | 2005-08-19 | 2005-08-19 | 声道断面積関数の推定装置及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007050143A true JP2007050143A (ja) | 2007-03-01 |
JP4586675B2 JP4586675B2 (ja) | 2010-11-24 |
Family
ID=37914995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005238235A Expired - Fee Related JP4586675B2 (ja) | 2005-08-19 | 2005-08-19 | 声道断面積関数の推定装置及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4586675B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008142836A1 (ja) * | 2007-05-14 | 2008-11-27 | Panasonic Corporation | 声質変換装置および声質変換方法 |
JP2011022423A (ja) * | 2009-07-16 | 2011-02-03 | Meijo Univ | 声道断面積関数の抽出装置及びその抽出方法 |
KR101020657B1 (ko) * | 2009-03-26 | 2011-03-09 | 고려대학교 산학협력단 | 음성 인식을 이용한 음성 시각화 방법 및 장치 |
WO2013008471A1 (ja) * | 2011-07-14 | 2013-01-17 | パナソニック株式会社 | 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法 |
-
2005
- 2005-08-19 JP JP2005238235A patent/JP4586675B2/ja not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
JPN6010042502, 竹本浩典 等, "〔音声生成の情報処理機構の解明に向けて〕連続発話と遊離発話における日本語5母音の声道形状比較", 日本音響学会研究発表会講演論文集, 20040921, Vol.2004, 秋季1, 233−234 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008142836A1 (ja) * | 2007-05-14 | 2008-11-27 | Panasonic Corporation | 声質変換装置および声質変換方法 |
US8898055B2 (en) | 2007-05-14 | 2014-11-25 | Panasonic Intellectual Property Corporation Of America | Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech |
KR101020657B1 (ko) * | 2009-03-26 | 2011-03-09 | 고려대학교 산학협력단 | 음성 인식을 이용한 음성 시각화 방법 및 장치 |
JP2011022423A (ja) * | 2009-07-16 | 2011-02-03 | Meijo Univ | 声道断面積関数の抽出装置及びその抽出方法 |
WO2013008471A1 (ja) * | 2011-07-14 | 2013-01-17 | パナソニック株式会社 | 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法 |
JP5194197B2 (ja) * | 2011-07-14 | 2013-05-08 | パナソニック株式会社 | 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法 |
US9240194B2 (en) | 2011-07-14 | 2016-01-19 | Panasonic Intellectual Property Management Co., Ltd. | Voice quality conversion system, voice quality conversion device, voice quality conversion method, vocal tract information generation device, and vocal tract information generation method |
Also Published As
Publication number | Publication date |
---|---|
JP4586675B2 (ja) | 2010-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Janke et al. | EMG-to-speech: Direct generation of speech from facial electromyographic signals | |
Narayanan et al. | A multimodal real-time MRI articulatory corpus for speech research | |
Gonzalez et al. | A silent speech system based on permanent magnet articulography and direct synthesis | |
Hueber et al. | Statistical conversion of silent articulation into audible speech using full-covariance HMM | |
Hueber et al. | Development of a silent speech interface driven by ultrasound and optical images of the tongue and lips | |
Lee et al. | Relationship between tongue positions and formant frequencies in female speakers | |
Ramanarayanan et al. | An investigation of articulatory setting using real-time magnetic resonance imaging | |
Doi et al. | Alaryngeal speech enhancement based on one-to-many eigenvoice conversion | |
JP2000504849A (ja) | 音響学および電磁波を用いた音声の符号化、再構成および認識 | |
Lulich et al. | Subglottal resonances of adult male and female native speakers of American English | |
Mokhtari et al. | Principal components of vocal-tract area functions and inversion of vowels by linear regression of cepstrum coefficients | |
JP4586675B2 (ja) | 声道断面積関数の推定装置及びコンピュータプログラム | |
Barker et al. | Evidence of correlation between acoustic and visual features of speech | |
Cychosz et al. | Spectral and temporal measures of coarticulation in child speech | |
Desai et al. | Concatenative articulatory video synthesis using real-time MRI data for spoken language training | |
Harper et al. | Variability in individual constriction contributions to third formant values in American English/ɹ | |
Kröger et al. | Articulatory synthesis of speech and singing: State of the art and suggestions for future research | |
Brooke et al. | Two-and three-dimensional audio-visual speech synthesis | |
JP4381404B2 (ja) | 音声合成システム、音声合成方法、音声合成プログラム | |
Kitamura et al. | Cyclicity of laryngeal cavity resonance due to vocal fold vibration | |
JP3413384B2 (ja) | 調音状態の推定表示方法およびそのためのコンピュータプログラムを記録したコンピュータ読取可能な記録媒体 | |
Bocquelet et al. | Real-time Control of a DNN-based Articulatory Synthesizer for Silent Speech Conversion: a pilot study | |
Story | Time dependence of vocal tract modes during production of vowels and vowel sequences | |
Csapó | Extending text-to-speech synthesis with articulatory movement prediction using ultrasound tongue imaging | |
Bozorg et al. | Comparing performance of acoustic-to-articulatory inversion for mandarin accented english and american english speakers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100727 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100722 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100823 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4586675 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130917 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |