JP2006243215A - 調音パラメータ補間用データ生成装置、音声合成装置、及びコンピュータプログラム - Google Patents

調音パラメータ補間用データ生成装置、音声合成装置、及びコンピュータプログラム Download PDF

Info

Publication number
JP2006243215A
JP2006243215A JP2005057047A JP2005057047A JP2006243215A JP 2006243215 A JP2006243215 A JP 2006243215A JP 2005057047 A JP2005057047 A JP 2005057047A JP 2005057047 A JP2005057047 A JP 2005057047A JP 2006243215 A JP2006243215 A JP 2006243215A
Authority
JP
Japan
Prior art keywords
interpolation
speech
articulation
time
phonemes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005057047A
Other languages
English (en)
Inventor
Hironori Takemoto
浩典 竹本
Kiyoshi Honda
清志 本多
Tatsuya Kitamura
達也 北村
Mokhtari Parham
パーハム・モクタリ
Hiroyuki Hirai
啓之 平井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Sanyo Electric Co Ltd
Original Assignee
ATR Advanced Telecommunications Research Institute International
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International, Sanyo Electric Co Ltd filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005057047A priority Critical patent/JP2006243215A/ja
Publication of JP2006243215A publication Critical patent/JP2006243215A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】実際の発話動作による発話器官の形状変化とできるだけ一致した方法で調音パラメータを補間し、音声合成できるようにする。
【解決手段】調音パラメータ補間用データ生成装置102は、発話器官の形状変化の速度を反映したMRI動画像120の差分画像の明るさの時間的推移において、連続音声中の第1及び第2の音素の発話時にそれぞれ対応する第1及び第2の時刻を、明るさの極小値部分に基づいて推定するための極小値−音素対応付け部166と、第1の時刻から第2の時刻までの補間区間における差分画像の明るさの時間的推移と、第1及び第2の時刻における差分画像の明るさとに基づいて、第1及び第2の時刻の間の補間時刻における補間用データを算出するための補間用パラメータ算出部168とを含む。
【選択図】 図6

Description

この発明は、音声合成装置に関し、特に、音源に対する変調を行なうことにより音声を合成する方法において、合成される音声をより滑らかにするための技術に関する。
人間とコンピュータシステムに代表される機械系との間のインターフェイスとして、近年種々のものが提案されている。それらの中で最近特に使用される頻度が高くなっているものに、音声がある。音声を用いることによって、人間と機械系との間のコミュニケーションを、人間同士の間でのそれに近い形で実現できる。
音声によるコミュニケーションを実現するための音声合成技術には、以下の2つの方式がある。1つは、あらかじめ録音された音声の音声波形から音素片を取り出し、それらをつなぎ合わせることによって音声を合成する方式である。もう1つは、人間の発話器官の形状の変化をシミュレートすることによって音声を合成する方式である。
音声波形の変化に比べて、発話器官の形状の変化は緩やかであることから、後者の方式の方が、聴覚上、より滑らかな音声を合成することができる。そのため、この方式は近年特に注目されている。
この方式の音声合成方法では、音源からの信号を、発話器官の形状を表わすパラメータ(例えば声道断面積関数、声道長、開口面積等。以下「調音パラメータ」という)により特性が変化する電気回路からなるフィルタに通すことによって、音声信号を合成する。例えば、「あ」という音を発声しているときと、「い」という音を発声しているときとでは、調音パラメータが違う。したがって、調音パラメータを変化させることによって、種々の音声を合成することができる。もちろん、この方式は、現在ではコンピュータとソフトウェアとによるデジタル技術で実現される。
この方法で連続音声を合成する場合を考える。例えば「あい」という連続音声を合成する場合、「あ」から「い」へと音を変化させるためには、「あ」という音声に対する調音パラメータと、「い」という音声に対する調音パラメータとの間を、何らかの方法で、実際の人間の発話を再現するように時間的に補間する必要がある。合成音声が滑らかに聞こえるかどうかは、この補間方法にかかっている。従来は、これを2点の間を滑らかに結ぶ曲線を表わすものとして既知の数式によって補間したり、ごく限られた実測データをもとに補間したりしていた。しかし、これらの方法で用いられる補間方法は、実際の発話動作による発話器官の形状の変化と対応した補間方法ではない。そのため、滑らかではあっても聴覚上どこか不自然な音声しか合成することができなかった。
そこでこの発明の目的は、実際の発話動作による発話器官の形状変化とできるだけ一致した方法で調音パラメータ補間用のデータを生成する、補間用データ生成装置、及び、生成された補間用データによって補間された調音パラメータを使用して連続音声を合成する音声合成装置を提供することである。
本発明の第1の局面にかかる調音パラメータ補間用データ生成装置は、連続する第1及び第2の音素を含む連続音声を発話中の発話器官の形状変化の速度を反映した所定の物理量の時間的推移に基づいて、第1の音素から第2の音素まで連続的に変化する音声を合成するための調音パラメータを、第1及び第2の音素の音声合成のための既知の調音パラメータの間の補間によって生成する際の補間用データを生成するための調音パラメータ補間用データ生成装置であって、物理量の時間的推移において連続音声中の第1及び第2の音素の発話時にそれぞれ対応する第1及び第2の時刻を、物理量の時間的推移の所定の特徴に基づいて推定するための時刻推定手段と、第1の時刻から第2の時刻までの補間区間における所定の物理量の時間的推移と、第1及び第2の時刻における所定の物理量の値とに基づいて、第1及び第2の時刻の間の所定の補間時刻における補間用データを導出するための補間用データ導出手段とを含む。
実際に連続音声を発話中の発話器官の形状変化の速度を反映した物理量の時間的推移の所定の特徴に基づいて、連続発話された2音素の発話時刻を推定する。推定された2音素の発話時刻に対応する物理量と、2音素間の物理量の時間的推移とに基づいて、調音パラメータを補間するためのデータを導出する。実際の発話器官の形状変化に基づいて、調音パラメータを補間するためのデータを導出するので、実際の連続音声を発話している際の調音パラメータの変化に一致した形で、調音パラメータを補間することができる。その結果、このようにして導出された調音パラメータ補間用データに基づいて音声を合成すれば、実際の連続音声に近い、より自然で滑らかな連続音声を合成できる。
好ましくは、補間用データ導出手段は、補間区間における所定の物理量のうち、補間区間中の所定の補間時刻における物理量の値を、補間用データとして出力するための手段を含む。
発話器官の形状変化の速度を反映した物理量そのものを、2音素間の調音パラメータを補間するためのデータとして出力する。音声合成する際には、これらのデータを用いて2音素間の調音パラメータを補間するための調音パラメータを算出する。補間用データを出力する際には計算を行なわないため、補間用データの生成に要する時間は短くて済む。
さらに好ましくは、補間用データ導出手段は、補間区間における所定の物理量の時間的推移のグラフと、第1及び第2の時刻におけるグラフ上の点を結ぶ直線とにより囲まれる領域のうち、第1の時刻から、補間区間中の任意の補間時刻までの部分の面積を近似的に算出するための面積算出手段と、補間時刻における調音パラメータを第1及び第2の音素の調音パラメータの補間により算出するための混合比を、面積算出手段により算出される面積を用いて算出するための混合比算出手段とを含む。
2音素間の調音パラメータを補間するためのデータとして、補間時刻における調音パラメータを算出するための混合比を出力する。2音素の各々の発話時刻の間を補間区間とすると、混合比は、その補間区間における物理量の時間的推移のグラフと、2音素の発話時刻における物理量とに基づいて、補間時刻までの部分の面積を近似的に算出することによって求められる。混合比を補間用データとして出力するため、2音素間を補間するための調音パラメータを実際に算出するよりも計算量は少なくて済む。したがって、補間用データ生成に要する時間は比較的短くて済み、補間用データを格納しておくための記憶媒体の容量も削減できる。さらに実際の音声合成時においては、混合比に基づいて2音素間を補間するための調音パラメータを算出するだけでよいため、計算量も少なくて済む。
より好ましくは、補間用データ導出手段は、補間区間における所定の物理量の時間的推移のグラフと、第1及び第2の時刻におけるグラフ上の点を結ぶ直線とにより囲まれる領域のうち、第1の時刻から、補間区間中の任意の補間時刻までの部分の面積を近似的に算出するための面積算出手段と、補間時刻における調音パラメータを第1及び第2の音素の調音パラメータの補間により算出するための混合比を、面積算出手段により算出される面積を用いて算出するための混合比算出手段と、混合比算出手段により補間時刻に対して算出された混合比を用いて、第1及び第2の音素の調音パラメータの間で補間をすることにより、補間時刻における調音パラメータを算出し補間用データとして出力するための調音パラメータ算出手段を含む。
上記のように算出された混合比を用いて、2音素間を補間するための調音パラメータを算出し、補間用データとして出力する。調音パラメータの補間計算まで予め行なっておくので、実際の音声合成時には調音パラメータの算出を行なう必要がなく、調音パラメータを読出すだけでよい。そのため、音声合成時の計算量がより削減され、処理を高速化できる。
好ましくは、所定の物理量は、連続音声を発話中の発話者の発話器官に対して所定の透過撮影手法により得られる動画像の差分画像の明るさである。
透過撮影手法により得られる動画像では、実際の発話器官の内部の状態を捉えることができる。さらに、得られた動画像のフレーム間の差分画像を作成し、その明るさの値を算出することにより、発話器官の形状の変化速度を、物理量として数値化することができる。その結果、実際の発話器官の形状変化にしたがって調音パラメータの推定を行なうことができる。
動画像はMRI動画像でもよい。
MRI動画像では、発話器官の内部を鮮明に捉えることができる。その上、例えばX線照射による透過撮影と違って、撮像時に人体へ影響を及ぼすこともないので、好都合である。
より好ましくは、調音パラメータ補間用データ生成装置は、導出された補間用データを、第1及び第2の音素の組合せと対応付けて、所定の記憶媒体に格納するための補間用データ格納手段をさらに含む。
記憶媒体に、様々な2音素間を補間するための補間用データを、補間対象の2音素の情報と対応付けて格納しておけば、そのデータを利用して、入力された任意のテキストから音声合成を行なうことができる。
この発明の第2の局面にかかるコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの調音パラメータ補間用データ生成装置として動作させるものである。したがって上記したいずれかの調音パラメータ補間用データ生成装置と同様の効果を奏することができる。
この発明の第3の局面にかかる音声合成装置は、上記したいずれかの調音パラメータ補間用データ生成装置と、入力されたテキストの音素列の隣り合う音素の組の各々に対して、対応する補間用データを所定の記憶媒体から抽出するための補間用データ抽出手段と、音素の組の各々に対して、抽出手段によって抽出された補間用データを用いて補間された調音パラメータを用いて音声合成を行なうための音声合成手段とを含む。
入力されたテキストをもとに、補間用データを記憶媒体から抽出し、抽出された補間用データを用いて音声を合成する。ここで用いられる補間用データは、上記したいずれかの調音パラメータ補間用データ生成装置によって生成されたものであり、実際の発話器官の動きにしたがって作成されたものである。したがってこの補間用データを用いて調音パラメータを補間することにより、実際の連続音声に近い、より自然で滑らかな連続音声を、任意の入力テキストから合成できる。
この発明の第4の局面にかかるコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記した音声合成装置として動作させるものである。したがって、上記した音声合成装置と同様の効果を奏することができる。
より自然な連続音声を合成するためには、ある音声を発話しているときの調音パラメータと、次の音声を発話しているときの調音パラメータとを、連続音声発話時の発話器官の形状変化の時間的な推移と一致した形で補間する必要がある。そのためには、実際に連続音声を発話している際の発話器官の形状変化の速度を反映した物理量を、何らかの方法で計測し、その時間的推移を知る必要がある。そのために、何らかの透過撮影手法(例えばMRI(Magnetic Resonance Imaging:核磁気共鳴画像)、X線、PET(Positron Emission Tomograph:ポジトロン放出断層撮影法)、超音波断層撮影法等)を用いて発話時の発話器官の形状変化を撮影したデータを用いることが望ましい。
そこで、本発明の一実施の形態にかかる音声合成システムでは、MRIによって、発話中の発話器官の動作を、短い時間間隔で撮像したデータを利用する。以下、このデータを「MRI動画」と呼ぶ。
MRI動画は複数のフレームを含む。各フレームの間隔は一定である。各フレームはそのフレームに対応する時刻の発話器官の画像を含む。連続発話中の発話器官を撮像したMRI動画において隣り合うフレームの画像同士を引き算すると、差分画像を作成することができる。それら差分画像の明るさの時間的な推移から、実際の発話時の発話器官の形状変化の速さを知ることができる。なぜなら、MRI動画の差分画像は、動きが大きいところでは明るく、小さいところでは暗くなるからである。すなわち、差分画像の明るさという物理量は、発話器官の形状変化の速度を反映したものである。このことを利用して、実際の発話動作による発話器官の形状変化の時間的推移と一致した形で調音パラメータを補間することができる。本実施の形態の詳細を説明する前に、まず、この補間方法の原理について詳述する。
<MRI動画のフレーム間差分に基づく補間方法>
(1)MRI動画とその差分画像の作成
MRI動画は、例えば1秒間に30フレーム等の短い時間間隔で撮像した画像を含む。撮像された動画の、隣接するフレーム間の画像の動きの大きさを知ることができれば、発話器官の形状の変化速度を把握することができる。
あるフレーム画像から次のフレーム画像の間の画像の動きは、それらの画像の、対応する画素の値の差分を求めることによって表わすことができる。差分が大きいほど動きは大きく、小さいほど動きは小さい。つまり、差分の小さい部分を低輝度で、大きい部分を高輝度でそれぞれ表わせば、動きの小さなフレーム間の差分画像は暗く、大きくなるほど明るくなる。
図1に、発話中の発話器官の動きを撮像したMRI動画の、連続するフレーム画像及び差分画像を示す。図1を参照して、MRI動画像20は、連続するフレーム画像20A,20B,20C,20D,…を含む。これらフレーム画像20A,20B,20C,20D,…から、差分画像22A,22B,22C,…が得られる。差分画像22Aは、フレーム画像20Aとフレーム画像20Bとの、差分を画像化したものである。フレーム画像20Aとフレーム画像20Bとの間の画像の動きは、この差分画像22Aで表わされる。差分が大きいほど、差分画像は明るくなる。つまり、差分画像22Aが明るければ、フレーム画像20A、20B間の発話器官の動きは大きく(動きが速く)、暗ければ、動きは小さい(動きが遅い)。したがって、差分画像の画素値の平均を求めることによって、その差分画像の明るさを求めることができ、連続するフレーム間の運動量を数値化できる。
同様にして、フレーム画像20Bとフレーム画像20Cの差分画像22B、フレーム画像20Cとフレーム画像20Dの差分画像22C…というように、MRI動画像20全体の連続するフレームの差分画像を求め、それらの差分画像の画素値の平均値を求める。この平均値(=明るさ)の時間的な推移は、すなわち、MRI動画像20に撮像された発話中の発話器官の動きの時間的な推移を表わすといえる。
(2)差分画像の明るさの変化と音声との関係
ここでは、「あいうえお」という連続音声を発話中の発話器官を撮像したMRI動画を例として説明する。図2に、この動画について上記の方法で求めた差分画像の明るさの変化を表わすグラフの例を示す。図2において、各差分画像の明るさを示す点には「○」印を付してある。
図2のグラフに、実際に発話された音声の各音素の中心が発話されている時刻を対応させたものを、図3に示す。図3を参照して、符号60,62,64,66,68で示される部分は、発話された音声の音素/a/,/i/,/u/,/e/,/o/の中心をそれぞれ示す。これらの音素の中心は、それぞれグラフが極小値をとる位置と一致している。
このように音素の中心とグラフの極小値位置とが一致するという特徴は、すべての母音、及び破裂音を除く多くの子音の発話時に見られることが分かっている。この特徴から、差分画像の明るさの時間的推移を表わしたグラフにおいて、各音素の中心が発話された時刻を推定できる。
このことを利用して、調音パラメータを補間する方法を以下に説明する。
(3)調音パラメータの補間方法
調音パラメータの補間方法を説明するための例として、図4に、ある2つの音素を連続発話した際の、差分画像の明るさ変化を表わしたグラフを示す。この2つの音素(以下それぞれ音素A、音素Bという)が予め与えられており、この2つの音素に対応する調音パラメータ(以下それぞれ調音パラメータA、調音パラメータBという)は既知であるとする。この場合の調音パラメータA,B間の補間方法を考える。
図4を参照して、極小値94が得られたフレームの時刻をtとする。このフレームからmフレーム後の時刻t+mにおいて極小値96が得られたものとする。極小値94は音素Aの中心に対応し、極小値96は音素Bの中心に対応する。時刻tから時刻t+mの間を、以下「補間区間」と呼ぶ。折れ線92で表わされる関数は、/AB/という連続音声発話時の差分画像の明るさ変化、すなわち発話器官の形状の変化速度を表わしている。調音パラメータAと調音パラメータBとの間の補間は、この速度から求めた発話器官の形状(位置)から求めればよい。
時刻tからnフレーム後の時刻t+n(0≦n≦m)(以下「補間時刻t+n」と呼ぶ。)における調音パラメータの混合比br(t+n)は、以下の式(1)で示される。
Figure 2006243215
ここで、vd(t)は明るさの変化を表わす関数、l(t)は2点(t,vd(t)),(t+m,vd(t+m))を結ぶ直線を表わす式である。
式(1)は、折れ線92で表わされる明るさ変化の関数と直線l(t)とで囲まれる領域全体の面積(すなわち補間区間全体の面積から、直線l(t)より下の領域の面積を引いたもの)を近似的に算出し、さらに補間時刻t+nまでの面積(図4の斜線で囲まれた部分)を近似的に算出して、全体の面積における補間時刻t+nまでの面積の割合を算出している。つまり、混合比br(t+n)は、補間時刻t+nにおける調音パラメータの、パラメータ全体における調音パラメータBの割合を示す。すなわち、n=0のとき0、n=mのとき1となる。
混合比br(t+n)を用いれば、補間時刻t+nの時点での調音パラメータを算出できる。すなわち、調音パラメータの時刻tにおける値をV(t)、時刻t+mにおける値をV(t+m)とするとき、補間時刻t+nにおける調音パラメータV(t+n)は、次の式(2)で示される。
Figure 2006243215
このようにして、調音パラメータを各フレームに対して求め、それを使用してフィルタの特性を変化させることにより、音源からの信号に変調を加えて音声信号を発生させることができる。
以下、上記した調音パラメータ補間方法を利用した、本発明の一実施の形態にかかる音声合成装置について詳述する。
<第1の実施の形態>
[構成]
(1)音声合成システム
図5に、本発明の第1の実施の形態にかかる音声合成システム100のブロック図を示す。なお、ある話者が連続音声を発生している際にMRIにより撮像された、話者の発話器官に関する動画像データ120と、その連続音声の発話テキスト122とが予め与えられているものとする。
図5を参照して、音声合成システム100は、与えられたMRI動画像データ120と、発話テキスト122とを用いて、音声合成のための調音パラメータを補間するために用いられるデータを生成するための補間用データ生成装置102と、補間用データ生成装置102によって生成されたデータを保持するための補間用データベース(以下DB)104と、入力されたテキスト140に対し、補間用DB104内のデータを用いて合成音声信号142を出力するための音声合成装置106とを含む。
(2)補間用データ生成装置102
図6に、補間用データ生成装置102のブロック図を示す。補間用データ生成装置102は、種々の音素に対して予め算出された調音パラメータを保持するための調音パラメータDB170と、MRI動画像データ120が与えられると各フレームの差分画像を作成し、さらに差分画像の画素値の平均値により差分画像の明るさを算出するための差分画像作成・明るさ算出部160と、差分画像作成・明るさ算出部160で算出された明るさの極小値位置と、発話テキスト中の各音素とを対応付けるための極小値−音素対応付け部166とを含む。極小値−音素対応付け部166は、発話テキスト122から音素を順に取り出し、明るさの変化の極小値と対応付ける処理を行なう。すなわち、極小値−音素対応付け部166により、明るさの時間的推移中の極小値という特徴に基づき、各音素の発話時に対応する時刻が推定される。
補間用データ生成装置102はさらに、極小値−音素対応付け部166で対応付けされた音素に対応する調音パラメータを調音パラメータDB170から取り出して、前述した式(1)及び式(2)を用いて補間後の調音パラメータを算出し、補間用DB104へ出力するための補間パラメータ算出部168を含む。
(3)音声合成装置106
図7に、音声合成装置106のブロック図を示す。図7を参照して、テキスト140には、各音素を発声すべき時間情報が付されている。音声合成装置106は、入力されたテキスト140を音素単位に分割し、隣り合う2音素間を補間するための調音パラメータを補間用DB104から抽出して、補間調音パラメータ186として出力するための補間パラメータ抽出部184と、所定周期のクロック信号を発生するためのクロック部194と、合成する連続音声の発音長等に応じて、クロック部194からのクロックにより定まるタイミングで、補間調音パラメータ186を順番に出力してフィルタ192に与えるための出力部188と、出力部188によって与えられる調音パラメータにしたがって変化する特性で音源190からの信号を変調し、合成音声信号142を出力するためのフィルタ192とを含む。
[動作]
本実施の形態にかかる音声合成システム100の動作には、2つの局面がある。すなわち、第1の局面は、与えられたMRI動画像と、対応する発話テキスト及び調音パラメータから、調音パラメータ補間用のデータ(補間後の調音パラメータ)を生成し、補間用DBを作成する局面(補間用データ生成装置102の動作に相当する。)である。第2の局面は、補間用DB104のデータを用いて、入力テキスト140の連続音声を合成する局面(音声合成装置106の動作に相当する。)である。以下、順に説明する。
(1)補間用データ生成装置102の動作
本実施の形態にかかる補間用データ生成装置102は以下のように動作する。なお、以下の処理に先立ち、所定の発話テキストを発話した連続音声に対応したMRI動画像データ120、対応するテキスト122、及び種々の音素に対する調音パラメータを保持する調音パラメータDB170が既に準備されているものとする。
図6を参照して、差分画像作成・明るさ算出部160は、MRI動画像データ120が与えられたことに応答して、隣り合うフレーム画像について差分画像を作成し、各差分画像について画素の平均値(明るさ)を算出する。差分画像作成・明るさ算出部160はさらに、算出された明るさの値をフレーム番号(時刻情報に相当する)とともに極小値−音素対応付け部166に与える。
極小値−音素対応付け部166では、発話テキスト122から音素を順に取り出し、音素を明るさの極小値に順番に対応付けて、音素を表わす情報と、対応する極小値が得られたフレーム番号とを補間パラメータ算出部168に与える。補間パラメータ算出部168は、発話テキストの各音素に対応する調音パラメータを調音パラメータDB170から取出す。次に、発話テキストにおいて連続する音素の組の各々に対して、それら音素に対応するフレームの間の各差分画像の明るさの値と、フレーム番号、及びそれら音素の調音パラメータから、前述した補間方法(式(1)、式(2))によって各差分画像フレームごとに補間後の調音パラメータを算出する。さらに、補間パラメータ算出部168は、算出された調音パラメータの組に、補間対象となった2音素の情報及び各補間パラメータの2音素間における位置情報等を付し、補間用データとして補間用DB104へ出力する。このようにして得られる補間用データは、2つの音素の調音パラメータの間で補間された補間後の調音パラメータである。
このようにして、様々な音素の組について補間パラメータ(補間後の調音パラメータ)を算出し、算出された補間パラメータとそれに関連する情報とを、補間用データとして補間用DB104に蓄積する。
(2)音声合成装置106の動作
本実施の形態にかかる音声合成装置106は以下のように動作する。図7を参照して、テキスト140が入力されると、補間パラメータ抽出部184は、入力テキスト140を音素単位に分割する。さらに補間パラメータ抽出部184は、入力テキスト140内において隣り合う2音素の組の各々について、その2音素を補間するための補間用データ(補間後の調音パラメータ)を補間用DB104から抽出する。この抽出作業を隣接する2音素の組合わせのすべてについて行ない、補間調音パラメータ186として出力する。
出力部188は、出力された補間調音パラメータ186を順に読込み、補間調音パラメータ186に付された、そのパラメータの2音素間における位置情報及び合成すべき音声の長さ等から、クロック部194からのクロックにしたがって適切な時期に各補間調音パラメータをフィルタ192に与える。フィルタ192は、与えられた補間調音パラメータにしたがってその特性を変化させて音源190からの信号を変調し、合成音声信号142を出力する。この合成音声信号を図示しない増幅器を介してスピーカに与えることにより、連続音声が発生される。
[第1の実施の形態の効果]
このようにして、本発明の第1の実施の形態にかかる音声合成システム100によれば、実際の人間の発話における発話器官の動きと一致する方法で調音パラメータを補間する。そのため、聴覚上、より滑らかで自然な連続音声を合成することができる。さらに、この第1の実施の形態では、調音パラメータの補間計算まで予め行ない、実際の音声合成時にはこの調音パラメータを読出すだけでよい。その結果、実際の音声合成時の計算量が削減されるという効果がある。
[コンピュータによる実現]
本発明の第1の実施の形態にかかる音声合成システム100は、コンピュータと、当該コンピュータ上で実行されるコンピュータプログラムとにより実現できる。以下、図8〜図11を参照して音声合成システム100を実現するコンピュータプログラムの制御構造を説明する。
(1)補間用データ生成装置102を実現するプログラム
図8に、補間用データ生成装置102を実現するコンピュータプログラムのフローチャートを示す。図8を参照して、補間用データ生成処理が開始されると、ステップ502において、MRI動画像データの各フレームの差分画像を作成し、差分画像の画素値の平均値(明るさ)を算出する処理を行なう。ここで、算出された明るさの値とフレーム番号とを対応付けて、配列にセットしておく(これを、以下「明るさの値の配列」と呼ぶ。)。次に、ステップ504では、ステップ502で算出された明るさの値をすべて読出して、明るさの極小値をサーチし、見出された極小値に発話テキストの音素を順に対応付けする。さらに、それらの音素に対応する調音パラメータを調音パラメータDBより読出す。ここで、読出された調音パラメータと音素、及び極小値を取るフレーム番号とを対応付けて、配列にセットしておく(これを、以下「極小値の配列」と呼ぶ。)。続いてステップ506では、ステップ504で対応付けした音素の調音パラメータと、明るさの値、及びフレーム番号とから、前述した式(1)及び式(2)を用いて補間パラメータを算出する。
ステップ502及びステップ504の処理については、前述の補間用データ生成装置102の構成・動作の説明から処理内容が明らかであるため、ここでは詳細な説明は繰返さない。
図9に、ステップ506の補間パラメータを算出する処理の詳細なフローチャートを示す。図9を参照して、補間パラメータ算出処理が開始されると、まずステップ510にて初期処理を行なう。すなわち、ワークエリアのクリア、使用する変数のクリア等を行なう。ここで、極小値の配列の添字となる変数iには1を代入しておく。続いて、ステップ512では、変数iに1を加算した値を変数jに代入して、ステップ514へ進む。
ステップ514では、図8のステップ504でセットされた極小値の配列において、j番目のデータがセットされているかどうかを判断する。セットされていれば、処理はステップ516に進み、さもなければ、補間パラメータ算出処理を終了する。
ステップ516では、極小値の配列のi番目の調音パラメータ(これを調音パラメータ(i)と呼ぶ。)と調音パラメータ(j)との間を、前述した式(1)、式(2)を用いて補間する。具体的には、まず、極小値の配列のi番目のフレーム番号(フレーム番号(i)と呼ぶ。)とフレーム番号(j)とを参照して、図8のステップ502でセットした明るさの値の配列から、フレーム番号(i)とフレーム番号(j)との間のフレームの明るさの値を順に参照する。参照された明るさの値それぞれについて、前述の式(1)を用いてそのフレームにおける混合比を算出する。さらに、調音パラメータ(i)と調音パラメータ(j)、及び算出された混合比とを用いて、前述の式(2)によってそのフレームにおける調音パラメータを算出する。このようにして、フレーム番号(i)とフレーム番号(j)との間の全てのフレームにおいて、補間された調音パラメータを算出する。
続いて、ステップ518において、変数iの値に1を加算し、再びステップ512の処理に戻る。
このようにして、すべての極小値の間のフレームについて、補間パラメータを算出する処理を繰返す。
(2)音声合成装置106を実現するプログラム
図10に、音声合成装置106を実現するコンピュータプログラムのフローチャートを示す。図10を参照して、音声合成処理が開始されると、ステップ532において、補間用DBから補間パラメータを抽出する処理が行なわれる。続いて、ステップ534において、ステップ532で抽出された補間調音パラメータをクロックにしたがってフィルタに出力し、合成音声信号を発生させる出力処理を行なう。
図11に、ステップ532の補間パラメータを抽出する処理の詳細なフローチャートを示す。図11を参照して、補間パラメータ抽出処理が開始されると、まずステップ540で初期処理を行なう。すなわち、ワークエリアのクリア、使用する変数のクリア等を行なう。ここで、後述する音素の配列の添字となる変数iには1を代入しておく。ステップ542で、入力テキストを読出す。ステップ544では、読出したテキストを音素単位に分割し、それらの音素を順に配列にセットする。処理はステップ546へ進む。
ステップ546では、変数iに1を加算した値を変数jに代入し、ステップ548で、ステップ544でセットした音素の配列から、i番目の音素(これを音素(i)と呼ぶ。)及び音素(j)を参照する。このとき、音素(j)に音素がセットされているかどうかを判定する(ステップ550)。音素(j)に値がなければ(すなわち終了であれば)、補間パラメータ抽出処理を終了し、さもなければ、処理はステップ552へ進む。
ステップ552では、音素(i)・音素(j)間の補間調音パラメータを、補間用DBよりすべて抽出し、ワークエリアに順に蓄積していく。続いてステップ554で、変数iに1を加算し、処理はステップ546へ戻る。
このようにして、入力テキストにかかる補間調音パラメータを全て順に抽出して、ワークエリアに順に出力し、蓄積していく。
図10に示すステップ534の出力処理では、ステップ532の補間パラメータ抽出処理で抽出されワークエリアに蓄積された補間調音パラメータを使用して、合成音声信号を発生させる。なお、この処理の詳細については、前述の音声合成装置106の構成・動作の説明から処理内容が明らかであるため、ここでは詳細な説明は繰返さない。
[コンピュータハードウェア構成]
上記したコンピュータプログラムを実行するコンピュータシステムの外観の一例を図12に、そのブロック図の例を図13に、それぞれ示す。
図12を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352およびCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342と、スピーカ372とを含む。
図13を参照して、コンピュータ340は、FDドライブ352およびCD−ROMドライブ350に加えて、CPU(中央処理装置)356と、CPU356、FDドライブ352およびCD−ROMドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ(RAM)360と、バス366に接続され、スピーカ372に接続されるサウンドボード368を含む。コンピュータシステム330はさらに、図示しないプリンタを含んでいる。
ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
コンピュータシステム330に図6に示す補間用データ生成装置102又は図7に示す音声合成装置106としての動作を行なわせるためのコンピュータプログラムは、CD−ROMドライブ350またはFDドライブ352に挿入されるCD−ROM362またはFD364に記憶され、さらにハードディスク354に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。CD−ROM362から、FD364から、またはネットワークを介して、直接にRAM360にプログラムをロードしてもよい。
このプログラムは、コンピュータ340にこの実施の形態の補間用データ生成装置102又は音声合成装置106としての動作を行なわせる複数の命令を含む。この方法を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するOSまたはサードパーティのプログラム、もしくはコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態の補間用データ生成装置102又は音声合成装置106を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した補間用データ生成装置102又は音声合成装置106を実現する命令のみを含んでいればよい。コンピュータシステム330の動作は周知であるので、ここでは繰返さない。
<第2の実施の形態>
上記した第1の実施の形態では、補間用DB104には、実際に補間式を適用して補間パラメータを算出して蓄積し、それを使用して連続音声を合成した。しかし、本発明はこのような実施の形態には限定されない。例えば、補間用DB104には、補間パラメータではなく、調音パラメータを補間するための混合比(前述した式(1)によって算出されるもの)を蓄積しておき、それを連続音声合成の際に使用する方法も考えられる。以下、この方法を適用した、第2の実施の形態について説明する。
[構成]
本発明の第2の実施の形態にかかる音声合成システムは、第1の実施の形態における補間用データ生成装置102(図5を参照されたい。)に代えて図14に示す構成を有する補間用データ生成装置300を、また音声合成装置106に代えて図15に示す構成を有する音声合成装置306を、それぞれ含む。
(1)補間用データ生成装置300
図14に、本実施の形態にかかる補間用データ生成装置300のブロック図を示す。図14を参照して、補間用データ生成装置300は、補間用データ生成装置102と同様の差分画像作成・明るさ算出部160と、極小値−音素対応付け部166とを含む。補間用データ生成装置300はさらに、図6に示す補間パラメータ算出部168に代えて、2音素の間の調音パラメータを補間するための混合比をフレームごとに算出して補間用DB304に出力するための混合比算出部302を含む。混合比算出部302は、第1の実施の形態における補間パラメータ算出部168の機能において、調音パラメータの補間までは行なわず、フレームごとの混合比を算出するにとどめるようにしたものである。
(2)音声合成装置306
図15に、本実施の形態にかかる音声合成装置306のブロック図を示す。図15を参照して、入力されるテキスト140には、各音素を発声すべき時間情報が含まれている。この音声合成装置306は、第1の実施の形態にかかる補間用データ生成装置と同様の、種々の音素の調音パラメータを記憶するための調音パラメータDB170と、テキスト140に含まれる各音素の調音パラメータを調音パラメータDB170から抽出するための調音パラメータ抽出部308と、調音パラメータ抽出部308からテキスト140に含まれる各音素の調音パラメータを受け、隣接する音素の組の各々に対して補間用DB304から2音素間の調音パラメータを補間するための混合比を抽出し、2音素を発声する時間の情報に基づいて補間パラメータを算出するための混合比抽出・補間パラメータ算出部312とを含む。音声合成装置306はさらに、音声合成装置106と同様の出力部188、音源190、フィルタ192及びクロック部194を含む。
[動作]
(1)補間用データ生成装置300の動作
補間用データ生成装置300において、差分画像作成・明るさ算出部160及び極小値−音素対応付け部166は、第1の実施の形態と同様に動作するので、それらの詳細な説明はここでは繰返さない。以下では、混合比算出部302の動作を説明する。
図14を参照して、混合比算出部302は、極小値−音素対応付け部166から与えられた各差分画像の明るさの値、フレーム番号、及び極小値に対応する音素の情報から、前述した混合比を算出する式(式(1))によって、隣接する2つの音素の間で調音パラメータを補間する際の混合比を、フレームごとに算出する。したがって隣接する2つの音素に対し、その間のフレームごとに算出された混合比の組が得られる。混合比算出部302はさらに、算出された混合比の組に対して、対象となった2音素の情報、及び各混合比の2音素間における位置情報(フレーム番号)等を付し、補間用データとして補間用DB104に出力する。
このようにして、様々な音素の組についてその間の調音パラメータを補間するための混合比の組を算出し、それら混合比の組とそれに関連した情報とを補間用データとして補間用DB104に蓄積する。
(2)音声合成装置306の動作
音声合成装置306のうち、出力部188、音源190、フィルタ192、及びクロック部194は、第1の実施の形態にかかる音声合成装置106と同様に動作する。したがってそれらについての詳細な説明は繰返さない。
図15を参照して、テキスト140は発声すべき音素列からなるテキストと、各音素を発声するための時間情報とを含む。テキスト140が入力されると、調音パラメータ抽出部308は入力テキスト140を音素単位に分割し、分割された全ての音素に対応する調音パラメータを調音パラメータDB170から順に抽出する。調音パラメータ抽出部308は、こうして抽出された調音パラメータを対応する音素の情報とともに混合比抽出・補間パラメータ算出部312に与える。
混合比抽出・補間パラメータ算出部312は、与えられた音素列のうち隣り合う2音素の組合せの各々について、その2音素を補間するための補間用データ(混合比等)を補間用DB104からすべて抽出する。さらに、混合比抽出・補間パラメータ算出部312は、抽出された補間用データに含まれる各フレームごとの混合比と、調音パラメータ抽出部308から与えられた2音素のための調音パラメータとを用いて、この2音素の間で調音パラメータを補間する補間パラメータを前述した式(2)によって算出する。この作業を、テキスト140内の音素列で隣接する2音素の組合せの全てについて行ない、補間調音パラメータ186として出力部188に与える。その後の動作は、音声合成装置106と同様である。
[第2の実施の形態の効果]
本実施の形態にかかる音声合成システムにおいても、実際の人間の発話における発話器官の動きと一致する方法で調音パラメータを補間する。そのため、聴覚上、より滑らかで自然な連続音声を合成することができる。また補間用データ生成装置では2音素間の各フレームに対応する混合比のみを算出し、補間後の調音パラメータまでは算出しない。そのため、補間用データの生成に要する時間が短くて済み、補間DB304として必要な容量も削減できる。
[コンピュータによる実現]
本発明の第2の実施の形態にかかる音声合成システムにおいても、第1の実施の形態と同様に、コンピュータと、当該コンピュータ上で実行されるコンピュータプログラムとにより実現できる。なお、本実施の形態にかかる音声合成システムを実現するコンピュータプログラムの制御構造については、第1の実施の形態の説明に基づいて、当業者には容易に実現できると思われる。コンピュータのハードウェア構成についても、第1の実施の形態で説明したものと同様である。したがって、ここではそれらについての詳細な説明は繰返さない。
<第3の実施の形態>
上記した第2の実施の形態では、補間用DB304には、2音素間の調音パラメータを補間するための混合比を蓄積し、実際の補間時にそれを使用して調音パラメータを補間し連続音声を合成した。しかし、本発明はこのような実施の形態には限定されない。例えば、補間用DBには、補間後の調音パラメータまたは補間に用いる混合比ではなく、2音素間の各MRI差分画像の明るさのデータそのものを蓄積しておき、連続音声合成の際にこれらを用いて調音パラメータを補間する方法も考えられる。以下、この方法を適用した第3の実施の形態について説明する。
[構成]
本発明の第3の実施の形態にかかる音声合成システムは、図5に示す第1の実施の形態にかかる補間用データ生成装置102に代えて図16に示す構成を有する補間用データ生成装置400を、また音声合成装置106に代えて図17に示す構成を有する音声合成装置406を、それぞれ含む。
(1)補間用データ生成装置400
図16に、本実施の形態にかかる補間用データ生成装置400のブロック図を示す。図16を参照して、補間用データ生成装置400は、補間用データ生成装置102と同一の差分画像作成・明るさ算出部160及び極小値−音素対応付け部166を含む。補間用データ生成装置400はさらに、図6に示す補間用データ生成装置102の補間パラメータ算出部168に代えて、隣接する2音素の組合せの各々について、2音素の間の各MRI差分画像の明るさの値を、2音素間におけるその差分画像の位置情報(フレーム番号)、及び対応する2音素の情報と関連付けて明るさデータとして出力するための明るさデータ出力部402を含む。明るさデータ出力部402から出力されたデータは補間用DB404に格納される。
(2)音声合成装置406
図17に、本実施の形態にかかる音声合成装置406のブロック図を示す。音声合成装置406は、第1の実施の形態と同様に、予め種々の音素の調音パラメータを記憶するための調音パラメータDB170と、第2の実施の形態におけるものと同様の調音パラメータ抽出部308と、補間用DB404から明るさデータを抽出し、さらに、2音素の組合せの各々に対し、その間のMRI差分画像の明るさデータを用い、前述した方法(式(1)、式(2))によって補間パラメータを算出するための補間パラメータ算出部408とを含む。音声合成装置406はさらに、図7に示す音声合成装置106と同様の出力部188、音源190、フィルタ192、及びクロック部194を含む。
[動作]
(1)補間用データ生成装置400の動作
補間用データ生成装置400において、第1の実施の形態にかかる補間用データ生成装置102と同様の構成の部分は同様に動作する。したがってそれらについての詳細な説明は繰返さない。明るさデータ出力部402での動作について以下に説明する。
図16を参照して、明るさデータ出力部402は、極小値−音素対応付け部166から与えられた、隣接する2音素の組合せの各々に対し、この2音素の間のMRI差分画像の明るさの値、各画像のフレーム番号、及び両端の2音素の情報を1組にして補間用データとして補間用DB404に出力する。
このようにして、様々な2音素の組合せについて、その中間のMRI差分画像の明るさの値及び関連する情報を、補間用データとして補間用DB404に蓄積する。
(2)音声合成装置406の動作
音声合成装置406において、図7に示す音声合成装置106及び図15に示す音声合成装置306と同一部分は同様に動作する。したがってそれらについての詳細な説明はここでは繰返さない。
図17を参照して、補間パラメータ算出部408は、調音パラメータ抽出部308からテキスト140に対応する音素列と、それぞれの時刻情報と、各音素の調音パラメータとを受ける。補間パラメータ算出部408は、与えられた音素列のうちの隣り合う2音素の組合せの各々について、その2音素間を補間するための補間用データを補間用DB404から抽出する。補間パラメータ算出部408はさらに、調音パラメータ抽出部308から与えられたその2音素の調音パラメータと、抽出した補間用データに含まれるMRI差分画像の明るさの値及びそれに対応する位置情報(フレーム番号)とを用いて、前述した式(1)を用いて各フレームにおける混合比を算出し、さらに式(2)によって各フレームにおける補間後の調音パラメータを算出する。この作業を、隣接する2音素のすべての組合せについて行ない、補間調音パラメータ186として出力する。その後の動作は、音声合成装置106と同様である。
[第3の実施の形態の効果]
本実施の形態にかかる音声合成システムにおいても、実際の人間の発話における発話器官の動きと一致する方法で調音パラメータを補間する。そのため、聴覚上、より滑らかで自然な連続音声を合成することができる。また補間用データ生成装置400では2音素間の各差分画像の明るさのみを算出し、混合比又は補間後の調音パラメータは算出しない。そのため、補間用データの生成に要する時間が短くて済み、補間DB404として必要な容量も削減できる。ただし、音声合成装置において混合比の算出と補間後の調音パラメータの算出との双方を行なうので、第1の実施の形態または第2の実施の形態と比較して計算量は大きくなる。
[コンピュータによる実現]
本発明の第3の実施の形態にかかる音声合成システムにおいても、第1の実施の形態と同様に、コンピュータと、当該コンピュータ上で実行されるコンピュータプログラムとにより実現できる。なお、本実施の形態にかかる音声合成システムを実現するコンピュータプログラムの制御構造については、第1の実施の形態の説明に基づいて、当業者には容易に実現できると思われる。コンピュータのハードウェア構成についても、第1の実施の形態で説明したものと同様である。したがって、ここではそれらについての詳細な説明は繰返さない。
<実験例>
上記した第1〜第3の実施の形態は、いずれも同じ考え方で調音パラメータの補間を行なう。したがって、装置の構成は異なるものの、これらによる補間で合成された音声は互いに同じものとなる。
本発明の実施の形態にかかる音声合成システムを用いて実際に合成された連続音声と、従来の補間方法によって調音パラメータを補間して合成された連続音声とを比較する実験を行なった。実験方法は以下の通りである。
(1)オリジナルデータ作成
/aiueo/という音声を連続発話中の発話器官を、3次元MRI動画撮像法によって撮像する。そして、連続発話中の32点において調音パラメータを計測し、これを合成して連続音声を作成する。
(2)比較データ作成
上記の方法で取り出された32個の調音パラメータから、母音中心に当たる5つの調音パラメータを取り出し、以下の方法を用いてそれぞれ調音パラメータを補間する。それらを合成してそれぞれ連続音声を作成する。比較データを作成するための補間方法は、以下の通りである。
a.本発明の実施の形態にかかる補間法
b.直線補間
c.スプライン補間
d.ガウス関数を用いた補間法
なお、補間の対象にした調音パラメータは以下のとおりである。
1.声道断面積関数 2.声道長 3.開口面積
(3)オリジナルデータと比較データとの比較
オリジナルデータによって合成された連続音声と、a〜dの方法によって合成された連続音声とを比較し、オリジナルデータによる音声との伝達関数の誤差を評価した。
(4)結果
結果は、以下の表1の通りである。
Figure 2006243215
(5)実験のまとめ
1.実験の結果、本発明の実施の形態による方法では、オリジナルデータによる連続音声と、聴覚上区別がつかないほど、滑らかで自然な音声が得られた。
2.bの直線補間、cのスプライン補間による方法では、聴覚上不自然な音声しか得られなかった。
3.dのガウス補間による補間でも、本発明の実施の形態によるものと比較してやや劣るだけの、比較的良好な音声が得られる。母音から母音への変化の仕方は常に一定なので、実際の発話器官の動きをシミュレートしたものとは異なるガウス関数のような関数を用いても、良好な音声を得るのは比較的容易である。しかし、母音から母音への変化とは異なる合成音では不自然さが現れる可能性がある。本実施の形態によれば、実際の発話器官の動きをシミュレートして2音素の間の調音パラメータを補間する。したがって、母音から母音への変化以外の変化でも、ガウス補間の場合より、よい結果が得られると思われる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制
限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許
請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内で
の全ての変更を含む。
発話中の発話器官の動きを撮像したMRI動画の、連続するフレーム画像及び差分画像を示す図である。 差分画像の明るさの変化を表わすグラフの例を示す図である。 図2のグラフに、実際に発話された音声の各音素の中心が発話されている時刻を対応させたグラフである。 ある2つの音素を連続発話した際の、差分画像の明るさ変化を表わしたグラフである。 本発明の第1の実施の形態にかかる音声合成システム100のブロック図である。 補間用データ生成装置102のブロック図である。 音声合成装置106のブロック図である。 補間用データ生成装置102を実現するコンピュータプログラムのフローチャートである。 補間パラメータを算出する処理の詳細なフローチャートである。 音声合成装置106を実現するコンピュータプログラムのフローチャートである。 補間パラメータ抽出処理の詳細なフローチャートである。 コンピュータシステムの外観の一例を示す図である。 図12に示すコンピュータシステムのブロック図である。 本発明の第2の実施の形態にかかる補間用データ生成装置300のブロック図である。 本発明の第2の実施の形態にかかる音声合成装置306のブロック図である。 本発明の第3の実施の形態にかかる補間用データ生成装置400のブロック図である。 本発明の第3の実施の形態にかかる音声合成装置406のブロック図である。
符号の説明
100 音声合成システム
102,300,400 補間用データ生成装置
104,304,404 補間用DB
106,306,406 音声合成装置
120 MRI動画像データ
122 発話テキスト
140 テキスト
142 合成音声信号
160 差分画像作成・明るさ算出部
166 極小値−音素対応付け部
168,408 補間パラメータ算出部
170 調音パラメータDB
184 補間パラメータ抽出部
186 補間調音パラメータ
188 出力部
190 音源
192 フィルタ
194 クロック部
302 混合比算出部
308 調音パラメータ抽出部
312 混合比抽出・補間パラメータ算出部
402 明るさデータ出力部

Claims (7)

  1. 連続する第1及び第2の音素を含む連続音声を発話中の発話器官の形状変化の速度を反映した所定の物理量の時間的推移に基づいて、前記第1の音素から前記第2の音素まで連続的に変化する音声を合成するための調音パラメータを、前記第1及び第2の音素の音声合成のための既知の調音パラメータの間の補間によって生成する際の補間用データを生成するための調音パラメータ補間用データ生成装置であって、
    前記物理量の前記時間的推移において前記連続音声中の前記第1及び第2の音素の発話時にそれぞれ対応する第1及び第2の時刻を、前記物理量の前記時間的推移の所定の特徴に基づいて推定するための時刻推定手段と、
    前記第1の時刻から前記第2の時刻までの補間区間における前記所定の物理量の前記時間的推移と、前記第1及び第2の時刻における前記所定の物理量の値とに基づいて、前記第1及び第2の時刻の間の所定の補間時刻における補間用データを導出するための補間用データ導出手段とを含む、調音パラメータ補間用データ生成装置。
  2. 前記補間用データ導出手段は、前記補間区間における前記所定の物理量のうち、前記補間区間中の所定の補間時刻における物理量の値を、前記補間用データとして出力するための手段を含む、請求項1に記載の調音パラメータ補間用データ生成装置。
  3. 前記補間用データ導出手段は、
    前記補間区間における前記所定の物理量の前記時間的推移のグラフと、前記第1及び第2の時刻における前記グラフ上の点を結ぶ直線とにより囲まれる領域のうち、前記第1の時刻から、前記補間区間中の任意の補間時刻までの部分の面積を近似的に算出するための面積算出手段と、
    前記補間時刻における調音パラメータを前記第1及び第2の音素の調音パラメータの補間により算出するための混合比を、前記面積算出手段により算出される面積を用いて算出するための混合比算出手段とを含む、請求項1に記載の調音パラメータ補間用データ生成装置。
  4. 前記所定の物理量は、前記連続音声を発話中の発話者の発話器官に対して所定の透過撮影手法により得られる動画像の差分画像の明るさである、請求項1〜請求項3のいずれかに記載の調音パラメータ補間用データ生成装置。
  5. コンピュータにより実行されると、当該コンピュータを、請求項1〜請求項4のいずれかに記載の調音パラメータ補間用データ生成装置として動作させる、コンピュータプログラム。
  6. 請求項4に記載の調音パラメータ補間用データ生成装置と、
    入力されたテキストの音素列の隣り合う音素の組の各々に対して、対応する補間用データを所定の記憶媒体から抽出するための補間用データ抽出手段と、
    前記音素の組の各々に対して、前記抽出手段によって抽出された補間用データを用いて補間された調音パラメータを用いて音声合成を行なうための音声合成手段とを含む、音声合成装置。
  7. コンピュータにより実行されると、当該コンピュータを、請求項6に記載の音声合成装置として動作させる、コンピュータプログラム。
JP2005057047A 2005-03-02 2005-03-02 調音パラメータ補間用データ生成装置、音声合成装置、及びコンピュータプログラム Pending JP2006243215A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005057047A JP2006243215A (ja) 2005-03-02 2005-03-02 調音パラメータ補間用データ生成装置、音声合成装置、及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005057047A JP2006243215A (ja) 2005-03-02 2005-03-02 調音パラメータ補間用データ生成装置、音声合成装置、及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2006243215A true JP2006243215A (ja) 2006-09-14

Family

ID=37049707

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005057047A Pending JP2006243215A (ja) 2005-03-02 2005-03-02 調音パラメータ補間用データ生成装置、音声合成装置、及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2006243215A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009244723A (ja) * 2008-03-31 2009-10-22 Nippon Telegr & Teleph Corp <Ntt> 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体
KR101020657B1 (ko) * 2009-03-26 2011-03-09 고려대학교 산학협력단 음성 인식을 이용한 음성 시각화 방법 및 장치
CN106782503A (zh) * 2016-12-29 2017-05-31 天津大学 基于发音过程中生理信息的自动语音识别方法
CN110097610A (zh) * 2019-04-08 2019-08-06 天津大学 基于超声与磁共振成像的语音合成系统和方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009244723A (ja) * 2008-03-31 2009-10-22 Nippon Telegr & Teleph Corp <Ntt> 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体
KR101020657B1 (ko) * 2009-03-26 2011-03-09 고려대학교 산학협력단 음성 인식을 이용한 음성 시각화 방법 및 장치
CN106782503A (zh) * 2016-12-29 2017-05-31 天津大学 基于发音过程中生理信息的自动语音识别方法
CN110097610A (zh) * 2019-04-08 2019-08-06 天津大学 基于超声与磁共振成像的语音合成系统和方法

Similar Documents

Publication Publication Date Title
US6662161B1 (en) Coarticulation method for audio-visual text-to-speech synthesis
JP4913973B2 (ja) 音響信号により駆動される人間の顔の合成モデルのアニメ化方法
US7630897B2 (en) Coarticulation method for audio-visual text-to-speech synthesis
US20020024519A1 (en) System and method for producing three-dimensional moving picture authoring tool supporting synthesis of motion, facial expression, lip synchronizing and lip synchronized voice of three-dimensional character
JP2002328695A (ja) テキストからパーソナライズ化音声を生成する方法
JPH02234285A (ja) 画像合成方法及びその装置
JP4543263B2 (ja) アニメーションデータ作成装置及びアニメーションデータ作成プログラム
JP2007058846A (ja) リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム
JP2022518721A (ja) 発話アニメーションのリアルタイム生成
US7117155B2 (en) Coarticulation method for audio-visual text-to-speech synthesis
JP4599606B2 (ja) 頭部動作自動生成のための頭部動作学習装置及び頭部動作合成装置並びにコンピュータプログラム
JP2006243215A (ja) 調音パラメータ補間用データ生成装置、音声合成装置、及びコンピュータプログラム
WO2019218773A1 (zh) 语音的合成方法及装置、存储介质、电子装置
Brooke et al. Two-and three-dimensional audio-visual speech synthesis
CN116912375A (zh) 面部动画生成方法、装置、电子设备及存储介质
JP4631077B2 (ja) アニメーション作成装置
JP2974655B1 (ja) アニメーションシステム
Minnis et al. Modeling visual coarticulation in synthetic talking heads using a lip motion unit inventory with concatenative synthesis
JP2009216724A (ja) 音声生成装置及びコンピュータプログラム
CN113362432B (zh) 一种面部动画生成方法及装置
JP7339151B2 (ja) 音声合成装置、音声合成プログラム及び音声合成方法
JP4644879B2 (ja) 調音パラメータ補間用データ生成装置及びコンピュータプログラム
D’alessandro et al. Reactive statistical mapping: Towards the sketching of performative control with data
US7392190B1 (en) Coarticulation method for audio-visual text-to-speech synthesis
JP6163454B2 (ja) 音声合成装置、その方法及びプログラム