JP2006243215A

JP2006243215A - 調音パラメータ補間用データ生成装置、音声合成装置、及びコンピュータプログラム

Info

Publication number: JP2006243215A
Application number: JP2005057047A
Authority: JP
Inventors: Hironori Takemoto; 浩典竹本; Kiyoshi Honda; 清志本多; Tatsuya Kitamura; 達也北村; Mokhtari Parham; パーハム・モクタリ; Hiroyuki Hirai; 啓之平井
Original assignee: ATR Advanced Telecommunications Research Institute International; Sanyo Electric Co Ltd
Current assignee: ATR Advanced Telecommunications Research Institute International; Sanyo Electric Co Ltd
Priority date: 2005-03-02
Filing date: 2005-03-02
Publication date: 2006-09-14

Abstract

【課題】実際の発話動作による発話器官の形状変化とできるだけ一致した方法で調音パラメータを補間し、音声合成できるようにする。
【解決手段】調音パラメータ補間用データ生成装置１０２は、発話器官の形状変化の速度を反映したＭＲＩ動画像１２０の差分画像の明るさの時間的推移において、連続音声中の第１及び第２の音素の発話時にそれぞれ対応する第１及び第２の時刻を、明るさの極小値部分に基づいて推定するための極小値−音素対応付け部１６６と、第１の時刻から第２の時刻までの補間区間における差分画像の明るさの時間的推移と、第１及び第２の時刻における差分画像の明るさとに基づいて、第１及び第２の時刻の間の補間時刻における補間用データを算出するための補間用パラメータ算出部１６８とを含む。
【選択図】図６

Description

この発明は、音声合成装置に関し、特に、音源に対する変調を行なうことにより音声を合成する方法において、合成される音声をより滑らかにするための技術に関する。

人間とコンピュータシステムに代表される機械系との間のインターフェイスとして、近年種々のものが提案されている。それらの中で最近特に使用される頻度が高くなっているものに、音声がある。音声を用いることによって、人間と機械系との間のコミュニケーションを、人間同士の間でのそれに近い形で実現できる。

音声によるコミュニケーションを実現するための音声合成技術には、以下の２つの方式がある。１つは、あらかじめ録音された音声の音声波形から音素片を取り出し、それらをつなぎ合わせることによって音声を合成する方式である。もう１つは、人間の発話器官の形状の変化をシミュレートすることによって音声を合成する方式である。

音声波形の変化に比べて、発話器官の形状の変化は緩やかであることから、後者の方式の方が、聴覚上、より滑らかな音声を合成することができる。そのため、この方式は近年特に注目されている。

この方式の音声合成方法では、音源からの信号を、発話器官の形状を表わすパラメータ（例えば声道断面積関数、声道長、開口面積等。以下「調音パラメータ」という）により特性が変化する電気回路からなるフィルタに通すことによって、音声信号を合成する。例えば、「あ」という音を発声しているときと、「い」という音を発声しているときとでは、調音パラメータが違う。したがって、調音パラメータを変化させることによって、種々の音声を合成することができる。もちろん、この方式は、現在ではコンピュータとソフトウェアとによるデジタル技術で実現される。

この方法で連続音声を合成する場合を考える。例えば「あい」という連続音声を合成する場合、「あ」から「い」へと音を変化させるためには、「あ」という音声に対する調音パラメータと、「い」という音声に対する調音パラメータとの間を、何らかの方法で、実際の人間の発話を再現するように時間的に補間する必要がある。合成音声が滑らかに聞こえるかどうかは、この補間方法にかかっている。従来は、これを２点の間を滑らかに結ぶ曲線を表わすものとして既知の数式によって補間したり、ごく限られた実測データをもとに補間したりしていた。しかし、これらの方法で用いられる補間方法は、実際の発話動作による発話器官の形状の変化と対応した補間方法ではない。そのため、滑らかではあっても聴覚上どこか不自然な音声しか合成することができなかった。

そこでこの発明の目的は、実際の発話動作による発話器官の形状変化とできるだけ一致した方法で調音パラメータ補間用のデータを生成する、補間用データ生成装置、及び、生成された補間用データによって補間された調音パラメータを使用して連続音声を合成する音声合成装置を提供することである。

本発明の第１の局面にかかる調音パラメータ補間用データ生成装置は、連続する第１及び第２の音素を含む連続音声を発話中の発話器官の形状変化の速度を反映した所定の物理量の時間的推移に基づいて、第１の音素から第２の音素まで連続的に変化する音声を合成するための調音パラメータを、第１及び第２の音素の音声合成のための既知の調音パラメータの間の補間によって生成する際の補間用データを生成するための調音パラメータ補間用データ生成装置であって、物理量の時間的推移において連続音声中の第１及び第２の音素の発話時にそれぞれ対応する第１及び第２の時刻を、物理量の時間的推移の所定の特徴に基づいて推定するための時刻推定手段と、第１の時刻から第２の時刻までの補間区間における所定の物理量の時間的推移と、第１及び第２の時刻における所定の物理量の値とに基づいて、第１及び第２の時刻の間の所定の補間時刻における補間用データを導出するための補間用データ導出手段とを含む。

実際に連続音声を発話中の発話器官の形状変化の速度を反映した物理量の時間的推移の所定の特徴に基づいて、連続発話された２音素の発話時刻を推定する。推定された２音素の発話時刻に対応する物理量と、２音素間の物理量の時間的推移とに基づいて、調音パラメータを補間するためのデータを導出する。実際の発話器官の形状変化に基づいて、調音パラメータを補間するためのデータを導出するので、実際の連続音声を発話している際の調音パラメータの変化に一致した形で、調音パラメータを補間することができる。その結果、このようにして導出された調音パラメータ補間用データに基づいて音声を合成すれば、実際の連続音声に近い、より自然で滑らかな連続音声を合成できる。

好ましくは、補間用データ導出手段は、補間区間における所定の物理量のうち、補間区間中の所定の補間時刻における物理量の値を、補間用データとして出力するための手段を含む。

発話器官の形状変化の速度を反映した物理量そのものを、２音素間の調音パラメータを補間するためのデータとして出力する。音声合成する際には、これらのデータを用いて２音素間の調音パラメータを補間するための調音パラメータを算出する。補間用データを出力する際には計算を行なわないため、補間用データの生成に要する時間は短くて済む。

さらに好ましくは、補間用データ導出手段は、補間区間における所定の物理量の時間的推移のグラフと、第１及び第２の時刻におけるグラフ上の点を結ぶ直線とにより囲まれる領域のうち、第１の時刻から、補間区間中の任意の補間時刻までの部分の面積を近似的に算出するための面積算出手段と、補間時刻における調音パラメータを第１及び第２の音素の調音パラメータの補間により算出するための混合比を、面積算出手段により算出される面積を用いて算出するための混合比算出手段とを含む。

２音素間の調音パラメータを補間するためのデータとして、補間時刻における調音パラメータを算出するための混合比を出力する。２音素の各々の発話時刻の間を補間区間とすると、混合比は、その補間区間における物理量の時間的推移のグラフと、２音素の発話時刻における物理量とに基づいて、補間時刻までの部分の面積を近似的に算出することによって求められる。混合比を補間用データとして出力するため、２音素間を補間するための調音パラメータを実際に算出するよりも計算量は少なくて済む。したがって、補間用データ生成に要する時間は比較的短くて済み、補間用データを格納しておくための記憶媒体の容量も削減できる。さらに実際の音声合成時においては、混合比に基づいて２音素間を補間するための調音パラメータを算出するだけでよいため、計算量も少なくて済む。

より好ましくは、補間用データ導出手段は、補間区間における所定の物理量の時間的推移のグラフと、第１及び第２の時刻におけるグラフ上の点を結ぶ直線とにより囲まれる領域のうち、第１の時刻から、補間区間中の任意の補間時刻までの部分の面積を近似的に算出するための面積算出手段と、補間時刻における調音パラメータを第１及び第２の音素の調音パラメータの補間により算出するための混合比を、面積算出手段により算出される面積を用いて算出するための混合比算出手段と、混合比算出手段により補間時刻に対して算出された混合比を用いて、第１及び第２の音素の調音パラメータの間で補間をすることにより、補間時刻における調音パラメータを算出し補間用データとして出力するための調音パラメータ算出手段を含む。

上記のように算出された混合比を用いて、２音素間を補間するための調音パラメータを算出し、補間用データとして出力する。調音パラメータの補間計算まで予め行なっておくので、実際の音声合成時には調音パラメータの算出を行なう必要がなく、調音パラメータを読出すだけでよい。そのため、音声合成時の計算量がより削減され、処理を高速化できる。

好ましくは、所定の物理量は、連続音声を発話中の発話者の発話器官に対して所定の透過撮影手法により得られる動画像の差分画像の明るさである。

透過撮影手法により得られる動画像では、実際の発話器官の内部の状態を捉えることができる。さらに、得られた動画像のフレーム間の差分画像を作成し、その明るさの値を算出することにより、発話器官の形状の変化速度を、物理量として数値化することができる。その結果、実際の発話器官の形状変化にしたがって調音パラメータの推定を行なうことができる。

動画像はＭＲＩ動画像でもよい。

ＭＲＩ動画像では、発話器官の内部を鮮明に捉えることができる。その上、例えばＸ線照射による透過撮影と違って、撮像時に人体へ影響を及ぼすこともないので、好都合である。

より好ましくは、調音パラメータ補間用データ生成装置は、導出された補間用データを、第１及び第２の音素の組合せと対応付けて、所定の記憶媒体に格納するための補間用データ格納手段をさらに含む。

記憶媒体に、様々な２音素間を補間するための補間用データを、補間対象の２音素の情報と対応付けて格納しておけば、そのデータを利用して、入力された任意のテキストから音声合成を行なうことができる。

この発明の第２の局面にかかるコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの調音パラメータ補間用データ生成装置として動作させるものである。したがって上記したいずれかの調音パラメータ補間用データ生成装置と同様の効果を奏することができる。

この発明の第３の局面にかかる音声合成装置は、上記したいずれかの調音パラメータ補間用データ生成装置と、入力されたテキストの音素列の隣り合う音素の組の各々に対して、対応する補間用データを所定の記憶媒体から抽出するための補間用データ抽出手段と、音素の組の各々に対して、抽出手段によって抽出された補間用データを用いて補間された調音パラメータを用いて音声合成を行なうための音声合成手段とを含む。

入力されたテキストをもとに、補間用データを記憶媒体から抽出し、抽出された補間用データを用いて音声を合成する。ここで用いられる補間用データは、上記したいずれかの調音パラメータ補間用データ生成装置によって生成されたものであり、実際の発話器官の動きにしたがって作成されたものである。したがってこの補間用データを用いて調音パラメータを補間することにより、実際の連続音声に近い、より自然で滑らかな連続音声を、任意の入力テキストから合成できる。

この発明の第４の局面にかかるコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記した音声合成装置として動作させるものである。したがって、上記した音声合成装置と同様の効果を奏することができる。

より自然な連続音声を合成するためには、ある音声を発話しているときの調音パラメータと、次の音声を発話しているときの調音パラメータとを、連続音声発話時の発話器官の形状変化の時間的な推移と一致した形で補間する必要がある。そのためには、実際に連続音声を発話している際の発話器官の形状変化の速度を反映した物理量を、何らかの方法で計測し、その時間的推移を知る必要がある。そのために、何らかの透過撮影手法（例えばＭＲＩ（ＭａｇｎｅｔｉｃＲｅｓｏｎａｎｃｅＩｍａｇｉｎｇ：核磁気共鳴画像）、Ｘ線、ＰＥＴ（ＰｏｓｉｔｒｏｎＥｍｉｓｓｉｏｎＴｏｍｏｇｒａｐｈ：ポジトロン放出断層撮影法）、超音波断層撮影法等）を用いて発話時の発話器官の形状変化を撮影したデータを用いることが望ましい。

そこで、本発明の一実施の形態にかかる音声合成システムでは、ＭＲＩによって、発話中の発話器官の動作を、短い時間間隔で撮像したデータを利用する。以下、このデータを「ＭＲＩ動画」と呼ぶ。

ＭＲＩ動画は複数のフレームを含む。各フレームの間隔は一定である。各フレームはそのフレームに対応する時刻の発話器官の画像を含む。連続発話中の発話器官を撮像したＭＲＩ動画において隣り合うフレームの画像同士を引き算すると、差分画像を作成することができる。それら差分画像の明るさの時間的な推移から、実際の発話時の発話器官の形状変化の速さを知ることができる。なぜなら、ＭＲＩ動画の差分画像は、動きが大きいところでは明るく、小さいところでは暗くなるからである。すなわち、差分画像の明るさという物理量は、発話器官の形状変化の速度を反映したものである。このことを利用して、実際の発話動作による発話器官の形状変化の時間的推移と一致した形で調音パラメータを補間することができる。本実施の形態の詳細を説明する前に、まず、この補間方法の原理について詳述する。

＜ＭＲＩ動画のフレーム間差分に基づく補間方法＞
（１）ＭＲＩ動画とその差分画像の作成
ＭＲＩ動画は、例えば１秒間に３０フレーム等の短い時間間隔で撮像した画像を含む。撮像された動画の、隣接するフレーム間の画像の動きの大きさを知ることができれば、発話器官の形状の変化速度を把握することができる。

あるフレーム画像から次のフレーム画像の間の画像の動きは、それらの画像の、対応する画素の値の差分を求めることによって表わすことができる。差分が大きいほど動きは大きく、小さいほど動きは小さい。つまり、差分の小さい部分を低輝度で、大きい部分を高輝度でそれぞれ表わせば、動きの小さなフレーム間の差分画像は暗く、大きくなるほど明るくなる。

図１に、発話中の発話器官の動きを撮像したＭＲＩ動画の、連続するフレーム画像及び差分画像を示す。図１を参照して、ＭＲＩ動画像２０は、連続するフレーム画像２０Ａ，２０Ｂ，２０Ｃ，２０Ｄ，…を含む。これらフレーム画像２０Ａ，２０Ｂ，２０Ｃ，２０Ｄ，…から、差分画像２２Ａ，２２Ｂ，２２Ｃ，…が得られる。差分画像２２Ａは、フレーム画像２０Ａとフレーム画像２０Ｂとの、差分を画像化したものである。フレーム画像２０Ａとフレーム画像２０Ｂとの間の画像の動きは、この差分画像２２Ａで表わされる。差分が大きいほど、差分画像は明るくなる。つまり、差分画像２２Ａが明るければ、フレーム画像２０Ａ、２０Ｂ間の発話器官の動きは大きく（動きが速く）、暗ければ、動きは小さい（動きが遅い）。したがって、差分画像の画素値の平均を求めることによって、その差分画像の明るさを求めることができ、連続するフレーム間の運動量を数値化できる。

同様にして、フレーム画像２０Ｂとフレーム画像２０Ｃの差分画像２２Ｂ、フレーム画像２０Ｃとフレーム画像２０Ｄの差分画像２２Ｃ…というように、ＭＲＩ動画像２０全体の連続するフレームの差分画像を求め、それらの差分画像の画素値の平均値を求める。この平均値（＝明るさ）の時間的な推移は、すなわち、ＭＲＩ動画像２０に撮像された発話中の発話器官の動きの時間的な推移を表わすといえる。

（２）差分画像の明るさの変化と音声との関係
ここでは、「あいうえお」という連続音声を発話中の発話器官を撮像したＭＲＩ動画を例として説明する。図２に、この動画について上記の方法で求めた差分画像の明るさの変化を表わすグラフの例を示す。図２において、各差分画像の明るさを示す点には「○」印を付してある。

図２のグラフに、実際に発話された音声の各音素の中心が発話されている時刻を対応させたものを、図３に示す。図３を参照して、符号６０，６２，６４，６６，６８で示される部分は、発話された音声の音素／ａ／，／ｉ／，／ｕ／，／ｅ／，／ｏ／の中心をそれぞれ示す。これらの音素の中心は、それぞれグラフが極小値をとる位置と一致している。

このように音素の中心とグラフの極小値位置とが一致するという特徴は、すべての母音、及び破裂音を除く多くの子音の発話時に見られることが分かっている。この特徴から、差分画像の明るさの時間的推移を表わしたグラフにおいて、各音素の中心が発話された時刻を推定できる。

このことを利用して、調音パラメータを補間する方法を以下に説明する。

（３）調音パラメータの補間方法
調音パラメータの補間方法を説明するための例として、図４に、ある２つの音素を連続発話した際の、差分画像の明るさ変化を表わしたグラフを示す。この２つの音素（以下それぞれ音素Ａ、音素Ｂという）が予め与えられており、この２つの音素に対応する調音パラメータ（以下それぞれ調音パラメータＡ、調音パラメータＢという）は既知であるとする。この場合の調音パラメータＡ，Ｂ間の補間方法を考える。

図４を参照して、極小値９４が得られたフレームの時刻をｔとする。このフレームからｍフレーム後の時刻ｔ＋ｍにおいて極小値９６が得られたものとする。極小値９４は音素Ａの中心に対応し、極小値９６は音素Ｂの中心に対応する。時刻ｔから時刻ｔ＋ｍの間を、以下「補間区間」と呼ぶ。折れ線９２で表わされる関数は、／ＡＢ／という連続音声発話時の差分画像の明るさ変化、すなわち発話器官の形状の変化速度を表わしている。調音パラメータＡと調音パラメータＢとの間の補間は、この速度から求めた発話器官の形状（位置）から求めればよい。

時刻ｔからｎフレーム後の時刻ｔ＋ｎ（０≦ｎ≦ｍ）（以下「補間時刻ｔ＋ｎ」と呼ぶ。）における調音パラメータの混合比ｂｒ（ｔ＋ｎ）は、以下の式（１）で示される。

ここで、ｖｄ（ｔ）は明るさの変化を表わす関数、ｌ（ｔ）は２点（ｔ，ｖｄ（ｔ）），（ｔ＋ｍ，ｖｄ（ｔ＋ｍ））を結ぶ直線を表わす式である。

式（１）は、折れ線９２で表わされる明るさ変化の関数と直線ｌ（ｔ）とで囲まれる領域全体の面積（すなわち補間区間全体の面積から、直線ｌ（ｔ）より下の領域の面積を引いたもの）を近似的に算出し、さらに補間時刻ｔ＋ｎまでの面積（図４の斜線で囲まれた部分）を近似的に算出して、全体の面積における補間時刻ｔ＋ｎまでの面積の割合を算出している。つまり、混合比ｂｒ（ｔ＋ｎ）は、補間時刻ｔ＋ｎにおける調音パラメータの、パラメータ全体における調音パラメータＢの割合を示す。すなわち、ｎ＝０のとき０、ｎ＝ｍのとき１となる。

混合比ｂｒ（ｔ＋ｎ）を用いれば、補間時刻ｔ＋ｎの時点での調音パラメータを算出できる。すなわち、調音パラメータの時刻ｔにおける値をＶ（ｔ）、時刻ｔ＋ｍにおける値をＶ（ｔ＋ｍ）とするとき、補間時刻ｔ＋ｎにおける調音パラメータＶ（ｔ＋ｎ）は、次の式（２）で示される。

このようにして、調音パラメータを各フレームに対して求め、それを使用してフィルタの特性を変化させることにより、音源からの信号に変調を加えて音声信号を発生させることができる。

以下、上記した調音パラメータ補間方法を利用した、本発明の一実施の形態にかかる音声合成装置について詳述する。

＜第１の実施の形態＞
［構成］
（１）音声合成システム
図５に、本発明の第１の実施の形態にかかる音声合成システム１００のブロック図を示す。なお、ある話者が連続音声を発生している際にＭＲＩにより撮像された、話者の発話器官に関する動画像データ１２０と、その連続音声の発話テキスト１２２とが予め与えられているものとする。

図５を参照して、音声合成システム１００は、与えられたＭＲＩ動画像データ１２０と、発話テキスト１２２とを用いて、音声合成のための調音パラメータを補間するために用いられるデータを生成するための補間用データ生成装置１０２と、補間用データ生成装置１０２によって生成されたデータを保持するための補間用データベース（以下ＤＢ）１０４と、入力されたテキスト１４０に対し、補間用ＤＢ１０４内のデータを用いて合成音声信号１４２を出力するための音声合成装置１０６とを含む。

（２）補間用データ生成装置１０２
図６に、補間用データ生成装置１０２のブロック図を示す。補間用データ生成装置１０２は、種々の音素に対して予め算出された調音パラメータを保持するための調音パラメータＤＢ１７０と、ＭＲＩ動画像データ１２０が与えられると各フレームの差分画像を作成し、さらに差分画像の画素値の平均値により差分画像の明るさを算出するための差分画像作成・明るさ算出部１６０と、差分画像作成・明るさ算出部１６０で算出された明るさの極小値位置と、発話テキスト中の各音素とを対応付けるための極小値−音素対応付け部１６６とを含む。極小値−音素対応付け部１６６は、発話テキスト１２２から音素を順に取り出し、明るさの変化の極小値と対応付ける処理を行なう。すなわち、極小値−音素対応付け部１６６により、明るさの時間的推移中の極小値という特徴に基づき、各音素の発話時に対応する時刻が推定される。

補間用データ生成装置１０２はさらに、極小値−音素対応付け部１６６で対応付けされた音素に対応する調音パラメータを調音パラメータＤＢ１７０から取り出して、前述した式（１）及び式（２）を用いて補間後の調音パラメータを算出し、補間用ＤＢ１０４へ出力するための補間パラメータ算出部１６８を含む。

（３）音声合成装置１０６
図７に、音声合成装置１０６のブロック図を示す。図７を参照して、テキスト１４０には、各音素を発声すべき時間情報が付されている。音声合成装置１０６は、入力されたテキスト１４０を音素単位に分割し、隣り合う２音素間を補間するための調音パラメータを補間用ＤＢ１０４から抽出して、補間調音パラメータ１８６として出力するための補間パラメータ抽出部１８４と、所定周期のクロック信号を発生するためのクロック部１９４と、合成する連続音声の発音長等に応じて、クロック部１９４からのクロックにより定まるタイミングで、補間調音パラメータ１８６を順番に出力してフィルタ１９２に与えるための出力部１８８と、出力部１８８によって与えられる調音パラメータにしたがって変化する特性で音源１９０からの信号を変調し、合成音声信号１４２を出力するためのフィルタ１９２とを含む。

［動作］
本実施の形態にかかる音声合成システム１００の動作には、２つの局面がある。すなわち、第１の局面は、与えられたＭＲＩ動画像と、対応する発話テキスト及び調音パラメータから、調音パラメータ補間用のデータ（補間後の調音パラメータ）を生成し、補間用ＤＢを作成する局面（補間用データ生成装置１０２の動作に相当する。）である。第２の局面は、補間用ＤＢ１０４のデータを用いて、入力テキスト１４０の連続音声を合成する局面（音声合成装置１０６の動作に相当する。）である。以下、順に説明する。

（１）補間用データ生成装置１０２の動作
本実施の形態にかかる補間用データ生成装置１０２は以下のように動作する。なお、以下の処理に先立ち、所定の発話テキストを発話した連続音声に対応したＭＲＩ動画像データ１２０、対応するテキスト１２２、及び種々の音素に対する調音パラメータを保持する調音パラメータＤＢ１７０が既に準備されているものとする。

図６を参照して、差分画像作成・明るさ算出部１６０は、ＭＲＩ動画像データ１２０が与えられたことに応答して、隣り合うフレーム画像について差分画像を作成し、各差分画像について画素の平均値（明るさ）を算出する。差分画像作成・明るさ算出部１６０はさらに、算出された明るさの値をフレーム番号（時刻情報に相当する）とともに極小値−音素対応付け部１６６に与える。

極小値−音素対応付け部１６６では、発話テキスト１２２から音素を順に取り出し、音素を明るさの極小値に順番に対応付けて、音素を表わす情報と、対応する極小値が得られたフレーム番号とを補間パラメータ算出部１６８に与える。補間パラメータ算出部１６８は、発話テキストの各音素に対応する調音パラメータを調音パラメータＤＢ１７０から取出す。次に、発話テキストにおいて連続する音素の組の各々に対して、それら音素に対応するフレームの間の各差分画像の明るさの値と、フレーム番号、及びそれら音素の調音パラメータから、前述した補間方法（式（１）、式（２））によって各差分画像フレームごとに補間後の調音パラメータを算出する。さらに、補間パラメータ算出部１６８は、算出された調音パラメータの組に、補間対象となった２音素の情報及び各補間パラメータの２音素間における位置情報等を付し、補間用データとして補間用ＤＢ１０４へ出力する。このようにして得られる補間用データは、２つの音素の調音パラメータの間で補間された補間後の調音パラメータである。

このようにして、様々な音素の組について補間パラメータ（補間後の調音パラメータ）を算出し、算出された補間パラメータとそれに関連する情報とを、補間用データとして補間用ＤＢ１０４に蓄積する。

（２）音声合成装置１０６の動作
本実施の形態にかかる音声合成装置１０６は以下のように動作する。図７を参照して、テキスト１４０が入力されると、補間パラメータ抽出部１８４は、入力テキスト１４０を音素単位に分割する。さらに補間パラメータ抽出部１８４は、入力テキスト１４０内において隣り合う２音素の組の各々について、その２音素を補間するための補間用データ（補間後の調音パラメータ）を補間用ＤＢ１０４から抽出する。この抽出作業を隣接する２音素の組合わせのすべてについて行ない、補間調音パラメータ１８６として出力する。

出力部１８８は、出力された補間調音パラメータ１８６を順に読込み、補間調音パラメータ１８６に付された、そのパラメータの２音素間における位置情報及び合成すべき音声の長さ等から、クロック部１９４からのクロックにしたがって適切な時期に各補間調音パラメータをフィルタ１９２に与える。フィルタ１９２は、与えられた補間調音パラメータにしたがってその特性を変化させて音源１９０からの信号を変調し、合成音声信号１４２を出力する。この合成音声信号を図示しない増幅器を介してスピーカに与えることにより、連続音声が発生される。

［第１の実施の形態の効果］
このようにして、本発明の第１の実施の形態にかかる音声合成システム１００によれば、実際の人間の発話における発話器官の動きと一致する方法で調音パラメータを補間する。そのため、聴覚上、より滑らかで自然な連続音声を合成することができる。さらに、この第１の実施の形態では、調音パラメータの補間計算まで予め行ない、実際の音声合成時にはこの調音パラメータを読出すだけでよい。その結果、実際の音声合成時の計算量が削減されるという効果がある。

［コンピュータによる実現］
本発明の第１の実施の形態にかかる音声合成システム１００は、コンピュータと、当該コンピュータ上で実行されるコンピュータプログラムとにより実現できる。以下、図８〜図１１を参照して音声合成システム１００を実現するコンピュータプログラムの制御構造を説明する。

（１）補間用データ生成装置１０２を実現するプログラム
図８に、補間用データ生成装置１０２を実現するコンピュータプログラムのフローチャートを示す。図８を参照して、補間用データ生成処理が開始されると、ステップ５０２において、ＭＲＩ動画像データの各フレームの差分画像を作成し、差分画像の画素値の平均値（明るさ）を算出する処理を行なう。ここで、算出された明るさの値とフレーム番号とを対応付けて、配列にセットしておく（これを、以下「明るさの値の配列」と呼ぶ。）。次に、ステップ５０４では、ステップ５０２で算出された明るさの値をすべて読出して、明るさの極小値をサーチし、見出された極小値に発話テキストの音素を順に対応付けする。さらに、それらの音素に対応する調音パラメータを調音パラメータＤＢより読出す。ここで、読出された調音パラメータと音素、及び極小値を取るフレーム番号とを対応付けて、配列にセットしておく（これを、以下「極小値の配列」と呼ぶ。）。続いてステップ５０６では、ステップ５０４で対応付けした音素の調音パラメータと、明るさの値、及びフレーム番号とから、前述した式（１）及び式（２）を用いて補間パラメータを算出する。

ステップ５０２及びステップ５０４の処理については、前述の補間用データ生成装置１０２の構成・動作の説明から処理内容が明らかであるため、ここでは詳細な説明は繰返さない。

図９に、ステップ５０６の補間パラメータを算出する処理の詳細なフローチャートを示す。図９を参照して、補間パラメータ算出処理が開始されると、まずステップ５１０にて初期処理を行なう。すなわち、ワークエリアのクリア、使用する変数のクリア等を行なう。ここで、極小値の配列の添字となる変数ｉには１を代入しておく。続いて、ステップ５１２では、変数ｉに１を加算した値を変数ｊに代入して、ステップ５１４へ進む。

ステップ５１４では、図８のステップ５０４でセットされた極小値の配列において、ｊ番目のデータがセットされているかどうかを判断する。セットされていれば、処理はステップ５１６に進み、さもなければ、補間パラメータ算出処理を終了する。

ステップ５１６では、極小値の配列のｉ番目の調音パラメータ（これを調音パラメータ（ｉ）と呼ぶ。）と調音パラメータ（ｊ）との間を、前述した式（１）、式（２）を用いて補間する。具体的には、まず、極小値の配列のｉ番目のフレーム番号（フレーム番号（ｉ）と呼ぶ。）とフレーム番号（ｊ）とを参照して、図８のステップ５０２でセットした明るさの値の配列から、フレーム番号（ｉ）とフレーム番号（ｊ）との間のフレームの明るさの値を順に参照する。参照された明るさの値それぞれについて、前述の式（１）を用いてそのフレームにおける混合比を算出する。さらに、調音パラメータ（ｉ）と調音パラメータ（ｊ）、及び算出された混合比とを用いて、前述の式（２）によってそのフレームにおける調音パラメータを算出する。このようにして、フレーム番号（ｉ）とフレーム番号（ｊ）との間の全てのフレームにおいて、補間された調音パラメータを算出する。

続いて、ステップ５１８において、変数ｉの値に１を加算し、再びステップ５１２の処理に戻る。

このようにして、すべての極小値の間のフレームについて、補間パラメータを算出する処理を繰返す。

（２）音声合成装置１０６を実現するプログラム
図１０に、音声合成装置１０６を実現するコンピュータプログラムのフローチャートを示す。図１０を参照して、音声合成処理が開始されると、ステップ５３２において、補間用ＤＢから補間パラメータを抽出する処理が行なわれる。続いて、ステップ５３４において、ステップ５３２で抽出された補間調音パラメータをクロックにしたがってフィルタに出力し、合成音声信号を発生させる出力処理を行なう。

図１１に、ステップ５３２の補間パラメータを抽出する処理の詳細なフローチャートを示す。図１１を参照して、補間パラメータ抽出処理が開始されると、まずステップ５４０で初期処理を行なう。すなわち、ワークエリアのクリア、使用する変数のクリア等を行なう。ここで、後述する音素の配列の添字となる変数ｉには１を代入しておく。ステップ５４２で、入力テキストを読出す。ステップ５４４では、読出したテキストを音素単位に分割し、それらの音素を順に配列にセットする。処理はステップ５４６へ進む。

ステップ５４６では、変数ｉに１を加算した値を変数ｊに代入し、ステップ５４８で、ステップ５４４でセットした音素の配列から、ｉ番目の音素（これを音素（ｉ）と呼ぶ。）及び音素（ｊ）を参照する。このとき、音素（ｊ）に音素がセットされているかどうかを判定する（ステップ５５０）。音素（ｊ）に値がなければ（すなわち終了であれば）、補間パラメータ抽出処理を終了し、さもなければ、処理はステップ５５２へ進む。

ステップ５５２では、音素（ｉ）・音素（ｊ）間の補間調音パラメータを、補間用ＤＢよりすべて抽出し、ワークエリアに順に蓄積していく。続いてステップ５５４で、変数ｉに１を加算し、処理はステップ５４６へ戻る。

このようにして、入力テキストにかかる補間調音パラメータを全て順に抽出して、ワークエリアに順に出力し、蓄積していく。

図１０に示すステップ５３４の出力処理では、ステップ５３２の補間パラメータ抽出処理で抽出されワークエリアに蓄積された補間調音パラメータを使用して、合成音声信号を発生させる。なお、この処理の詳細については、前述の音声合成装置１０６の構成・動作の説明から処理内容が明らかであるため、ここでは詳細な説明は繰返さない。

［コンピュータハードウェア構成］
上記したコンピュータプログラムを実行するコンピュータシステムの外観の一例を図１２に、そのブロック図の例を図１３に、それぞれ示す。

図１２を参照して、このコンピュータシステム３３０は、ＦＤ（フレキシブルディスク）ドライブ３５２およびＣＤ−ＲＯＭ（コンパクトディスク読出専用メモリ）ドライブ３５０を有するコンピュータ３４０と、キーボード３４６と、マウス３４８と、モニタ３４２と、スピーカ３７２とを含む。

図１３を参照して、コンピュータ３４０は、ＦＤドライブ３５２およびＣＤ−ＲＯＭドライブ３５０に加えて、ＣＰＵ（中央処理装置）３５６と、ＣＰＵ３５６、ＦＤドライブ３５２およびＣＤ−ＲＯＭドライブ３５０に接続されたバス３６６と、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）３５８と、バス３６６に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）３６０と、バス３６６に接続され、スピーカ３７２に接続されるサウンドボード３６８を含む。コンピュータシステム３３０はさらに、図示しないプリンタを含んでいる。

ここでは示さないが、コンピュータ３４０はさらにローカルエリアネットワーク（ＬＡＮ）への接続を提供するネットワークアダプタボードを含んでもよい。

コンピュータシステム３３０に図６に示す補間用データ生成装置１０２又は図７に示す音声合成装置１０６としての動作を行なわせるためのコンピュータプログラムは、ＣＤ−ＲＯＭドライブ３５０またはＦＤドライブ３５２に挿入されるＣＤ−ＲＯＭ３６２またはＦＤ３６４に記憶され、さらにハードディスク３５４に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ３４０に送信されハードディスク３５４に記憶されてもよい。プログラムは実行の際にＲＡＭ３６０にロードされる。ＣＤ−ＲＯＭ３６２から、ＦＤ３６４から、またはネットワークを介して、直接にＲＡＭ３６０にプログラムをロードしてもよい。

このプログラムは、コンピュータ３４０にこの実施の形態の補間用データ生成装置１０２又は音声合成装置１０６としての動作を行なわせる複数の命令を含む。この方法を行なわせるのに必要な基本的機能のいくつかはコンピュータ３４０上で動作するＯＳまたはサードパーティのプログラム、もしくはコンピュータ３４０にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態の補間用データ生成装置１０２又は音声合成装置１０６を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した補間用データ生成装置１０２又は音声合成装置１０６を実現する命令のみを含んでいればよい。コンピュータシステム３３０の動作は周知であるので、ここでは繰返さない。

＜第２の実施の形態＞
上記した第１の実施の形態では、補間用ＤＢ１０４には、実際に補間式を適用して補間パラメータを算出して蓄積し、それを使用して連続音声を合成した。しかし、本発明はこのような実施の形態には限定されない。例えば、補間用ＤＢ１０４には、補間パラメータではなく、調音パラメータを補間するための混合比（前述した式（１）によって算出されるもの）を蓄積しておき、それを連続音声合成の際に使用する方法も考えられる。以下、この方法を適用した、第２の実施の形態について説明する。

［構成］
本発明の第２の実施の形態にかかる音声合成システムは、第１の実施の形態における補間用データ生成装置１０２（図５を参照されたい。）に代えて図１４に示す構成を有する補間用データ生成装置３００を、また音声合成装置１０６に代えて図１５に示す構成を有する音声合成装置３０６を、それぞれ含む。

（１）補間用データ生成装置３００
図１４に、本実施の形態にかかる補間用データ生成装置３００のブロック図を示す。図１４を参照して、補間用データ生成装置３００は、補間用データ生成装置１０２と同様の差分画像作成・明るさ算出部１６０と、極小値−音素対応付け部１６６とを含む。補間用データ生成装置３００はさらに、図６に示す補間パラメータ算出部１６８に代えて、２音素の間の調音パラメータを補間するための混合比をフレームごとに算出して補間用ＤＢ３０４に出力するための混合比算出部３０２を含む。混合比算出部３０２は、第１の実施の形態における補間パラメータ算出部１６８の機能において、調音パラメータの補間までは行なわず、フレームごとの混合比を算出するにとどめるようにしたものである。

（２）音声合成装置３０６
図１５に、本実施の形態にかかる音声合成装置３０６のブロック図を示す。図１５を参照して、入力されるテキスト１４０には、各音素を発声すべき時間情報が含まれている。この音声合成装置３０６は、第１の実施の形態にかかる補間用データ生成装置と同様の、種々の音素の調音パラメータを記憶するための調音パラメータＤＢ１７０と、テキスト１４０に含まれる各音素の調音パラメータを調音パラメータＤＢ１７０から抽出するための調音パラメータ抽出部３０８と、調音パラメータ抽出部３０８からテキスト１４０に含まれる各音素の調音パラメータを受け、隣接する音素の組の各々に対して補間用ＤＢ３０４から２音素間の調音パラメータを補間するための混合比を抽出し、２音素を発声する時間の情報に基づいて補間パラメータを算出するための混合比抽出・補間パラメータ算出部３１２とを含む。音声合成装置３０６はさらに、音声合成装置１０６と同様の出力部１８８、音源１９０、フィルタ１９２及びクロック部１９４を含む。

［動作］
（１）補間用データ生成装置３００の動作
補間用データ生成装置３００において、差分画像作成・明るさ算出部１６０及び極小値−音素対応付け部１６６は、第１の実施の形態と同様に動作するので、それらの詳細な説明はここでは繰返さない。以下では、混合比算出部３０２の動作を説明する。

図１４を参照して、混合比算出部３０２は、極小値−音素対応付け部１６６から与えられた各差分画像の明るさの値、フレーム番号、及び極小値に対応する音素の情報から、前述した混合比を算出する式（式（１））によって、隣接する２つの音素の間で調音パラメータを補間する際の混合比を、フレームごとに算出する。したがって隣接する２つの音素に対し、その間のフレームごとに算出された混合比の組が得られる。混合比算出部３０２はさらに、算出された混合比の組に対して、対象となった２音素の情報、及び各混合比の２音素間における位置情報（フレーム番号）等を付し、補間用データとして補間用ＤＢ１０４に出力する。

このようにして、様々な音素の組についてその間の調音パラメータを補間するための混合比の組を算出し、それら混合比の組とそれに関連した情報とを補間用データとして補間用ＤＢ１０４に蓄積する。

（２）音声合成装置３０６の動作
音声合成装置３０６のうち、出力部１８８、音源１９０、フィルタ１９２、及びクロック部１９４は、第１の実施の形態にかかる音声合成装置１０６と同様に動作する。したがってそれらについての詳細な説明は繰返さない。

図１５を参照して、テキスト１４０は発声すべき音素列からなるテキストと、各音素を発声するための時間情報とを含む。テキスト１４０が入力されると、調音パラメータ抽出部３０８は入力テキスト１４０を音素単位に分割し、分割された全ての音素に対応する調音パラメータを調音パラメータＤＢ１７０から順に抽出する。調音パラメータ抽出部３０８は、こうして抽出された調音パラメータを対応する音素の情報とともに混合比抽出・補間パラメータ算出部３１２に与える。

混合比抽出・補間パラメータ算出部３１２は、与えられた音素列のうち隣り合う２音素の組合せの各々について、その２音素を補間するための補間用データ（混合比等）を補間用ＤＢ１０４からすべて抽出する。さらに、混合比抽出・補間パラメータ算出部３１２は、抽出された補間用データに含まれる各フレームごとの混合比と、調音パラメータ抽出部３０８から与えられた２音素のための調音パラメータとを用いて、この２音素の間で調音パラメータを補間する補間パラメータを前述した式（２）によって算出する。この作業を、テキスト１４０内の音素列で隣接する２音素の組合せの全てについて行ない、補間調音パラメータ１８６として出力部１８８に与える。その後の動作は、音声合成装置１０６と同様である。

［第２の実施の形態の効果］
本実施の形態にかかる音声合成システムにおいても、実際の人間の発話における発話器官の動きと一致する方法で調音パラメータを補間する。そのため、聴覚上、より滑らかで自然な連続音声を合成することができる。また補間用データ生成装置では２音素間の各フレームに対応する混合比のみを算出し、補間後の調音パラメータまでは算出しない。そのため、補間用データの生成に要する時間が短くて済み、補間ＤＢ３０４として必要な容量も削減できる。

［コンピュータによる実現］
本発明の第２の実施の形態にかかる音声合成システムにおいても、第１の実施の形態と同様に、コンピュータと、当該コンピュータ上で実行されるコンピュータプログラムとにより実現できる。なお、本実施の形態にかかる音声合成システムを実現するコンピュータプログラムの制御構造については、第１の実施の形態の説明に基づいて、当業者には容易に実現できると思われる。コンピュータのハードウェア構成についても、第１の実施の形態で説明したものと同様である。したがって、ここではそれらについての詳細な説明は繰返さない。

＜第３の実施の形態＞
上記した第２の実施の形態では、補間用ＤＢ３０４には、２音素間の調音パラメータを補間するための混合比を蓄積し、実際の補間時にそれを使用して調音パラメータを補間し連続音声を合成した。しかし、本発明はこのような実施の形態には限定されない。例えば、補間用ＤＢには、補間後の調音パラメータまたは補間に用いる混合比ではなく、２音素間の各ＭＲＩ差分画像の明るさのデータそのものを蓄積しておき、連続音声合成の際にこれらを用いて調音パラメータを補間する方法も考えられる。以下、この方法を適用した第３の実施の形態について説明する。

［構成］
本発明の第３の実施の形態にかかる音声合成システムは、図５に示す第１の実施の形態にかかる補間用データ生成装置１０２に代えて図１６に示す構成を有する補間用データ生成装置４００を、また音声合成装置１０６に代えて図１７に示す構成を有する音声合成装置４０６を、それぞれ含む。

（１）補間用データ生成装置４００
図１６に、本実施の形態にかかる補間用データ生成装置４００のブロック図を示す。図１６を参照して、補間用データ生成装置４００は、補間用データ生成装置１０２と同一の差分画像作成・明るさ算出部１６０及び極小値−音素対応付け部１６６を含む。補間用データ生成装置４００はさらに、図６に示す補間用データ生成装置１０２の補間パラメータ算出部１６８に代えて、隣接する２音素の組合せの各々について、２音素の間の各ＭＲＩ差分画像の明るさの値を、２音素間におけるその差分画像の位置情報（フレーム番号）、及び対応する２音素の情報と関連付けて明るさデータとして出力するための明るさデータ出力部４０２を含む。明るさデータ出力部４０２から出力されたデータは補間用ＤＢ４０４に格納される。

（２）音声合成装置４０６
図１７に、本実施の形態にかかる音声合成装置４０６のブロック図を示す。音声合成装置４０６は、第１の実施の形態と同様に、予め種々の音素の調音パラメータを記憶するための調音パラメータＤＢ１７０と、第２の実施の形態におけるものと同様の調音パラメータ抽出部３０８と、補間用ＤＢ４０４から明るさデータを抽出し、さらに、２音素の組合せの各々に対し、その間のＭＲＩ差分画像の明るさデータを用い、前述した方法（式（１）、式（２））によって補間パラメータを算出するための補間パラメータ算出部４０８とを含む。音声合成装置４０６はさらに、図７に示す音声合成装置１０６と同様の出力部１８８、音源１９０、フィルタ１９２、及びクロック部１９４を含む。

［動作］
（１）補間用データ生成装置４００の動作
補間用データ生成装置４００において、第１の実施の形態にかかる補間用データ生成装置１０２と同様の構成の部分は同様に動作する。したがってそれらについての詳細な説明は繰返さない。明るさデータ出力部４０２での動作について以下に説明する。

図１６を参照して、明るさデータ出力部４０２は、極小値−音素対応付け部１６６から与えられた、隣接する２音素の組合せの各々に対し、この２音素の間のＭＲＩ差分画像の明るさの値、各画像のフレーム番号、及び両端の２音素の情報を１組にして補間用データとして補間用ＤＢ４０４に出力する。

このようにして、様々な２音素の組合せについて、その中間のＭＲＩ差分画像の明るさの値及び関連する情報を、補間用データとして補間用ＤＢ４０４に蓄積する。

（２）音声合成装置４０６の動作
音声合成装置４０６において、図７に示す音声合成装置１０６及び図１５に示す音声合成装置３０６と同一部分は同様に動作する。したがってそれらについての詳細な説明はここでは繰返さない。

図１７を参照して、補間パラメータ算出部４０８は、調音パラメータ抽出部３０８からテキスト１４０に対応する音素列と、それぞれの時刻情報と、各音素の調音パラメータとを受ける。補間パラメータ算出部４０８は、与えられた音素列のうちの隣り合う２音素の組合せの各々について、その２音素間を補間するための補間用データを補間用ＤＢ４０４から抽出する。補間パラメータ算出部４０８はさらに、調音パラメータ抽出部３０８から与えられたその２音素の調音パラメータと、抽出した補間用データに含まれるＭＲＩ差分画像の明るさの値及びそれに対応する位置情報（フレーム番号）とを用いて、前述した式（１）を用いて各フレームにおける混合比を算出し、さらに式（２）によって各フレームにおける補間後の調音パラメータを算出する。この作業を、隣接する２音素のすべての組合せについて行ない、補間調音パラメータ１８６として出力する。その後の動作は、音声合成装置１０６と同様である。

［第３の実施の形態の効果］
本実施の形態にかかる音声合成システムにおいても、実際の人間の発話における発話器官の動きと一致する方法で調音パラメータを補間する。そのため、聴覚上、より滑らかで自然な連続音声を合成することができる。また補間用データ生成装置４００では２音素間の各差分画像の明るさのみを算出し、混合比又は補間後の調音パラメータは算出しない。そのため、補間用データの生成に要する時間が短くて済み、補間ＤＢ４０４として必要な容量も削減できる。ただし、音声合成装置において混合比の算出と補間後の調音パラメータの算出との双方を行なうので、第１の実施の形態または第２の実施の形態と比較して計算量は大きくなる。

［コンピュータによる実現］
本発明の第３の実施の形態にかかる音声合成システムにおいても、第１の実施の形態と同様に、コンピュータと、当該コンピュータ上で実行されるコンピュータプログラムとにより実現できる。なお、本実施の形態にかかる音声合成システムを実現するコンピュータプログラムの制御構造については、第１の実施の形態の説明に基づいて、当業者には容易に実現できると思われる。コンピュータのハードウェア構成についても、第１の実施の形態で説明したものと同様である。したがって、ここではそれらについての詳細な説明は繰返さない。

＜実験例＞
上記した第１〜第３の実施の形態は、いずれも同じ考え方で調音パラメータの補間を行なう。したがって、装置の構成は異なるものの、これらによる補間で合成された音声は互いに同じものとなる。

本発明の実施の形態にかかる音声合成システムを用いて実際に合成された連続音声と、従来の補間方法によって調音パラメータを補間して合成された連続音声とを比較する実験を行なった。実験方法は以下の通りである。

（１）オリジナルデータ作成
／ａｉｕｅｏ／という音声を連続発話中の発話器官を、３次元ＭＲＩ動画撮像法によって撮像する。そして、連続発話中の３２点において調音パラメータを計測し、これを合成して連続音声を作成する。

（２）比較データ作成
上記の方法で取り出された３２個の調音パラメータから、母音中心に当たる５つの調音パラメータを取り出し、以下の方法を用いてそれぞれ調音パラメータを補間する。それらを合成してそれぞれ連続音声を作成する。比較データを作成するための補間方法は、以下の通りである。
ａ．本発明の実施の形態にかかる補間法
ｂ．直線補間
ｃ．スプライン補間
ｄ．ガウス関数を用いた補間法
なお、補間の対象にした調音パラメータは以下のとおりである。
１．声道断面積関数２．声道長３．開口面積
（３）オリジナルデータと比較データとの比較
オリジナルデータによって合成された連続音声と、ａ〜ｄの方法によって合成された連続音声とを比較し、オリジナルデータによる音声との伝達関数の誤差を評価した。

（４）結果
結果は、以下の表１の通りである。

（５）実験のまとめ
１．実験の結果、本発明の実施の形態による方法では、オリジナルデータによる連続音声と、聴覚上区別がつかないほど、滑らかで自然な音声が得られた。

２．ｂの直線補間、ｃのスプライン補間による方法では、聴覚上不自然な音声しか得られなかった。

３．ｄのガウス補間による補間でも、本発明の実施の形態によるものと比較してやや劣るだけの、比較的良好な音声が得られる。母音から母音への変化の仕方は常に一定なので、実際の発話器官の動きをシミュレートしたものとは異なるガウス関数のような関数を用いても、良好な音声を得るのは比較的容易である。しかし、母音から母音への変化とは異なる合成音では不自然さが現れる可能性がある。本実施の形態によれば、実際の発話器官の動きをシミュレートして２音素の間の調音パラメータを補間する。したがって、母音から母音への変化以外の変化でも、ガウス補間の場合より、よい結果が得られると思われる。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制
限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許
請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内で
の全ての変更を含む。

発話中の発話器官の動きを撮像したＭＲＩ動画の、連続するフレーム画像及び差分画像を示す図である。差分画像の明るさの変化を表わすグラフの例を示す図である。図２のグラフに、実際に発話された音声の各音素の中心が発話されている時刻を対応させたグラフである。ある２つの音素を連続発話した際の、差分画像の明るさ変化を表わしたグラフである。本発明の第１の実施の形態にかかる音声合成システム１００のブロック図である。補間用データ生成装置１０２のブロック図である。音声合成装置１０６のブロック図である。補間用データ生成装置１０２を実現するコンピュータプログラムのフローチャートである。補間パラメータを算出する処理の詳細なフローチャートである。音声合成装置１０６を実現するコンピュータプログラムのフローチャートである。補間パラメータ抽出処理の詳細なフローチャートである。コンピュータシステムの外観の一例を示す図である。図１２に示すコンピュータシステムのブロック図である。本発明の第２の実施の形態にかかる補間用データ生成装置３００のブロック図である。本発明の第２の実施の形態にかかる音声合成装置３０６のブロック図である。本発明の第３の実施の形態にかかる補間用データ生成装置４００のブロック図である。本発明の第３の実施の形態にかかる音声合成装置４０６のブロック図である。

符号の説明

１００音声合成システム
１０２，３００，４００補間用データ生成装置
１０４，３０４，４０４補間用ＤＢ
１０６，３０６，４０６音声合成装置
１２０ＭＲＩ動画像データ
１２２発話テキスト
１４０テキスト
１４２合成音声信号
１６０差分画像作成・明るさ算出部
１６６極小値−音素対応付け部
１６８，４０８補間パラメータ算出部
１７０調音パラメータＤＢ
１８４補間パラメータ抽出部
１８６補間調音パラメータ
１８８出力部
１９０音源
１９２フィルタ
１９４クロック部
３０２混合比算出部
３０８調音パラメータ抽出部
３１２混合比抽出・補間パラメータ算出部
４０２明るさデータ出力部

Claims

連続する第１及び第２の音素を含む連続音声を発話中の発話器官の形状変化の速度を反映した所定の物理量の時間的推移に基づいて、前記第１の音素から前記第２の音素まで連続的に変化する音声を合成するための調音パラメータを、前記第１及び第２の音素の音声合成のための既知の調音パラメータの間の補間によって生成する際の補間用データを生成するための調音パラメータ補間用データ生成装置であって、
前記物理量の前記時間的推移において前記連続音声中の前記第１及び第２の音素の発話時にそれぞれ対応する第１及び第２の時刻を、前記物理量の前記時間的推移の所定の特徴に基づいて推定するための時刻推定手段と、
前記第１の時刻から前記第２の時刻までの補間区間における前記所定の物理量の前記時間的推移と、前記第１及び第２の時刻における前記所定の物理量の値とに基づいて、前記第１及び第２の時刻の間の所定の補間時刻における補間用データを導出するための補間用データ導出手段とを含む、調音パラメータ補間用データ生成装置。
前記補間用データ導出手段は、前記補間区間における前記所定の物理量のうち、前記補間区間中の所定の補間時刻における物理量の値を、前記補間用データとして出力するための手段を含む、請求項１に記載の調音パラメータ補間用データ生成装置。
前記補間用データ導出手段は、
前記補間区間における前記所定の物理量の前記時間的推移のグラフと、前記第１及び第２の時刻における前記グラフ上の点を結ぶ直線とにより囲まれる領域のうち、前記第１の時刻から、前記補間区間中の任意の補間時刻までの部分の面積を近似的に算出するための面積算出手段と、
前記補間時刻における調音パラメータを前記第１及び第２の音素の調音パラメータの補間により算出するための混合比を、前記面積算出手段により算出される面積を用いて算出するための混合比算出手段とを含む、請求項１に記載の調音パラメータ補間用データ生成装置。
前記所定の物理量は、前記連続音声を発話中の発話者の発話器官に対して所定の透過撮影手法により得られる動画像の差分画像の明るさである、請求項１〜請求項３のいずれかに記載の調音パラメータ補間用データ生成装置。
コンピュータにより実行されると、当該コンピュータを、請求項１〜請求項４のいずれかに記載の調音パラメータ補間用データ生成装置として動作させる、コンピュータプログラム。
請求項４に記載の調音パラメータ補間用データ生成装置と、
入力されたテキストの音素列の隣り合う音素の組の各々に対して、対応する補間用データを所定の記憶媒体から抽出するための補間用データ抽出手段と、
前記音素の組の各々に対して、前記抽出手段によって抽出された補間用データを用いて補間された調音パラメータを用いて音声合成を行なうための音声合成手段とを含む、音声合成装置。
コンピュータにより実行されると、当該コンピュータを、請求項６に記載の音声合成装置として動作させる、コンピュータプログラム。