JP3728173B2

JP3728173B2 - 音声合成方法、装置および記憶媒体

Info

Publication number: JP3728173B2
Application number: JP2000099531A
Authority: JP
Inventors: 雅章山田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2000-03-31
Filing date: 2000-03-31
Publication date: 2005-12-21
Anticipated expiration: 2020-03-31
Also published as: US20010029454A1; JP2001282276A; US6832192B2

Description

【０００１】
【発明の属する技術分野】
本発明は、音声合成方法および装置に関し、特に音声合成時における合成音声のパワー制御に関わるものである。
【０００２】
【従来の技術】
所望の合成音声を得るための音声合成方法には、音素やＣＶ・ＶＣあるいはＶＣＶ等の音韻を単位とした音声素片を編集、接続して合成音声を生成する方法が知られている。図１０は音声素片単位であるＣＶ・ＶＣ、ＶＣＶ（Ｃ：子音，Ｖ：母音）を説明する図である。図１０に示されるように、ＣＶ・ＶＣは各音素内に素片境界を置いた単位であり、ＶＣＶは母音内に素片境界を置いた単位である。
【０００３】
【発明が解決しようとする課題】
図１１は、１音声素片の継続時間長や基本周波数を変更する方法の一例を模式的に示した図である。図１１の上段に示す１音声素片の音声波形は、中段に示す複数個の窓関数によって複数個の微細素片に分割される。このとき、有声音部（音声波形の後半部にある有声音の領域）では、原音声のピッチ間隔に同期した時間幅を有する窓関数を用いる。一方、無声音部（音声波形の前半部にある無声音の領域）では、適当な時間幅（一般には、有声音部の窓関数よりも長い時間幅を有する）の窓関数を用いる。
【０００４】
このようにして得た複数個の微細素片を繰り返したり、間引いたり、間隔を変更したりすることによって、合成音声の継続時間長や基本周波数を変更することができる。例えば、合成音声の継続時間長を短縮する場合には、微細素片を間引けばよく、合成音声の継続時間長を伸長する場合には、微細素片を繰り返せばよい。また、合成音声の基本周波数を上げる場合には、有声音部の微細素片の間隔を詰めればよく、合成音声の基本周波数を下げる場合には、有声音部の微細素片の間隔を広げればよい。このような繰り返し、間引き、間隔変更を施して得た複数個の微細素片を重畳することにより、所望の継続時間長、基本周波数を有する合成音声を得ることができる。
【０００５】
また、このような合成音声に対するパワー制御は以下のように行われる。すなわち、所望の平均パワーを持つ合成音声は、音声素片の平均パワーの推定値ｐ₀（目標とする平均パワーに対応する）と上記手順によって得られた合成音声の平均パワーｐとを求め、上記手順によって得られた合成音声に（ｐ／ｐ₀）^1/2を乗ずることにより得られる。つまり、１音声素片単位にパワー制御を実行する。
【０００６】
しかしながら、上記のパワー制御方法には以下の問題点がある。
【０００７】
まず第一の問題点としてパワー制御の単位と音声素片の単位とのミスマッチの問題がある。
安定したパワー制御を行うためには、ある程度長い時間を単位としてパワー制御を行う必要がある。また、パワー制御単位内では、パワー変動が少ないことも必要である。これらの条件を満たすパワー制御の単位には、音素あるいは音素に類した単位がある。しかしながら、上述したＣＶ・ＶＣあるいはＶＣＶといった単位では、変動の激しい音素境界を素片内部に持つため、素片内部でのパワー変動が大きくなり、パワー制御の単位としては不適当である。
【０００８】
有声音部と無声音部ではパワーの値に大きな差がある。原則的には音素種別から有声音／無声音の別は一意に定まるため、音素毎にパワーの平均値を推定すれば、この差が問題になることはないことになる。しかし、詳細に調べると、音素種別と有声音／無声音の関係には例外があり、ミスマッチが生じることがある。また、音素境界と有声音／無声音境界が数msecから十数msec程度ずれる場合もある。これは、音素種別および音素境界が、主に声道形状によって定められるものであるのに対し、有声音／無声音は声帯振動の有無によるためである。
【０００９】
本発明は、上記の問題に鑑みてなされたものであり、その目的は、音声素片内のパワー変動が大きくなるような音韻単位を波形編集の単位としても適切なパワー制御を行うことを可能にすることにある。
【００１０】
【課題を解決するための手段】
上記の目的を達成するための本発明の一態様による音声合成方法は例えば以下の構成を備える。すなわち、
所定単位の音声素片を音素境界で分割して部分素片を取得する分割工程と、
前記分割工程で得られた全ての部分素片の各々について合成音声出力時の目標とすべきパワー値を推定する推定工程と、
前記部分素片の各々について、前記推定工程で推定された部分素片のパワー値に基づいて当該部分素片のパワー値を変更する変更工程と、
前記変更工程で変更された部分素片を用いて合成音声を生成する生成工程とを備える。
【００１１】
また、上記の目的を達成するための本発明の他の態様によれる音声合成装置は以下の構成を備える。すなわち、
所定単位の音声素片を音素境界で分割して部分素片を取得する分割手段と、
前記分割手段で得られた全ての部分素片の各々について合成音声出力時の目標とすべきパワー値を推定する推定手段と、
前記部分素片の各々について、前記推定手段で推定された部分素片のパワー値に基づいて当該部分素片のパワー値を変更する変更手段と、
前記変更手段で変更された部分素片を用いて合成音声を生成する生成手段とを備える。
【００１２】
更に、本発明の他の態様によれば、上記の音声合成方法をコンピュータに実現させるための制御プログラムを格納した記憶媒体が提供される。
【００１３】
【発明の実施の形態】
以下、添付の図面を参照して本発明の好適な実施形態を説明する。
【００１４】
［第１の実施形態］
図１は本実施形態による音声合成装置のハードウェア構成を示すブロック図である。図１において、１１は数値演算・制御等の処理を行なう中央処理装置であり、図２のフローチャートで後述する制御を実現する。１２はＲＡＭ、ＲＯＭ等の記憶装置であり、図２のフローチャートで後述する制御を中央処理装置１１に実現させるために必要な制御プログラムや一時的データが格納される。１３はディスク装置等の外部記憶装置であり、本実施形態の音声合成処理を制御する制御プログラムやユーザの操作を受けるためのグラフィカルユーザインタフェースを制御する制御プログラムを保持する。
【００１５】
１４は表示器、スピーカ等からなる出力装置であり、合成された音声はスピーカから出力される。また、表示器には、ユーザの操作を受け付けるグラフィカルユーザインタフェースを表示する。このグラフィカルユーザインタフェースは、中央処理装置１１によって制御される。ただし、本発明は他の装置やプログラムに対して合成音声を出力するべく組み込むことも可能であり、この場合の出力は他の装置或いはプログラムの入力となる。１５はキーボード等の入力装置であり、ユーザの操作を所定の制御コマンドに変換して中央処理装置１１に供給する。中央処理装置１１は、この制御コマンドの内容に応じて、音声合成の対象となるテキスト（日本語や他の言語からなる）を指定し、そのテキストを音声合成ユニット１７に供給する。ただし、本発明は他の装置やプログラムの一部として組み込まれることも可能であり、この場合の入力は他の装置やプログラムを通じて間接的に行われることになる。１６は内部バスであり、図１で示された上述の各構成を接続する。１７は音声合成ユニットである。音声合成ユニット１７は、素片辞書１８を用いて、入力したテキストから音声を合成する。但し、素片辞書１８は、外部記憶装置１３が保持するように構成してもよい。
【００１６】
以上のハードウェア構成を備えた本実施形態の音声合成ユニット１７の動作を以下に説明する。
【００１７】
図２は本実施形態による音声合成ユニット１７の手順を示すフローチャートである。まず、ステップＳ１において、入力したテキストに対して言語解析と音響処理を施し、そのテキストを表す音韻系列とその音韻系列の音韻情報（モーラ数、モーラ位置、アクセント型等）とを生成する。次に、１音韻単位（合成単位ともいう）の音声素片を表す音声波形データを素片辞書１８から読み出す。ここで、音韻の単位は、ＣＶ・ＶＣ、ＶＣＶ等の音素境界を含む単位である。次に、ステップＳ２において、ステップＳ１において取得した音声素片を音素境界を境界として分割する。ステップＳ２の分割によって得られた素片を部分素片ｕ_iと呼ぶことにする。例えば、音声素片がＶＣＶであるならば３個、ＣＶ・ＶＣならば２個の部分素片に分割されることになる。次に、ステップＳ３においてループカウンタｉを０に初期化する。
【００１８】
続くステップＳ４において、部分素片ｕ_iのパワー推定に必要な推定要因を取得する。本例では、図３に示されるように、部分素片ｕ_iの音素種別、合成対象語のアクセント型及びモーラ数、合成対象語中における部分素片ｕ_iの置かれる位置（モーラ位置に相当する）等が推定要因として用いられる。これらの推定要因は、ステップＳ１で得た音韻情報に含まれる。ステップＳ５では、部分素片ｕ_iが有声音の素片か無声音の素片かを判定するための情報（図４）を取得する。すなわち、ステップＳ１で取得した音声素片に対応する素片ＩＤとその音声素片の部分素片番号（ループカウンタｉが対応する）とから対応する有声音無声音フラグを取得する。図４に示す情報は、素片辞書１８が保持する。
【００１９】
次に、ステップＳ６において、ステップＳ５で得た有声音無声音フラグに基づいて、部分素片ｕ_iが有声音の素片か無声音の素片かを判断して処理を分岐する。すなわち、部分素片ｕ_iが有声音の場合はステップＳ７に処理を移し、ｕ_iが無声音の場合にはステップＳ９に処理を移す。
【００２０】
ステップＳ７では、上述のステップＳ４で得られた各推定要因に基づいて、有声音パワー推定用のパラメータ値を取得する。例えば、数量化Ｉ類による推定を行う場合には、有声音パワー推定用に学習された数量化Ｉ類の係数表（図５）から、ステップＳ４で得られた推定要因に対応するパラメータ値を取得する。そして、ステップＳ８において、ステップＳ７で得られたパラメータ値に基づいて合成音ターゲットとなるパワーｐを推定し、ステップＳ１１に移る。尚、図５に示す情報は、素片辞書１８が保持する。
【００２１】
一方、部分素片ｕ_iが無声音であった場合は、ステップＳ９において、上述のステップＳ４で得られた各推定要因に基づいて、無声音パワー推定用のパラメータ値を取得する。例えば、数量化Ｉ類による推定を行う場合には、無声音パワー推定用に学習された数量化Ｉ類の係数表（図６）から、ステップＳ４で得られた推定要因に対応するパラメータ値を取得する。そして、ステップＳ１０において、ステップＳ９で得られたパラメータ値に基づいて合成音ターゲットとなるパワーｐを推定し、ステップＳ１１に移る。尚、図５に示す情報は、素片辞書１８が保持する。
【００２２】
ステップＳ１１では、素片辞書１８に記憶された部分素片ｕ_iに対応するパワー基準値ｑを取得する。次に、ステップＳ１２において、ステップＳ８あるいはステップＳ１０で推定された推定値ｐと、ステップＳ１１で取得されたパワー基準値ｑとから振幅変更倍率ｓ_iを計算する。ここで、ｐ、ｑともにパワー次元の値ならば、
ｓ_i＝（ｐ／ｑ）^1/2となる。
【００２３】
その後、ステップＳ１３において、ループカウンタｉの値に１を加える。次に、ステップＳ１４において、ループカウンタｉが１音素単位の部分素片の総数に等しいかどうかを判定し、等しくない場合にはステップＳ４に戻り、次の部分素片に対して上述の処理を行う。そして、ループカウンタｉが、部分素片の総数に等しい場合には、ステップＳ１５に処理を移す。ステップＳ１５では、ステップＳ１２で求めた振幅変更倍率ｓ_iを用いて、各音声素片の部分素片毎にパワー制御を行う。更に、その他の韻律情報（継続時間長や基本周波数）を用いて、各音声波形に対して波形編集操作を行う。更に、これらの音声素片を接続することにより入力したテキストに対応した合成音を得る。この合成音は、出力装置１４のスピーカから出力される。ステップＳ１５は、PSOLA（Pitch-Synchronous Overlap Add method「ピッチ同期波形重畳法」）を用いて、各音声素片の波形編集を行う。
【００２４】
以上のように、第１の実施形態によれば、１つ以上の音素境界を含む音声素片を音素境界で分割して部分素片を取得し、各部分素片が有声音か無声音かに応じてパワー推定値を計算することができる。これにより、ＣＶ・ＶＣやＶＣＶのように音声素片内のパワー変動が大きくなるような音韻単位を波形編集の単位としても適切なパワー制御を行うことができ、高品位な合成音声を生成することができる。
【００２５】
［第２の実施形態］
第１の実施形態において、パワー推定用の要因は有声音／無声音に関わらず同じものとしたが、有声音／無声音によってパワー推定用の要因を分けることも可能である。図７は第２の実施形態による音声合成処理の手順を説明するフローチャートである。図７において第１の実施形態（図２）と同様の処理を行うステップには同一のステップ番号を付し、ここではそれらの説明を省略する。
【００２６】
第１の実施形態ではステップＳ４において有声音／無声音に関わらず同一のパワー推定用の要因を取得したが、第２の実施形態では、ステップＳ４を廃し、ステップＳ１６とステップＳ１７で有声音・無声音のそれぞれに応じたパワー推定要因を取得する。すなわち、ステップＳ６において部分素片ｕ_iが有声音であると判定された場合は、ステップＳ１６において有声音用のパワー推定要因を取得し、ステップＳ７ではこの有声音用のパワー推定要因に対応するパラメータ値を図５のテーブルから取得する。一方、ステップＳ６において、部分素片ｕ_iが無声音であると判定された場合は、ステップＳ１７において無声音用のパワー推定要因を取得し、ステップＳ９ではこの無声音用のパワー推定要因に対応するパラメータ値を図６のテーブルから取得する。
【００２７】
以上のように、第２の実施形態によれば、有声音部と無声音部とで更に適切なパワー制御を行うことができる。
【００２８】
［第３の実施形態］
第１及び第２の実施形態において、部分素片のパワー基準値ｑとして任意の値を用いることが可能であるが、その一例として音素パワーを用いることができる。本実施形態では、部分素片のパワー基準値ｑとして音素パワーを用いる場合における素片辞書作成の処理を説明する。図８は、音声合成ユニット１７における素片辞書作成の処理手順を説明するフローチャートである。また、図９は図８のフローチャートによる素片辞書作成処理を説明する図である。
【００２９】
まず、ステップＳ２１において素片辞書１８に登録すべき発声（図９の（ａ）、（ｂ））を取得する。次に、ステップＳ２２において、上記ステップＳ２１で取得した発声を音素に分割する（図９の（ｃ））。次に、ステップＳ２３においてループカウンタｉを０に初期化する。
【００３０】
ステップＳ２４において、ｉ番目の音素ｕ_iの有声音／無声音の別を判定する。そして、ステップＳ２５において、ステップＳ２４の判定結果に基づいて処理を分岐する。すなわち、ステップＳ２４において当該音素ｕ_iが有声音であると判定されたならばステップＳ２６に処理を移し、無声音であると判定されたならばステップＳ２８に処理を移す。
【００３１】
ステップＳ２６では、ｉ番目の音素の有声音部の平均パワーを計算する。そしてステップＳ２７において、ステップＳ２６で計算された有声音部平均パワーをパワー基準値として設定し、ステップＳ３０に処理を移す。一方、ステップＳ２８では、ｉ番目の音素の無声音部の平均パワーを計算する。そして、ステップＳ２９において、ステップＳ２８で計算された無声音部平均パワーをパワー基準値として設定し、ステップＳ３０に処理を移す。
【００３２】
ステップＳ３０では、ループカウンタｉの値に１を加える。そして、ステップＳ３１において、ループカウンタｉが音素の総数に等しいか判定し、等しくない場合には、次の音素について上述の処理を繰り返すべく、ステップＳ２４に処理を戻す。一方、ステップＳ３１でループカウンタｉが音素数に等しいと判定された場合は、本処理を終了する。以上の処理により、図９の（ｄ）の如く各音素の有声音・無声音が判定され、図９の（ｅ）に示す如く音素パワー基準値が設定される。
【００３３】
そして、上述のステップＳ１１においては、例えば、ＣＶ・ＶＣ単位の音声素片「t.a」を部分素片/t/と/a/に分割した場合には、/t/のパワー基準値ｑとして「８９３」が、/a/のパワー基準値ｑとして「２４７３」が用いられることになる（図９の（ｅ）〜（ｇ））。
【００３４】
なお、上記第３の実施形態において、ステップＳ２９において、無声音部の平均パワーに１より大きな値を乗じた値をパワー基準値とすることにより、合成時の無声音のパワーを更に抑える効果が得られる。これは、上述したステップＳ１２における変更倍率の値が小さくなるからである。
【００３５】
なお、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体（または記録媒体）を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム（ＯＳ）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００３６】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００３７】
【発明の効果】
以上説明したように、本発明によれば、ＣＶ・ＶＣやＶＣＶのように音声素片内のパワー変動が大きくなるような音韻単位を波形編集の単位としても適切なパワー制御を行うことができ、高品位な合成音声を生成することができる。
【図面の簡単な説明】
【図１】第１の実施形態による音声合成装置のハードウェア構成を示すブロック図である。
【図２】本実施形態による音声合成処理の手順を示すフローチャートである。
【図３】部分素片のパワー推定に必要な要因の例を示す図である。
【図４】部分素片が有声音の素片か無声音の素片かを判定するために参照するテーブルのデータ構成例を示す図である。
【図５】有声音パワー推定用に学習された数量化Ｉ類の係数表の例を示す図である。
【図６】無声音パワー推定用に学習された数量化Ｉ類の係数表の例を示す図である。
【図７】第２の実施形態による音声合成処理の手順を説明するフローチャートである。
【図８】第３の実施形態による素片辞書作成の処理手順を説明するフローチャートである。
【図９】図８のフローチャートによる素片辞書作成処理を説明する図である。
【図１０】音声素片単位であるＣＶ・ＶＣ、ＶＣＶを説明する図である。
【図１１】音声波形を微細素片に分割する方法を模式的に示した図である。

Claims

所定単位の音声素片を音素境界で分割して部分素片を取得する分割工程と、
前記分割工程で得られた全ての部分素片の各々について合成音声出力時の目標とすべきパワー値を推定する推定工程と、
前記部分素片の各々について、前記推定工程で推定された部分素片のパワー値に基づいて当該部分素片のパワー値を変更する変更工程と、
前記変更工程で変更された部分素片を用いて合成音声を生成する生成工程とを備えることを特徴とする音声合成方法。
前記変更工程は、前記部分素片の各々について、
対応するパワー基準値を取得し、
前記推定工程で推定されたパワー値と前記取得されたパワー基準値の比から振幅変更倍率を計算し、
前記計算された振幅変更倍率に従って当該部分素片の振幅を変更することにより前記推定されたパワー値への変更を行うことを特徴とする請求項１に記載の音声合成方法。
前記変更工程は、前記推定工程で推定したパワー値をｐ、前記取得したパワー基準値をｑとした場合に、
ｓ＝（ｐ／ｑ）^1/2
によって求まるｓを振幅変更倍率として、当該部分素片の振幅値を変更することを特徴とする請求項２に記載の音声合成方法。
前記推定工程は、
前記部分素片の各々について有声音であるか無声音であるかを判定する判定工程を更に備え、
有声音であると判定された場合には有声音素片用のパラメータ値でパワー値を推定し、無声音であると判定された場合には無声音素片用のパラメータ値でパワー値を推定することを特徴とする請求項１に記載の音声合成方法。
前記推定工程は、
各部分素片毎に前記判定工程による有声音であるか無声音であるかの判定結果に従ってパワー推定用要因を獲得する獲得工程を更に備え、
前記判定工程の判定結果に応じて、前記獲得されたパワー推定用要因に対応するパラメータ値を取得してパワー値を推定することを特徴とする請求項４に記載の音声合成方法。
前記獲得工程は、前記判定工程の判定結果に応じて、当該部分素片の音素種別、当該部分素片の合成対象語におけるモーラ位置、合成対象語のモーラ数及びアクセント型を含むパワー推定用要因群の中から使用すべきパワー推定用要因を獲得することを特徴とする請求項５に記載の音声合成方法。
前記獲得工程は、前記判定工程によって有声音であると判定された場合は有声音用のパワー推定用要因を獲得し、無声音であると判定された場合は無声音用のパワー推定用要因を獲得することを特徴とする請求項６に記載の音声合成方法。
無声音の部分素片に対応するパワー基準値が当該無声音の平均パワーに１より大きい値を乗じた値に設定されていることを特徴とする請求項４乃至７のいずれかに記載の音声合成方法。
前記音声合成単位がＣＶ／ＶＣであることを特徴とする請求項１乃至８のいずれかに記載の音声合成方法。
前記音声合成単位がＶＣＶであることを特徴とする請求項１乃至８のいずれかに記載の音声合成方法。
所定単位の音声素片を音素境界で分割して部分素片を取得する分割手段と、
前記分割手段で得られた全ての部分素片の各々について合成音声出力時の目標とすべきパワー値を推定する推定手段と、
前記部分素片の各々について、前記推定手段で推定された部分素片のパワー値に基づいて当該部分素片のパワー値を変更する変更手段と、
前記変更手段で変更された部分素片を用いて合成音声を生成する生成手段とを備えることを特徴とする音声合成装置。
前記変更手段は、前記部分素片の各々について、
対応するパワー基準値を取得し、
前記推定手段で推定されたパワー値と前記取得されたパワー基準値の比から振幅変更倍率を計算し、
前記計算された振幅変更倍率に従って当該部分素片の振幅を変更することにより前記推定されたパワー値への変更を行うことを特徴とする請求項１１に記載の音声合成装置。
前記変更手段は、前記推定手段で推定したパワー値をｐ、前記取得したパワー基準値をｑとした場合に、
ｓ＝（ｐ／ｑ）^1/2
によって求まるｓを振幅変更倍率として、当該部分素片の振幅値を変更することを特徴とする請求項１２に記載の音声合成装置。
前記推定手段は、
前記部分素片の各々について有声音であるか無声音であるかを判定する判定手段を更に備え、
有声音であると判定された場合には有声音素片用のパラメータ値でパワー値を推定し、無声音であると判定された場合には無声音素片用のパラメータ値でパワー値を推定することを特徴とする請求項１１に記載の音声合成装置。
前記推定手段は、
各部分素片毎に前記判定手段による有声音であるか無声音であるかの判定結果に従ってパワー推定用要因を獲得する獲得手段を更に備え、
前記判定手段の判定結果に応じて、前記獲得されたパワー推定用要因に対応するパラメータ値を取得してパワー値を推定することを特徴とする請求項１４に記載の音声合成装置。
前記獲得手段は、前記判定手段の判定結果に応じて、当該部分素片の音素種別、当該部分素片の合成対象語におけるモーラ位置、合成対象語のモーラ数及びアクセント型を含むパワー推定要因群の中から使用すべきパワー推定用要因を獲得することを特徴とする請求項１５に記載の音声合成装置。
前記獲得手段は、前記判定手段によって有声音であると判定された場合は有声音用のパワー推定用要因を獲得し、無声音であると判定された場合は無声音用のパワー推定用要因を獲得することを特徴とする請求項１６に記載の音声合成装置。
無声音の部分素片に対応するパワー基準値が当該無声音の平均パワーに１より大きい値を乗じた値に設定されていることを特徴とする請求項１４乃至１７のいずれかに記載の音声合成装置。
前記音声合成単位がＣＶ／ＶＣであることを特徴とする請求項１１乃至１８のいずれかに記載の音声合成装置。
前記音声合成単位がＶＣＶであることを特徴とする請求項１１乃至１８のいずれかに記載の音声合成装置。
請求項１乃至１０のいずれかに記載の方法をコンピュータに実現させるための制御プログラムを格納する記憶媒体。