JP2011203761A

JP2011203761A - 音声合成装置および音声合成プログラム

Info

Publication number: JP2011203761A
Application number: JP2011154271A
Authority: JP
Inventors: Yuji Hisaminato; 裕司久湊
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2011-07-12
Filing date: 2011-07-12
Publication date: 2011-10-13
Anticipated expiration: 2025-04-08
Also published as: JP5310801B2

Abstract

【課題】画一的な操作により音声の曖昧さを制御することができる音声合成装置を提供する。
【解決手段】レゾナンス変換器２２は、第１および第２のターゲットレゾナンス周波数を成分とするターゲットレゾナンスベクトルと、合成すべき音素における第１および第２のレゾナンス周波数を成分とするレゾナンスベクトルとを取得し、レゾナンスベクトルをターゲットレゾナンスベクトルに向けて明瞭度データに応じた量だけ変位させたベクトルの成分である第１および第２の合成用レゾナンス周波数を求める。調和成分生成器２３は、第１および第２の合成用レゾナンス周波数においてレゾナンス曲線がピークとなる調和成分波形データを合成する。
【選択図】図１

Description

本発明は、歌唱音声などの音声合成に好適な音声合成装置および音声合成プログラムに関する。

周知の通り、有声音の音素は、周波数軸上において規則的に並んだ線スペクトルにより構成されている。これらの線スペクトルの包絡線であるレゾナンス曲線は、周波数軸方向に並んだ複数のピークを有している。これらのピークは、周波数の低い順に第１レゾナンス、第２レゾナンス、…と呼ばれ、各レゾナンスの中心周波数はレゾナンス周波数と呼ばれる。／ａ／、／ｉ／、／ｕ／等の各音素のレゾナンス周波数に着目すると、第１レゾナンス周波数と第２レゾナンス周波数は、性別により、また、同性であっても個人により異なる。しかし、第１レゾナンス周波数と第２レゾナンス周波数との相対的な関係は音素毎に定まっている。人間の聴覚は、この第１レゾナンス周波数と第２レゾナンス周波数との関係を音素の特徴として捉え、音素が／ａ／、／ｉ／、／ｕ／等のいずれであるかを聞き分けている。従来、この点に着目し、音声合成の際に、操作子の操作に応じて、第１レゾナンス周波数および第２レゾナンス周波数を独立に制御し、例えば／ａ／と／ｅ／の中間的な音声など、曖昧な音声を合成する技術が提案されていた。なお、この種の技術として例えば特許文献１に開示されたものがある。

特開平５−３２３９６２号公報

ところで、上述した従来の技術において、所望の曖昧な音声を得るためには、有声音の各音素のレゾナンス周波数がどのような分布をしているのかを正確に把握した上で、音声学的な知識に従って、第１レゾナンス周波数および第２レゾナンス周波数を制御する必要がある。さらに曖昧な音声を得るために行うべきレゾナンス周波数の変更の態様は、音素毎に異なっており、ある音素では例えば第１レゾナンス周波数を所定量増加させると音声が曖昧になったとしても、別の音素にはこれとは異なるレゾナンス周波数の変更を行わないと音声が曖昧にならない、という場合がある。従って、従来の技術は、所望の曖昧さを持った音声を合成するための操作が煩雑であるという問題があった。

この発明は、以上説明した事情に鑑みてなされたものであり、合成される音声の曖昧さを画一的な操作により変化させることができる音声合成装置および音声合成プログラムを提供することを目的とする。

上述の課題を解決するため、本発明は、複数種類のターゲットレゾナンス周波数を成分とするターゲットレゾナンスベクトル、合成すべき音素における複数種類のレゾナンス周波数を成分とするレゾナンスベクトル、および当該音素内で時間的に変化する明瞭度データを取得し、当該音素の発音期間を分割したフレーム毎に、前記レゾナンスベクトルを前記ターゲットレゾナンスベクトルに向けて前記明瞭度データに応じた量だけ変位させたベクトルの成分である複数種類の合成用レゾナンス周波数を求めるレゾナンス変換手段と、前記レゾナンス変換手段により得られた複数種類の合成用レゾナンス周波数においてレゾナンス曲線がピークとなり、当該ピークの鋭さを前記明瞭度データに応じて変化させた音声波形を合成する波形合成手段とを具備することを特徴とする音声合成装置およびコンピュータをこの音声合成装置として機能させる音声合成プログラムを提供する。

また、別の好ましい態様において、前記フレーム毎に、当該音素のレゾナンス曲線を表すレゾナンスデータと当該音素の音高を指定するピッチデータを生成する合成パラメータ生成手段を具備し、前記レゾナンス変換手段は、レゾナンスデータが生成される度に、その時点における明瞭度データに応じて前記合成用レゾナンス周波数を求め、この合成用レゾナンス周波数によりレゾナンスデータ中の該当するレゾナンス周波数を置き換えた合成用レゾナンスデータを生成し、前記波形合成手段は、前記合成用レゾナンスデータ、前記ピッチデータおよび前記明瞭度データに基づいて音声波形の合成を行うことを特徴とする。

また、別の好ましい態様において、複数の歌手の各々に対応した前記ターゲットレゾナンスベクトルおよび前記レゾナンスベクトルを記憶する記憶手段と、前記歌手を示す情報を取得し、前記記憶手段に記憶された複数のターゲットレゾナンスベクトルおよび前記レゾナンスベクトルから当該情報が示す歌手に対応するターゲットレゾナンスベクトルおよび前記レゾナンスベクトルを選択する選択手段とを具備し、前記レゾナンス変換手段が取得するターゲットレゾナンスベクトルおよび前記レゾナンスベクトルは、前記選択手段によって選択されたターゲットレゾナンスベクトルおよび前記レゾナンスベクトルであることを特徴とする。

かかる発明によれば、合成される音声の曖昧さを明瞭度という一元的なパラメータの操作により調整することができるので、簡単に曖昧さを自由自在に変化させ、表現力に富んだ音声を得ることができる。

この発明の一実施形態である音声合成装置の原理を示す図である。同実施形態における音声合成装置の構成を示すブロック図である。同音声合成装置の機能構成を示すブロック図である。同音声合成装置の動作を示すタイムチャートである。同音声合成装置において行われるレゾナンス変換を示す図である。同音声合成装置において行われるピッチ変換を示す図である。

以下、図面を参照し、この発明の実施の形態を説明する。
まず、図１を参照し、この発明の一実施形態である音声合成装置の原理を説明する。図１は、ある人が理想的な状態で発声した有声音の音素／ａ／、／ｉ／、／ｕ／、／ｅ／、／ｏ／の各々の第１レゾナンス周波数ｆ１および第２レゾナンス周波数ｆ２に着目し、各音素を、第１レゾナンス周波数ｆ１を横軸方向成分、第２レゾナンス周波数ｆ２と縦軸方向成分とする２次元のベクトル（以下、レゾナンスベクトルという）として、２次元座標系（ｆ１−ｆ２座標系）に表したものである。

本実施形態では、有声音の音素／ａ／、／ｉ／、／ｕ／、／ｅ／、／ｏ／の第１レゾナンス周波数同士および第２レゾナンス周波数同士を各々平均化するなどの方法により第１ターゲットレゾナンス周波数ｆ１ｃおよび第２ターゲットレゾナンス周波数ｆ２ｃを各々求めておく。この第１ターゲットレゾナンス周波数ｆ１ｃおよび第２ターゲットレゾナンス周波数ｆ２ｃを横軸方向成分および縦軸方向成分とするターゲットベクトルＴは、２次元座標系において、いずれの音素のレゾナンスベクトルにも偏っておらず、／ａ／、／ｉ／、／ｕ／、／ｅ／、／ｏ／のいずれであるのか全く判断することができない最も曖昧な音素のベクトルである。ここで、ターゲットベクトルＴと例えば音素／ａ／のレゾナンスベクトルの終点同士を結ぶ線分上の第１レゾナンス周波数ｆ１および第２レゾナンス周波数ｆ２の組を用いて音素の波形を合成するものとすると、この線分上、音素／ａ／のレゾナンスベクトルの終点に位置するｆ１、ｆ２の組を用いた場合に最も明瞭に／ａ／と聴こえる音声が合成され、ここから離れてターゲットベクトルＴの終点に向かうに従い、合成される音声の明瞭度は低下し、逆に音声の曖昧度は上昇する。他の音素とターゲットベクトルとの関係も同様である。

そこで、本実施形態では、ある音素を、ある明瞭度を持った音声として合成するべきときには、その音素のレゾナンスベクトルをターゲットベクトルＴに向けて明瞭度に応じた量だけ変位させ、この変位後のベクトルの横軸成分である第１レゾナンス周波数、同ベクトルの縦軸成分である第２レゾナンス周波数を有する音声波形を合成するのである。このように本実施形態においては、明瞭度という一元的なデータを増減させることのみにより、合成される音素を明瞭度あるいは曖昧度を調整することができるので、簡単な操作により、表現力のある歌唱音声を合成することができる。

図２は、本実施形態に係る音声合成装置の構成例を示すブロック図である。この音声合成装置は、例えばパーソナルコンピュータである。図２において、ＣＰＵ１は、この音声合成装置の各部を制御する装置である。ＲＯＭ２は、ＣＰＵ１により実行される基本的なシステムプログラムを記憶した読み出し専用メモリである。ＲＡＭ３は、ＣＰＵ１によりワークエリアとして使用される揮発性メモリである。ＨＤＤ（ハードディスク装置）４には、各種のアプリケーションプログラムとデータベースが記憶されている。このＨＤＤ４に記憶されている情報のうち主要なものとして、歌唱音声の合成を行うプログラムと、歌唱音声の合成の際に参照されるデータベースがある。なお、これらについては後に詳述する。インタフェース５は、外部機器との間のデータの授受を制御する装置である。表示部６は、例えば液晶ディスプレイであり、ＣＰＵ１による制御の下、各種の案内情報の表示を行う。操作部７は、ユーザの操作を受け付け、操作情報をＣＰＵ１に供給する装置である。サウンドシステム８は、ＣＰＵ１から与えられる波形データ（デジタル信号）をアナログ音声信号に変換するＤ／Ａ変換器とアナログ音声信号を増幅するアンプとこのアンプの出力信号により駆動されるスピーカとにより構成されている。

図３は、この音声合成装置の機能構成を示すブロック図である。この図において、シーケンスデータ１１は、各種の曲毎に作成されたデータであり、ＨＤＤ４に記憶されている。１つの曲に対応したシーケンスデータは、その曲を歌唱する歌手の歌手番号と、その曲の歌唱における発声の明瞭度の時間的変化を示す明瞭度データと、曲のメロディを示す音符データと、歌詞データとにより構成されている。ここで、明瞭度データと音符データと歌詞データは、時系列のデータであり、歌唱合成時、ＣＰＵ１がＨＤＤ４内のシーケンサプログラムを実行することにより、曲の進行に合わせてＨＤＤ４から同期再生される。本実施形態では、明瞭度データとして、０〜１の範囲内の値をとるαが発生され、α＝１のときに最も明瞭な音声が合成され、αが小さくなるほど曖昧な音声が合成される。好ましい態様では、様々な曲線または直線を描いて時間的に変化する明瞭度データαのセットがＨＤＤ４に各種記憶されている。ユーザは、操作部７の操作により、それらのセットが表している明瞭度の時間的変化の曲線や直線を表示部６に表示させ、所望の明瞭度データαのセットを選択することができ、この選択操作により、シーケンスデータにおける既存の明瞭度データαを修正したり、あるいは１曲分の明瞭度データαを編集することができる。操作部７がベンダホイールのような操作子を有している場合には、この操作子の回転量を検知することにより、時間的に変化する明瞭度データを発生し、ユーザによって指定された区間の明瞭度データとしてシーケンスデータに含ませるようにしてもよい。

音色テーブル群１２およびターゲットレゾナンステーブル群１３は、各々歌手毎に用意された音色テーブルおよびターゲットレゾナンステーブルの集合体であり、いずれもＨＤＤ４に記憶されている。１人の歌手の対応した音色テーブルでは、その歌手により発声される／ａ／、／ｉ／、／ｕ／等の有声音の各々のレゾナンスベクトルが定義されている。また、１人の歌手に対応したターゲットレゾナンステーブルでは、その歌手のターゲットレゾナンスベクトルが定義されている。既に述べたように、レゾナンスベクトルは、第１レゾナンス周波数ｆ１および第２レゾナンス周波数ｆ２を成分とする２次元ベクトルであり、ターゲットレゾナンスベクトルは、第１ターゲットレゾナンス周波数ｆ１ｃおよび第２ターゲットレゾナンス周波数ｆ２ｃを成分とする２次元ベクトルである。

合成パラメータ生成器２１、レゾナンス変換器２２、調和成分生成器２３、ミキサ２４および選択部２５は、ＣＰＵ１がＨＤＤ４に記憶されたアプリケーションプログラムの１つである歌唱合成プログラムを実行することにより営まれる諸機能である。

合成パラメータ生成器２１は、シーケンサプログラムに従って再生される音符データからピッチデータを生成する。さらに詳述すると、合成パラメータ生成器２１は、音符毎に、その音符に対応した歌詞の発声期間を一定長のフレームに分割し、フレーム毎にピッチデータを生成する。このように１つの音符に対応して複数のピッチデータを順次発生するのは、発声期間中における音声のピッチの変動を忠実に再現するためである。

また、合成パラメータ生成器２１は、歌詞データがシーケンサプログラムにより再生されるとき、その歌詞データを解析して歌詞を音素の連鎖に変換し、音素連鎖における無声音の音素の波形を表す非調和成分波形データを出力するとともに、有声音の音素の波形のレゾナンスデータを出力する。レゾナンスデータは、合成すべき有声音の音素のレゾナンス曲線に現れる複数のピーク（レゾナンス）の周波数値とそれらのピーク値など、レゾナンス曲線の形状を表す情報により構成されている。このレゾナンスデータも、有声音の音素の発声期間を分割した一定長のフレーム毎に生成される。

同じ音素であっても、その音声波形には個人差がある。このため、合成パラメータ生成器２１は、無声音の音素の非調和成分波形データまたは有声音の音素のレゾナンスデータを生成するためのデータを各種の音素片毎に音素片辞書を複数の歌手の各歌手番号に対応つけて記憶している。そして、合成パラメータ生成器２１は、ある歌手番号の歌手の歌詞データが生成されるときには、その歌手番号に対応つけられた音素片辞書を参照して、非調和成分波形データおよびレゾナンスデータを生成する。

選択部２５は、シーケンサプログラムに従って、ある歌手番号に対応したシーケンスデータがＨＤＤ４から再生されるとき、音色テーブル群１２およびターゲットレゾナンステーブル群１３の中から、その歌手番号に対応つけられた音色テーブルおよびターゲットレゾナンステーブルを選択し、選択したテーブル内の各音素のレゾナンスベクトルとターゲットレゾナンスベクトルとをレゾナンス変換器２２に供給する。

レゾナンス変換器２２は、シーケンサプログラムにより再生される明瞭度データαに応じてレゾナンスデータにおける第１レゾナンス周波数ｆ１および第２レゾナンス周波数ｆ２を変化させる手段である。さらに詳述すると、レゾナンス変換器２２は、ある音素のレゾナンスデータが合成パラメータ生成器２１により生成されたとき、選択部２５を介して供給された各音素のレゾナンスベクトルの中から、その音素に対応したレゾナンスベクトルを選択する。そして、この選択したレゾナンスベクトルの成分である第１レゾナンス周波数ｆ１および第２レゾナンス周波数ｆ２と、選択部２５を介して供給されたターゲットレゾナンスベクトルの成分である第１ターゲットレゾナンス周波数ｆ１ｃおよび第２ターゲットレゾナンス周波数ｆ２ｃと、明瞭度データαとに基づき、次式により第１レゾナンス周波数ｆ１’および第２レゾナンス周波数ｆ２’を算出する。
ｆ１’＝ｆ１ｃ＋（ｆ１−ｆ１ｃ）α ……（１）
ｆ２’＝ｆ２ｃ＋（ｆ２−ｆ２ｃ）α ……（２）
そして、レゾナンス変換器２２は、合成パラメータ生成器２１により生成されたレゾナンスデータにおける第１レゾナンス周波数ｆ１および第２レゾナンス周波数ｆ２を上記式（１）および（２）により得られた第１レゾナンス周波数ｆ１’および第２レゾナンス周波数ｆ２’に置き換える。

調和成分生成器２３は、第１レゾナンス周波数および第２レゾナンス周波数の置換後のレゾナンスデータと合成パラメータ生成器２１から供給されるピッチデータとに基づき調和成分波形データを生成する手段である。ミキサ２４は、合成パラメータ生成器２１により生成される非調和成分波形データと調和成分生成器２３により生成される調和成分波形データとを合成し、歌唱音声の波形データを出力する手段である。
以上が本実施形態の機能構成である。

図４は本実施形態の動作を示すタイムチャートである。この図に示す例では、「さいた」なる歌詞の歌詞データとその歌唱のメロディを示す音符データがシーケンサプログラムにより生成されている（図４（ａ）および（ｂ））。まず、「さ」の歌唱音声の合成を行う期間、合成パラメータ生成器２１は、この「さ」の発声の音高を指定する音符データに基づき、ピッチデータを生成する（図４（ｇ）参照）。また、合成パラメータ生成器２１は、この「さ」を無声音の音素／ｓ／と有声音の音素／ａ／とに分解し、音素片辞書を参照することにより、音素／ｓ／に対応した非調和成分波形データ（図４（ｃ）参照）と音素／ａ／に対応したレゾナンスデータ（図４（ｄ）参照）を生成する。既に述べた通り、ピッチデータとレゾナンスデータは、音素／ａ／の発声期間を分割した一定長のフレーム毎に生成される。

以上の動作と並行し、シーケンサプログラムにより明瞭度データαが再生される。この明瞭度データαは、音素／ａ／の発声期間内において図４（ｅ）に例示するように変化する。レゾナンス変換器２２は、音素／ａ／の各レゾナンスデータが生成される度に、その時点における明瞭度データαに基づき、前掲式（１）および（２）に従って第１レゾナンス周波数ｆ１’および第２レゾナンス周波数ｆ２’を演算し、これらにより第１レゾナンス周波数および第２レゾナンス周波数が置換されたレゾナンスデータ（図４（ｆ）参照）を生成する。図５は、このレゾナンス変換器２２の動作を例示するものであり、実線はレゾナンス変換器２２に入力されるレゾナンスデータが示すレゾナンス曲線、破線はレゾナンス変換器２２から出力されるレゾナンスデータが示すレゾナンス曲線を示している。この図に示すように、本実施形態では、第１レゾナンス周波数および第２レゾナンス周波数の両方が明瞭度データαに応じた量だけシフトされる。

調和成分生成器２３は、以上のようにしてレゾナンス変換器２２から出力されるレゾナンスデータと合成パラメータ生成器２１から出力されるピッチデータとに基づき、ピッチデータが示す音高の音素／ａ／の波形を示す調和成分波形データを生成する（図４（ｈ）参照）。さらに詳述すると、調和成分生成器２３は、図６に例示するように、ピッチデータが示す周波数に対応した基本波スペクトルおよびその高調波スペクトルからなり、レゾナンス変換器２２から出力されるレゾナンスデータが示すレゾナンス曲線をスペクトル包絡とする一群のスペクトルを生成する。そして、調和成分生成器２３は、それらのスペクトル群に逆ＦＦＴを施し、調和成分波形データを生成するのである。ミキサ２４は、無声音の音素／ｓ／の非調和成分波形データとこのようにして得られた調和成分波形データとを繋ぎ合わせ、「さ」の音声波形データとして出力する（図４（ｉ）参照）。
以上の処理が後続の歌詞「い」、「た」についても同様に実行される。

以上説明したように、本実施形態によれば、１個の明瞭度データの増減のみにより各種の有声音の明瞭度を変化させることができる。より具体的に説明すると、例えば図１に示す音素／ａ／の合成を行う場合に、この音素／ａ／の第１レゾナンス周波数および第２レゾナンス周波数の組を、音素／ａ／のレゾナンスベクトル（図１における○印）とターゲットベクトルＴとの間で、明瞭度に応じて移動させ、明瞭度を自由自在に変化させることができる。従って、本実施形態によれば、簡単な操作により表現力に富んだ歌唱音声を合成することができる。

＜他の実施形態＞
以上、この発明の一実施形態を説明したが、本発明にはこれ以外にも実施形態があり得る。例えば次の通りである。
（１）上記実施形態では、第１レゾナンス周波数および第２レゾナンス周波数を成分とする２次元ベクトルの操作により歌唱音声の明瞭度の制御を行ったが、さらに高次のレゾナンス周波数も成分に含め、３次元以上のレゾナンスベクトルとターゲットレゾナンスベクトルと明瞭度データとを用いた演算により、合成音声の明瞭度の制御を行うようにしてもよい。
（２）上記実施形態において歌唱音声の合成を行っている期間に、ベンドホイールの回転操作などを検知し、この操作に応じて、明瞭度データαを増減させ、この増減後の明瞭度データαを用いて歌唱音声を合成し、また、増減後の明瞭度データαによりシーケンスデータを更新するようにしてもよい。この態様によれば、シーケンスデータに基づいて生成される歌唱音声の明瞭度を、歌唱音声の合成をしながら随時変更することができる。
（３）明瞭度データに応じて第１レゾナンス周波数および第２レゾナンス周波数を変化させることに加えて、第１レゾナンスおよび第２レゾナンスの選択度Ｑ、すなわち、各レゾナンスのピークの鋭さを変化させてもよい。具体的には、明瞭度を高くするときには第１レゾナンスおよび第２レゾナンスのピークの周波数幅を狭めたり、あるいはピークのレベルを高くすることにより選択度Ｑを高め、明瞭度を低くするときにはピークの周波数幅を広げたり、あるいはピークのレベルを低くすることにより選択度Ｑを低くする、という具合に、合成する音声の第１レゾナンスおよび第２レゾナンスの選択度Ｑを明瞭度データに応じて増減させてもよい。
（４）上記実施形態では、歌唱音声の合成を行う音声合成装置を例に挙げたが、本発明は、例えば映画の台詞の音声など、歌唱音声以外の音声の合成にも勿論適用可能である。

２１……合成パラメータ生成器、２２……レゾナンス変換器、２３……調和成分生成器、２４……ミキサ、２５……選択部

Claims

複数種類のターゲットレゾナンス周波数を成分とするターゲットレゾナンスベクトル、合成すべき音素における複数種類のレゾナンス周波数を成分とするレゾナンスベクトル、および当該音素内で時間的に変化する明瞭度データを取得し、当該音素の発音期間を分割したフレーム毎に、前記レゾナンスベクトルを前記ターゲットレゾナンスベクトルに向けて前記明瞭度データに応じた量だけ変位させたベクトルの成分である複数種類の合成用レゾナンス周波数を求めるレゾナンス変換手段と、
前記レゾナンス変換手段により得られた複数種類の合成用レゾナンス周波数においてレゾナンス曲線がピークとなり、当該ピークの鋭さを前記明瞭度データに応じて変化させた音声波形を合成する波形合成手段と
を具備することを特徴とする音声合成装置。
前記フレーム毎に、当該音素のレゾナンス曲線を表すレゾナンスデータと当該音素の音高を指定するピッチデータを生成する合成パラメータ生成手段を具備し、
前記レゾナンス変換手段は、レゾナンスデータが生成される度に、その時点における明瞭度データに応じて前記合成用レゾナンス周波数を求め、この合成用レゾナンス周波数によりレゾナンスデータ中の該当するレゾナンス周波数を置き換えた合成用レゾナンスデータを生成し、
前記波形合成手段は、前記合成用レゾナンスデータ、前記ピッチデータおよび前記明瞭度データに基づいて音声波形の合成を行う
ことを特徴とする請求項１に記載の音声合成装置。
複数の歌手の各々に対応した前記ターゲットレゾナンスベクトルおよび前記レゾナンスベクトルを記憶する記憶手段と、
前記歌手を示す情報を取得し、前記記憶手段に記憶された複数のターゲットレゾナンスベクトルおよび前記レゾナンスベクトルから当該情報が示す歌手に対応するターゲットレゾナンスベクトルおよび前記レゾナンスベクトルを選択する選択手段と
を具備し、
前記レゾナンス変換手段が取得するターゲットレゾナンスベクトルおよび前記レゾナンスベクトルは、前記選択手段によって選択されたターゲットレゾナンスベクトルおよび前記レゾナンスベクトルである
ことを特徴とする請求項１または請求項２に記載の音声合成装置。
コンピュータを、
複数種類のターゲットレゾナンス周波数を成分とするターゲットレゾナンスベクトル、合成すべき音素における複数種類のレゾナンス周波数を成分とするレゾナンスベクトル、および当該音素内で時間的に変化する明瞭度データを取得し、当該音素の発音期間を分割したフレーム毎に、前記レゾナンスベクトルを前記ターゲットレゾナンスベクトルに向けて前記明瞭度データに応じた量だけ変位させたベクトルの成分である複数種類の合成用レゾナンス周波数を求めるレゾナンス変換手段と、
前記レゾナンス変換手段により得られた複数種類の合成用レゾナンス周波数においてレゾナンス曲線がピークとなり、当該ピークの鋭さを前記明瞭度データに応じて変化させた音声波形を合成する波形合成手段
として機能させることを特徴とする音声合成プログラム。