JP2011203761A - 音声合成装置および音声合成プログラム - Google Patents
音声合成装置および音声合成プログラム Download PDFInfo
- Publication number
- JP2011203761A JP2011203761A JP2011154271A JP2011154271A JP2011203761A JP 2011203761 A JP2011203761 A JP 2011203761A JP 2011154271 A JP2011154271 A JP 2011154271A JP 2011154271 A JP2011154271 A JP 2011154271A JP 2011203761 A JP2011203761 A JP 2011203761A
- Authority
- JP
- Japan
- Prior art keywords
- resonance
- data
- vector
- synthesis
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
【課題】画一的な操作により音声の曖昧さを制御することができる音声合成装置を提供する。
【解決手段】レゾナンス変換器22は、第1および第2のターゲットレゾナンス周波数を成分とするターゲットレゾナンスベクトルと、合成すべき音素における第1および第2のレゾナンス周波数を成分とするレゾナンスベクトルとを取得し、レゾナンスベクトルをターゲットレゾナンスベクトルに向けて明瞭度データに応じた量だけ変位させたベクトルの成分である第1および第2の合成用レゾナンス周波数を求める。調和成分生成器23は、第1および第2の合成用レゾナンス周波数においてレゾナンス曲線がピークとなる調和成分波形データを合成する。
【選択図】図1
【解決手段】レゾナンス変換器22は、第1および第2のターゲットレゾナンス周波数を成分とするターゲットレゾナンスベクトルと、合成すべき音素における第1および第2のレゾナンス周波数を成分とするレゾナンスベクトルとを取得し、レゾナンスベクトルをターゲットレゾナンスベクトルに向けて明瞭度データに応じた量だけ変位させたベクトルの成分である第1および第2の合成用レゾナンス周波数を求める。調和成分生成器23は、第1および第2の合成用レゾナンス周波数においてレゾナンス曲線がピークとなる調和成分波形データを合成する。
【選択図】図1
Description
本発明は、歌唱音声などの音声合成に好適な音声合成装置および音声合成プログラムに関する。
周知の通り、有声音の音素は、周波数軸上において規則的に並んだ線スペクトルにより構成されている。これらの線スペクトルの包絡線であるレゾナンス曲線は、周波数軸方向に並んだ複数のピークを有している。これらのピークは、周波数の低い順に第1レゾナンス、第2レゾナンス、…と呼ばれ、各レゾナンスの中心周波数はレゾナンス周波数と呼ばれる。/a/、/i/、/u/等の各音素のレゾナンス周波数に着目すると、第1レゾナンス周波数と第2レゾナンス周波数は、性別により、また、同性であっても個人により異なる。しかし、第1レゾナンス周波数と第2レゾナンス周波数との相対的な関係は音素毎に定まっている。人間の聴覚は、この第1レゾナンス周波数と第2レゾナンス周波数との関係を音素の特徴として捉え、音素が/a/、/i/、/u/等のいずれであるかを聞き分けている。従来、この点に着目し、音声合成の際に、操作子の操作に応じて、第1レゾナンス周波数および第2レゾナンス周波数を独立に制御し、例えば/a/と/e/の中間的な音声など、曖昧な音声を合成する技術が提案されていた。なお、この種の技術として例えば特許文献1に開示されたものがある。
ところで、上述した従来の技術において、所望の曖昧な音声を得るためには、有声音の各音素のレゾナンス周波数がどのような分布をしているのかを正確に把握した上で、音声学的な知識に従って、第1レゾナンス周波数および第2レゾナンス周波数を制御する必要がある。さらに曖昧な音声を得るために行うべきレゾナンス周波数の変更の態様は、音素毎に異なっており、ある音素では例えば第1レゾナンス周波数を所定量増加させると音声が曖昧になったとしても、別の音素にはこれとは異なるレゾナンス周波数の変更を行わないと音声が曖昧にならない、という場合がある。従って、従来の技術は、所望の曖昧さを持った音声を合成するための操作が煩雑であるという問題があった。
この発明は、以上説明した事情に鑑みてなされたものであり、合成される音声の曖昧さを画一的な操作により変化させることができる音声合成装置および音声合成プログラムを提供することを目的とする。
上述の課題を解決するため、本発明は、複数種類のターゲットレゾナンス周波数を成分とするターゲットレゾナンスベクトル、合成すべき音素における複数種類のレゾナンス周波数を成分とするレゾナンスベクトル、および当該音素内で時間的に変化する明瞭度データを取得し、当該音素の発音期間を分割したフレーム毎に、前記レゾナンスベクトルを前記ターゲットレゾナンスベクトルに向けて前記明瞭度データに応じた量だけ変位させたベクトルの成分である複数種類の合成用レゾナンス周波数を求めるレゾナンス変換手段と、前記レゾナンス変換手段により得られた複数種類の合成用レゾナンス周波数においてレゾナンス曲線がピークとなり、当該ピークの鋭さを前記明瞭度データに応じて変化させた音声波形を合成する波形合成手段とを具備することを特徴とする音声合成装置およびコンピュータをこの音声合成装置として機能させる音声合成プログラムを提供する。
また、別の好ましい態様において、前記フレーム毎に、当該音素のレゾナンス曲線を表すレゾナンスデータと当該音素の音高を指定するピッチデータを生成する合成パラメータ生成手段を具備し、前記レゾナンス変換手段は、レゾナンスデータが生成される度に、その時点における明瞭度データに応じて前記合成用レゾナンス周波数を求め、この合成用レゾナンス周波数によりレゾナンスデータ中の該当するレゾナンス周波数を置き換えた合成用レゾナンスデータを生成し、前記波形合成手段は、前記合成用レゾナンスデータ、前記ピッチデータおよび前記明瞭度データに基づいて音声波形の合成を行うことを特徴とする。
また、別の好ましい態様において、複数の歌手の各々に対応した前記ターゲットレゾナンスベクトルおよび前記レゾナンスベクトルを記憶する記憶手段と、前記歌手を示す情報を取得し、前記記憶手段に記憶された複数のターゲットレゾナンスベクトルおよび前記レゾナンスベクトルから当該情報が示す歌手に対応するターゲットレゾナンスベクトルおよび前記レゾナンスベクトルを選択する選択手段とを具備し、前記レゾナンス変換手段が取得するターゲットレゾナンスベクトルおよび前記レゾナンスベクトルは、前記選択手段によって選択されたターゲットレゾナンスベクトルおよび前記レゾナンスベクトルであることを特徴とする。
かかる発明によれば、合成される音声の曖昧さを明瞭度という一元的なパラメータの操作により調整することができるので、簡単に曖昧さを自由自在に変化させ、表現力に富んだ音声を得ることができる。
以下、図面を参照し、この発明の実施の形態を説明する。
まず、図1を参照し、この発明の一実施形態である音声合成装置の原理を説明する。図1は、ある人が理想的な状態で発声した有声音の音素/a/、/i/、/u/、/e/、/o/の各々の第1レゾナンス周波数f1および第2レゾナンス周波数f2に着目し、各音素を、第1レゾナンス周波数f1を横軸方向成分、第2レゾナンス周波数f2と縦軸方向成分とする2次元のベクトル(以下、レゾナンスベクトルという)として、2次元座標系(f1−f2座標系)に表したものである。
まず、図1を参照し、この発明の一実施形態である音声合成装置の原理を説明する。図1は、ある人が理想的な状態で発声した有声音の音素/a/、/i/、/u/、/e/、/o/の各々の第1レゾナンス周波数f1および第2レゾナンス周波数f2に着目し、各音素を、第1レゾナンス周波数f1を横軸方向成分、第2レゾナンス周波数f2と縦軸方向成分とする2次元のベクトル(以下、レゾナンスベクトルという)として、2次元座標系(f1−f2座標系)に表したものである。
本実施形態では、有声音の音素/a/、/i/、/u/、/e/、/o/の第1レゾナンス周波数同士および第2レゾナンス周波数同士を各々平均化するなどの方法により第1ターゲットレゾナンス周波数f1cおよび第2ターゲットレゾナンス周波数f2cを各々求めておく。この第1ターゲットレゾナンス周波数f1cおよび第2ターゲットレゾナンス周波数f2cを横軸方向成分および縦軸方向成分とするターゲットベクトルTは、2次元座標系において、いずれの音素のレゾナンスベクトルにも偏っておらず、/a/、/i/、/u/、/e/、/o/のいずれであるのか全く判断することができない最も曖昧な音素のベクトルである。ここで、ターゲットベクトルTと例えば音素/a/のレゾナンスベクトルの終点同士を結ぶ線分上の第1レゾナンス周波数f1および第2レゾナンス周波数f2の組を用いて音素の波形を合成するものとすると、この線分上、音素/a/のレゾナンスベクトルの終点に位置するf1、f2の組を用いた場合に最も明瞭に/a/と聴こえる音声が合成され、ここから離れてターゲットベクトルTの終点に向かうに従い、合成される音声の明瞭度は低下し、逆に音声の曖昧度は上昇する。他の音素とターゲットベクトルとの関係も同様である。
そこで、本実施形態では、ある音素を、ある明瞭度を持った音声として合成するべきときには、その音素のレゾナンスベクトルをターゲットベクトルTに向けて明瞭度に応じた量だけ変位させ、この変位後のベクトルの横軸成分である第1レゾナンス周波数、同ベクトルの縦軸成分である第2レゾナンス周波数を有する音声波形を合成するのである。このように本実施形態においては、明瞭度という一元的なデータを増減させることのみにより、合成される音素を明瞭度あるいは曖昧度を調整することができるので、簡単な操作により、表現力のある歌唱音声を合成することができる。
図2は、本実施形態に係る音声合成装置の構成例を示すブロック図である。この音声合成装置は、例えばパーソナルコンピュータである。図2において、CPU1は、この音声合成装置の各部を制御する装置である。ROM2は、CPU1により実行される基本的なシステムプログラムを記憶した読み出し専用メモリである。RAM3は、CPU1によりワークエリアとして使用される揮発性メモリである。HDD(ハードディスク装置)4には、各種のアプリケーションプログラムとデータベースが記憶されている。このHDD4に記憶されている情報のうち主要なものとして、歌唱音声の合成を行うプログラムと、歌唱音声の合成の際に参照されるデータベースがある。なお、これらについては後に詳述する。インタフェース5は、外部機器との間のデータの授受を制御する装置である。表示部6は、例えば液晶ディスプレイであり、CPU1による制御の下、各種の案内情報の表示を行う。操作部7は、ユーザの操作を受け付け、操作情報をCPU1に供給する装置である。サウンドシステム8は、CPU1から与えられる波形データ(デジタル信号)をアナログ音声信号に変換するD/A変換器とアナログ音声信号を増幅するアンプとこのアンプの出力信号により駆動されるスピーカとにより構成されている。
図3は、この音声合成装置の機能構成を示すブロック図である。この図において、シーケンスデータ11は、各種の曲毎に作成されたデータであり、HDD4に記憶されている。1つの曲に対応したシーケンスデータは、その曲を歌唱する歌手の歌手番号と、その曲の歌唱における発声の明瞭度の時間的変化を示す明瞭度データと、曲のメロディを示す音符データと、歌詞データとにより構成されている。ここで、明瞭度データと音符データと歌詞データは、時系列のデータであり、歌唱合成時、CPU1がHDD4内のシーケンサプログラムを実行することにより、曲の進行に合わせてHDD4から同期再生される。本実施形態では、明瞭度データとして、0〜1の範囲内の値をとるαが発生され、α=1のときに最も明瞭な音声が合成され、αが小さくなるほど曖昧な音声が合成される。好ましい態様では、様々な曲線または直線を描いて時間的に変化する明瞭度データαのセットがHDD4に各種記憶されている。ユーザは、操作部7の操作により、それらのセットが表している明瞭度の時間的変化の曲線や直線を表示部6に表示させ、所望の明瞭度データαのセットを選択することができ、この選択操作により、シーケンスデータにおける既存の明瞭度データαを修正したり、あるいは1曲分の明瞭度データαを編集することができる。操作部7がベンダホイールのような操作子を有している場合には、この操作子の回転量を検知することにより、時間的に変化する明瞭度データを発生し、ユーザによって指定された区間の明瞭度データとしてシーケンスデータに含ませるようにしてもよい。
音色テーブル群12およびターゲットレゾナンステーブル群13は、各々歌手毎に用意された音色テーブルおよびターゲットレゾナンステーブルの集合体であり、いずれもHDD4に記憶されている。1人の歌手の対応した音色テーブルでは、その歌手により発声される/a/、/i/、/u/等の有声音の各々のレゾナンスベクトルが定義されている。また、1人の歌手に対応したターゲットレゾナンステーブルでは、その歌手のターゲットレゾナンスベクトルが定義されている。既に述べたように、レゾナンスベクトルは、第1レゾナンス周波数f1および第2レゾナンス周波数f2を成分とする2次元ベクトルであり、ターゲットレゾナンスベクトルは、第1ターゲットレゾナンス周波数f1cおよび第2ターゲットレゾナンス周波数f2cを成分とする2次元ベクトルである。
合成パラメータ生成器21、レゾナンス変換器22、調和成分生成器23、ミキサ24および選択部25は、CPU1がHDD4に記憶されたアプリケーションプログラムの1つである歌唱合成プログラムを実行することにより営まれる諸機能である。
合成パラメータ生成器21は、シーケンサプログラムに従って再生される音符データからピッチデータを生成する。さらに詳述すると、合成パラメータ生成器21は、音符毎に、その音符に対応した歌詞の発声期間を一定長のフレームに分割し、フレーム毎にピッチデータを生成する。このように1つの音符に対応して複数のピッチデータを順次発生するのは、発声期間中における音声のピッチの変動を忠実に再現するためである。
また、合成パラメータ生成器21は、歌詞データがシーケンサプログラムにより再生されるとき、その歌詞データを解析して歌詞を音素の連鎖に変換し、音素連鎖における無声音の音素の波形を表す非調和成分波形データを出力するとともに、有声音の音素の波形のレゾナンスデータを出力する。レゾナンスデータは、合成すべき有声音の音素のレゾナンス曲線に現れる複数のピーク(レゾナンス)の周波数値とそれらのピーク値など、レゾナンス曲線の形状を表す情報により構成されている。このレゾナンスデータも、有声音の音素の発声期間を分割した一定長のフレーム毎に生成される。
同じ音素であっても、その音声波形には個人差がある。このため、合成パラメータ生成器21は、無声音の音素の非調和成分波形データまたは有声音の音素のレゾナンスデータを生成するためのデータを各種の音素片毎に音素片辞書を複数の歌手の各歌手番号に対応つけて記憶している。そして、合成パラメータ生成器21は、ある歌手番号の歌手の歌詞データが生成されるときには、その歌手番号に対応つけられた音素片辞書を参照して、非調和成分波形データおよびレゾナンスデータを生成する。
選択部25は、シーケンサプログラムに従って、ある歌手番号に対応したシーケンスデータがHDD4から再生されるとき、音色テーブル群12およびターゲットレゾナンステーブル群13の中から、その歌手番号に対応つけられた音色テーブルおよびターゲットレゾナンステーブルを選択し、選択したテーブル内の各音素のレゾナンスベクトルとターゲットレゾナンスベクトルとをレゾナンス変換器22に供給する。
レゾナンス変換器22は、シーケンサプログラムにより再生される明瞭度データαに応じてレゾナンスデータにおける第1レゾナンス周波数f1および第2レゾナンス周波数f2を変化させる手段である。さらに詳述すると、レゾナンス変換器22は、ある音素のレゾナンスデータが合成パラメータ生成器21により生成されたとき、選択部25を介して供給された各音素のレゾナンスベクトルの中から、その音素に対応したレゾナンスベクトルを選択する。そして、この選択したレゾナンスベクトルの成分である第1レゾナンス周波数f1および第2レゾナンス周波数f2と、選択部25を介して供給されたターゲットレゾナンスベクトルの成分である第1ターゲットレゾナンス周波数f1cおよび第2ターゲットレゾナンス周波数f2cと、明瞭度データαとに基づき、次式により第1レゾナンス周波数f1’および第2レゾナンス周波数f2’を算出する。
f1’=f1c+(f1−f1c)α ……(1)
f2’=f2c+(f2−f2c)α ……(2)
そして、レゾナンス変換器22は、合成パラメータ生成器21により生成されたレゾナンスデータにおける第1レゾナンス周波数f1および第2レゾナンス周波数f2を上記式(1)および(2)により得られた第1レゾナンス周波数f1’および第2レゾナンス周波数f2’に置き換える。
f1’=f1c+(f1−f1c)α ……(1)
f2’=f2c+(f2−f2c)α ……(2)
そして、レゾナンス変換器22は、合成パラメータ生成器21により生成されたレゾナンスデータにおける第1レゾナンス周波数f1および第2レゾナンス周波数f2を上記式(1)および(2)により得られた第1レゾナンス周波数f1’および第2レゾナンス周波数f2’に置き換える。
調和成分生成器23は、第1レゾナンス周波数および第2レゾナンス周波数の置換後のレゾナンスデータと合成パラメータ生成器21から供給されるピッチデータとに基づき調和成分波形データを生成する手段である。ミキサ24は、合成パラメータ生成器21により生成される非調和成分波形データと調和成分生成器23により生成される調和成分波形データとを合成し、歌唱音声の波形データを出力する手段である。
以上が本実施形態の機能構成である。
以上が本実施形態の機能構成である。
図4は本実施形態の動作を示すタイムチャートである。この図に示す例では、「さいた」なる歌詞の歌詞データとその歌唱のメロディを示す音符データがシーケンサプログラムにより生成されている(図4(a)および(b))。まず、「さ」の歌唱音声の合成を行う期間、合成パラメータ生成器21は、この「さ」の発声の音高を指定する音符データに基づき、ピッチデータを生成する(図4(g)参照)。また、合成パラメータ生成器21は、この「さ」を無声音の音素/s/と有声音の音素/a/とに分解し、音素片辞書を参照することにより、音素/s/に対応した非調和成分波形データ(図4(c)参照)と音素/a/に対応したレゾナンスデータ(図4(d)参照)を生成する。既に述べた通り、ピッチデータとレゾナンスデータは、音素/a/の発声期間を分割した一定長のフレーム毎に生成される。
以上の動作と並行し、シーケンサプログラムにより明瞭度データαが再生される。この明瞭度データαは、音素/a/の発声期間内において図4(e)に例示するように変化する。レゾナンス変換器22は、音素/a/の各レゾナンスデータが生成される度に、その時点における明瞭度データαに基づき、前掲式(1)および(2)に従って第1レゾナンス周波数f1’および第2レゾナンス周波数f2’を演算し、これらにより第1レゾナンス周波数および第2レゾナンス周波数が置換されたレゾナンスデータ(図4(f)参照)を生成する。図5は、このレゾナンス変換器22の動作を例示するものであり、実線はレゾナンス変換器22に入力されるレゾナンスデータが示すレゾナンス曲線、破線はレゾナンス変換器22から出力されるレゾナンスデータが示すレゾナンス曲線を示している。この図に示すように、本実施形態では、第1レゾナンス周波数および第2レゾナンス周波数の両方が明瞭度データαに応じた量だけシフトされる。
調和成分生成器23は、以上のようにしてレゾナンス変換器22から出力されるレゾナンスデータと合成パラメータ生成器21から出力されるピッチデータとに基づき、ピッチデータが示す音高の音素/a/の波形を示す調和成分波形データを生成する(図4(h)参照)。さらに詳述すると、調和成分生成器23は、図6に例示するように、ピッチデータが示す周波数に対応した基本波スペクトルおよびその高調波スペクトルからなり、レゾナンス変換器22から出力されるレゾナンスデータが示すレゾナンス曲線をスペクトル包絡とする一群のスペクトルを生成する。そして、調和成分生成器23は、それらのスペクトル群に逆FFTを施し、調和成分波形データを生成するのである。ミキサ24は、無声音の音素/s/の非調和成分波形データとこのようにして得られた調和成分波形データとを繋ぎ合わせ、「さ」の音声波形データとして出力する(図4(i)参照)。
以上の処理が後続の歌詞「い」、「た」についても同様に実行される。
以上の処理が後続の歌詞「い」、「た」についても同様に実行される。
以上説明したように、本実施形態によれば、1個の明瞭度データの増減のみにより各種の有声音の明瞭度を変化させることができる。より具体的に説明すると、例えば図1に示す音素/a/の合成を行う場合に、この音素/a/の第1レゾナンス周波数および第2レゾナンス周波数の組を、音素/a/のレゾナンスベクトル(図1における○印)とターゲットベクトルTとの間で、明瞭度に応じて移動させ、明瞭度を自由自在に変化させることができる。従って、本実施形態によれば、簡単な操作により表現力に富んだ歌唱音声を合成することができる。
<他の実施形態>
以上、この発明の一実施形態を説明したが、本発明にはこれ以外にも実施形態があり得る。例えば次の通りである。
(1)上記実施形態では、第1レゾナンス周波数および第2レゾナンス周波数を成分とする2次元ベクトルの操作により歌唱音声の明瞭度の制御を行ったが、さらに高次のレゾナンス周波数も成分に含め、3次元以上のレゾナンスベクトルとターゲットレゾナンスベクトルと明瞭度データとを用いた演算により、合成音声の明瞭度の制御を行うようにしてもよい。
(2)上記実施形態において歌唱音声の合成を行っている期間に、ベンドホイールの回転操作などを検知し、この操作に応じて、明瞭度データαを増減させ、この増減後の明瞭度データαを用いて歌唱音声を合成し、また、増減後の明瞭度データαによりシーケンスデータを更新するようにしてもよい。この態様によれば、シーケンスデータに基づいて生成される歌唱音声の明瞭度を、歌唱音声の合成をしながら随時変更することができる。
(3)明瞭度データに応じて第1レゾナンス周波数および第2レゾナンス周波数を変化させることに加えて、第1レゾナンスおよび第2レゾナンスの選択度Q、すなわち、各レゾナンスのピークの鋭さを変化させてもよい。具体的には、明瞭度を高くするときには第1レゾナンスおよび第2レゾナンスのピークの周波数幅を狭めたり、あるいはピークのレベルを高くすることにより選択度Qを高め、明瞭度を低くするときにはピークの周波数幅を広げたり、あるいはピークのレベルを低くすることにより選択度Qを低くする、という具合に、合成する音声の第1レゾナンスおよび第2レゾナンスの選択度Qを明瞭度データに応じて増減させてもよい。
(4)上記実施形態では、歌唱音声の合成を行う音声合成装置を例に挙げたが、本発明は、例えば映画の台詞の音声など、歌唱音声以外の音声の合成にも勿論適用可能である。
以上、この発明の一実施形態を説明したが、本発明にはこれ以外にも実施形態があり得る。例えば次の通りである。
(1)上記実施形態では、第1レゾナンス周波数および第2レゾナンス周波数を成分とする2次元ベクトルの操作により歌唱音声の明瞭度の制御を行ったが、さらに高次のレゾナンス周波数も成分に含め、3次元以上のレゾナンスベクトルとターゲットレゾナンスベクトルと明瞭度データとを用いた演算により、合成音声の明瞭度の制御を行うようにしてもよい。
(2)上記実施形態において歌唱音声の合成を行っている期間に、ベンドホイールの回転操作などを検知し、この操作に応じて、明瞭度データαを増減させ、この増減後の明瞭度データαを用いて歌唱音声を合成し、また、増減後の明瞭度データαによりシーケンスデータを更新するようにしてもよい。この態様によれば、シーケンスデータに基づいて生成される歌唱音声の明瞭度を、歌唱音声の合成をしながら随時変更することができる。
(3)明瞭度データに応じて第1レゾナンス周波数および第2レゾナンス周波数を変化させることに加えて、第1レゾナンスおよび第2レゾナンスの選択度Q、すなわち、各レゾナンスのピークの鋭さを変化させてもよい。具体的には、明瞭度を高くするときには第1レゾナンスおよび第2レゾナンスのピークの周波数幅を狭めたり、あるいはピークのレベルを高くすることにより選択度Qを高め、明瞭度を低くするときにはピークの周波数幅を広げたり、あるいはピークのレベルを低くすることにより選択度Qを低くする、という具合に、合成する音声の第1レゾナンスおよび第2レゾナンスの選択度Qを明瞭度データに応じて増減させてもよい。
(4)上記実施形態では、歌唱音声の合成を行う音声合成装置を例に挙げたが、本発明は、例えば映画の台詞の音声など、歌唱音声以外の音声の合成にも勿論適用可能である。
21……合成パラメータ生成器、22……レゾナンス変換器、23……調和成分生成器、24……ミキサ、25……選択部
Claims (4)
- 複数種類のターゲットレゾナンス周波数を成分とするターゲットレゾナンスベクトル、合成すべき音素における複数種類のレゾナンス周波数を成分とするレゾナンスベクトル、および当該音素内で時間的に変化する明瞭度データを取得し、当該音素の発音期間を分割したフレーム毎に、前記レゾナンスベクトルを前記ターゲットレゾナンスベクトルに向けて前記明瞭度データに応じた量だけ変位させたベクトルの成分である複数種類の合成用レゾナンス周波数を求めるレゾナンス変換手段と、
前記レゾナンス変換手段により得られた複数種類の合成用レゾナンス周波数においてレゾナンス曲線がピークとなり、当該ピークの鋭さを前記明瞭度データに応じて変化させた音声波形を合成する波形合成手段と
を具備することを特徴とする音声合成装置。 - 前記フレーム毎に、当該音素のレゾナンス曲線を表すレゾナンスデータと当該音素の音高を指定するピッチデータを生成する合成パラメータ生成手段を具備し、
前記レゾナンス変換手段は、レゾナンスデータが生成される度に、その時点における明瞭度データに応じて前記合成用レゾナンス周波数を求め、この合成用レゾナンス周波数によりレゾナンスデータ中の該当するレゾナンス周波数を置き換えた合成用レゾナンスデータを生成し、
前記波形合成手段は、前記合成用レゾナンスデータ、前記ピッチデータおよび前記明瞭度データに基づいて音声波形の合成を行う
ことを特徴とする請求項1に記載の音声合成装置。 - 複数の歌手の各々に対応した前記ターゲットレゾナンスベクトルおよび前記レゾナンスベクトルを記憶する記憶手段と、
前記歌手を示す情報を取得し、前記記憶手段に記憶された複数のターゲットレゾナンスベクトルおよび前記レゾナンスベクトルから当該情報が示す歌手に対応するターゲットレゾナンスベクトルおよび前記レゾナンスベクトルを選択する選択手段と
を具備し、
前記レゾナンス変換手段が取得するターゲットレゾナンスベクトルおよび前記レゾナンスベクトルは、前記選択手段によって選択されたターゲットレゾナンスベクトルおよび前記レゾナンスベクトルである
ことを特徴とする請求項1または請求項2に記載の音声合成装置。 - コンピュータを、
複数種類のターゲットレゾナンス周波数を成分とするターゲットレゾナンスベクトル、合成すべき音素における複数種類のレゾナンス周波数を成分とするレゾナンスベクトル、および当該音素内で時間的に変化する明瞭度データを取得し、当該音素の発音期間を分割したフレーム毎に、前記レゾナンスベクトルを前記ターゲットレゾナンスベクトルに向けて前記明瞭度データに応じた量だけ変位させたベクトルの成分である複数種類の合成用レゾナンス周波数を求めるレゾナンス変換手段と、
前記レゾナンス変換手段により得られた複数種類の合成用レゾナンス周波数においてレゾナンス曲線がピークとなり、当該ピークの鋭さを前記明瞭度データに応じて変化させた音声波形を合成する波形合成手段
として機能させることを特徴とする音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011154271A JP5310801B2 (ja) | 2011-07-12 | 2011-07-12 | 音声合成装置および音声合成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011154271A JP5310801B2 (ja) | 2011-07-12 | 2011-07-12 | 音声合成装置および音声合成プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005112076A Division JP5102939B2 (ja) | 2005-04-08 | 2005-04-08 | 音声合成装置および音声合成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011203761A true JP2011203761A (ja) | 2011-10-13 |
JP5310801B2 JP5310801B2 (ja) | 2013-10-09 |
Family
ID=44880386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011154271A Expired - Fee Related JP5310801B2 (ja) | 2011-07-12 | 2011-07-12 | 音声合成装置および音声合成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5310801B2 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06208395A (ja) * | 1992-10-30 | 1994-07-26 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | ホルマント検出装置及び音声加工装置 |
JP2001117568A (ja) * | 1999-10-21 | 2001-04-27 | Yamaha Corp | 歌唱評価装置およびカラオケ装置 |
JP2002108382A (ja) * | 2000-09-27 | 2002-04-10 | Sony Corp | リップシンクを行うアニメーション方法および装置 |
JP2003140678A (ja) * | 2001-10-31 | 2003-05-16 | Matsushita Electric Ind Co Ltd | 合成音声の音質調整方法と音声合成装置 |
JP2004086102A (ja) * | 2002-08-29 | 2004-03-18 | Fujitsu Ltd | 音声処理装置及び移動通信端末装置 |
JP2004219757A (ja) * | 2003-01-15 | 2004-08-05 | Fujitsu Ltd | 音声強調装置,音声強調方法および携帯端末 |
-
2011
- 2011-07-12 JP JP2011154271A patent/JP5310801B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06208395A (ja) * | 1992-10-30 | 1994-07-26 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | ホルマント検出装置及び音声加工装置 |
JP2001117568A (ja) * | 1999-10-21 | 2001-04-27 | Yamaha Corp | 歌唱評価装置およびカラオケ装置 |
JP2002108382A (ja) * | 2000-09-27 | 2002-04-10 | Sony Corp | リップシンクを行うアニメーション方法および装置 |
JP2003140678A (ja) * | 2001-10-31 | 2003-05-16 | Matsushita Electric Ind Co Ltd | 合成音声の音質調整方法と音声合成装置 |
JP2004086102A (ja) * | 2002-08-29 | 2004-03-18 | Fujitsu Ltd | 音声処理装置及び移動通信端末装置 |
JP2004219757A (ja) * | 2003-01-15 | 2004-08-05 | Fujitsu Ltd | 音声強調装置,音声強調方法および携帯端末 |
Also Published As
Publication number | Publication date |
---|---|
JP5310801B2 (ja) | 2013-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7613612B2 (en) | Voice synthesizer of multi sounds | |
EP1701336B1 (en) | Sound processing apparatus and method, and program therefor | |
JP6024191B2 (ja) | 音声合成装置および音声合成方法 | |
US8735709B2 (en) | Generation of harmony tone | |
WO2018084305A1 (ja) | 音声合成方法 | |
JP6561499B2 (ja) | 音声合成装置および音声合成方法 | |
TWI471853B (zh) | Music generating device | |
JP2018004870A (ja) | 音声合成装置および音声合成方法 | |
JP2018077283A (ja) | 音声合成方法 | |
JP6184296B2 (ja) | カラオケのガイドボーカル生成装置及びガイドボーカル生成方法 | |
JP5102939B2 (ja) | 音声合成装置および音声合成プログラム | |
JP4844623B2 (ja) | 合唱合成装置、合唱合成方法およびプログラム | |
JP4304934B2 (ja) | 合唱合成装置、合唱合成方法およびプログラム | |
JP5310801B2 (ja) | 音声合成装置および音声合成プログラム | |
JP2003345400A (ja) | ピッチ変換装置、ピッチ変換方法及びプログラム | |
US20220084492A1 (en) | Generative model establishment method, generative model establishment system, recording medium, and training data preparation method | |
JP5092905B2 (ja) | 歌唱合成装置およびプログラム | |
JP4565846B2 (ja) | ピッチ変換装置 | |
JP5251381B2 (ja) | 音処理装置およびプログラム | |
US20130231928A1 (en) | Sound synthesizing apparatus, sound processing apparatus, and sound synthesizing method | |
JP5552797B2 (ja) | 音声合成装置および音声合成方法 | |
JP6497065B2 (ja) | 音声合成用ライブラリ生成装置および音声合成装置 | |
JP2018077281A (ja) | 音声合成方法 | |
JP2018077280A (ja) | 音声合成方法 | |
JP4207237B2 (ja) | 音声合成装置およびその合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110801 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130604 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130617 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |