JP4839891B2 - 歌唱合成装置および歌唱合成プログラム - Google Patents
歌唱合成装置および歌唱合成プログラム Download PDFInfo
- Publication number
- JP4839891B2 JP4839891B2 JP2006058771A JP2006058771A JP4839891B2 JP 4839891 B2 JP4839891 B2 JP 4839891B2 JP 2006058771 A JP2006058771 A JP 2006058771A JP 2006058771 A JP2006058771 A JP 2006058771A JP 4839891 B2 JP4839891 B2 JP 4839891B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- data
- speech
- speech unit
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Description
(1)合成すべき音声の音声素片に対応する音声波形を周波数分析して周波数スペクトルを検出する。
(2)検出した周波数スペクトル上でスペクトル強度の局所的ピーク(すなわち、倍音に対応したスペクトル)を複数検知する。
(3)各局所的ピーク毎に、各局所的ピークとその前後のスペクトルとを含むスペクトル分布領域を指定し、各スペクトル分布領域毎に振幅スペクトル分布を周波数軸に関して表わす振幅スペクトルを生成する。
(4)各スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わす位相スペクトルを生成する。
(5)合成すべき音声についてピッチを指定する。
(6)各スペクトル分布領域毎に振幅スペクトルが表わす振幅スペクトル分布を合成すべき音声のピッチに応じて周波数軸方向に移動する。
(7)上記(6)の振幅スペクトルの修正に対応して、各スペクトル分布領域毎に位相スペクトルが表わす位相スペクトル分布を修正する。
(8)修正された振幅スペクトルおよび修正された位相スペクトルを時間領域の合成音声信号に変換する。
かかる発明によれば、局所的ピークの近傍のローカルな周波数領域の振幅スペクトル分布の形状およびスペクトル包絡の形状を変えることなく、局所的ピークの周波数を歌唱合成スコアにより指定されたピッチに対応した周波数にすることができる。また、ローカルな周波数領域のみならず、それらの間の中間周波数領域の振幅スペクトルをも含めて周波数軸方向の圧縮または伸張処理を行うようにしているので、ピッチ変換の際に中間周波数領域の振幅スペクトルが損なわれない。従って、音声素片が本来有していた音の特徴を損なうことなく、ピッチ変換を行うことができる。
<A.実施形態の構成>
<<A−1.全体構成>>
図1は、この発明の一実施形態である歌唱合成装置の構成を示すブロック図である。この歌唱合成装置は、音声を出力する機能を有するパーソナルコンピュータなどのコンピュータに対し、歌唱合成プログラムをインストールしたものである。図1において、CPU1は、この歌唱合成装置の各部を制御する制御中枢である。ROM2は、ローダなど、この歌唱合成装置の基本的な動作を制御するための制御プログラムを記憶した読み出し専用メモリである。表示部3は、装置の動作状態や入力データおよび操作者に対するメッセージなどを表示するための装置である。操作部4は、ユーザからコマンドや各種の情報を受け取るための手段であり、キーボードやマウスなどの各種の操作子により構成されている。インタフェース群5は、ネットワークを介して他の装置との間でデータ通信を行うためのネットワークインタフェースや、磁気ディスクやCD−ROMなどの外部記憶媒体との間でデータの授受を行うためのドライバなどにより構成されている。HDD(ハードディスク装置)6は、各種のプログラムやデータベースなどの情報を記憶するための不揮発性記憶装置である。RAM7は、CPU1によってワークエリアとして使用される揮発性メモリである。CPU1は、操作部4を介して与えられる指令に従い、HDD6内のプログラムをRAM7にロードして実行する。サウンドシステム8は、この歌唱合成装置において合成された音声を出力する手段であり、合成音声のサンプルデータであるデジタル音声信号をアナログ音声信号に変換するD/A変換器と、このアナログ音声信号を増幅するアンプと、このアンプの出力信号を音として出力するスピーカ等により構成されている。
本実施形態の特徴は、CPU1が歌唱合成プログラム64に従って行う歌唱合成処理の内容にある。図2はこの歌唱合成プログラム64の構成を示すブロック図である。図2に示すように、歌唱合成プログラム64は、各々所定の機能を実現するプログラムである歌唱合成スコア生成部641と、素片選択部642と、ピッチ変換部643と、素片連結部644とにより構成されている。なお、本実施形態では、CPU1が歌唱合成スコア生成部641等に相当する各プログラムを実行することにより歌唱音声の合成を行うが、これらの各プログラムを複数のプロセッサが分担して並列実行するように構成してもよい。また、歌唱合成スコア生成部641等の各プログラムの一部を電子回路により構成してもよい。
以下、本実施形態の動作を説明する。
操作部4の操作により、曲データ62および歌唱合成に用いる音声素片データのグループの指定が行われると、CPU1は、歌唱合成プログラム64を実行する。その際、歌唱合成プログラム64の歌唱合成スコア生成部641は、曲データ62から歌唱合成スコア650を生成し、素片選択部642、ピッチ変換部643および素片連結部644は、歌唱合成スコア650に従って歌唱音声の波形を示すデジタル音声信号を生成する。これらの各処理の詳細は以下に示す通りである。
<<B1−1.歌唱合成スコアの生成>>
歌唱合成スコア生成部641は、曲データ62から歌唱合成スコア650の各トラック651〜653を生成する。以下、音韻データトラック651、ピッチデータトラック652の順に、それらを生成する動作について説明する。なお、その他のデータトラック653を生成する動作については、本発明との関係が薄いのでその説明を省略する。
図3は、音符N1、N2、N3に合わせて音素列[sa−i−ta]を歌唱する場合を例に、歌唱合成スコア生成部641が音韻データトラック651を生成する過程を示したものである。まず、歌唱合成スコア生成部641の音素列/音声素片変換手段は、歌詞データが示す音素列[sa−i−ta]を音声素片の列[#s、s−a、a、a−i、i、i−t、t−a、a#]に変換する。
歌唱合成スコア生成部641は、基本的には音符データに従い、また、ビブラートやレガート、ポルタメントの指示がある場合にはその指示に従ってピッチデータトラック652を生成するが、人間が行う歌唱に似た自然なピッチ変化を実現するため、音符の切り換わり区間においてピッチデータトラックが示すピッチに自然な動きを与える。この音符の切り換わり部におけるピッチの動きを付与する処理の態様として、例えば以下説明するピッチモデルを使用する態様と、制御点を使用する態様がある。
この態様は、本出願人による先願である特許文献6に開示された態様である。この態様においてピッチモデルとは、ピッチデータトラック652において、ピッチの不連続な変化を連続的な変化に変換するための連続曲線モデルのことである。ピッチモデルは、その付与される位置との関係により、立ち上がり部ピッチモデル、遷移部ピッチモデル、立ち下がり部ピッチモデルの3つに大別される。
なお、以上は、ピッチデータトラック652の生成に使用するピッチモデルの一例であり、これら以外にも様々なピッチモデルの適用例がある。詳細は特許文献6を参照されたい。
この態様は、本出願人が特願2005−157758号において提案している態様である。この態様において、歌唱合成スコア生成部641は、ピッチデータトラック652を生成するための処理として、制御点設定処理と、ピッチデータ生成処理とを有している。この態様では、合成される歌唱音声の表情を豊かなものにするため、音符に対応したピッチに到達した以降における歌唱音声のピッチが、ある軌道に沿って変化するように、ピッチデータトラック652を生成する。このようなピッチデータトラック652を得るため、制御点設定処理では、音符毎に、合成される歌唱音のピッチの軌跡の目標通過点として、基本的には3個の制御点A、BおよびC、例外的にはそれらのうちの2個または1個の制御点を定める。ここで、制御点Aは、歌唱音のピッチが音符に対応したピッチに到達した後、最初に通過すべき目標通過点、制御点Bは、2番目に通過すべき目標通過点、制御点Cは最後に通過すべき目標通過点である。
p=pA+((pB−pA)/(tB−tA))(t−tA) ……(1)
ここで、pAは制御点Aのピッチ、pBは制御点Bのピッチ、tAは制御点Aの時刻、tBは制御点Bの時刻である。
p=pA+((pB−pA)/(tB−tA))(t−tA)
−v1sin2(π(t−tA)/(tB−tA)) ……(2)
ここで、v1は谷の深さを表すパラメータである。
制御点BおよびC間のピッチの軌道も同様であり、この軌道は制御点間を結ぶ直線としてもよいし、曲線としてもよい。
本実施形態では、実際の人間の歌唱音におけるピッチの振る舞いに合わせ、制御点AおよびB間の軌道は谷とし、制御点BおよびC間の軌道は直線としている。
p=(pA+pC)/2
−((pA−pC)/2)(1−2(t−tC)/(tA−tC))α)……(3)
p=(pA+pC)/2
+((pA−pC)/2)(2(t−tC)/(tA−tC)−1)α)……(4)
<<<B1−2−1.素片選択>>>
歌唱合成スコア650の音韻データトラック651は、1曲分の歌唱音声を合成するのに使用する一連の音声素片とそれらの発生時刻および継続時間長を示している。素片選択部642は、歌唱合成スコアにおいて指定された各音声素片の音声素片データを音声素片データベース63から読み出してピッチ変換部643に引き渡す。
ピッチ変換部643は、素片選択部642から音声素片の波形データを受け取ると、その波形データの発生タイミングにおけるピッチをピッチデータトラック652から求め、波形データがそのピッチを持った波形データとなるように波形データのピッチ変換を行う。ピッチ変換部643は、基本的には本出願人による先願である特願2004−311637号において提案された方法によりこのピッチ変換を行う。以下、その詳細を説明する。
以上が本実施形態によるピッチ変換の原理である。
y=Tf(x)=m・x+a1=x+a1=x+ΔS1 ……(5)
y=Tf(x)=m・x+a2=x+a2=x+ΔS2 ……(6)
y=Tf(x)
=((f2min−f1max+a2−a1)/(f2min−f1max))・x
+(a1・f2min−a2・f1max)/(f2min−f1max)
……(7)
k=((m・f2+a2)−(m・f1+a1))/(f2−f1) ……(8)
Δφi=2πf0(i+1)(k−1)Δt ……(9)
以上が本実施形態によるピッチ変換の処理の詳細である。
ピッチ変換部643は、以上のようなピッチ変換処理を経た周波数領域の波形データ(振幅スペクトル、位相スペクトル)をフレーム毎に出力する。ここで、ある音声素片に対応した最後のフレームの波形データが出力された後、これに続けて、後続の音声素片に対応した最初のフレームの波形データがピッチ変換部643から出力される場合がある。その際、前者の波形データと後者の波形データとの間に大きな差異があると、合成される歌唱音声の波形に不自然な不連続が生じるので好ましくない。素片連結部644は、このような波形の不自然な不連続が生じないように、音声素片の切り換わり区間において音色を滑らかに変化させるためのスムージング処理を波形データに対して施す。この素片連結部644が行うスムージング処理の態様として、以下説明する第1の態様と第2の態様がある。
この態様において、素片連結部644は、ピッチ変換部643から出力される波形データがある音声素片のものから他の音声素片のものへと切り換わる場合にその切り換わり点の前後所定フレーム数の波形データを用いて、各フレームの波形データが示す音の特徴を決定する特徴パラメータ、具体的には波形データが示す振幅スペクトルのスペクトル包絡のクロスフェードを行う。図15(a)〜(e)はこのクロスフェードの動作例を示すものである。この例では、先行音声素片の最後のnフレームの波形データD1〜Dnと後続音声素片の最初のnフレームの波形データD1〜Dnを用いてクロスフェードを行っている。
この第2の態様では、基本的には本出願人による先願である特許文献7に開示された原理に従ってスムージング処理を行う。すなわち、この第2の態様において素片連結部644は、ピッチ変換部643から出力される波形データが、1つの音素から別の音素に移行する音素連鎖を含む遷移部分のものであるか、1つの音素が安定的に発音される定常部分を含んだ伸ばし音部分のものであるかを監視し、伸ばし音部分の音声素片の波形データがピッチ変換部643から与えられた場合には、その伸ばし音部分の波形データにおける音の特徴を決定するパラメータ、具体的にはスペクトル包絡が、その伸ばし音部分に先行する遷移部分の波形データから求められるスペクトル包絡とその伸ばし音部分に続く遷移部分の波形データから求められるスペクトル包絡とを時間補間したスペクトル包絡となるように、伸ばし音部分の波形データの調整を行う。
素片連結部644は、スムージング処理を経た波形データにIFFT(逆高速フーリエ変換)を施して時間領域のデジタル音声信号に変換し、このデジタル音声信号にフレーム単位で窓関数を乗じ、窓関数の乗じられた各フレームのデジタル音声信号を相互にオーバラップさせ、最終的なデジタル音声信号としてサウンドシステム8に出力する。サウンドシステム8は、このデジタル音声信号をアナログ音声信号に変換し、歌唱音声として出力する。
以上が単独の歌手による歌唱音声を合成する動作の詳細である。
<<<B2−1.歌唱合成スコアの生成>>>
歌唱合成スコア650を生成する動作に関しては、単独の歌手による歌唱音声を合成する場合と大きな差はない。ただし、ピッチデータトラック652の作成の際、ビブラートは付加せず、レガートやポルタメントなどのピッチの動きを持たせないことが望ましい。
<<<B2−2−1.素片選択>>>
素片選択部642による音声素片データの選択動作は、単独の歌手による歌唱音声を合成する場合と同様である。
ピッチ変換部643によるピッチ変換の動作も、単独の歌手による歌唱音声を合成する場合と基本的に同様である。ただし、コーラスの歌唱音声の合成の場合、音声素片データに含まれる波形データを解析しても音声素片の各フレームでのピッチを求めるのは困難である。そこで、コーラスの歌唱音声の合成の場合、ピッチ変換部643は、音声素片データに含まれる素片ピッチデータが示す音声素片の代表的なピッチをピッチ変換前のピッチとし(すなわち、1つの音声素片の中では全フレームを通じてピッチは一定であるとみなし)、そのピッチからピッチデータトラック652により指定されたピッチへのピッチ変換を行う。この場合においても、単独の歌手による歌唱音声を合成する場合と同様、音声素片の波形データにおける振幅スペクトルの周波数軸方向の圧縮または伸張に合わせて位相スペクトルの補正を行うのが好ましい。
単独の歌手による歌唱音声を合成する場合と同様、素片連結部644は、ピッチ変換部643によるピッチ変換を経た波形データに対し、音声素片の切り換わり点付近においてスペクトル包絡が滑らかに変化させるためのスムージング処理を施す。そして、このスムージング処理を経た波形データを時間領域のデジタル音声信号に変換し、サウンドシステム8に出力する。スムージング処理の態様は、上記第1の態様または第2の態様のいずれでもよい。また、音声素片の切り換わり点を含む所定期間の波形データについて、局所的ピークを含むローカルな振幅スペクトル分布を滑らかに変化させるためのクロスフェードを行うのが好ましい。
以上が本実施形態の動作の詳細である。
以上、この発明の一実施形態を説明したが、この発明には、これ以外にも各種の実施形態が考えられる。例えば次の通りである。
(1)音声素片データベース63には、同一の音声素片について複数の音声素片データを格納し、それらを使い分けるようにしてもよい。例えば、同一音声素片についてピッチの異なる複数の音声素片データを格納しておき、素片選択部642は、歌唱合成の際に、音韻データトラック651により指定された音声素片に対応した複数の音声素片データのうちピッチデータトラック652により指定されたピッチに最も近いピッチの音声素片データを選択し、ピッチ変換部643に供給するように構成してもよい。この場合、ピッチ変換前のピッチとピッチ変換後のピッチが近いので、ピッチ変換に起因した音質の劣化を少なくすることができる。
(2)ピッチデータトラック652については、上記実施形態において挙げたもの以外の方法により音符の切り換わり部分のピッチに動きを与えても良い。例えばユーザが操作部4の操作によりピッチに動きを与える構成でも良い。
(3)素片連結部644は、周波数領域の情報である波形データ(振幅スペクトル、位相スペクトル)を時間領域の情報であるデジタル音声信号に変換した後、このデジタル音声信号を対象としてスムージング処理を行うようにしてもよい。例えば上記第1の態様によるスムージング処理を行う代わりに、音声素片の切り換わり点近傍において、先行音声素片の最後のn個の波形データD1〜Dnと後続音声素片の最初のn個の波形データD1〜DnからIFFTにより得られた時間領域のデジタル音声信号を対象としてクロスフェードを行い、最終的なデジタル音声信号としてもよい(図15(a)〜(e)参照)。
(4)歌唱合成スコアは、歌唱合成パラメータの時系列情報であればよく、1曲分に限らず、曲の1部分についての時系列情報でもよい。
Claims (14)
- 各種の音声素片を示す音声素片データを記憶する音声素片データベースと、
曲を構成する音符を示す音符データと、曲に合わせて歌唱する歌詞を示す歌詞データとを含む曲データとに基づき、歌唱音声を合成するのに用いる複数の音声素片、各音声素片の発生タイミング、合成すべき歌唱音声のピッチを指定する情報を曲の進行に合わせて時系列化した歌唱合成スコアを生成する歌唱合成スコア生成手段と、
前記歌唱合成スコアにより指定される音声素片に対応した音声素片データを前記音声素片データベースから読み出す素片選択手段と、
周波数領域での信号処理により、前記素片選択手段により読み出された音声素片データにピッチ変換を施し、前記歌唱合成スコアにより指定されるピッチを持った音声素片の波形データを生成する手段であって、前記ピッチ変換では、前記音声素片データが示す音声素片の振幅スペクトルの局所的ピークが、前記ピッチ変換により得られる波形データが示す音声素片において、前記歌唱合成スコアにより指定されたピッチに対応した周波数における局所的ピークとなり、かつ、前記音声素片データが示す音声素片の振幅スペクトルのうち局所的ピーク近傍の周波数領域のローカルな振幅スペクトルは、前記ピッチ変換により得られる波形データが示す音声素片において、元のローカルな振幅スペクトルの分布形状を維持するように、局所的ピーク近傍の周波数領域とそれらに挟まれた中間周波数領域とで周波数軸方向の圧縮または伸張の比率が異なった非線形な圧縮または伸張を行い、さらに前記ピッチ変換により得られる波形データが示す音声素片において前記音声素片データが示す音声素片のスペクトル包絡が維持されるように、前記圧縮または伸張処理を経た振幅スペクトルのレベル調整を行うピッチ変換手段と、
前記ピッチ変換手段により得られるピッチ変換後の音声素片の波形データを接続して出力し、その際に各波形データが示す音声素片が滑らかに接続されたものとなるように、波形データを調整する素片連結手段と
を具備することを特徴とする歌唱合成装置。 - 前記ピッチ変換手段は、前記ピッチ変換において、
(a)前記歌唱合成スコアにより指定されたピッチに対応した周波数の前記音声素片データのピッチに対応した周波数に対する比をピッチ変換比kとし、
(b)前記音声素片データの振幅スペクトルの中から少なくとも2つの局所的ピークである第1ピークスペクトルおよび前記第1ピークスペクトルに対する周波数である第1周波数よりも高い第2周波数を有する第2ピークスペクトルを選択し、
(c)前記第1ピークスペクトルが、前記第1周波数に前記ピッチ変換比kを乗じて得られる周波数であるピッチ変換後第1周波数に対する振幅スペクトルとなるように、前記第1ピークスペクトルを周波数軸上で移動し、
(d)前記第1周波数を含む所定の周波数領域である第1周波数領域の各振幅スペクトルが、前記各振幅スペクトルに対する周波数から前記第1周波数を減じた値に前記ピッチ変換比kよりも1に近い局所変換比mを乗じた値を前記ピッチ変換後第1周波数に加えることにより得られる周波数の振幅スペクトルとなるように、前記第1周波数領域の各振幅スペクトルを周波数軸上で圧縮または伸長し、
(e)前記第2ピークスペクトルが、前記第2周波数に前記ピッチ変換比kを乗じて得られる周波数であるピッチ変換後第2周波数に対する振幅スペクトルとなるように、前記第2ピークスペクトルを周波数軸上で移動し、
(f)前記第2周波数を含む所定の周波数領域である第2周波数領域の各振幅スペクトルが、前記各振幅スペクトルに対する周波数から前記第2周波数を減じた値に前記局所変換比mを乗じた値を前記ピッチ変換後第2周波数に加えることにより得られる周波数の振幅スペクトルとなるように、前記第2周波数領域の各振幅スペクトルを周波数軸上で圧縮または伸長し、
(g)前記第1周波数領域と前記第2周波数領域との間の中間周波数領域の各振幅スペクトルが、圧縮または伸張された前記第1周波数領域の各振幅スペクトルの分布領域と圧縮または伸張された前記第2周波数領域の各振幅スペクトルの分布領域の間の周波数領域の各振幅スペクトルとなるように、前記第1周波数領域と前記第2周波数領域との間の中間周波数領域の各振幅スペクトルを周波数軸上で圧縮または伸張することを特徴とする請求項1に記載の歌唱合成装置。 - 前記音声素片データベースに記憶される音声素片データは、母音の伸ばし音の音声素片の音声素片データと音素から他の音素へ遷移する音声素片の音声素片データを含み、
前記歌唱合成スコア生成手段は、音声素片における母音部の開始タイミングが音符の開始タイミングとなるように、前記音声素片の発生タイミングを決定することを特徴とする請求項1または2に記載の歌唱合成装置。 - 音韻の遷移の形態毎にピッチの変化の態様を示すピッチモデルを記憶する手段を具備し、
前記歌唱合成スコア生成手段は、音符の切り換わり部において、その時点における音韻の遷移の形態に対応したピッチモデルを使用して、前記歌唱音声のピッチを示す情報にピッチの動きを付与することを特徴とする請求項1または2に記載の歌唱合成装置。 - 前記歌唱合成スコア生成手段は、1つの音符の区間内において歌唱音声のピッチの軌道の通過点となる3種類の制御点の相対的な位置を定めるデータに従い、曲を構成する音符毎に、歌唱音声のピッチの軌道の通過点となる制御点を設定し、これらの各制御点を通過する軌道を求め、該軌道に沿ってピッチを変化させるように、前記歌唱音声のピッチを示す情報を生成することを特徴とする請求項1または2に記載の歌唱合成装置。
- 前記ピッチ変換手段は、前記音声素片データが示す音声素片のピッチと、前記歌唱合成スコアにより指定されるピッチとの比をピッチ変換比kとし、前記音声素片データが示す音声素片の振幅スペクトルの局所的ピークが、前記ピッチ変換により得られる波形データが示す音声素片において、元の局所的ピークの周波数のk倍の周波数における局所的ピークとなるように前記周波数軸方向の圧縮または伸張処理を行うことを特徴とする請求項1または2に記載の歌唱合成装置。
- 前記音声素片データベースに記憶された音声素片データは、音声素片の代表的なピッチを示す素片ピッチデータを含んだコーラス音用の音声素片データを含み、
前記ピッチ変換手段は、前記コーラス音用の音声素片データにピッチ変換を施す場合には、該音声素片データに含まれる素片ピッチデータが示す代表的なピッチを前記音声素片のピッチとして前記ピッチ変換比kを決定することを特徴とする請求項6に記載の歌唱合成装置。 - 前記ピッチ変換手段は、前記振幅スペクトルの周波数軸方向の圧縮または伸張処理に対応させて前記音声素片データが示す音声素片の位相スペクトルに補正処理を施し、ピッチ変換後の音声素片の位相スペクトルを求めることを特徴とする請求項1、2、6または7のいずれか1の請求項に記載の歌唱合成装置。
- 前記素片連結手段は、音声素片の切り換わり点近傍において音声素片の音の特徴を決定する特徴パラメータが滑らかに変化するように前記切り換わり点近傍の波形データにクロスフェードを施す第1のスムージング処理を実行することを特徴とする請求項1または2に記載の歌唱合成装置。
- 前記素片連結手段は、音素から音素への遷移部分の音声素片を前後に持った伸ばし音の音声素片の波形データが前記ピッチ変換手段から出力された場合に、その伸ばし音部分における音の特徴を決定する特徴パラメータが、その伸ばし音部分に先行する遷移部分の波形データから求められる特徴パラメータとその伸ばし音部分に続く遷移部分の波形データから求められる特徴パラメータとを時間補間した特徴パラメータとなるように、伸ばし音部分の波形データの調整を行う第2のスムージング処理を実行することを特徴とする請求項1または2に記載の歌唱合成装置。
- 前記特徴パラメータが前記波形データが示す音声素片のスペクトル包絡であることを特徴とする請求項9または10に記載の歌唱合成装置。
- 前記特徴パラメータが前記波形データが示す音声素片の振幅スペクトルにおける局所的ピーク近傍の振幅スペクトル分布であることを特徴とする請求項9または10に記載の歌唱合成装置。
- 前記素片連結手段は、前記ピッチ変換手段から出力される波形データを時間領域のデジタル音声信号に変換し、音声素片の切り換わり点近傍において前記デジタル音声信号のクロスフェードを行うことを特徴とする請求項1または2に記載の歌唱合成装置。
- コンピュータを、
曲を構成する音符を示す音符データと、曲に合わせて歌唱する歌詞を示す歌詞データとを含む曲データとに基づき、歌唱音声を合成するのに用いる複数の音声素片、各音声素片の発生タイミング、合成すべき歌唱音声のピッチを指定する情報を曲の進行に合わせて時系列化した歌唱合成スコアを生成する歌唱合成スコア生成手段と、
前記歌唱合成スコアにより指定される音声素片に対応した音声素片データを音声素片データベースから読み出す素片選択手段と、
周波数領域での信号処理により、前記素片選択手段により読み出された音声素片データにピッチ変換を施し、前記歌唱合成スコアにより指定されるピッチを持った音声素片の波形データを生成する手段であって、前記ピッチ変換では、前記音声素片データが示す音声素片の振幅スペクトルの局所的ピークが、前記ピッチ変換により得られる波形データが示す音声素片において、前記歌唱合成スコアにより指定されたピッチに対応した周波数における局所的ピークとなり、かつ、前記音声素片データが示す音声素片の振幅スペクトルのうち局所的ピーク近傍の周波数領域のローカルな振幅スペクトルは、前記ピッチ変換により得られる波形データが示す音声素片において、元のローカルな振幅スペクトルの分布形状を維持するように、局所的ピーク近傍の周波数領域とそれらに挟まれた中間周波数領域とで周波数軸方向の圧縮または伸張の比率が異なった非線形な圧縮または伸張を行い、前記音声素片データが示す音声素片の振幅スペクトルの周波数軸方向の圧縮または伸張処理を行い、さらに前記ピッチ変換により得られる波形データが示す音声素片において前記音声素片データが示す音声素片のスペクトル包絡が維持されるように、前記圧縮または伸張処理を経た振幅スペクトルのレベル調整を行うピッチ変換手段と、
前記ピッチ変換手段により得られるピッチ変換後の音声素片の波形データを接続して出力し、その際に各波形データが示す音声素片が滑らかに接続されたものとなるように、波形データを調整する素片連結手段として機能させることを特徴とするコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006058771A JP4839891B2 (ja) | 2006-03-04 | 2006-03-04 | 歌唱合成装置および歌唱合成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006058771A JP4839891B2 (ja) | 2006-03-04 | 2006-03-04 | 歌唱合成装置および歌唱合成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007240564A JP2007240564A (ja) | 2007-09-20 |
JP4839891B2 true JP4839891B2 (ja) | 2011-12-21 |
Family
ID=38586218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006058771A Active JP4839891B2 (ja) | 2006-03-04 | 2006-03-04 | 歌唱合成装置および歌唱合成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4839891B2 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5262324B2 (ja) | 2008-06-11 | 2013-08-14 | ヤマハ株式会社 | 音声合成装置およびプログラム |
JP5176981B2 (ja) * | 2009-01-22 | 2013-04-03 | ヤマハ株式会社 | 音声合成装置、およびプログラム |
JP5471858B2 (ja) * | 2009-07-02 | 2014-04-16 | ヤマハ株式会社 | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
JP5699496B2 (ja) * | 2010-09-06 | 2015-04-08 | ヤマハ株式会社 | 音合成用確率モデル生成装置、特徴量軌跡生成装置およびプログラム |
EP2634769B1 (en) | 2012-03-02 | 2018-11-07 | Yamaha Corporation | Sound synthesizing apparatus and sound synthesizing method |
JP5895740B2 (ja) | 2012-06-27 | 2016-03-30 | ヤマハ株式会社 | 歌唱合成を行うための装置およびプログラム |
JP5928489B2 (ja) * | 2014-01-08 | 2016-06-01 | ヤマハ株式会社 | 音声処理装置およびプログラム |
JP6561499B2 (ja) * | 2015-03-05 | 2019-08-21 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
JP6821970B2 (ja) | 2016-06-30 | 2021-01-27 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
US10134374B2 (en) | 2016-11-02 | 2018-11-20 | Yamaha Corporation | Signal processing method and signal processing apparatus |
JP6737320B2 (ja) | 2018-11-06 | 2020-08-05 | ヤマハ株式会社 | 音響処理方法、音響処理システムおよびプログラム |
JP6747489B2 (ja) | 2018-11-06 | 2020-08-26 | ヤマハ株式会社 | 情報処理方法、情報処理システムおよびプログラム |
CN111681637B (zh) * | 2020-04-28 | 2024-03-22 | 平安科技(深圳)有限公司 | 歌曲合成方法、装置、设备及存储介质 |
CN113160849B (zh) * | 2021-03-03 | 2024-05-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 歌声合成方法、装置及电子设备和计算机可读存储介质 |
CN113257211B (zh) * | 2021-05-13 | 2024-05-24 | 杭州网易云音乐科技有限公司 | 音频调节方法、介质、装置和计算设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6266003B1 (en) * | 1998-08-28 | 2001-07-24 | Sigma Audio Research Limited | Method and apparatus for signal processing for time-scale and/or pitch modification of audio signals |
JP4468506B2 (ja) * | 1999-03-08 | 2010-05-26 | Okiセミコンダクタ株式会社 | 音声データ作成装置および声質変換方法 |
JP2002221978A (ja) * | 2001-01-26 | 2002-08-09 | Yamaha Corp | ボーカルデータ生成装置、ボーカルデータ生成方法および歌唱音合成装置 |
JP3815347B2 (ja) * | 2002-02-27 | 2006-08-30 | ヤマハ株式会社 | 歌唱合成方法と装置及び記録媒体 |
JP4153220B2 (ja) * | 2002-02-28 | 2008-09-24 | ヤマハ株式会社 | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
JP4026446B2 (ja) * | 2002-02-28 | 2007-12-26 | ヤマハ株式会社 | 歌唱合成方法、歌唱合成装置及び歌唱合成用プログラム |
JP2004325831A (ja) * | 2003-04-25 | 2004-11-18 | Roland Corp | 歌唱データ生成プログラム |
EP1806740B1 (en) * | 2004-10-27 | 2011-06-29 | Yamaha Corporation | Pitch converting apparatus |
-
2006
- 2006-03-04 JP JP2006058771A patent/JP4839891B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2007240564A (ja) | 2007-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4839891B2 (ja) | 歌唱合成装置および歌唱合成プログラム | |
JP3815347B2 (ja) | 歌唱合成方法と装置及び記録媒体 | |
JP6171711B2 (ja) | 音声解析装置および音声解析方法 | |
JP3985814B2 (ja) | 歌唱合成装置 | |
JP4265501B2 (ja) | 音声合成装置およびプログラム | |
CN110534082B (zh) | 基于音频输入的动态调适音调校正 | |
WO2018084305A1 (ja) | 音声合成方法 | |
JP2004264676A (ja) | 歌唱合成装置、歌唱合成プログラム | |
CN109416911B (zh) | 声音合成装置及声音合成方法 | |
JP6390690B2 (ja) | 音声合成方法および音声合成装置 | |
JP6756151B2 (ja) | 歌唱合成データ編集の方法および装置、ならびに歌唱解析方法 | |
JP4844623B2 (ja) | 合唱合成装置、合唱合成方法およびプログラム | |
JP5176981B2 (ja) | 音声合成装置、およびプログラム | |
JP5157922B2 (ja) | 音声合成装置、およびプログラム | |
JP4565846B2 (ja) | ピッチ変換装置 | |
Bonada et al. | Sample-based singing voice synthesizer using spectral models and source-filter decomposition | |
JP2000010597A (ja) | 音声変換装置及び音声変換方法 | |
JP4353174B2 (ja) | 音声合成装置 | |
JP5552797B2 (ja) | 音声合成装置および音声合成方法 | |
JP4432834B2 (ja) | 歌唱合成装置および歌唱合成プログラム | |
WO2022080395A1 (ja) | 音声合成方法およびプログラム | |
Loscos et al. | Larynxophone: using voice as a wind controller | |
JP4306643B2 (ja) | 歌唱合成装置および歌唱合成プログラム | |
Janer et al. | Morphing techniques for enhanced scat singing | |
Masuda-Katsuse | < PAPERS and REPORTS> KARAOKE SYSTEM AUTOMATICALLY MANIPULATING A SINGING VOICE |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090120 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110428 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110614 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110728 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110906 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110919 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4839891 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141014 Year of fee payment: 3 |