JP4349316B2 - 音声分析及び合成装置、方法、プログラム - Google Patents

音声分析及び合成装置、方法、プログラム Download PDF

Info

Publication number
JP4349316B2
JP4349316B2 JP2005132799A JP2005132799A JP4349316B2 JP 4349316 B2 JP4349316 B2 JP 4349316B2 JP 2005132799 A JP2005132799 A JP 2005132799A JP 2005132799 A JP2005132799 A JP 2005132799A JP 4349316 B2 JP4349316 B2 JP 4349316B2
Authority
JP
Japan
Prior art keywords
spectrum envelope
magnitude spectrum
resonance
envelope
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005132799A
Other languages
English (en)
Other versions
JP2005275420A (ja
JP2005275420A5 (ja
Inventor
靖雄 吉岡
ボナダ ジョルディ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2005132799A priority Critical patent/JP4349316B2/ja
Publication of JP2005275420A publication Critical patent/JP2005275420A/ja
Publication of JP2005275420A5 publication Critical patent/JP2005275420A5/ja
Application granted granted Critical
Publication of JP4349316B2 publication Critical patent/JP4349316B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Description

本発明は、音声合成装置に関し、より詳しくは、人間の歌唱の音声合成装置に関する。
人間の音声は、音韻(音素)により構成され、各音韻は複数個のフォルマントにより構成されている。よって、人間の歌唱音声の合成は、まず、人間が発生することのできる全ての音韻に対して、その各音韻を構成する全てのフォルマントを発生して合成することにより当該音韻を生成する。次に、生成された複数の音韻を順次つなぎ合わせ、メロディに合わせて音高を制御することにより歌唱音声の合成を実現する。この手法は、人間の音声に限らず、フォルマントを有する楽音、例えば、管楽器から発声される楽音の合成にも適用できる。
この手法を用いた音声合成装置は従来から知られており、例えば、特許公報第2504172号には、高い音高のフォルマント音を発生するときでも、不要なスペクトルを発生しないように構成したフォルマント音発生装置が開示されている。
しかし、上記フォルマント音発生装置及び従来の音声合成装置では、一般的な人間の歌唱音声を擬似的には合成できるものの、単に音高を変化させただけでは、歌唱における特定の人間の声質や癖等の個性を再現することはできない。
本発明の目的は、歌唱における特定の声質や癖等の個性まで似せて歌唱音声を合成することのできる音声合成装置を提供することである。
また、本発明の他の目的は、よりリアルな人間の歌唱音声を合成して、違和感のない自然な状態で歌を歌わせることが可能な音声合成装置を提供することである。
本発明の一観点によれば、音声合成装置は、音声の調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープとを減算した差分のスペクトル・エンベロープとからなるEpRパラメータに分解して記憶するとともに、前記音声の非調和成分を記憶する記憶手段と、合成する音声の情報を入力する入力手段と、前記入力された情報に基づき、前記記憶手段から読み出したEpRパラメータと前記非調和成分とをフラットなマグニチュード・スペクトル・エンベロープに加算する加算手段とを有する。
本発明の他の観点によれば、音声合成装置は、音声を調和成分と非調和成分に分解する第1の分解手段と、前記調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープとを減算した差分のスペクトル・エンベロープとからなるEpRパラメータに分解する第2の分解手段と、前記EpRパラメータと前記非調和成分とを記憶する記憶手段と、合成する音声の情報を入力する入力手段と、前記入力された情報に基づき、前記記憶手段から読み出したEpRパラメータと前記非調和成分とをフラットなマグニチュード・スペクトル・エンベロープに加算する加算手段とを有する。
以上説明したように、本発明によれば、歌唱における特定の声質や癖等の個性まで似せて歌唱音声を合成することのできる音声合成装置を提供することができる。
また、本発明によれば、よりリアルな人間の歌唱音声を合成して、違和感のない自然な状態で歌を歌わせることが可能な音声合成装置を提供することができる。
図1は、音声の分析を表すブロック図である。
音声入力部1に入力される音声は、音声分析部2に送られる。音声分析部2では、送られてきた音声を一定周期ごとに分析する。音声分析部2は、例えば、入力音声をSMS(Spectral Modeling Synthesis)分析などにより、調和成分HCと非調和成分UCに分解する。
調和成分HCは、入力音声中、ある周波数と大きさを持った正弦波の総和であらわすことのできる成分である。図2中に点で示したものが調和成分HCとして求められる入力音声の周波数と大きさ(サイン成分)である。本実施例では、これらの点を直線で結んだものを調和成分HCのマグニチュード・スペクトル・エンベロープとしている。図2中点線で示すものがマグニチュード・スペクトル・エンベロープである。調和成分HCを求めることにより、同時に基本周波数Pitchも求まる。
非調和成分UCは、入力音声の内の調和成分HCとして表せないノイズ成分を表す。非調和成分UCは、例えば図3に示すようなものである。図中上段は、非調和成分UCの大きさ(Magnitude)を示すマグニチュード・スペクトルであり、下段は、位相(Phase)を示すフェイズスペクトルである。本実施例では、非調和成分UCのMagnitude及びPhaseをそのままフレーム情報FLとして記録する。
分析により抽出された調和成分HCのマグニチュード・スペクトル・エンベロープを、あとで操作しやすいように複数種類のExcitation plus Resonance(EpR)パラメータに分解する。
EpRパラメータとして、本実施例では、ExcitationCurve、VocalTractResonance、ChestResonance、SpectralShapeDifferentialの4種類が設けられる。なお、これ以外のEpRパラメータを設けるようにしてもよい。
なお、後に詳述するが、ExcitationCurveは、声帯振動波形のスペクトル・エンベロープを示し、VocalTractResonanceは、いくつかのレゾナンスを組み合わせて声道によって形作られるスペクトル形状(フォルマント)を近似するものである。ChestResonanceは、VocalTractResonanceによって形作られるフォルマント以外の低い周波数のフォルマント(特に胸部による共鳴)をいくつかのレゾナンスを組み合わせて近似するものである。
SpectralShapeDifferentialは、上記3つのEpRパラメータであらわしきれなかった成分を示すものである。すなわち、マグニチュード・スペクトル・エンベロープからExcitationCurve、VocalTractResonance、ChestResonanceを減算したものである。
以上の非調和成分UCとEpRパラメータを1フレーム分の情報FL1〜nとして記憶部3に記憶する。
図4は、声帯振動波形のスペクトル・エンベロープ(ExcitationCurve)を表す図である。ExcitationCurveは、声帯振動波形のマグニチュード・スペクトル・エンベロープである。
具体的には、声帯振動波形の大きさを表すEGain[dB]と、声帯振動波形のスペクトル・エンベロープの傾き具合を表すESlopeと、声帯振動波形のスペクトル・エンベロープの最大値から最小値の深さを表すESlopeDepthとの3つのEpRパラメータで構成されている。
これらの3つのEpRパラメータを用いると、周波数fHZにおけるExcitationCurveのマグニチュード・スペクトル・エンベロープ(ExcitationCurveMagdB)は、以下の式(a)で表すことができる。
Figure 0004349316
この式(a)により、ExcitationCurveのマグニチュード・スペクトル・エンベロープは、EGainで純粋に信号の大きさを変化させることができ、ESlopeとESlopeDepthで、その周波数特性(傾き具合)を制御可能なことがわかる。
図5は、上記式(a)によるExcitationCurveの変化を表す図である。ExcitationCurveは、周波数f=0Hzで、EGain[dB]からスタートし、EGain−ESlopeDepth[dB]の漸近線に向かって進む。その際の傾きは、ESlopeによって決まる。
次に、EGain、ESlope及びESlopeDepthの求め方を説明する。もとの調和成分HCのマグニチュード・スペクトル・エンベロープからのEpRパラメータの抽出は、まず上記の3つのEpRパラメータから求めるようにする。
EGain、ESlope及びESlopeDepthは、例えば、以下の方法で求めることができる。
まず、もとの調和成分HCの成分のうち、周波数が250Hz以下のものの内の最大のマグニチュードのものをMAX[dB]と置き、MIN=−100[dB]とする。
次に、もとの調和成分HCの成分のうち、周波数が10000Hz以下のものについて、i番目のサイン成分のマグニチュード及び周波数をそれぞれSinMag[i][dB]、SinFreq[i][Hz]とし、周波数が10000Hz以下のサイン成分の数をNとして、以下の式(b1)及び式(b2)でそれぞれの平均値を求める。SinFreq[0]は1番低いサイン成分の周波数を表す。



Figure 0004349316
Figure 0004349316
上記式(b1)及び(b2)を用い、


Figure 0004349316

Figure 0004349316
Figure 0004349316

Figure 0004349316

Figure 0004349316
と設定する。
さらに上記式(b3)から(b7)より、EGain、ESlope及びESlopeDepthについて、下記の式(b8)、(b9)、(b10)が得られる。


Figure 0004349316

Figure 0004349316

Figure 0004349316
このようにして、EGain、ESlope及びESlopeDepthの各EpRパラメータを求めることができる。
図6は、VocalTractResonanceにより作られるスペクトル・エンベロープを表す図である。VocalTractResonanceは、いくつかのレゾナンスを組み合わせて声道によって形作られるスペクトル形状(フォルマント)を近似するものである。
例えば、人間が「あ」や「い」といった音韻を発音する時、その違いは、主に声道の形の変化によって生じるマグニチュードスペクトルエンベロープの山の形の違いによる。この山をフォルマントと呼ぶが、いくつか有るフォルマントは、レゾナンスをいくつか使用することにより近似することができる。
図6では、11個のレゾナンスを使ってフォルマントを近似している。これらのうちi番目のレゾナンスをResonance[i]と示し、このi番目のレゾナンスの周波数fにおけるマグニチュードをResonance[i]Mag(f)と示すと、VocalTractResonanceによるマグニチュード・スペクトル・エンベロープは、以下の式(c1)で表すことができる。
Figure 0004349316
また、このi番目のレゾナンスによる位相をResonance[i]Phase(f)と示すと、VocalTractResonanceによる位相(フェイズスペクトル)は、以下の式(c2)で表すことができる。
Figure 0004349316
一つ一つのResonance[i]は、中心周波数F、バンド幅Bw、アンプリチュードAmpの3つのEpRパラメータで表すことができる。レゾナンスの求め方については後述する。
図7は、胸部共鳴波形のスペクトル・エンベロープ(ChestResonance)を表す図である。ChestResonanceは、胸部共鳴によって生ずるものであり、VocalTractResonanceで表すことのできない低い周波数におけるマグニチュードスペクトルエンベロープの山(フォルマント)をいくつかのレゾナンスを使って表したものである。
胸部共鳴によるi番目のレゾナンスをCResonance[i]と示し、このi番目のレゾナンスの周波数fにおけるマグニチュードをCResonance[i]Mag(f)と示すと、ChestResonanceによるマグニチュード・スペクトル・エンベロープは、以下の式(d)で表すことができる。
Figure 0004349316
一つ一つのCResonance[i]は、中心周波数F、バンド幅Bw、アンプリチュードAmpの3つのEpRパラメータで表すことができる。次にレゾナンスの求め方については説明する。
VocalTractResonance及びChestResonanceの一つ一つのレゾナンス(Resonance[i]及びCResonance[i])は、中心周波数F、バンド幅Bw、アンプリチュードAmpの3つのEpRパラメータで定義することができる。
中心周波数F、バンド幅Bw、を持つレゾナンスのz領域の伝達関数は、以下の式(e1)で表すことができる。
Figure 0004349316

ここで、
Figure 0004349316
Figure 0004349316
Figure 0004349316

Figure 0004349316
Figure 0004349316
である。
この周波数応答は、以下の式(e7)で表すことができる。
Figure 0004349316
図8は、レゾナンスの周波数特性の例を示す図である。この例では、レゾナンスの中心周波数Fを1500Hzとして、バンド幅Bw及びアンプリチュードAmpを変化させたものである。
図に示すように振幅|T(f)|は、f=中心周波数Fで最大となり、この最大値がレゾナンスのアンプリチュードAmpとなっている。したがって、中心周波数F、バンド幅Bw、アンプリチュードAmp(リニア値)を持つレゾナンスのResonance(f)(リニア値)を上記式(e7)を用いて表すと下記式(e8)のようになる。
Figure 0004349316
よって、このレゾナンスの周波数fにおけるマグニチュードは、下記式(e9)で表すことができ、位相は下記式(e10)で表すことができる。
Figure 0004349316
Figure 0004349316
図9は、SpectralShapeDifferentialの例を表す図である。SpectralShapeDifferentialは、元の入力音声のマグニチュードスペクトルエンベロープのうちのExcitationCurve、VocalTractResonance、ChestResonanceで表しきれなかった成分である。
この成分をSpectralShapeDifferentialMag(f)[dB]とすると、下記式(f)が成り立つ。
Figure 0004349316
すなわち、SpectralShapeDifferentialは、他のEpRパラメータと元の調和成分との差分値であり、この差分値を一定の周波数間隔で算出するものである。例えば、50Hz間隔で差分値を取り、そのポイント間では直線補間を行うようにする。
また、式(f)より、上記EpRパラメータを用いることにより、オリジナルの入力音声の調和成分のマグニチュード・スペクトル・エンベロープを再現することができる。
さらに、前述の非調和成分を再現した調和成分のマグニチュードスペクトルエンベロープに加算することにより、ほぼ入力されたもとの音声に戻すことができる。
図10は、図2の調和成分HCのマグニチュード・スペクトル・エンベロープをEpRパラメータに分解した図である。
図6に示す中心周波数が2番目より高いレゾナンスであるVocalTractResonance、図7に示す1番低い中心周波数のChestResonance、図9に示す点線で示すSpectralShapeDifferentialのそれぞれに、太破線で示すExcitationCurveを適用したものを表す図である。
VocalTractResonance、ChestResonanceのそれぞれのレゾナンスは、ExcitationCurveに加算されている。また、SpectralShapeDifferentialは、ExcitationCurve上を差分0としている。
次に、ExcitationCurveを変化させた場合に全体のスペクトルエンベロープがどう変化するかを説明する。
図11(A)、(B)は、図10に示したExcitationCurveのEGainを変化させた場合の全体のスペクトル・エンベロープの例である。
図11(A)に示すように、EGainを大きくすると全体のスペクトル・エンベロープのゲイン(マグニチュード)が大きくなる。しかし、スペクトルエンベロープの形状に変化は見られないので、音色の変化はない。すなわち音量のみを大きくすることができる。
図11(B)に示すように、EGainを小さくすると全体のスペクトル・エンベロープのゲイン(マグニチュード)が小さくなる。しかし、スペクトルエンベロープの形状に変化は見られないので、音色の変化はない。すなわち音量のみを小さくすることができる。
図12(A)、(B)は、図10に示したExcitationCurveのESlopeを変化させた場合の全体のスペクトル・エンベロープの例である。
図12(A)に示すように、ESlopeを大きくすると全体のスペクトル・エンベロープのゲイン(マグニチュード)は変化しないものの、スペクトル・エンベロープの形状は変化するので、音色が変化する。ESlopeを大きくした場合は、高域が抑えられてこもった音色にすることができる。
図12(B)に示すように、ESlopeを小さくすると全体のスペクトル・エンベロープのゲイン(マグニチュード)は変化しないものの、スペクトル・エンベロープの形状は変化するので、音色が変化する。ESlopeを小さくした場合は、高域が出て明るい音色にすることができる。
図13(A)、(B)は、図10に示したExcitationCurveのESlopeDepthを変化させた場合の全体のスペクトル・エンベロープの例である。
図13(A)に示すように、ESlopeDepthを大きくすると全体のスペクトル・エンベロープのゲイン(マグニチュード)は変化しないものの、スペクトル・エンベロープの形状は変化するので、音色が変化する。ESlopeDepthを大きくした場合は、高域が抑えられてこもった音色にすることができる。
図13(B)に示すように、ESlopeDepthを小さくすると全体のスペクトル・エンベロープのゲイン(マグニチュード)は変化しないものの、スペクトル・エンベロープの形状は変化するので、音色が変化する。ESlopeDepthを小さくした場合は、高域が出て明るい音色にすることができる。
以上のように、ESlopeとESlopeDepthの変化による効果は非常に似たものになる。
次に、EpRパラメータを変化させて現実の発声における音色の変化をシミュレートする方法を説明する。例えば、「あ」などの有声音の音韻の1フレーム分のデータが、上述したEpRパラメータで表されている時に、Dynamics(発声の大きさ)を変化させたい場合、現実の発声における発声の大きさによる音色の変化をEpRパラメータを変化させてシミュレートする。なお、発声者によって異なるが、一般的には、小さく発声した場合は、高域成分が抑えられ、大きく発声するに従い高域成分が多くなる。
図14(A)〜(C)は、Dynamicsの変化にともなうEpRパラメータの変化を示す図である。図14(A)はEGain、図14(B)はESlope、図14(C)はESlopeDepthの変化を示している。
図14(A)〜(C)のそれぞれの横軸は0〜1.0のDynamicsの値を表す。ここで、Dynamics値0は、一番小さく発声した時の値であり、Dynamics値1.0は、一番大きく発声した時の値とする。また、Dynamics値0.5は、普通の大きさで発声した時の値である。
後述するデータベースTimberDBには、普通の大きさで発声した時のEGain、ESlope、ESlopeDepthを保存しておき、それらのEpRパラメータを、それぞれ図14(A)〜(C)に示す関数に基づき変化させる。より具体的には、図14(A)の関数をFEGain(Dynamics)、図14(B)の関数をFESlope(Dynamics)、図14(C)の関数をFESlopeDepth(Dynamics)とした場合に、Dynamicsパラメータが与えられたとするとそれぞれのパラメータは以下の式(g1)から(g3)で表すことができる。ただし、OriginalESlope、OriginalESlopeDepthは、データベースTimberDBに保存されているもとのEpRパラメータである。
Figure 0004349316
Figure 0004349316

Figure 0004349316
図14(A)〜(C)に示す関数は、それぞれ、いろいろな大きさ(Dynamics)で発声された同じ音韻のパラメータを分析することにより求められるものである。この関数を用いて、ダイナミクスに応じてEpRパラメータを変化させる。図14(A)〜(C)に示される変化の仕方は、音韻、発声者等によって異なると考えられるので、音韻や発声者毎にこの関数を求めることにより、より現実の発声に近い変化にすることができる。
次に、図15を参照して、同じ音韻を発声する時に、口の開き具合(Opening)を変化させた時の音色の変化を再現するための方法を述べる。
図15は、Openingを変化させた時の周波数特性の変化を表す図である。Openingパラメータも、Dynamicsと同様に、0〜1.0の値をとるものとする。
Opening値0の時は、一番口をすぼめて発声した時(low opening)であり、Opening値1.0の時は、一番口を開けて発声した時(high opening)である。また、Opening値0.5は、普通の口の開け方で発声した時(normal opening)の値である。
後述するデータベースTimberDBには、普通の口の開け方で発声した時のEpRパラメータを、保存しておき、それを所望の口の開き具合に合わせて図15に示すような周波数特性をもつように変化させる。
この変化を実現するためには、レゾナンスのアンプリチュード(EpRパラメータ)を図に示すように変化させればよい。例えば、普通の口の開け方で発声した時(normal opening)は、周波数特性を変化させない。また、一番口をすぼめて発声した時(low opening)は、1〜5KHzの成分のアンプリチュードを下げる。また、一番口を開けて発声した時(high opening)は、1〜5KHzの成分のアンプリチュードを上げる。
上記の変化関数をFOpening(f)とすると、各レゾナンスのアンプリチュードを以下の式(h)で変化させることにより所望の口の開き具合の周波数特性をもつように変化させることができる。すなわち、図15に示すような周波数特性の変化を与えることができる。
関数FOpening(f)は、いろいろな口の開け方で発声された同じ音韻のパラメータを分析することにより求める。この関数を用いて、Opening値に応じてEpRパラメータを変化させる。この変化の仕方は、音韻、発声者等によって異なると考えられるので、音韻や発声者毎にこの関数を求めることにより、より現実の発声に近い変化にすることができる。
なお、式(h)は、i番目のレゾナンスに対応する。また、OriginalResonance[i]Amp、OriginalResonance[i]Freqは、データベースTimberDBに保存されているもとのレゾナンスのそれぞれアンプリチュード、中心周波数(EpRパラメータ)である。また、NewResonance[i]Ampは、新しいレゾナンスのアンプリチュードを示す。
Figure 0004349316
次に、いかにして歌唱合成を行うかを図16を参照して説明する。
図16は、音声合成装置の歌唱合成エンジンのブロック図である。歌唱合成エンジンは、少なくとも入力部4、パルス生成部5、窓掛け&FFT部6、データベース7、複数の加算部8a〜8g、IFFT&Overlap部9を有している。
入力部4には、例えば、5ms等のフレーム時間間隔毎に、歌唱音声として合成したい歌詞メロディに応じて、ピッチ、音の強さ、音韻、その他の情報が入力される。その他の情報とは、例えば、ビブラートなどの情報であり、ビブラートの速さや、深さが入力される。この入力部4に入力された情報は、2系統に分岐して、パルス生成部5及びデータベース7に送られる。
パルス生成部5では、入力部4から入力されるピッチに対応するピッチ間隔のパルスを時間軸上で生成する。このパルス生成部5で、生成するパルスのゲイン及びピッチの揺れを加えて、生成するパルス自体に微妙なゲインとピッチ間隔の揺れをつけてやると、いわゆるがさついた声などを発生させることができる。
なお、現在のフレームが無声音の場合には、ピッチがないので、このパルス生成部5での処理は必要がない。すなわち、パルス生成部5で行う処理は、有声音を発生させる場合についてのみ行われる。
窓掛け&FFT部6では、パルス生成部5で発生したパルス(時間波形)を窓掛けした後に高速フーリエ変換(FFT)することにより周波数領域の情報に変換する。ここで変換されて得られた周波数領域の情報のマグニチュードスペクトルは、全域フラットとなっている。また、窓掛け&FFT部6からの出力は図に示すようにフェイズスペクトル(Phase)と、マグニチュード・スペクトル(Magnitude)にそれぞれ分けられる。
データベース7には、歌唱合成を行うにあたって、いくつかのデータベースが用意されている。本実施例では、例えば、TimberDB、StationaryDB、ArticulationDB、NoteDB、及びVibratoDBが用意されている。
データベース7では、入力部4に入力される情報に従い、必要なデータベースを読み出して、ある時刻において合成に必要なEpRパラメータ及び非調和成分を算出する。
TimberDBは、有声音(母音、鼻音、有声子音)の各音韻について、代表的な1フレームのEpRパラメータを保持している。同じ音韻について、複数のピッチのそれぞれに対応する1フレームのEpRパラメータを保持している。この複数のピッチを利用して、補間することにより所望のピッチに合ったEpRパラメータを求める。
StationaryDBは、調和成分(EpRパラメータ)と非調和成分を含み、各音韻を延ばして発声したものを分析して、その安定した数秒間の分析フレームを音韻毎にそのまま保持する。例えば、フレーム間隔を5msとして、安定した発声をした区間が1秒とすると、各音韻毎に200フレーム分の情報を保持することになる。
このStationaryDBは、オリジナルの音声を分析したEpRパラメータを保持しているので、オリジナルの音声が持つ微小な揺らぎ等を情報として持っている。これを利用して、TimberDBから求められるEpRパラメータに、微小な変化を与えることができ、オリジナルの音声が持つ自然なピッチ、ゲイン、レゾナンス等の変化を再現することができる。また、非調和成分を加えることにより、さらに自然な合成音声を実現することができる。
ArticulationDBは、調和成分(EpRパラメータ)と非調和成分を含み、ある音韻からある音韻へ変化する部分を分析して保持している。ある音韻からある音韻へ変化する音声の合成時に、該変化部分に、このArticulationDBを参照して、EpRパラメータの変化と非調和成分をそのまま用いることにより、自然な音韻の変化を再現することができる。
NoteDBは、AttackDB、ReleaseDB、NoteTransitionDBの3つのデータベースで構成される。それぞれ、音の出始め、音のリリース部、音程の変わり目の部分について、オリジナルの音声(実音声)を分析して得られるゲイン(EGain)やピッチの変化等を情報として保持している。
例えば、音の出始めの部分について、AttackDBのゲインの変化(EGain)とピッチの変化を、EpRパラメータにさらに加算すれば自然な実音声に近い、ゲイン及びピッチの変化を合成音声に付与することができる。
VibratoDBは、オリジナルの音声(実音声)のビブラート部分を分析して得られるゲイン(EGain)やピッチの変化等を情報として保持している。
例えば、合成音声中でビブラートをかけたい部分があれば、その部分のEpRパラメータにVibratoDBに保持されているゲイン(EGain)やピッチの変化を加算することにより、自然なゲイン及びピッチの変化を合成音声に付与することができる。すなわち、自然なビブラートを再現することができる。
なお、本実施例では、以上の5つのデータベースを用意したが、歌詞とピッチ、音の大きさ、口の開き具合の情報が与えられれば、基本的には、少なくともTimberDB、StationaryDB、ArticulationDBの3つのデータベースを使用すれば歌唱音声の合成を行うことができる。
さらに、歌唱音声に表情をつけるにあたってNoteDB、及びVibratoDBの2つのデータベースを適宜追加して使用することにより表現力豊かな歌唱音声を合成することができる。また、追加するデータベースは、NoteDB、及びVibratoDBに限らず音声の表現に関するものならどのようなものでもよい。
データベース7では、以上に述べたデータベースを用いて算出したEpRパラメータであるExcitationCurveEC、ChestResonanceCR、VocalTractResonceVTR、SpectralShapeDifferentialSSDと非調和成分UCを出力する。
データベース7からは非調和成分UCとして、例えば図3に示すようなマグニチュード・スペクトルとフェイズスペクトルが出力される。非調和成分UCは、有声音については調和成分で表すことのできないオリジナル音声中のノイズ成分であり、無声音についてはもともと調和成分で表すことができないのでこの非調和成分UCだけで表すことになる。
このうち、VocalTractResonceVTRと非調和成分UCについては図に示すように位相(Phase)に関するものと、マグニチュード(Magnitude)に関するものにそれぞれ分けて出力される。
加算部8aは、窓掛け&FFT部6から出力されるフラットなマグニチュード・スペクトルに、ExcitationCurveECを加算する。すなわち、Egain、ESlope、ESlopeDepthを用いて、上記式(a)によって算出される周波数毎のマグニチュードを加算するものである。ここで加算された結果は、後段の加算部8bに送られる。
この時点で得られるマグニチュード・スペクトルは、例えば、図4に示す声帯振動波形のマグニチュード・スペクトル・エンベロープ(ExcitationCurve)である。
また、ここで前述のDynamicsパラメータに応じてEgain、ESlope、ESlopeDepthを図14(A)〜(C)に示す関数に従い変化させると、音量の変化による音色の変化を表現することができる。
さらに、音の大きさを変えたければ図11(A)、(B)に示すようにEGainを変化させればよい。また音色を変化させたい場合は、図12(A)、(B)に示すようにESlopeを変化させればよい。
加算部8bでは、加算部8aでExcitationCurveECを加算したマグニチュード・スペクトルに、さらに、前述の式(d)を用いてChestResonanceCRを加算して、図7に示すような胸部共鳴によるマグニチュード・スペクトルの山を付加したマグニチュード・スペクトルを得る。ここで得られたマグニチュード・スペクトルは、後段の加算部8cに送られる。
なお、ここでChestResonanceCRのマグニチュードを大きくすることにより、元の声質と比べて、胸部共鳴音が大きい声に変化させることができる。また、ChestResonanceCRの周波数を低くすることによりより低い胸部共鳴音を持つ声に変化させることができる。
加算部8cでは、加算部8bでChestResonanceCRを加算したマグニチュード・スペクトルに、さらに、前述の式(c1)を用いてVocalTractResonceVTRを加算して、図6に示すような声道によるマグニチュード・スペクトルの山を付加したマグニチュード・スペクトルを得る。ここで得られたマグニチュード・スペクトルは、後段の加算部8eに送られる。
ここで、VocalTractResonceVTRを加算することによって、基本的に、「あ」、「い」等の音韻の違いによる音色の違いを表現することができる。
なお、前述の図15を用いて説明したOpeningパラメータに応じてレゾナンスの振幅を周波数関数を用いて変化させると、口の開き具合による音色の変化を再現することができる。
また、ここでレゾナンスの周波数やマグニチュード、バンド幅を変化させることにより元の声質とは違った声質に変化させる(例えばオペラ調の声に変化させる)ことが可能となる。さらにピッチとともに変化させることにより、男の声を女の声にしたり、女の声を男の声にしたりすることができる。
加算部8dは、窓掛け&FFT部6から出力されるフラットなフェイズスペクトルに、前述の式(c2)を用いてVocalTractResonanceVTRを加算する。その後、フェイズスペクトルは、加算部8gに送られる。
加算部8eでは、加算部8cでVocalTractResonceVTRを加算したマグニチュード・スペクトルに、さらに、前述のSpectralShapeDifferentialMagdB(fHz)を加算して、より精密なマグニチュード・スペクトルを得る。
加算部8fではデータベース7から供給される非調和成分UCのマグニチュード・スペクトルと加算部8eから送られるマグニチュード・スペクトルを加算する。加算されたマグニチュード・スペクトルは後段のIFFT&Overlap加算部9に送られる。
加算部8gではデータベース7から供給される非調和成分UCのフェイズスペクトルと加算部8dから送られるフェイズスペクトルを加算する。加算されたフェイズスペクトルは後段のIFFT&Overlap加算部9に送られる。
IFFT&Overlap加算部9では、送られてくるマグニチュード・スペクトルとフェイズスペクトルをそれぞれ逆高速フーリエ変換(IFFT)して、変換された時間波形をオーバーラップ加算することで最終的な合成音声を生成して出力する。
以上、本実施例によれば、音声を調和成分と、非調和成分に分解し、さらに分解して得られた調和成分を声帯波形のマグニチュード・スペクトル・エンベロープ、複数のレゾナンス、及びこれらを加算したものと元の音声との差分に分解して保持することができる。
また、本実施例によれば、声帯波形のマグニチュード・スペクトル・エンベロープをEGain、ESlope、ESlopeDepthの3つのEpRパラメータで表すことができる。
さらに、本実施例によれば、音量の変化に対応するEpRパラメータをあらかじめ用意した関数に従い変化させることにより、音量の変化による自然な音色の変化を付与した音声合成を行うことができる。
また、本実施例によれば、口の開け方の変化に対応するEpRパラメータをあらかじめ用意した関数に従い変化させることにより、口の開け方の変化による自然な音色の変化を付与した音声合成を行うことができる。
さらに、上記の関数はそれぞれ、音韻や発声者等により変える事ができるので、音韻や発声者等による音色の変化の個人差を考慮した音声合成を行うことができる。
なお、本実施例は歌唱音声合成を中心に説明したが、歌唱音声に限られるものではなく、通常の会話の音声や楽器音なども同様に合成することができる。
なお、本実施例は、本実施例に対応するコンピュータプログラム等をインストールした市販のコンピュータ等によって、実施させるようにしてもよい。
その場合には、本実施例に対応するコンピュータプログラム等を、CD−ROMやフロッピーディスク等の、コンピュータが読み込むことが出来る記憶媒体に記憶させた状態で、ユーザに提供してもよい。
そのコンピュータ等が、LAN、インターネット、電話回線等の通信ネットワークに接続されている場合には、通信ネットワークを介して、コンピュータプログラムや各種データ等をコンピュータ等に提供してもよい。
以上実施例に沿って本発明を説明したが、本発明はこれらに制限されるものではない。例えば、種々の変更、改良、組合せ等が可能なことは当業者に自明であろう。
本発明の実施例による音声の分析を表すブロック図である。 調和成分のマグニチュード・スペクトル・エンベロープを表す図である。 非調和成分のスペクトル・エンベロープを表す図である。。 声帯振動波形のスペクトル・エンベロープを表す図である。 ExcitationCurveの変化を表す図である。 VocalTractResonanceにより作られるスペクトル・エンベロープを表す図である。 胸部共鳴波形のスペクトル・エンベロープ(ChestResonance)を表す図である。 レゾナンスの周波数特性の例を示す図である。 SpectralShapeDifferentialの例を表す図である。 図2の調和成分HCのマグニチュード・スペクトル・エンベロープをEpRパラメータに分解した図である。 図10に示したExcitationCurveのEGainを変化させた場合の全体のスペクトル・エンベロープの例である。 図10に示したExcitationCurveのESlopeを変化させた場合の全体のスペクトル・エンベロープの例である。 図10に示したExcitationCurveのESlopeDepthを変化させた場合の全体のスペクトル・エンベロープの例である。 Dynamicsの変化にともなうEpRパラメータの変化を示す図である。 Openingを変化させた時の周波数特性の変化を表す図である。 音声合成装置の歌唱合成エンジンのブロック図である。
符号の説明
1…音声入力部、2…音声分析部、3…記憶部、4…入力部、5…パルス生成部、6…窓掛け&FFT部、7…データベース、8…加算部、9…IFFT&Overlap加算部

Claims (11)

  1. 音声の調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープとを減算した差分のスペクトル・エンベロープとからなるEpRパラメータに分解して記憶するとともに、前記音声の非調和成分を記憶する記憶手段と、
    合成する音声の情報を入力する入力手段と、
    前記入力された情報に基づき、前記記憶手段から読み出したEpRパラメータと前記非調和成分とをフラットなマグニチュード・スペクトル・エンベロープに加算する加算手段と
    を有する音声合成装置。
  2. 音声を調和成分と非調和成分に分解する第1の分解手段と、
    前記調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープとを減算した差分のスペクトル・エンベロープとからなるEpRパラメータに分解する第2の分解手段と、
    前記EpRパラメータと前記非調和成分とを記憶する記憶手段と
    合成する音声の情報を入力する入力手段と、
    前記入力された情報に基づき、前記記憶手段から読み出したEpRパラメータと前記非調和成分とをフラットなマグニチュード・スペクトル・エンベロープに加算する加算手段と
    を有する音声合成装置。
  3. 前記記憶手段は、音韻ごとに代表的な1フレームのEpRパラメータを保持するTimberDBと、音韻ごとに音韻の伸ばした部分のEpRパラメータと非調和成分を保持するStationaryDBと、音韻の組み合わせごとに音韻の変化する部分のEpRパラメータと非調和成分を保持するArticulationDBとを記憶する請求項1又は2記載の音声合成装置。
  4. 前記記憶手段は、さらに、音の出始め及びリリース部、音程の変わり目の部分のゲイン及びピッチの変化を保持するNoteDBと、音声のビブラート部のゲイン及びピッチの変化を保持するVibratoDBとを記憶する請求項1から3のいずれか1項に記載の音声合成装置。
  5. 前記レゾナンスは、声道フォルマントを表現する複数のレゾナンスと、胸部共鳴を表現するレゾナンスとを含む請求項1から4のいずれか1項に記載の音声合成装置。
  6. 前記記憶手段は、さらに前記EpRパラメータを音の大きさに従い変化させる関数を記憶し、
    前記加算手段は、前記記憶手段から読み出したEpRパラメータを音の大きさの変化に応じて前記関数により変化させる請求項1から5のいずれか1項に記載の音声合成装置。
  7. 前記記憶手段は、さらに前記レゾナンスのアンプリチュードを口の開き方に従い変化させる関数を記憶し、
    前記加算手段は、前記記憶手段から読み出したEpRパラメータを口の開き方に応じて前記関数により変化ささせる請求項1から6のいずれか1項に記載の音声合成装置。
  8. 音声の調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープとを減算した差分のスペクトル・エンベロープとからなるEpRパラメータに分解して記憶するとともに、前記音声の非調和成分を記憶手段に記憶する記憶工程と、
    合成する音声の情報を入力する入力工程と、
    前記入力された情報に基づき、前記記憶手段から読み出したEpRパラメータと前記非調和成分とをフラットなマグニチュード・スペクトル・エンベロープに加算する加算工程と
    を有する音声合成方法。
  9. 音声を調和成分と非調和成分に分解する第1の分解工程と、
    前記調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープとを減算した差分のスペクトル・エンベロープとからなるEpRパラメータに分解する第2の分解工程と、
    前記EpRパラメータと前記非調和成分とを記憶手段に記憶する記憶工程と、
    合成する音声の情報を入力する入力工程と、
    前記入力された情報に基づき、前記記憶手段から読み出したEpRパラメータと前記非調和成分とをフラットなマグニチュード・スペクトル・エンベロープに加算する加算工程と
    を有する音声合成方法。
  10. 音声の調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープとを減算した差分のスペクトル・エンベロープとからなるEpRパラメータに分解して記憶するとともに、前記音声の非調和成分を記憶する記憶手段を有するコンピュータに音声合成処理を実行させるためのプログラムであって、
    合成する音声の情報を入力する入力手順と、
    前記入力された情報に基づき、前記記憶手段から読み出したEpRパラメータと前記非調和成分とをフラットなマグニチュード・スペクトル・エンベロープに加算する加算手順と
    を有する音声合成処理をコンピュータに実行させるためのプログラム。
  11. 音声を調和成分と非調和成分に分解する第1の分解手順と、
    前記調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープとを減算した差分のスペクトル・エンベロープとからなるEpRパラメータに分解する第2の分解手順と、
    前記EpRパラメータと前記非調和成分とを記憶手段に記憶する記憶手順と、
    合成する音声の情報を入力する入力手順と、
    前記入力された情報に基づき、前記記憶手段から読み出したEpRパラメータと前記非調和成分とをフラットなマグニチュード・スペクトル・エンベロープに加算する加算手順と
    を有する音声合成処理をコンピュータに実行させるためのプログラム。
JP2005132799A 2005-04-28 2005-04-28 音声分析及び合成装置、方法、プログラム Expired - Fee Related JP4349316B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005132799A JP4349316B2 (ja) 2005-04-28 2005-04-28 音声分析及び合成装置、方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005132799A JP4349316B2 (ja) 2005-04-28 2005-04-28 音声分析及び合成装置、方法、プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2001067257A Division JP3711880B2 (ja) 2001-03-09 2001-03-09 音声分析及び合成装置、方法、プログラム

Publications (3)

Publication Number Publication Date
JP2005275420A JP2005275420A (ja) 2005-10-06
JP2005275420A5 JP2005275420A5 (ja) 2006-03-30
JP4349316B2 true JP4349316B2 (ja) 2009-10-21

Family

ID=35175081

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005132799A Expired - Fee Related JP4349316B2 (ja) 2005-04-28 2005-04-28 音声分析及び合成装置、方法、プログラム

Country Status (1)

Country Link
JP (1) JP4349316B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013015829A (ja) * 2011-06-07 2013-01-24 Yamaha Corp 音声合成装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7139628B2 (ja) * 2018-03-09 2022-09-21 ヤマハ株式会社 音処理方法および音処理装置
CN111863028B (zh) * 2020-07-20 2023-05-09 江门职业技术学院 一种发动机声音合成方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013015829A (ja) * 2011-06-07 2013-01-24 Yamaha Corp 音声合成装置

Also Published As

Publication number Publication date
JP2005275420A (ja) 2005-10-06

Similar Documents

Publication Publication Date Title
Saitou et al. Speech-to-singing synthesis: Converting speaking voices to singing voices by controlling acoustic features unique to singing voices
Macon et al. A singing voice synthesis system based on sinusoidal modeling
JP3838039B2 (ja) 音声合成装置
JP3711880B2 (ja) 音声分析及び合成装置、方法、プログラム
JP6733644B2 (ja) 音声合成方法、音声合成システムおよびプログラム
JP7147211B2 (ja) 情報処理方法および情報処理装置
JP3966074B2 (ja) ピッチ変換装置、ピッチ変換方法及びプログラム
JP4349316B2 (ja) 音声分析及び合成装置、方法、プログラム
JP4844623B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
JP4304934B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
US20220084492A1 (en) Generative model establishment method, generative model establishment system, recording medium, and training data preparation method
Saitou et al. Analysis of acoustic features affecting" singing-ness" and its application to singing-voice synthesis from speaking-voice
JP5360489B2 (ja) 音素符号変換装置および音声合成装置
TW201027514A (en) Singing synthesis systems and related synthesis methods
JP2022065554A (ja) 音声合成方法およびプログラム
JP4963345B2 (ja) 音声合成方法及び音声合成プログラム
JP4353174B2 (ja) 音声合成装置
Bonada et al. Sample-based singing voice synthesizer using spectral models and source-filter decomposition
JP2000010597A (ja) 音声変換装置及び音声変換方法
JP2004061753A (ja) 歌唱音声を合成する方法および装置
JP2000003200A (ja) 音声信号処理装置及び音声信号処理方法
JP3540609B2 (ja) 音声変換装置及び音声変換方法
JP3294192B2 (ja) 音声変換装置及び音声変換方法
JP3447220B2 (ja) 音声変換装置及び音声変換方法
JP2000003187A (ja) 音声特徴情報記憶方法および音声特徴情報記憶装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060210

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090515

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090630

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090713

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120731

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130731

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees