JP3711880B2 - 音声分析及び合成装置、方法、プログラム - Google Patents
音声分析及び合成装置、方法、プログラム Download PDFInfo
- Publication number
- JP3711880B2 JP3711880B2 JP2001067257A JP2001067257A JP3711880B2 JP 3711880 B2 JP3711880 B2 JP 3711880B2 JP 2001067257 A JP2001067257 A JP 2001067257A JP 2001067257 A JP2001067257 A JP 2001067257A JP 3711880 B2 JP3711880 B2 JP 3711880B2
- Authority
- JP
- Japan
- Prior art keywords
- spectrum envelope
- magnitude spectrum
- magnitude
- resonance
- vibration waveform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
Description
【発明の属する技術分野】
本発明は、音声合成装置に関し、より詳しくは、人間の歌唱の音声合成装置に関する。
【0002】
【従来の技術】
人間の音声は、音韻(音素)により構成され、各音韻は複数個のフォルマントにより構成されている。よって、人間の歌唱音声の合成は、まず、人間が発生することのできる全ての音韻に対して、その各音韻を構成する全てのフォルマントを発生して合成することにより当該音韻を生成する。次に、生成された複数の音韻を順次つなぎ合わせ、メロディに合わせて音高を制御することにより歌唱音声の合成を実現する。この手法は、人間の音声に限らず、フォルマントを有する楽音、例えば、管楽器から発声される楽音の合成にも適用できる。
【0003】
この手法を用いた音声合成装置は従来から知られており、例えば、特許公報第2504172号には、高い音高のフォルマント音を発生するときでも、不要なスペクトルを発生しないように構成したフォルマント音発生装置が開示されている。
【0004】
【発明が解決しようとする課題】
しかし、上記フォルマント音発生装置及び従来の音声合成装置では、一般的な人間の歌唱音声を擬似的には合成できるものの、単に音高を変化させただけでは、歌唱における特定の人間の声質や癖等の個性を再現することはできない。
【0005】
本発明の目的は、歌唱における特定の声質や癖等の個性まで似せて歌唱音声を合成することのできる音声合成装置を提供することである。
【0006】
また、本発明の他の目的は、よりリアルな人間の歌唱音声を合成して、違和感のない自然な状態で歌を歌わせることが可能な音声合成装置を提供することである。
【0007】
【課題を解決するための手段】
本発明の一観点によれば、音声分析装置は、音声を調和成分と非調和成分に分解する第1の分解手段と、前記調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープとを減算した差分のマグニチュード・スペクトル・エンベロープとに分解する第2の分解手段と、前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを記憶する記憶手段とを有し、前記声帯振動波形のマグニチュード・スペクトル・エンベロープは、該マグニチュード・スペクトル・エンベロープの大きさを表すEGainと、該マグニチュード・スペクトル・エンベロープの傾き具合を表すESlopeと、該マグニチュード・スペクトル・エンベロープの最大値から最小値の深さを表すESlopeDepthとの3つのパラメータで表され、前記3つのパラメータは前記声帯振動波形のマグニチュード・スペクトル・エンベロープをExcitationCurveMag(f)とすると、以下の式(1)で表すことができる。
【数8】
【0008】
また、本発明の他の観点によれば、音声合成装置は、音声を調和成分と非調和成分に分解する第1の分解手段と、前記調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープとを減算した差分のマグニチュード・スペクトル・エンベロープとに分解する第2の分解手段と、前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを記憶する記憶手段と、合成する音声の情報を入力する入力手段と、マグニチュードの周波数特性がフラットなマグニチュード・スペクトル・エンベロープを発生する発生手段と、前記入力された情報に基づき、前記記憶手段から読み出した、前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを前記マグニチュードの周波数特性がフラットなマグニチュード・スペクトル・エンベロープに加算する加算手段とを有し、前記声帯振動波形のマグニチュード・スペクトル・エンベロープは、該マグニチュード・スペクトル・エンベロープの大きさを表すEGainと、該マグニチュード・スペクトル・エンベロープの傾き具合を表すESlopeと、該マグニチュード・スペクトル・エンベロープの最大値から最小値の深さを表すESlopeDepthとの3つのパラメータで表され、前記3つのパラメータは前記声帯振動波形のマグニチュード・スペクトル・エンベロープをExcitationCurveMag(f)とすると、以下の式(1)で表すことができる。
【数9】
【0009】
【発明の実施の形態】
図1は、音声の分析を表すブロック図である。
【0010】
音声入力部1に入力される音声は、音声分析部2に送られる。音声分析部2では、送られてきた音声を一定周期ごとに分析する。音声分析部2は、例えば、入力音声をSMS(Spectral Modeling Synthesis)分析などにより、調和成分HCと非調和成分UCに分解する。
【0011】
調和成分HCは、入力音声中、ある周波数と大きさを持った正弦波の総和であらわすことのできる成分である。図2中に点で示したものが調和成分HCとして求められる入力音声の周波数と大きさ(サイン成分)である。本実施例では、これらの点を直線で結んだものを調和成分HCのマグニチュード・スペクトル・エンベロープとしている。図2中点線で示すものがマグニチュード・スペクトル・エンベロープである。調和成分HCを求めることにより、同時に基本周波数Pitchも求まる。
【0012】
非調和成分UCは、入力音声の内の調和成分HCとして表せないノイズ成分を表す。非調和成分UCは、例えば図3に示すようなものである。図中上段は、非調和成分UCの大きさ(Magnitude)を示すマグニチュード・スペクトルであり、下段は、位相(Phase)を示すフェイズスペクトルである。本実施例では、非調和成分UCのMagnitude及びPhaseをそのままフレーム情報FLとして記録する。
【0013】
分析により抽出された調和成分HCのマグニチュード・スペクトル・エンベロープを、あとで操作しやすいように複数種類のExcitation plus
Resonance(EpR)パラメータに分解する。
【0014】
EpRパラメータとして、本実施例では、ExcitationCurve、VocalTractResonance、ChestResonance、SpectralShapeDifferentialの4種類が設けられる。なお、これ以外のEpRパラメータを設けるようにしてもよい。
【0015】
なお、後に詳述するが、ExcitationCurveは、声帯振動波形のスペクトル・エンベロープを示し、VocalTractResonanceは、いくつかのレゾナンスを組み合わせて声道によって形作られるスペクトル形状(フォルマント)を近似するものである。ChestResonanceは、VocalTractResonanceによって形作られるフォルマント以外の低い周波数のフォルマント(特に胸部による共鳴)をいくつかのレゾナンスを組み合わせて近似するものである。
【0016】
SpectralShapeDifferentialは、上記3つのEpRパラメータであらわしきれなかった成分を示すものである。すなわち、マグニチュード・スペクトル・エンベロープからExcitationCurve、VocalTractResonance、ChestResonanceを減算したものである。
【0017】
以上の非調和成分UCとEpRパラメータを1フレーム分の情報FL1〜nとして記憶部3に記憶する。
【0018】
図4は、声帯振動波形のスペクトル・エンベロープ(ExcitationCurve)を表す図である。ExcitationCurveは、声帯振動波形のマグニチュード・スペクトル・エンベロープである。
【0019】
具体的には、声帯振動波形の大きさを表すEGain[dB]と、声帯振動波形のスペクトル・エンベロープの傾き具合を表すESlopeと、声帯振動波形のスペクトル・エンベロープの最大値から最小値の深さを表すESlopeDepthとの3つのEpRパラメータで構成されている。
【0020】
これらの3つのEpRパラメータを用いると、周波数fHZにおけるExcitationCurveのマグニチュード・スペクトル・エンベロープ(ExcitationCurveMagdB)は、以下の式(a)で表すことができる。
【数式3】
この式(a)により、ExcitationCurveのマグニチュード・スペクトル・エンベロープは、EGainで純粋に信号の大きさを変化させることができ、ESlopeとESlopeDepthで、その周波数特性(傾き具合)を制御可能なことがわかる。
【0021】
図5は、上記式(a)によるExcitationCurveの変化を表す図である。ExcitationCurveは、周波数f=0Hzで、EGain[dB]からスタートし、EGain−ESlopeDepth[dB]の漸近線に向かって進む。その際の傾きは、ESlopeによって決まる。
【0022】
次に、EGain、ESlope及びESlopeDepthの求め方を説明する。もとの調和成分HCのマグニチュード・スペクトル・エンベロープからのEpRパラメータの抽出は、まず上記の3つのEpRパラメータから求めるようにする。
【0023】
EGain、ESlope及びESlopeDepthは、例えば、以下の方法で求めることができる。
【0024】
まず、もとの調和成分HCの成分のうち、周波数が250Hz以下のものの内の最大のマグニチュードのものをMAX[dB]と置き、MIN=−100[dB]とする。
【0025】
次に、もとの調和成分HCの成分のうち、周波数が10000Hz以下のものについて、i番目のサイン成分のマグニチュード及び周波数をそれぞれSinMag[i][dB]、SinFreq[i][Hz]とし、周波数が10000Hz以下のサイン成分の数をNとして、以下の式(b1)及び式(b2)でそれぞれの平均値を求める。SinFreq[0]は1番低いサイン成分の周波数を表す。
【0026】
【数式4】
【数式5】
上記式(b1)及び(b2)を用い、
【数式6】
【数式7】
【数式8】
【数式9】
【数式10】
と設定する。
【0027】
さらに上記式(b3)から(b7)より、EGain、ESlope及びESlopeDepthについて、下記の式(b8)、(b9)、(b10)が得られる。
【0028】
【数式11】
【数式12】
【数式13】
このようにして、EGain、ESlope及びESlopeDepthの各EpRパラメータを求めることができる。
【0029】
図6は、VocalTractResonanceにより作られるスペクトル・エンベロープを表す図である。VocalTractResonanceは、いくつかのレゾナンスを組み合わせて声道によって形作られるスペクトル形状(フォルマント)を近似するものである。
【0030】
例えば、人間が「あ」や「い」といった音韻を発音する時、その違いは、主に声道の形の変化によって生じるマグニチュードスペクトルエンベロープの山の形の違いによる。この山をフォルマントと呼ぶが、いくつか有るフォルマントは、レゾナンスをいくつか使用することにより近似することができる。
【0031】
図6では、11個のレゾナンスを使ってフォルマントを近似している。これらのうちi番目のレゾナンスをResonance[i]と示し、このi番目のレゾナンスの周波数fにおけるマグニチュードをResonance[i]Mag(f)と示すと、VocalTractResonanceによるマグニチュード・スペクトル・エンベロープは、以下の式(c1)で表すことができる。
【数式14】
また、このi番目のレゾナンスによる位相をResonance[i]Phase(f)と示すと、VocalTractResonanceによる位相(フェイズスペクトル)は、以下の式(c2)で表すことができる。
【0032】
【数式15】
一つ一つのResonance[i]は、中心周波数F、バンド幅Bw、アンプリチュードAmpの3つのEpRパラメータで表すことができる。レゾナンスの求め方については後述する。
【0033】
図7は、胸部共鳴波形のスペクトル・エンベロープ(ChestResonance)を表す図である。ChestResonanceは、胸部共鳴によって生ずるものであり、VocalTractResonanceで表すことのできない低い周波数におけるマグニチュードスペクトルエンベロープの山(フォルマント)をいくつかのレゾナンスを使って表したものである。
【0034】
胸部共鳴によるi番目のレゾナンスをCResonance[i]と示し、このi番目のレゾナンスの周波数fにおけるマグニチュードをCResonance[i]Mag(f)と示すと、ChestResonanceによるマグニチュード・スペクトル・エンベロープは、以下の式(d)で表すことができる。
【0035】
【数式16】
一つ一つのCResonance[i]は、中心周波数F、バンド幅Bw、アンプリチュードAmpの3つのEpRパラメータで表すことができる。次にレゾナンスの求め方については説明する。
【0036】
VocalTractResonance及びChestResonanceの一つ一つのレゾナンス(Resonance[i]及びCResonance[i])は、中心周波数F、バンド幅Bw、アンプリチュードAmpの3つのEpRパラメータで定義することができる。
【0037】
中心周波数F、バンド幅Bw、を持つレゾナンスのz領域の伝達関数は、以下の式(e1)で表すことができる。
【0038】
【数式17】
ここで、
【数式18】
【数式19】
【数式20】
【数式21】
【数式22】
である。
【0039】
この周波数応答は、以下の式(e7)で表すことができる。
【0040】
【数式23】
図8は、レゾナンスの周波数特性の例を示す図である。この例では、レゾナンスの中心周波数Fを1500Hzとして、バンド幅Bw及びアンプリチュードAmpを変化させたものである。
【0041】
図に示すように振幅|T(f)|は、f=中心周波数Fで最大となり、この最大値がレゾナンスのアンプリチュードAmpとなっている。したがって、中心周波数F、バンド幅Bw、アンプリチュードAmp(リニア値)を持つレゾナンスのResonance(f)(リニア値)を上記式(e7)を用いて表すと下記式(e8)のようになる。
【0042】
【数式24】
よって、このレゾナンスの周波数fにおけるマグニチュードは、下記式(e9)で表すことができ、位相は下記式(e10)で表すことができる。
【0043】
【数式25】
【数式26】
図9は、SpectralShapeDifferentialの例を表す図である。SpectralShapeDifferentialは、元の入力音声のマグニチュードスペクトルエンベロープのうちのExcitationCurve、VocalTractResonance、ChestResonanceで表しきれなかった成分である。
【0044】
この成分をSpectralShapeDifferentialMag(f)[dB]とすると、下記式(f)が成り立つ。
【数式27】
すなわち、SpectralShapeDifferentialは、他のEpRパラメータと元の調和成分との差分値であり、この差分値を一定の周波数間隔で算出するものである。例えば、50Hz間隔で差分値を取り、そのポイント間では直線補間を行うようにする。
【0045】
また、式(f)より、上記EpRパラメータを用いることにより、オリジナルの入力音声の調和成分のマグニチュード・スペクトル・エンベロープを再現することができる。
【0046】
さらに、前述の非調和成分を再現した調和成分のマグニチュードスペクトルエンベロープに加算することにより、ほぼ入力されたもとの音声に戻すことができる。
【0047】
図10は、図2の調和成分HCのマグニチュード・スペクトル・エンベロープをEpRパラメータに分解した図である。
【0048】
図6に示す中心周波数が2番目より高いレゾナンスであるVocalTractResonance、図7に示す1番低い中心周波数のChestResonance、図9に示す点線で示すSpectralShapeDifferentialのそれぞれに、太破線で示すExcitationCurveを適用したものを表す図である。
【0049】
VocalTractResonance、ChestResonanceのそれぞれのレゾナンスは、ExcitationCurveに加算されている。また、SpectralShapeDifferentialは、ExcitationCurve上を差分0としている。
【0050】
次に、ExcitationCurveを変化させた場合に全体のスペクトルエンベロープがどう変化するかを説明する。
【0051】
図11(A)、(B)は、図10に示したExcitationCurveのEGainを変化させた場合の全体のスペクトル・エンベロープの例である。
【0052】
図11(A)に示すように、EGainを大きくすると全体のスペクトル・エンベロープのゲイン(マグニチュード)が大きくなる。しかし、スペクトルエンベロープの形状に変化は見られないので、音色の変化はない。すなわち音量のみを大きくすることができる。
【0053】
図11(B)に示すように、EGainを小さくすると全体のスペクトル・エンベロープのゲイン(マグニチュード)が小さくなる。しかし、スペクトルエンベロープの形状に変化は見られないので、音色の変化はない。すなわち音量のみを小さくすることができる。
【0054】
図12(A)、(B)は、図10に示したExcitationCurveのESlopeを変化させた場合の全体のスペクトル・エンベロープの例である。
【0055】
図12(A)に示すように、ESlopeを大きくすると全体のスペクトル・エンベロープのゲイン(マグニチュード)は変化しないものの、スペクトル・エンベロープの形状は変化するので、音色が変化する。ESlopeを大きくした場合は、高域が抑えられてこもった音色にすることができる。
【0056】
図12(B)に示すように、ESlopeを小さくすると全体のスペクトル・エンベロープのゲイン(マグニチュード)は変化しないものの、スペクトル・エンベロープの形状は変化するので、音色が変化する。ESlopeを小さくした場合は、高域が出て明るい音色にすることができる。
【0057】
図13(A)、(B)は、図10に示したExcitationCurveのESlopeDepthを変化させた場合の全体のスペクトル・エンベロープの例である。
【0058】
図13(A)に示すように、ESlopeDepthを大きくすると全体のスペクトル・エンベロープのゲイン(マグニチュード)は変化しないものの、スペクトル・エンベロープの形状は変化するので、音色が変化する。ESlopeDepthを大きくした場合は、高域が抑えられてこもった音色にすることができる。
【0059】
図13(B)に示すように、ESlopeDepthを小さくすると全体のスペクトル・エンベロープのゲイン(マグニチュード)は変化しないものの、スペクトル・エンベロープの形状は変化するので、音色が変化する。ESlopeDepthを小さくした場合は、高域が出て明るい音色にすることができる。
【0060】
以上のように、ESlopeとESlopeDepthの変化による効果は非常に似たものになる。
【0061】
次に、EpRパラメータを変化させて現実の発声における音色の変化をシミュレートする方法を説明する。例えば、「あ」などの有声音の音韻の1フレーム分のデータが、上述したEpRパラメータで表されている時に、Dynamics(発声の大きさ)を変化させたい場合、現実の発声における発声の大きさによる音色の変化をEpRパラメータを変化させてシミュレートする。なお、発声者によって異なるが、一般的には、小さく発声した場合は、高域成分が抑えられ、大きく発声するに従い高域成分が多くなる。
【0062】
図14(A)〜(C)は、Dynamicsの変化にともなうEpRパラメータの変化を示す図である。図14(A)はEGain、図14(B)はESlope、図14(C)はESlopeDepthの変化を示している。
【0063】
図14(A)〜(C)のそれぞれの横軸は0〜1.0のDynamicsの値を表す。ここで、Dynamics値0は、一番小さく発声した時の値であり、Dynamics値1.0は、一番大きく発声した時の値とする。また、Dynamics値0.5は、普通の大きさで発声した時の値である。
【0064】
後述するデータベースTimberDBには、普通の大きさで発声した時のEGain、ESlope、ESlopeDepthを保存しておき、それらのEpRパラメータを、それぞれ図14(A)〜(C)に示す関数に基づき変化させる。より具体的には、図14(A)の関数をFEGain(Dynamics)、図14(B)の関数をFESlope(Dynamics)、図14(C)の関数をFESlopeDepth(Dynamics)とした場合に、Dynamicsパラメータが与えられたとするとそれぞれのパラメータは以下の式(g1)から(g3)で表すことができる。ただし、OriginalESlope、OriginalESlopeDepthは、データベースTimberDBに保存されているもとのEpRパラメータである。
【0065】
【数式28】
【数式29】
【数式30】
図14(A)〜(C)に示す関数は、それぞれ、いろいろな大きさ(Dynamics)で発声された同じ音韻のパラメータを分析することにより求められるものである。この関数を用いて、ダイナミクスに応じてEpRパラメータを変化させる。図14(A)〜(C)に示される変化の仕方は、音韻、発声者等によって異なると考えられるので、音韻や発声者毎にこの関数を求めることにより、より現実の発声に近い変化にすることができる。
【0066】
次に、図15を参照して、同じ音韻を発声する時に、口の開き具合(Opening)を変化させた時の音色の変化を再現するための方法を述べる。
【0067】
図15は、Openingを変化させた時の周波数特性の変化を表す図である。Openingパラメータも、Dynamicsと同様に、0〜1.0の値をとるものとする。
【0068】
Opening値0の時は、一番口をすぼめて発声した時(low opening)であり、Opening値1.0の時は、一番口を開けて発声した時(high opening)である。また、Opening値0.5は、普通の口の開け方で発声した時(normal opening)の値である。
【0069】
後述するデータベースTimberDBには、普通の口の開け方で発声した時のEpRパラメータを、保存しておき、それを所望の口の開き具合に合わせて図15に示すような周波数特性をもつように変化させる。
【0070】
この変化を実現するためには、レゾナンスのアンプリチュード(EpRパラメータ)を図に示すように変化させればよい。例えば、普通の口の開け方で発声した時(normal opening)は、周波数特性を変化させない。また、一番口をすぼめて発声した時(low opening)は、1〜5KHzの成分のアンプリチュードを下げる。また、一番口を開けて発声した時(high opening)は、1〜5KHzの成分のアンプリチュードを上げる。
【0071】
上記の変化関数をFOpening(f)とすると、各レゾナンスのアンプリチュードを以下の式(h)で変化させることにより所望の口の開き具合の周波数特性をもつように変化させることができる。すなわち、図15に示すような周波数特性の変化を与えることができる。
【0072】
関数FOpening(f)は、いろいろな口の開け方で発声された同じ音韻のパラメータを分析することにより求める。この関数を用いて、Opening値に応じてEpRパラメータを変化させる。この変化の仕方は、音韻、発声者等によって異なると考えられるので、音韻や発声者毎にこの関数を求めることにより、より現実の発声に近い変化にすることができる。
【0073】
なお、式(h)は、i番目のレゾナンスに対応する。また、OriginalResonance[i]Amp、OriginalResonance[i]Freqは、データベースTimberDBに保存されているもとのレゾナンスのそれぞれアンプリチュード、中心周波数(EpRパラメータ)である。また、NewResonance[i]Ampは、新しいレゾナンスのアンプリチュードを示す。
【0074】
【数式31】
次に、いかにして歌唱合成を行うかを図16を参照して説明する。
【0075】
図16は、音声合成装置の歌唱合成エンジンのブロック図である。歌唱合成エンジンは、少なくとも入力部4、パルス生成部5、窓掛け&FFT部6、データベース7、複数の加算部8a〜8g、IFFT&Overlap部9を有している。
【0076】
入力部4には、例えば、5ms等のフレーム時間間隔毎に、歌唱音声として合成したい歌詞メロディに応じて、ピッチ、音の強さ、音韻、その他の情報が入力される。その他の情報とは、例えば、ビブラートなどの情報であり、ビブラートの速さや、深さが入力される。この入力部4に入力された情報は、2系統に分岐して、パルス生成部5及びデータベース7に送られる。
【0077】
パルス生成部5では、入力部4から入力されるピッチに対応するピッチ間隔のパルスを時間軸上で生成する。このパルス生成部5で、生成するパルスのゲイン及びピッチの揺れを加えて、生成するパルス自体に微妙なゲインとピッチ間隔の揺れをつけてやると、いわゆるがさついた声などを発生させることができる。
【0078】
なお、現在のフレームが無声音の場合には、ピッチがないので、このパルス生成部5での処理は必要がない。すなわち、パルス生成部5で行う処理は、有声音を発生させる場合についてのみ行われる。
【0079】
窓掛け&FFT部6では、パルス生成部5で発生したパルス(時間波形)を窓掛けした後に高速フーリエ変換(FFT)することにより周波数領域の情報に変換する。ここで変換されて得られた周波数領域の情報のマグニチュードスペクトルは、全域フラットとなっている。また、窓掛け&FFT部6からの出力は図に示すようにフェイズスペクトル(Phase)と、マグニチュード・スペクトル(Magnitude)にそれぞれ分けられる。
【0080】
データベース7には、歌唱合成を行うにあたって、いくつかのデータベースが用意されている。本実施例では、例えば、TimberDB、StationaryDB、ArticulationDB、NoteDB、及びVibratoDBが用意されている。
【0081】
データベース7では、入力部4に入力される情報に従い、必要なデータベースを読み出して、ある時刻において合成に必要なEpRパラメータ及び非調和成分を算出する。
【0082】
TimberDBは、有声音(母音、鼻音、有声子音)の各音韻について、代表的な1フレームのEpRパラメータを保持している。同じ音韻について、複数のピッチのそれぞれに対応する1フレームのEpRパラメータを保持している。この複数のピッチを利用して、補間することにより所望のピッチに合ったEpRパラメータを求める。
【0083】
StationaryDBは、調和成分(EpRパラメータ)と非調和成分を含み、各音韻を延ばして発声したものを分析して、その安定した数秒間の分析フレームを音韻毎にそのまま保持する。例えば、フレーム間隔を5msとして、安定した発声をした区間が1秒とすると、各音韻毎に200フレーム分の情報を保持することになる。
【0084】
このStationaryDBは、オリジナルの音声を分析したEpRパラメータを保持しているので、オリジナルの音声が持つ微小な揺らぎ等を情報として持っている。これを利用して、TimberDBから求められるEpRパラメータに、微小な変化を与えることができ、オリジナルの音声が持つ自然なピッチ、ゲイン、レゾナンス等の変化を再現することができる。また、非調和成分を加えることにより、さらに自然な合成音声を実現することができる。
【0085】
ArticulationDBは、調和成分(EpRパラメータ)と非調和成分を含み、ある音韻からある音韻へ変化する部分を分析して保持している。ある音韻からある音韻へ変化する音声の合成時に、該変化部分に、このArticulationDBを参照して、EpRパラメータの変化と非調和成分をそのまま用いることにより、自然な音韻の変化を再現することができる。
【0086】
NoteDBは、AttackDB、ReleaseDB、NoteTransitionDBの3つのデータベースで構成される。それぞれ、音の出始め、音のリリース部、音程の変わり目の部分について、オリジナルの音声(実音声)を分析して得られるゲイン(EGain)やピッチの変化等を情報として保持している。
【0087】
例えば、音の出始めの部分について、AttackDBのゲインの変化(EGain)とピッチの変化を、EpRパラメータにさらに加算すれば自然な実音声に近い、ゲイン及びピッチの変化を合成音声に付与することができる。
【0088】
VibratoDBは、オリジナルの音声(実音声)のビブラート部分を分析して得られるゲイン(EGain)やピッチの変化等を情報として保持している。
【0089】
例えば、合成音声中でビブラートをかけたい部分があれば、その部分のEpRパラメータにVibratoDBに保持されているゲイン(EGain)やピッチの変化を加算することにより、自然なゲイン及びピッチの変化を合成音声に付与することができる。すなわち、自然なビブラートを再現することができる。
【0090】
なお、本実施例では、以上の5つのデータベースを用意したが、歌詞とピッチ、音の大きさ、口の開き具合の情報が与えられれば、基本的には、少なくともTimberDB、StationaryDB、ArticulationDBの3つのデータベースを使用すれば歌唱音声の合成を行うことができる。
【0091】
さらに、歌唱音声に表情をつけるにあたってNoteDB、及びVibratoDBの2つのデータベースを適宜追加して使用することにより表現力豊かな歌唱音声を合成することができる。また、追加するデータベースは、NoteDB、及びVibratoDBに限らず音声の表現に関するものならどのようなものでもよい。
【0092】
データベース7では、以上に述べたデータベースを用いて算出したEpRパラメータであるExcitationCurveEC、ChestResonanceCR、VocalTractResonceVTR、SpectralShapeDifferentialSSDと非調和成分UCを出力する。
【0093】
データベース7からは非調和成分UCとして、例えば図3に示すようなマグニチュード・スペクトルとフェイズスペクトルが出力される。非調和成分UCは、有声音については調和成分で表すことのできないオリジナル音声中のノイズ成分であり、無声音についてはもともと調和成分で表すことができないのでこの非調和成分UCだけで表すことになる。
【0094】
このうち、VocalTractResonceVTRと非調和成分UCについては図に示すように位相(Phase)に関するものと、マグニチュード(Magnitude)に関するものにそれぞれ分けて出力される。
【0095】
加算部8aは、窓掛け&FFT部6から出力されるフラットなマグニチュード・スペクトルに、ExcitationCurveECを加算する。すなわち、Egain、ESlope、ESlopeDepthを用いて、上記式(a)によって算出される周波数毎のマグニチュードを加算するものである。ここで加算された結果は、後段の加算部8bに送られる。
【0096】
この時点で得られるマグニチュード・スペクトルは、例えば、図4に示す声帯振動波形のマグニチュード・スペクトル・エンベロープ(ExcitationCurve)である。
【0097】
また、ここで前述のDynamicsパラメータに応じてEgain、ESlope、ESlopeDepthを図14(A)〜(C)に示す関数に従い変化させると、音量の変化による音色の変化を表現することができる。
【0098】
さらに、音の大きさを変えたければ図11(A)、(B)に示すようにEGainを変化させればよい。また音色を変化させたい場合は、図12(A)、(B)に示すようにESlopeを変化させればよい。
【0099】
加算部8bでは、加算部8aでExcitationCurveECを加算したマグニチュード・スペクトルに、さらに、前述の式(d)を用いてChestResonanceCRを加算して、図7に示すような胸部共鳴によるマグニチュード・スペクトルの山を付加したマグニチュード・スペクトルを得る。ここで得られたマグニチュード・スペクトルは、後段の加算部8cに送られる。
【0100】
なお、ここでChestResonanceCRのマグニチュードを大きくすることにより、元の声質と比べて、胸部共鳴音が大きい声に変化させることができる。また、ChestResonanceCRの周波数を低くすることによりより低い胸部共鳴音を持つ声に変化させることができる。
【0101】
加算部8cでは、加算部8bでChestResonanceCRを加算したマグニチュード・スペクトルに、さらに、前述の式(c1)を用いてVocalTractResonceVTRを加算して、図6に示すような声道によるマグニチュード・スペクトルの山を付加したマグニチュード・スペクトルを得る。ここで得られたマグニチュード・スペクトルは、後段の加算部8eに送られる。
【0102】
ここで、VocalTractResonceVTRを加算することによって、基本的に、「あ」、「い」等の音韻の違いによる音色の違いを表現することができる。
【0103】
なお、前述の図15を用いて説明したOpeningパラメータに応じてレゾナンスの振幅を周波数関数を用いて変化させると、口の開き具合による音色の変化を再現することができる。
【0104】
また、ここでレゾナンスの周波数やマグニチュード、バンド幅を変化させることにより元の声質とは違った声質に変化させる(例えばオペラ調の声に変化させる)ことが可能となる。さらにピッチとともに変化させることにより、男の声を女の声にしたり、女の声を男の声にしたりすることができる。
【0105】
加算部8dは、窓掛け&FFT部6から出力されるフラットなフェイズスペクトルに、前述の式(c2)を用いてVocalTractResonanceVTRを加算する。その後、フェイズスペクトルは、加算部8gに送られる。
【0106】
加算部8eでは、加算部8cでVocalTractResonceVTRを加算したマグニチュード・スペクトルに、さらに、前述のSpectralShapeDifferentialMagdB(fHz)を加算して、より精密なマグニチュード・スペクトルを得る。
【0107】
加算部8fではデータベース7から供給される非調和成分UCのマグニチュード・スペクトルと加算部8eから送られるマグニチュード・スペクトルを加算する。加算されたマグニチュード・スペクトルは後段のIFFT&Overlap加算部9に送られる。
【0108】
加算部8gではデータベース7から供給される非調和成分UCのフェイズスペクトルと加算部8dから送られるフェイズスペクトルを加算する。加算されたフェイズスペクトルは後段のIFFT&Overlap加算部9に送られる。
【0109】
IFFT&Overlap加算部9では、送られてくるマグニチュード・スペクトルとフェイズスペクトルをそれぞれ逆高速フーリエ変換(IFFT)して、変換された時間波形をオーバーラップ加算することで最終的な合成音声を生成して出力する。
【0110】
以上、本実施例によれば、音声を調和成分と、非調和成分に分解し、さらに分解して得られた調和成分を声帯波形のマグニチュード・スペクトル・エンベロープ、複数のレゾナンス、及びこれらを加算したものと元の音声との差分に分解して保持することができる。
【0111】
また、本実施例によれば、声帯波形のマグニチュード・スペクトル・エンベロープをEGain、ESlope、ESlopeDepthの3つのEpRパラメータで表すことができる。
【0112】
さらに、本実施例によれば、音量の変化に対応するEpRパラメータをあらかじめ用意した関数に従い変化させることにより、音量の変化による自然な音色の変化を付与した音声合成を行うことができる。
【0113】
また、本実施例によれば、口の開け方の変化に対応するEpRパラメータをあらかじめ用意した関数に従い変化させることにより、口の開け方の変化による自然な音色の変化を付与した音声合成を行うことができる。
【0114】
さらに、上記の関数はそれぞれ、音韻や発声者等により変える事ができるので、音韻や発声者等による音色の変化の個人差を考慮した音声合成を行うことができる。
【0115】
なお、本実施例は歌唱音声合成を中心に説明したが、歌唱音声に限られるものではなく、通常の会話の音声や楽器音なども同様に合成することができる。
【0116】
なお、本実施例は、本実施例に対応するコンピュータプログラム等をインストールした市販のコンピュータ等によって、実施させるようにしてもよい。
【0117】
その場合には、本実施例に対応するコンピュータプログラム等を、CD−ROMやフロッピーディスク等の、コンピュータが読み込むことが出来る記憶媒体に記憶させた状態で、ユーザに提供してもよい。
【0118】
そのコンピュータ等が、LAN、インターネット、電話回線等の通信ネットワークに接続されている場合には、通信ネットワークを介して、コンピュータプログラムや各種データ等をコンピュータ等に提供してもよい。
【0119】
以上実施例に沿って本発明を説明したが、本発明はこれらに制限されるものではない。例えば、種々の変更、改良、組合せ等が可能なことは当業者に自明であろう。
【0120】
【発明の効果】
以上説明したように、本発明によれば、歌唱における特定の声質や癖等の個性まで似せて歌唱音声を合成することのできる音声合成装置を提供することができる。
【0121】
また、本発明によれば、よりリアルな人間の歌唱音声を合成して、違和感のない自然な状態で歌を歌わせることが可能な音声合成装置を提供することができる。
【図面の簡単な説明】
【図1】 本発明の実施例による音声の分析を表すブロック図である。
【図2】 調和成分のマグニチュード・スペクトル・エンベロープを表す図である。
【図3】 非調和成分のスペクトル・エンベロープを表す図である。。
【図4】 声帯振動波形のスペクトル・エンベロープを表す図である。
【図5】 ExcitationCurveの変化を表す図である。
【図6】VocalTractResonanceにより作られるスペクトル・エンベロープを表す図である。
【図7】胸部共鳴波形のスペクトル・エンベロープ(ChestResonance)を表す図である。
【図8】 レゾナンスの周波数特性の例を示す図である。
【図9】 SpectralShapeDifferentialの例を表す図である。
【図10】 図2の調和成分HCのマグニチュード・スペクトル・エンベロープをEpRパラメータに分解した図である。
【図11】 図10に示したExcitationCurveのEGainを変化させた場合の全体のスペクトル・エンベロープの例である。
【図12】 図10に示したExcitationCurveのESlopeを変化させた場合の全体のスペクトル・エンベロープの例である。
【図13】 図10に示したExcitationCurveのESlopeDepthを変化させた場合の全体のスペクトル・エンベロープの例である。
【図14】 Dynamicsの変化にともなうEpRパラメータの変化を示す図である。
【図15】 Openingを変化させた時の周波数特性の変化を表す図である。
【図16】 音声合成装置の歌唱合成エンジンのブロック図である。
【符号の説明】
1…音声入力部、2…音声分析部、3…記憶部、4…入力部、5…パルス生成部、6…窓掛け&FFT部、7…データベース、8…加算部、9…IFFT&Overlap加算部
Claims (11)
- 音声を調和成分と非調和成分に分解する第1の分解手段と、
前記調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープとを減算した差分のマグニチュード・スペクトル・エンベロープとに分解する第2の分解手段と、
前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを記憶する記憶手段とを有する音声分析装置であって、
前記声帯振動波形のマグニチュード・スペクトル・エンベロープは、該マグニチュード・スペクトル・エンベロープの大きさを表すEGainと、該マグニチュード・スペクトル・エンベロープの傾き具合を表すESlopeと、該マグニチュード・スペクトル・エンベロープの最大値から最小値の深さを表すESlopeDepthとの3つのパラメータで表され、
前記3つのパラメータは前記声帯振動波形のマグニチュード・スペクトル・エンベロープをExcitationCurveMag(f)とすると、以下の式(1)で表すことができる音声分析装置。
- 前記レゾナンスは、声道フォルマントを表現する複数のレゾナンスと、胸部共鳴のフォルマントを表現するレゾナンスとを含む請求項1記載の音声分析装置。
- 音声を調和成分と非調和成分とに分解し、該調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープとを減算した差分のマグニチュード・スペクトル・エンベロープとに分解して記憶する記憶手段と、
合成する音声の情報を入力する入力手段と、
マグニチュードの周波数特性がフラットなマグニチュード・スペクトル・エンベロープを発生する発生手段と、
前記入力された情報に基づき、前記記憶手段から読み出した、前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを前記マグニチュードの周波数特性がフラットなマグニチュード・スペクトル・エンベロープに加算する加算手段とを有する音声合成装置であって、
前記声帯振動波形のマグニチュード・スペクトル・エンベロープは、該マグニチュード・スペクトル・エンベロープの大きさを表すEGainと、該マグニチュード・スペクトル・エンベロープの傾き具合を表すESlopeと、該マグニチュード・スペクトル・エンベロープの最大値から最小値の深さを表すESlopeDepthとの3つのパラメータで表され、
前記3つのパラメータは前記声帯振動波形のマグニチュード・スペクトル・エンベロープをExcitationCurveMag(f)とすると、以下の式(1)で表すことができる音声合成装置。
- 音声を調和成分と非調和成分に分解する第1の分解手段と、
前記調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープとを減算した差分のマグニチュード・スペクトル・エンベロープとに分解する第2の分解手段と、
前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを記憶する記憶手段と、
合成する音声の情報を入力する入力手段と、
マグニチュードの周波数特性がフラットなマグニチュード・スペクトル・エンベロープを発生する発生手段と、
前記入力された情報に基づき、前記記憶手段から読み出した、前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを前記マグニチュードの周波数特性がフラットなマグニチュード・スペクトル・エンベロープに加算する加算手段とを有する音声合成装置であって、
前記声帯振動波形のマグニチュード・スペクトル・エンベロープは、該マグニチュード・スペクトル・エンベロープの大きさを表すEGainと、該マグニチュード・スペクトル・エンベロープの傾き具合を表すESlopeと、該マグニチュード・スペクトル・エンベロープの最大値から最小値の深さを表すESlopeDepthとの3つのパラメータで表され、
前記3つのパラメータは前記声帯振動波形のマグニチュード・スペクトル・エンベロープをExcitationCurveMag(f)とすると、以下の式(1)で表すことができる音声分析装置。
- 前記レゾナンスは、声道フォルマントを表現する複数のレゾナンスと、胸部共鳴のフォルマントを表現するレゾナンスとを含む請求項3又は4記載の音声合成装置。
- 前記記憶手段は、さらに前記3つのパラメータを音の大きさに従い変化させる関数を記憶し、
音の大きさの変化に応じて音色を変化させることができる請求項3から5のいずれか1項に記載の音声合成装置。 - 前記記憶手段は、さらに前記レゾナンスのアンプリチュードを口の開き方に従い変化させる関数を記憶し、
口の開き方に応じて音色を変化させることができる請求項3から6のいずれか1項に記載の音声合成装置。 - 音声を調和成分と非調和成分に分解する第1の分解工程と、
前記調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープとを減算した差分のマグニチュード・スペクトル・エンベロープとに分解する第2の分解工程と、
前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを記憶する記憶工程とを有する音声分析方法であって、
前記声帯振動波形のマグニチュード・スペクトル・エンベロープは、該マグニチュード・スペクトル・エンベロープの大きさを表すEGainと、該マグニチュード・スペクトル・エンベロープの傾き具合を表すESlopeと、該マグニチュード・スペクトル・エンベロープの最大値から最小値の深さを表すESlopeDepthとの3つのパラメータで表され、
前記3つのパラメータは前記声帯振動波形のマグニチュード・スペクトル・エンベロープをExcitationCurveMag(f)とすると、以下の式(1)で表すことができる音声分析方法。
- 音声を調和成分と非調和成分とに分解し、該調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープとを減算した差分のマグニチュード・スペクトル・エンベロープとに分解して記憶する記憶手段から前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを読み出す読み出し工程と
合成する音声の情報を入力する入力工程と、
マグニチュードの周波数特性がフラットなマグニチュード・スペクトル・エンベロープを発生する発生工程と、
前記入力された情報に基づき、前記記憶手段から読み出した、前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを前記マグニチュードの周波数特性がフラットなマグニチュード・スペクトル・エンベロープに加算する加算工程とを有する音声合成方法であって、
前記声帯振動波形のマグニチュード・スペクトル・エンベロープは、該マグニチュード・スペクトル・エンベロープの大きさを表すEGainと、該マグニチュード・スペクトル・エンベロープの傾き具合を表すESlopeと、該マグニチュード・スペクトル・エンベロープの最大値から最小値の深さを表すESlopeDepthとの3つのパラメータで表され、
前記3つのパラメータは前記声帯振動波形のマグニチュード・スペクトル・エンベロープをExcitationCurveMag(f)とすると、以下の式(1)で表すことができる音声合成方法。
- 音声を調和成分と非調和成分に分解する第1の分解手順と、
前記調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープを減算した差分のスペクトル・エンベロープとに分解する第2の分解手順と、
前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを記憶する記憶手順とを有する音声分析手順をコンピュータに実行させるためのプログラムであって、
前記声帯振動波形のマグニチュード・スペクトル・エンベロープは、該マグニチュード・スペクトル・エンベロープの大きさを表すEGainと、該マグニチュード・スペクトル・エンベロープの傾き具合を表すESlopeと、該マグニチュード・スペクトル・エンベロープの最大値から最小値の深さを表すESlopeDepthとの3つのパラメータで表され、
前記3つのパラメータは前記声帯振動波形のマグニチュード・スペクトル・エンベロープをExcitationCurveMag(f)とすると、以下の式(1)で表すことができる音声分析手順をコンピュータに実行させるためのプログラム。
- 音声を調和成分と非調和成分とに分解し、該調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープとを減算した差分のマグニチュード・スペクトル・エンベロープとに分解して記憶する記憶手段から前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを読み出す読み出し手順と
合成する音声の情報を入力する入力手順と、
マグニチュードの周波数特性がフラットなマグニチュード・スペクトル・エンベロープを発生する発生手順と、
前記入力された情報に基づき、前記記憶手段から読み出した、前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを前記マグニチュードの周波数特性がフラットなマグニチュード・スペクトル・エンベロープに加算する加算手順とを有する音声合成手順をコンピュータに実行させるためのプログラムであって、
前記声帯振動波形のマグニチュード・スペクトル・エンベロープは、該マグニチュード・スペクトル・エンベロープの大きさを表すEGainと、該マグニチュード・スペクトル・エンベロープの傾き具合を表すESlopeと、該マグニチュード・スペクトル・エンベロープの最大値から最小値の深さを表すESlopeDepthとの3つのパラメータで表され、
前記3つのパラメータは前記声帯振動波形のマグニチュード・スペクトル・エンベロープをExcitationCurveMag(f)とすると、以下の式(1)で表すことができる音声合成手順をコンピュータに実行させるためのプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001067257A JP3711880B2 (ja) | 2001-03-09 | 2001-03-09 | 音声分析及び合成装置、方法、プログラム |
DE60202161T DE60202161T2 (de) | 2001-03-09 | 2002-03-07 | Verfahren, Vorrichtung und Programm zur Analyse und Synthese von Sprache |
EP02005150A EP1239463B1 (en) | 2001-03-09 | 2002-03-07 | Voice analyzing and synthesizing apparatus and method, and program |
US10/093,969 US6944589B2 (en) | 2001-03-09 | 2002-03-08 | Voice analyzing and synthesizing apparatus and method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001067257A JP3711880B2 (ja) | 2001-03-09 | 2001-03-09 | 音声分析及び合成装置、方法、プログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005132799A Division JP4349316B2 (ja) | 2005-04-28 | 2005-04-28 | 音声分析及び合成装置、方法、プログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2002268658A JP2002268658A (ja) | 2002-09-20 |
JP2002268658A5 JP2002268658A5 (ja) | 2004-07-15 |
JP3711880B2 true JP3711880B2 (ja) | 2005-11-02 |
Family
ID=18925636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001067257A Expired - Fee Related JP3711880B2 (ja) | 2001-03-09 | 2001-03-09 | 音声分析及び合成装置、方法、プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US6944589B2 (ja) |
EP (1) | EP1239463B1 (ja) |
JP (1) | JP3711880B2 (ja) |
DE (1) | DE60202161T2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2530672A2 (en) | 2011-06-01 | 2012-12-05 | Yamaha Corporation | Voice synthesis apparatus |
EP2530671A2 (en) | 2011-05-30 | 2012-12-05 | Yamaha Corporation | Voice synthesis apparatus |
US11289066B2 (en) | 2016-06-30 | 2022-03-29 | Yamaha Corporation | Voice synthesis apparatus and voice synthesis method utilizing diphones or triphones and machine learning |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3879402B2 (ja) * | 2000-12-28 | 2007-02-14 | ヤマハ株式会社 | 歌唱合成方法と装置及び記録媒体 |
JP3823930B2 (ja) | 2003-03-03 | 2006-09-20 | ヤマハ株式会社 | 歌唱合成装置、歌唱合成プログラム |
JP4265501B2 (ja) * | 2004-07-15 | 2009-05-20 | ヤマハ株式会社 | 音声合成装置およびプログラム |
KR100677126B1 (ko) * | 2004-07-27 | 2007-02-02 | 삼성전자주식회사 | 레코더 기기의 잡음 제거 장치 및 그 방법 |
JP4701684B2 (ja) * | 2004-11-19 | 2011-06-15 | ヤマハ株式会社 | 音声処理装置およびプログラム |
CN101578659B (zh) * | 2007-05-14 | 2012-01-18 | 松下电器产业株式会社 | 音质转换装置及音质转换方法 |
GB0920480D0 (en) * | 2009-11-24 | 2010-01-06 | Yu Kai | Speech processing and learning |
JP5651945B2 (ja) | 2009-12-04 | 2015-01-14 | ヤマハ株式会社 | 音響処理装置 |
JP5510852B2 (ja) * | 2010-07-20 | 2014-06-04 | 独立行政法人産業技術総合研究所 | 声色変化反映歌声合成システム及び声色変化反映歌声合成方法 |
TWI406266B (zh) * | 2011-06-03 | 2013-08-21 | Univ Nat Chiao Tung | 語音辨識裝置及其辨識方法 |
JP5821824B2 (ja) * | 2012-11-14 | 2015-11-24 | ヤマハ株式会社 | 音声合成装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60100199A (ja) * | 1983-11-04 | 1985-06-04 | ヤマハ株式会社 | 電子楽器 |
US4827516A (en) * | 1985-10-16 | 1989-05-02 | Toppan Printing Co., Ltd. | Method of analyzing input speech and speech analysis apparatus therefor |
US5703311A (en) * | 1995-08-03 | 1997-12-30 | Yamaha Corporation | Electronic musical apparatus for synthesizing vocal sounds using format sound synthesis techniques |
-
2001
- 2001-03-09 JP JP2001067257A patent/JP3711880B2/ja not_active Expired - Fee Related
-
2002
- 2002-03-07 DE DE60202161T patent/DE60202161T2/de not_active Expired - Lifetime
- 2002-03-07 EP EP02005150A patent/EP1239463B1/en not_active Expired - Lifetime
- 2002-03-08 US US10/093,969 patent/US6944589B2/en not_active Expired - Lifetime
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2530671A2 (en) | 2011-05-30 | 2012-12-05 | Yamaha Corporation | Voice synthesis apparatus |
EP2530672A2 (en) | 2011-06-01 | 2012-12-05 | Yamaha Corporation | Voice synthesis apparatus |
US9230537B2 (en) | 2011-06-01 | 2016-01-05 | Yamaha Corporation | Voice synthesis apparatus using a plurality of phonetic piece data |
US11289066B2 (en) | 2016-06-30 | 2022-03-29 | Yamaha Corporation | Voice synthesis apparatus and voice synthesis method utilizing diphones or triphones and machine learning |
Also Published As
Publication number | Publication date |
---|---|
US20020184006A1 (en) | 2002-12-05 |
US6944589B2 (en) | 2005-09-13 |
JP2002268658A (ja) | 2002-09-20 |
EP1239463A2 (en) | 2002-09-11 |
DE60202161D1 (de) | 2005-01-13 |
EP1239463A3 (en) | 2003-09-17 |
DE60202161T2 (de) | 2005-12-15 |
EP1239463B1 (en) | 2004-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Saitou et al. | Speech-to-singing synthesis: Converting speaking voices to singing voices by controlling acoustic features unique to singing voices | |
Bonada et al. | Synthesis of the singing voice by performance sampling and spectral models | |
US7606709B2 (en) | Voice converter with extraction and modification of attribute data | |
US6304846B1 (en) | Singing voice synthesis | |
Macon et al. | A singing voice synthesis system based on sinusoidal modeling | |
JP3838039B2 (ja) | 音声合成装置 | |
JP3711880B2 (ja) | 音声分析及び合成装置、方法、プログラム | |
JP6733644B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
JP3966074B2 (ja) | ピッチ変換装置、ピッチ変換方法及びプログラム | |
JP4349316B2 (ja) | 音声分析及び合成装置、方法、プログラム | |
JP4844623B2 (ja) | 合唱合成装置、合唱合成方法およびプログラム | |
US20220084492A1 (en) | Generative model establishment method, generative model establishment system, recording medium, and training data preparation method | |
JP4304934B2 (ja) | 合唱合成装置、合唱合成方法およびプログラム | |
Saitou et al. | Analysis of acoustic features affecting" singing-ness" and its application to singing-voice synthesis from speaking-voice | |
US7389231B2 (en) | Voice synthesizing apparatus capable of adding vibrato effect to synthesized voice | |
JP3706249B2 (ja) | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 | |
JP4353174B2 (ja) | 音声合成装置 | |
Bonada et al. | Sample-based singing voice synthesizer using spectral models and source-filter decomposition | |
JP3000600B2 (ja) | 音声合成装置 | |
JP3540609B2 (ja) | 音声変換装置及び音声変換方法 | |
JP2000003200A (ja) | 音声信号処理装置及び音声信号処理方法 | |
JP7088403B2 (ja) | 音信号生成方法、生成モデルの訓練方法、音信号生成システムおよびプログラム | |
JP3294192B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3949828B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3447220B2 (ja) | 音声変換装置及び音声変換方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040217 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040419 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050308 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050428 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050630 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050726 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050808 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090826 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100826 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100826 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110826 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120826 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130826 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |