JP3711880B2

JP3711880B2 - 音声分析及び合成装置、方法、プログラム

Info

Publication number: JP3711880B2
Application number: JP2001067257A
Authority: JP
Inventors: 靖雄吉岡; ボナダジョルディ
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2001-03-09
Filing date: 2001-03-09
Publication date: 2005-11-02
Anticipated expiration: 2021-03-09
Also published as: US20020184006A1; US6944589B2; JP2002268658A; EP1239463A2; DE60202161D1; EP1239463A3; DE60202161T2; EP1239463B1

Description

【０００１】
【発明の属する技術分野】
本発明は、音声合成装置に関し、より詳しくは、人間の歌唱の音声合成装置に関する。
【０００２】
【従来の技術】
人間の音声は、音韻（音素）により構成され、各音韻は複数個のフォルマントにより構成されている。よって、人間の歌唱音声の合成は、まず、人間が発生することのできる全ての音韻に対して、その各音韻を構成する全てのフォルマントを発生して合成することにより当該音韻を生成する。次に、生成された複数の音韻を順次つなぎ合わせ、メロディに合わせて音高を制御することにより歌唱音声の合成を実現する。この手法は、人間の音声に限らず、フォルマントを有する楽音、例えば、管楽器から発声される楽音の合成にも適用できる。
【０００３】
この手法を用いた音声合成装置は従来から知られており、例えば、特許公報第２５０４１７２号には、高い音高のフォルマント音を発生するときでも、不要なスペクトルを発生しないように構成したフォルマント音発生装置が開示されている。
【０００４】
【発明が解決しようとする課題】
しかし、上記フォルマント音発生装置及び従来の音声合成装置では、一般的な人間の歌唱音声を擬似的には合成できるものの、単に音高を変化させただけでは、歌唱における特定の人間の声質や癖等の個性を再現することはできない。
【０００５】
本発明の目的は、歌唱における特定の声質や癖等の個性まで似せて歌唱音声を合成することのできる音声合成装置を提供することである。
【０００６】
また、本発明の他の目的は、よりリアルな人間の歌唱音声を合成して、違和感のない自然な状態で歌を歌わせることが可能な音声合成装置を提供することである。
【０００７】
【課題を解決するための手段】
本発明の一観点によれば、音声分析装置は、音声を調和成分と非調和成分に分解する第１の分解手段と、前記調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープとを減算した差分のマグニチュード・スペクトル・エンベロープとに分解する第２の分解手段と、前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを記憶する記憶手段とを有し、前記声帯振動波形のマグニチュード・スペクトル・エンベロープは、該マグニチュード・スペクトル・エンベロープの大きさを表すＥＧａｉｎと、該マグニチュード・スペクトル・エンベロープの傾き具合を表すＥＳｌｏｐｅと、該マグニチュード・スペクトル・エンベロープの最大値から最小値の深さを表すＥＳｌｏｐｅＤｅｐｔｈとの３つのパラメータで表され、前記３つのパラメータは前記声帯振動波形のマグニチュード・スペクトル・エンベロープをＥｘｃｉｔａｔｉｏｎＣｕｒｖｅＭａｇ（ｆ）とすると、以下の式（１）で表すことができる。
【数８】

【０００８】
また、本発明の他の観点によれば、音声合成装置は、音声を調和成分と非調和成分に分解する第１の分解手段と、前記調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープとを減算した差分のマグニチュード・スペクトル・エンベロープとに分解する第２の分解手段と、前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを記憶する記憶手段と、合成する音声の情報を入力する入力手段と、マグニチュードの周波数特性がフラットなマグニチュード・スペクトル・エンベロープを発生する発生手段と、前記入力された情報に基づき、前記記憶手段から読み出した、前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを前記マグニチュードの周波数特性がフラットなマグニチュード・スペクトル・エンベロープに加算する加算手段とを有し、前記声帯振動波形のマグニチュード・スペクトル・エンベロープは、該マグニチュード・スペクトル・エンベロープの大きさを表すＥＧａｉｎと、該マグニチュード・スペクトル・エンベロープの傾き具合を表すＥＳｌｏｐｅと、該マグニチュード・スペクトル・エンベロープの最大値から最小値の深さを表すＥＳｌｏｐｅＤｅｐｔｈとの３つのパラメータで表され、前記３つのパラメータは前記声帯振動波形のマグニチュード・スペクトル・エンベロープをＥｘｃｉｔａｔｉｏｎＣｕｒｖｅＭａｇ（ｆ）とすると、以下の式（１）で表すことができる。
【数９】

【０００９】
【発明の実施の形態】
図１は、音声の分析を表すブロック図である。
【００１０】
音声入力部１に入力される音声は、音声分析部２に送られる。音声分析部２では、送られてきた音声を一定周期ごとに分析する。音声分析部２は、例えば、入力音声をＳＭＳ（ＳｐｅｃｔｒａｌＭｏｄｅｌｉｎｇＳｙｎｔｈｅｓｉｓ）分析などにより、調和成分ＨＣと非調和成分ＵＣに分解する。
【００１１】
調和成分ＨＣは、入力音声中、ある周波数と大きさを持った正弦波の総和であらわすことのできる成分である。図２中に点で示したものが調和成分ＨＣとして求められる入力音声の周波数と大きさ（サイン成分）である。本実施例では、これらの点を直線で結んだものを調和成分ＨＣのマグニチュード・スペクトル・エンベロープとしている。図２中点線で示すものがマグニチュード・スペクトル・エンベロープである。調和成分ＨＣを求めることにより、同時に基本周波数Ｐｉｔｃｈも求まる。
【００１２】
非調和成分ＵＣは、入力音声の内の調和成分ＨＣとして表せないノイズ成分を表す。非調和成分ＵＣは、例えば図３に示すようなものである。図中上段は、非調和成分ＵＣの大きさ（Ｍａｇｎｉｔｕｄｅ）を示すマグニチュード・スペクトルであり、下段は、位相（Ｐｈａｓｅ）を示すフェイズスペクトルである。本実施例では、非調和成分ＵＣのＭａｇｎｉｔｕｄｅ及びＰｈａｓｅをそのままフレーム情報ＦＬとして記録する。
【００１３】
分析により抽出された調和成分ＨＣのマグニチュード・スペクトル・エンベロープを、あとで操作しやすいように複数種類のＥｘｃｉｔａｔｉｏｎｐｌｕｓ
Ｒｅｓｏｎａｎｃｅ（ＥｐＲ）パラメータに分解する。
【００１４】
ＥｐＲパラメータとして、本実施例では、ＥｘｃｉｔａｔｉｏｎＣｕｒｖｅ、ＶｏｃａｌＴｒａｃｔＲｅｓｏｎａｎｃｅ、ＣｈｅｓｔＲｅｓｏｎａｎｃｅ、ＳｐｅｃｔｒａｌＳｈａｐｅＤｉｆｆｅｒｅｎｔｉａｌの４種類が設けられる。なお、これ以外のＥｐＲパラメータを設けるようにしてもよい。
【００１５】
なお、後に詳述するが、ＥｘｃｉｔａｔｉｏｎＣｕｒｖｅは、声帯振動波形のスペクトル・エンベロープを示し、ＶｏｃａｌＴｒａｃｔＲｅｓｏｎａｎｃｅは、いくつかのレゾナンスを組み合わせて声道によって形作られるスペクトル形状（フォルマント）を近似するものである。ＣｈｅｓｔＲｅｓｏｎａｎｃｅは、ＶｏｃａｌＴｒａｃｔＲｅｓｏｎａｎｃｅによって形作られるフォルマント以外の低い周波数のフォルマント（特に胸部による共鳴）をいくつかのレゾナンスを組み合わせて近似するものである。
【００１６】
ＳｐｅｃｔｒａｌＳｈａｐｅＤｉｆｆｅｒｅｎｔｉａｌは、上記３つのＥｐＲパラメータであらわしきれなかった成分を示すものである。すなわち、マグニチュード・スペクトル・エンベロープからＥｘｃｉｔａｔｉｏｎＣｕｒｖｅ、ＶｏｃａｌＴｒａｃｔＲｅｓｏｎａｎｃｅ、ＣｈｅｓｔＲｅｓｏｎａｎｃｅを減算したものである。
【００１７】
以上の非調和成分ＵＣとＥｐＲパラメータを１フレーム分の情報ＦＬ１〜ｎとして記憶部３に記憶する。
【００１８】
図４は、声帯振動波形のスペクトル・エンベロープ（ＥｘｃｉｔａｔｉｏｎＣｕｒｖｅ）を表す図である。ＥｘｃｉｔａｔｉｏｎＣｕｒｖｅは、声帯振動波形のマグニチュード・スペクトル・エンベロープである。
【００１９】
具体的には、声帯振動波形の大きさを表すＥＧａｉｎ［ｄＢ］と、声帯振動波形のスペクトル・エンベロープの傾き具合を表すＥＳｌｏｐｅと、声帯振動波形のスペクトル・エンベロープの最大値から最小値の深さを表すＥＳｌｏｐｅＤｅｐｔｈとの３つのＥｐＲパラメータで構成されている。
【００２０】
これらの３つのＥｐＲパラメータを用いると、周波数ｆ_HZにおけるＥｘｃｉｔａｔｉｏｎＣｕｒｖｅのマグニチュード・スペクトル・エンベロープ（ＥｘｃｉｔａｔｉｏｎＣｕｒｖｅＭａｇ_dB）は、以下の式（ａ）で表すことができる。
【数式３】

この式（ａ）により、ＥｘｃｉｔａｔｉｏｎＣｕｒｖｅのマグニチュード・スペクトル・エンベロープは、ＥＧａｉｎで純粋に信号の大きさを変化させることができ、ＥＳｌｏｐｅとＥＳｌｏｐｅＤｅｐｔｈで、その周波数特性（傾き具合）を制御可能なことがわかる。
【００２１】
図５は、上記式（ａ）によるＥｘｃｉｔａｔｉｏｎＣｕｒｖｅの変化を表す図である。ＥｘｃｉｔａｔｉｏｎＣｕｒｖｅは、周波数ｆ＝０Ｈｚで、ＥＧａｉｎ［ｄＢ］からスタートし、ＥＧａｉｎ−ＥＳｌｏｐｅＤｅｐｔｈ［ｄＢ］の漸近線に向かって進む。その際の傾きは、ＥＳｌｏｐｅによって決まる。
【００２２】
次に、ＥＧａｉｎ、ＥＳｌｏｐｅ及びＥＳｌｏｐｅＤｅｐｔｈの求め方を説明する。もとの調和成分ＨＣのマグニチュード・スペクトル・エンベロープからのＥｐＲパラメータの抽出は、まず上記の３つのＥｐＲパラメータから求めるようにする。
【００２３】
ＥＧａｉｎ、ＥＳｌｏｐｅ及びＥＳｌｏｐｅＤｅｐｔｈは、例えば、以下の方法で求めることができる。
【００２４】
まず、もとの調和成分ＨＣの成分のうち、周波数が２５０Ｈｚ以下のものの内の最大のマグニチュードのものをＭＡＸ［ｄＢ］と置き、ＭＩＮ＝−１００［ｄＢ］とする。
【００２５】
次に、もとの調和成分ＨＣの成分のうち、周波数が１００００Ｈｚ以下のものについて、ｉ番目のサイン成分のマグニチュード及び周波数をそれぞれＳｉｎＭａｇ［ｉ］［ｄＢ］、ＳｉｎＦｒｅｑ［ｉ］［Ｈｚ］とし、周波数が１００００Ｈｚ以下のサイン成分の数をＮとして、以下の式（ｂ１）及び式（ｂ２）でそれぞれの平均値を求める。ＳｉｎＦｒｅｑ［０］は１番低いサイン成分の周波数を表す。
【００２６】
【数式４】

【数式５】

上記式（ｂ１）及び（ｂ２）を用い、
【数式６】

【数式７】

【数式８】

【数式９】

【数式１０】

と設定する。
【００２７】
さらに上記式（ｂ３）から（ｂ７）より、ＥＧａｉｎ、ＥＳｌｏｐｅ及びＥＳｌｏｐｅＤｅｐｔｈについて、下記の式（ｂ８）、（ｂ９）、（ｂ１０）が得られる。
【００２８】
【数式１１】

【数式１２】

【数式１３】

このようにして、ＥＧａｉｎ、ＥＳｌｏｐｅ及びＥＳｌｏｐｅＤｅｐｔｈの各ＥｐＲパラメータを求めることができる。
【００２９】
図６は、ＶｏｃａｌＴｒａｃｔＲｅｓｏｎａｎｃｅにより作られるスペクトル・エンベロープを表す図である。ＶｏｃａｌＴｒａｃｔＲｅｓｏｎａｎｃｅは、いくつかのレゾナンスを組み合わせて声道によって形作られるスペクトル形状（フォルマント）を近似するものである。
【００３０】
例えば、人間が「あ」や「い」といった音韻を発音する時、その違いは、主に声道の形の変化によって生じるマグニチュードスペクトルエンベロープの山の形の違いによる。この山をフォルマントと呼ぶが、いくつか有るフォルマントは、レゾナンスをいくつか使用することにより近似することができる。
【００３１】
図６では、１１個のレゾナンスを使ってフォルマントを近似している。これらのうちｉ番目のレゾナンスをＲｅｓｏｎａｎｃｅ［ｉ］と示し、このｉ番目のレゾナンスの周波数ｆにおけるマグニチュードをＲｅｓｏｎａｎｃｅ［ｉ］Ｍａｇ（ｆ）と示すと、ＶｏｃａｌＴｒａｃｔＲｅｓｏｎａｎｃｅによるマグニチュード・スペクトル・エンベロープは、以下の式（ｃ１）で表すことができる。
【数式１４】

また、このｉ番目のレゾナンスによる位相をＲｅｓｏｎａｎｃｅ［ｉ］Ｐｈａｓｅ（ｆ）と示すと、ＶｏｃａｌＴｒａｃｔＲｅｓｏｎａｎｃｅによる位相（フェイズスペクトル）は、以下の式（ｃ２）で表すことができる。
【００３２】
【数式１５】

一つ一つのＲｅｓｏｎａｎｃｅ［ｉ］は、中心周波数Ｆ、バンド幅Ｂｗ、アンプリチュードＡｍｐの３つのＥｐＲパラメータで表すことができる。レゾナンスの求め方については後述する。
【００３３】
図７は、胸部共鳴波形のスペクトル・エンベロープ（ＣｈｅｓｔＲｅｓｏｎａｎｃｅ）を表す図である。ＣｈｅｓｔＲｅｓｏｎａｎｃｅは、胸部共鳴によって生ずるものであり、ＶｏｃａｌＴｒａｃｔＲｅｓｏｎａｎｃｅで表すことのできない低い周波数におけるマグニチュードスペクトルエンベロープの山（フォルマント）をいくつかのレゾナンスを使って表したものである。
【００３４】
胸部共鳴によるｉ番目のレゾナンスをＣＲｅｓｏｎａｎｃｅ［ｉ］と示し、このｉ番目のレゾナンスの周波数ｆにおけるマグニチュードをＣＲｅｓｏｎａｎｃｅ［ｉ］Ｍａｇ（ｆ）と示すと、ＣｈｅｓｔＲｅｓｏｎａｎｃｅによるマグニチュード・スペクトル・エンベロープは、以下の式（ｄ）で表すことができる。
【００３５】
【数式１６】

一つ一つのＣＲｅｓｏｎａｎｃｅ［ｉ］は、中心周波数Ｆ、バンド幅Ｂｗ、アンプリチュードＡｍｐの３つのＥｐＲパラメータで表すことができる。次にレゾナンスの求め方については説明する。
【００３６】
ＶｏｃａｌＴｒａｃｔＲｅｓｏｎａｎｃｅ及びＣｈｅｓｔＲｅｓｏｎａｎｃｅの一つ一つのレゾナンス（Ｒｅｓｏｎａｎｃｅ［ｉ］及びＣＲｅｓｏｎａｎｃｅ［ｉ］）は、中心周波数Ｆ、バンド幅Ｂｗ、アンプリチュードＡｍｐの３つのＥｐＲパラメータで定義することができる。
【００３７】
中心周波数Ｆ、バンド幅Ｂｗ、を持つレゾナンスのｚ領域の伝達関数は、以下の式（ｅ１）で表すことができる。
【００３８】
【数式１７】

ここで、
【数式１８】

【数式１９】

【数式２０】

【数式２１】

【数式２２】

である。
【００３９】
この周波数応答は、以下の式（ｅ７）で表すことができる。
【００４０】
【数式２３】

図８は、レゾナンスの周波数特性の例を示す図である。この例では、レゾナンスの中心周波数Ｆを１５００Ｈｚとして、バンド幅Ｂｗ及びアンプリチュードＡｍｐを変化させたものである。
【００４１】
図に示すように振幅｜Ｔ（ｆ）｜は、ｆ＝中心周波数Ｆで最大となり、この最大値がレゾナンスのアンプリチュードＡｍｐとなっている。したがって、中心周波数Ｆ、バンド幅Ｂｗ、アンプリチュードＡｍｐ（リニア値）を持つレゾナンスのＲｅｓｏｎａｎｃｅ（ｆ）（リニア値）を上記式（ｅ７）を用いて表すと下記式（ｅ８）のようになる。
【００４２】
【数式２４】

よって、このレゾナンスの周波数ｆにおけるマグニチュードは、下記式（ｅ９）で表すことができ、位相は下記式（ｅ１０）で表すことができる。
【００４３】
【数式２５】

【数式２６】

図９は、ＳｐｅｃｔｒａｌＳｈａｐｅＤｉｆｆｅｒｅｎｔｉａｌの例を表す図である。ＳｐｅｃｔｒａｌＳｈａｐｅＤｉｆｆｅｒｅｎｔｉａｌは、元の入力音声のマグニチュードスペクトルエンベロープのうちのＥｘｃｉｔａｔｉｏｎＣｕｒｖｅ、ＶｏｃａｌＴｒａｃｔＲｅｓｏｎａｎｃｅ、ＣｈｅｓｔＲｅｓｏｎａｎｃｅで表しきれなかった成分である。
【００４４】
この成分をＳｐｅｃｔｒａｌＳｈａｐｅＤｉｆｆｅｒｅｎｔｉａｌＭａｇ（ｆ）［ｄＢ］とすると、下記式（ｆ）が成り立つ。
【数式２７】

すなわち、ＳｐｅｃｔｒａｌＳｈａｐｅＤｉｆｆｅｒｅｎｔｉａｌは、他のＥｐＲパラメータと元の調和成分との差分値であり、この差分値を一定の周波数間隔で算出するものである。例えば、５０Ｈｚ間隔で差分値を取り、そのポイント間では直線補間を行うようにする。
【００４５】
また、式（ｆ）より、上記ＥｐＲパラメータを用いることにより、オリジナルの入力音声の調和成分のマグニチュード・スペクトル・エンベロープを再現することができる。
【００４６】
さらに、前述の非調和成分を再現した調和成分のマグニチュードスペクトルエンベロープに加算することにより、ほぼ入力されたもとの音声に戻すことができる。
【００４７】
図１０は、図２の調和成分ＨＣのマグニチュード・スペクトル・エンベロープをＥｐＲパラメータに分解した図である。
【００４８】
図６に示す中心周波数が２番目より高いレゾナンスであるＶｏｃａｌＴｒａｃｔＲｅｓｏｎａｎｃｅ、図７に示す１番低い中心周波数のＣｈｅｓｔＲｅｓｏｎａｎｃｅ、図９に示す点線で示すＳｐｅｃｔｒａｌＳｈａｐｅＤｉｆｆｅｒｅｎｔｉａｌのそれぞれに、太破線で示すＥｘｃｉｔａｔｉｏｎＣｕｒｖｅを適用したものを表す図である。
【００４９】
ＶｏｃａｌＴｒａｃｔＲｅｓｏｎａｎｃｅ、ＣｈｅｓｔＲｅｓｏｎａｎｃｅのそれぞれのレゾナンスは、ＥｘｃｉｔａｔｉｏｎＣｕｒｖｅに加算されている。また、ＳｐｅｃｔｒａｌＳｈａｐｅＤｉｆｆｅｒｅｎｔｉａｌは、ＥｘｃｉｔａｔｉｏｎＣｕｒｖｅ上を差分０としている。
【００５０】
次に、ＥｘｃｉｔａｔｉｏｎＣｕｒｖｅを変化させた場合に全体のスペクトルエンベロープがどう変化するかを説明する。
【００５１】
図１１（Ａ）、（Ｂ）は、図１０に示したＥｘｃｉｔａｔｉｏｎＣｕｒｖｅのＥＧａｉｎを変化させた場合の全体のスペクトル・エンベロープの例である。
【００５２】
図１１（Ａ）に示すように、ＥＧａｉｎを大きくすると全体のスペクトル・エンベロープのゲイン（マグニチュード）が大きくなる。しかし、スペクトルエンベロープの形状に変化は見られないので、音色の変化はない。すなわち音量のみを大きくすることができる。
【００５３】
図１１（Ｂ）に示すように、ＥＧａｉｎを小さくすると全体のスペクトル・エンベロープのゲイン（マグニチュード）が小さくなる。しかし、スペクトルエンベロープの形状に変化は見られないので、音色の変化はない。すなわち音量のみを小さくすることができる。
【００５４】
図１２（Ａ）、（Ｂ）は、図１０に示したＥｘｃｉｔａｔｉｏｎＣｕｒｖｅのＥＳｌｏｐｅを変化させた場合の全体のスペクトル・エンベロープの例である。
【００５５】
図１２（Ａ）に示すように、ＥＳｌｏｐｅを大きくすると全体のスペクトル・エンベロープのゲイン（マグニチュード）は変化しないものの、スペクトル・エンベロープの形状は変化するので、音色が変化する。ＥＳｌｏｐｅを大きくした場合は、高域が抑えられてこもった音色にすることができる。
【００５６】
図１２（Ｂ）に示すように、ＥＳｌｏｐｅを小さくすると全体のスペクトル・エンベロープのゲイン（マグニチュード）は変化しないものの、スペクトル・エンベロープの形状は変化するので、音色が変化する。ＥＳｌｏｐｅを小さくした場合は、高域が出て明るい音色にすることができる。
【００５７】
図１３（Ａ）、（Ｂ）は、図１０に示したＥｘｃｉｔａｔｉｏｎＣｕｒｖｅのＥＳｌｏｐｅＤｅｐｔｈを変化させた場合の全体のスペクトル・エンベロープの例である。
【００５８】
図１３（Ａ）に示すように、ＥＳｌｏｐｅＤｅｐｔｈを大きくすると全体のスペクトル・エンベロープのゲイン（マグニチュード）は変化しないものの、スペクトル・エンベロープの形状は変化するので、音色が変化する。ＥＳｌｏｐｅＤｅｐｔｈを大きくした場合は、高域が抑えられてこもった音色にすることができる。
【００５９】
図１３（Ｂ）に示すように、ＥＳｌｏｐｅＤｅｐｔｈを小さくすると全体のスペクトル・エンベロープのゲイン（マグニチュード）は変化しないものの、スペクトル・エンベロープの形状は変化するので、音色が変化する。ＥＳｌｏｐｅＤｅｐｔｈを小さくした場合は、高域が出て明るい音色にすることができる。
【００６０】
以上のように、ＥＳｌｏｐｅとＥＳｌｏｐｅＤｅｐｔｈの変化による効果は非常に似たものになる。
【００６１】
次に、ＥｐＲパラメータを変化させて現実の発声における音色の変化をシミュレートする方法を説明する。例えば、「あ」などの有声音の音韻の１フレーム分のデータが、上述したＥｐＲパラメータで表されている時に、Ｄｙｎａｍｉｃｓ（発声の大きさ）を変化させたい場合、現実の発声における発声の大きさによる音色の変化をＥｐＲパラメータを変化させてシミュレートする。なお、発声者によって異なるが、一般的には、小さく発声した場合は、高域成分が抑えられ、大きく発声するに従い高域成分が多くなる。
【００６２】
図１４（Ａ）〜（Ｃ）は、Ｄｙｎａｍｉｃｓの変化にともなうＥｐＲパラメータの変化を示す図である。図１４（Ａ）はＥＧａｉｎ、図１４（Ｂ）はＥＳｌｏｐｅ、図１４（Ｃ）はＥＳｌｏｐｅＤｅｐｔｈの変化を示している。
【００６３】
図１４（Ａ）〜（Ｃ）のそれぞれの横軸は０〜１．０のＤｙｎａｍｉｃｓの値を表す。ここで、Ｄｙｎａｍｉｃｓ値０は、一番小さく発声した時の値であり、Ｄｙｎａｍｉｃｓ値１．０は、一番大きく発声した時の値とする。また、Ｄｙｎａｍｉｃｓ値０．５は、普通の大きさで発声した時の値である。
【００６４】
後述するデータベースＴｉｍｂｅｒＤＢには、普通の大きさで発声した時のＥＧａｉｎ、ＥＳｌｏｐｅ、ＥＳｌｏｐｅＤｅｐｔｈを保存しておき、それらのＥｐＲパラメータを、それぞれ図１４（Ａ）〜（Ｃ）に示す関数に基づき変化させる。より具体的には、図１４（Ａ）の関数をＦＥＧａｉｎ（Ｄｙｎａｍｉｃｓ）、図１４（Ｂ）の関数をＦＥＳｌｏｐｅ（Ｄｙｎａｍｉｃｓ）、図１４（Ｃ）の関数をＦＥＳｌｏｐｅＤｅｐｔｈ（Ｄｙｎａｍｉｃｓ）とした場合に、Ｄｙｎａｍｉｃｓパラメータが与えられたとするとそれぞれのパラメータは以下の式（ｇ１）から（ｇ３）で表すことができる。ただし、ＯｒｉｇｉｎａｌＥＳｌｏｐｅ、ＯｒｉｇｉｎａｌＥＳｌｏｐｅＤｅｐｔｈは、データベースＴｉｍｂｅｒＤＢに保存されているもとのＥｐＲパラメータである。
【００６５】
【数式２８】

【数式２９】

【数式３０】

図１４（Ａ）〜（Ｃ）に示す関数は、それぞれ、いろいろな大きさ（Ｄｙｎａｍｉｃｓ）で発声された同じ音韻のパラメータを分析することにより求められるものである。この関数を用いて、ダイナミクスに応じてＥｐＲパラメータを変化させる。図１４（Ａ）〜（Ｃ）に示される変化の仕方は、音韻、発声者等によって異なると考えられるので、音韻や発声者毎にこの関数を求めることにより、より現実の発声に近い変化にすることができる。
【００６６】
次に、図１５を参照して、同じ音韻を発声する時に、口の開き具合（Ｏｐｅｎｉｎｇ）を変化させた時の音色の変化を再現するための方法を述べる。
【００６７】
図１５は、Ｏｐｅｎｉｎｇを変化させた時の周波数特性の変化を表す図である。Ｏｐｅｎｉｎｇパラメータも、Ｄｙｎａｍｉｃｓと同様に、０〜１．０の値をとるものとする。
【００６８】
Ｏｐｅｎｉｎｇ値０の時は、一番口をすぼめて発声した時（ｌｏｗｏｐｅｎｉｎｇ）であり、Ｏｐｅｎｉｎｇ値１．０の時は、一番口を開けて発声した時（ｈｉｇｈｏｐｅｎｉｎｇ）である。また、Ｏｐｅｎｉｎｇ値０．５は、普通の口の開け方で発声した時（ｎｏｒｍａｌｏｐｅｎｉｎｇ）の値である。
【００６９】
後述するデータベースＴｉｍｂｅｒＤＢには、普通の口の開け方で発声した時のＥｐＲパラメータを、保存しておき、それを所望の口の開き具合に合わせて図１５に示すような周波数特性をもつように変化させる。
【００７０】
この変化を実現するためには、レゾナンスのアンプリチュード（ＥｐＲパラメータ）を図に示すように変化させればよい。例えば、普通の口の開け方で発声した時（ｎｏｒｍａｌｏｐｅｎｉｎｇ）は、周波数特性を変化させない。また、一番口をすぼめて発声した時（ｌｏｗｏｐｅｎｉｎｇ）は、１〜５ＫＨｚの成分のアンプリチュードを下げる。また、一番口を開けて発声した時（ｈｉｇｈｏｐｅｎｉｎｇ）は、１〜５ＫＨｚの成分のアンプリチュードを上げる。
【００７１】
上記の変化関数をＦＯｐｅｎｉｎｇ（ｆ）とすると、各レゾナンスのアンプリチュードを以下の式（ｈ）で変化させることにより所望の口の開き具合の周波数特性をもつように変化させることができる。すなわち、図１５に示すような周波数特性の変化を与えることができる。
【００７２】
関数ＦＯｐｅｎｉｎｇ（ｆ）は、いろいろな口の開け方で発声された同じ音韻のパラメータを分析することにより求める。この関数を用いて、Ｏｐｅｎｉｎｇ値に応じてＥｐＲパラメータを変化させる。この変化の仕方は、音韻、発声者等によって異なると考えられるので、音韻や発声者毎にこの関数を求めることにより、より現実の発声に近い変化にすることができる。
【００７３】
なお、式（ｈ）は、ｉ番目のレゾナンスに対応する。また、ＯｒｉｇｉｎａｌＲｅｓｏｎａｎｃｅ［ｉ］Ａｍｐ、ＯｒｉｇｉｎａｌＲｅｓｏｎａｎｃｅ［ｉ］Ｆｒｅｑは、データベースＴｉｍｂｅｒＤＢに保存されているもとのレゾナンスのそれぞれアンプリチュード、中心周波数（ＥｐＲパラメータ）である。また、ＮｅｗＲｅｓｏｎａｎｃｅ［ｉ］Ａｍｐは、新しいレゾナンスのアンプリチュードを示す。
【００７４】
【数式３１】

次に、いかにして歌唱合成を行うかを図１６を参照して説明する。
【００７５】
図１６は、音声合成装置の歌唱合成エンジンのブロック図である。歌唱合成エンジンは、少なくとも入力部４、パルス生成部５、窓掛け＆ＦＦＴ部６、データベース７、複数の加算部８ａ〜８ｇ、ＩＦＦＴ＆Ｏｖｅｒｌａｐ部９を有している。
【００７６】
入力部４には、例えば、５ｍｓ等のフレーム時間間隔毎に、歌唱音声として合成したい歌詞メロディに応じて、ピッチ、音の強さ、音韻、その他の情報が入力される。その他の情報とは、例えば、ビブラートなどの情報であり、ビブラートの速さや、深さが入力される。この入力部４に入力された情報は、２系統に分岐して、パルス生成部５及びデータベース７に送られる。
【００７７】
パルス生成部５では、入力部４から入力されるピッチに対応するピッチ間隔のパルスを時間軸上で生成する。このパルス生成部５で、生成するパルスのゲイン及びピッチの揺れを加えて、生成するパルス自体に微妙なゲインとピッチ間隔の揺れをつけてやると、いわゆるがさついた声などを発生させることができる。
【００７８】
なお、現在のフレームが無声音の場合には、ピッチがないので、このパルス生成部５での処理は必要がない。すなわち、パルス生成部５で行う処理は、有声音を発生させる場合についてのみ行われる。
【００７９】
窓掛け＆ＦＦＴ部６では、パルス生成部５で発生したパルス（時間波形）を窓掛けした後に高速フーリエ変換（ＦＦＴ）することにより周波数領域の情報に変換する。ここで変換されて得られた周波数領域の情報のマグニチュードスペクトルは、全域フラットとなっている。また、窓掛け＆ＦＦＴ部６からの出力は図に示すようにフェイズスペクトル（Ｐｈａｓｅ）と、マグニチュード・スペクトル（Ｍａｇｎｉｔｕｄｅ）にそれぞれ分けられる。
【００８０】
データベース７には、歌唱合成を行うにあたって、いくつかのデータベースが用意されている。本実施例では、例えば、ＴｉｍｂｅｒＤＢ、ＳｔａｔｉｏｎａｒｙＤＢ、ＡｒｔｉｃｕｌａｔｉｏｎＤＢ、ＮｏｔｅＤＢ、及びＶｉｂｒａｔｏＤＢが用意されている。
【００８１】
データベース７では、入力部４に入力される情報に従い、必要なデータベースを読み出して、ある時刻において合成に必要なＥｐＲパラメータ及び非調和成分を算出する。
【００８２】
ＴｉｍｂｅｒＤＢは、有声音（母音、鼻音、有声子音）の各音韻について、代表的な１フレームのＥｐＲパラメータを保持している。同じ音韻について、複数のピッチのそれぞれに対応する１フレームのＥｐＲパラメータを保持している。この複数のピッチを利用して、補間することにより所望のピッチに合ったＥｐＲパラメータを求める。
【００８３】
ＳｔａｔｉｏｎａｒｙＤＢは、調和成分（ＥｐＲパラメータ）と非調和成分を含み、各音韻を延ばして発声したものを分析して、その安定した数秒間の分析フレームを音韻毎にそのまま保持する。例えば、フレーム間隔を５ｍｓとして、安定した発声をした区間が１秒とすると、各音韻毎に２００フレーム分の情報を保持することになる。
【００８４】
このＳｔａｔｉｏｎａｒｙＤＢは、オリジナルの音声を分析したＥｐＲパラメータを保持しているので、オリジナルの音声が持つ微小な揺らぎ等を情報として持っている。これを利用して、ＴｉｍｂｅｒＤＢから求められるＥｐＲパラメータに、微小な変化を与えることができ、オリジナルの音声が持つ自然なピッチ、ゲイン、レゾナンス等の変化を再現することができる。また、非調和成分を加えることにより、さらに自然な合成音声を実現することができる。
【００８５】
ＡｒｔｉｃｕｌａｔｉｏｎＤＢは、調和成分（ＥｐＲパラメータ）と非調和成分を含み、ある音韻からある音韻へ変化する部分を分析して保持している。ある音韻からある音韻へ変化する音声の合成時に、該変化部分に、このＡｒｔｉｃｕｌａｔｉｏｎＤＢを参照して、ＥｐＲパラメータの変化と非調和成分をそのまま用いることにより、自然な音韻の変化を再現することができる。
【００８６】
ＮｏｔｅＤＢは、ＡｔｔａｃｋＤＢ、ＲｅｌｅａｓｅＤＢ、ＮｏｔｅＴｒａｎｓｉｔｉｏｎＤＢの３つのデータベースで構成される。それぞれ、音の出始め、音のリリース部、音程の変わり目の部分について、オリジナルの音声（実音声）を分析して得られるゲイン（ＥＧａｉｎ）やピッチの変化等を情報として保持している。
【００８７】
例えば、音の出始めの部分について、ＡｔｔａｃｋＤＢのゲインの変化（ＥＧａｉｎ）とピッチの変化を、ＥｐＲパラメータにさらに加算すれば自然な実音声に近い、ゲイン及びピッチの変化を合成音声に付与することができる。
【００８８】
ＶｉｂｒａｔｏＤＢは、オリジナルの音声（実音声）のビブラート部分を分析して得られるゲイン（ＥＧａｉｎ）やピッチの変化等を情報として保持している。
【００８９】
例えば、合成音声中でビブラートをかけたい部分があれば、その部分のＥｐＲパラメータにＶｉｂｒａｔｏＤＢに保持されているゲイン（ＥＧａｉｎ）やピッチの変化を加算することにより、自然なゲイン及びピッチの変化を合成音声に付与することができる。すなわち、自然なビブラートを再現することができる。
【００９０】
なお、本実施例では、以上の５つのデータベースを用意したが、歌詞とピッチ、音の大きさ、口の開き具合の情報が与えられれば、基本的には、少なくともＴｉｍｂｅｒＤＢ、ＳｔａｔｉｏｎａｒｙＤＢ、ＡｒｔｉｃｕｌａｔｉｏｎＤＢの３つのデータベースを使用すれば歌唱音声の合成を行うことができる。
【００９１】
さらに、歌唱音声に表情をつけるにあたってＮｏｔｅＤＢ、及びＶｉｂｒａｔｏＤＢの２つのデータベースを適宜追加して使用することにより表現力豊かな歌唱音声を合成することができる。また、追加するデータベースは、ＮｏｔｅＤＢ、及びＶｉｂｒａｔｏＤＢに限らず音声の表現に関するものならどのようなものでもよい。
【００９２】
データベース７では、以上に述べたデータベースを用いて算出したＥｐＲパラメータであるＥｘｃｉｔａｔｉｏｎＣｕｒｖｅＥＣ、ＣｈｅｓｔＲｅｓｏｎａｎｃｅＣＲ、ＶｏｃａｌＴｒａｃｔＲｅｓｏｎｃｅＶＴＲ、ＳｐｅｃｔｒａｌＳｈａｐｅＤｉｆｆｅｒｅｎｔｉａｌＳＳＤと非調和成分ＵＣを出力する。
【００９３】
データベース７からは非調和成分ＵＣとして、例えば図３に示すようなマグニチュード・スペクトルとフェイズスペクトルが出力される。非調和成分ＵＣは、有声音については調和成分で表すことのできないオリジナル音声中のノイズ成分であり、無声音についてはもともと調和成分で表すことができないのでこの非調和成分ＵＣだけで表すことになる。
【００９４】
このうち、ＶｏｃａｌＴｒａｃｔＲｅｓｏｎｃｅＶＴＲと非調和成分ＵＣについては図に示すように位相（Ｐｈａｓｅ）に関するものと、マグニチュード（Ｍａｇｎｉｔｕｄｅ）に関するものにそれぞれ分けて出力される。
【００９５】
加算部８ａは、窓掛け＆ＦＦＴ部６から出力されるフラットなマグニチュード・スペクトルに、ＥｘｃｉｔａｔｉｏｎＣｕｒｖｅＥＣを加算する。すなわち、Ｅｇａｉｎ、ＥＳｌｏｐｅ、ＥＳｌｏｐｅＤｅｐｔｈを用いて、上記式（ａ）によって算出される周波数毎のマグニチュードを加算するものである。ここで加算された結果は、後段の加算部８ｂに送られる。
【００９６】
この時点で得られるマグニチュード・スペクトルは、例えば、図４に示す声帯振動波形のマグニチュード・スペクトル・エンベロープ（ＥｘｃｉｔａｔｉｏｎＣｕｒｖｅ）である。
【００９７】
また、ここで前述のＤｙｎａｍｉｃｓパラメータに応じてＥｇａｉｎ、ＥＳｌｏｐｅ、ＥＳｌｏｐｅＤｅｐｔｈを図１４（Ａ）〜（Ｃ）に示す関数に従い変化させると、音量の変化による音色の変化を表現することができる。
【００９８】
さらに、音の大きさを変えたければ図１１（Ａ）、（Ｂ）に示すようにＥＧａｉｎを変化させればよい。また音色を変化させたい場合は、図１２（Ａ）、（Ｂ）に示すようにＥＳｌｏｐｅを変化させればよい。
【００９９】
加算部８ｂでは、加算部８ａでＥｘｃｉｔａｔｉｏｎＣｕｒｖｅＥＣを加算したマグニチュード・スペクトルに、さらに、前述の式（ｄ）を用いてＣｈｅｓｔＲｅｓｏｎａｎｃｅＣＲを加算して、図７に示すような胸部共鳴によるマグニチュード・スペクトルの山を付加したマグニチュード・スペクトルを得る。ここで得られたマグニチュード・スペクトルは、後段の加算部８ｃに送られる。
【０１００】
なお、ここでＣｈｅｓｔＲｅｓｏｎａｎｃｅＣＲのマグニチュードを大きくすることにより、元の声質と比べて、胸部共鳴音が大きい声に変化させることができる。また、ＣｈｅｓｔＲｅｓｏｎａｎｃｅＣＲの周波数を低くすることによりより低い胸部共鳴音を持つ声に変化させることができる。
【０１０１】
加算部８ｃでは、加算部８ｂでＣｈｅｓｔＲｅｓｏｎａｎｃｅＣＲを加算したマグニチュード・スペクトルに、さらに、前述の式（ｃ１）を用いてＶｏｃａｌＴｒａｃｔＲｅｓｏｎｃｅＶＴＲを加算して、図６に示すような声道によるマグニチュード・スペクトルの山を付加したマグニチュード・スペクトルを得る。ここで得られたマグニチュード・スペクトルは、後段の加算部８ｅに送られる。
【０１０２】
ここで、ＶｏｃａｌＴｒａｃｔＲｅｓｏｎｃｅＶＴＲを加算することによって、基本的に、「あ」、「い」等の音韻の違いによる音色の違いを表現することができる。
【０１０３】
なお、前述の図１５を用いて説明したＯｐｅｎｉｎｇパラメータに応じてレゾナンスの振幅を周波数関数を用いて変化させると、口の開き具合による音色の変化を再現することができる。
【０１０４】
また、ここでレゾナンスの周波数やマグニチュード、バンド幅を変化させることにより元の声質とは違った声質に変化させる（例えばオペラ調の声に変化させる）ことが可能となる。さらにピッチとともに変化させることにより、男の声を女の声にしたり、女の声を男の声にしたりすることができる。
【０１０５】
加算部８ｄは、窓掛け＆ＦＦＴ部６から出力されるフラットなフェイズスペクトルに、前述の式（ｃ２）を用いてＶｏｃａｌＴｒａｃｔＲｅｓｏｎａｎｃｅＶＴＲを加算する。その後、フェイズスペクトルは、加算部８ｇに送られる。
【０１０６】
加算部８ｅでは、加算部８ｃでＶｏｃａｌＴｒａｃｔＲｅｓｏｎｃｅＶＴＲを加算したマグニチュード・スペクトルに、さらに、前述のＳｐｅｃｔｒａｌＳｈａｐｅＤｉｆｆｅｒｅｎｔｉａｌＭａｇ_dB（ｆ_Hz）を加算して、より精密なマグニチュード・スペクトルを得る。
【０１０７】
加算部８ｆではデータベース７から供給される非調和成分ＵＣのマグニチュード・スペクトルと加算部８ｅから送られるマグニチュード・スペクトルを加算する。加算されたマグニチュード・スペクトルは後段のＩＦＦＴ＆Ｏｖｅｒｌａｐ加算部９に送られる。
【０１０８】
加算部８ｇではデータベース７から供給される非調和成分ＵＣのフェイズスペクトルと加算部８ｄから送られるフェイズスペクトルを加算する。加算されたフェイズスペクトルは後段のＩＦＦＴ＆Ｏｖｅｒｌａｐ加算部９に送られる。
【０１０９】
ＩＦＦＴ＆Ｏｖｅｒｌａｐ加算部９では、送られてくるマグニチュード・スペクトルとフェイズスペクトルをそれぞれ逆高速フーリエ変換（ＩＦＦＴ）して、変換された時間波形をオーバーラップ加算することで最終的な合成音声を生成して出力する。
【０１１０】
以上、本実施例によれば、音声を調和成分と、非調和成分に分解し、さらに分解して得られた調和成分を声帯波形のマグニチュード・スペクトル・エンベロープ、複数のレゾナンス、及びこれらを加算したものと元の音声との差分に分解して保持することができる。
【０１１１】
また、本実施例によれば、声帯波形のマグニチュード・スペクトル・エンベロープをＥＧａｉｎ、ＥＳｌｏｐｅ、ＥＳｌｏｐｅＤｅｐｔｈの３つのＥｐＲパラメータで表すことができる。
【０１１２】
さらに、本実施例によれば、音量の変化に対応するＥｐＲパラメータをあらかじめ用意した関数に従い変化させることにより、音量の変化による自然な音色の変化を付与した音声合成を行うことができる。
【０１１３】
また、本実施例によれば、口の開け方の変化に対応するＥｐＲパラメータをあらかじめ用意した関数に従い変化させることにより、口の開け方の変化による自然な音色の変化を付与した音声合成を行うことができる。
【０１１４】
さらに、上記の関数はそれぞれ、音韻や発声者等により変える事ができるので、音韻や発声者等による音色の変化の個人差を考慮した音声合成を行うことができる。
【０１１５】
なお、本実施例は歌唱音声合成を中心に説明したが、歌唱音声に限られるものではなく、通常の会話の音声や楽器音なども同様に合成することができる。
【０１１６】
なお、本実施例は、本実施例に対応するコンピュータプログラム等をインストールした市販のコンピュータ等によって、実施させるようにしてもよい。
【０１１７】
その場合には、本実施例に対応するコンピュータプログラム等を、ＣＤ−ＲＯＭやフロッピーディスク等の、コンピュータが読み込むことが出来る記憶媒体に記憶させた状態で、ユーザに提供してもよい。
【０１１８】
そのコンピュータ等が、ＬＡＮ、インターネット、電話回線等の通信ネットワークに接続されている場合には、通信ネットワークを介して、コンピュータプログラムや各種データ等をコンピュータ等に提供してもよい。
【０１１９】
以上実施例に沿って本発明を説明したが、本発明はこれらに制限されるものではない。例えば、種々の変更、改良、組合せ等が可能なことは当業者に自明であろう。
【０１２０】
【発明の効果】
以上説明したように、本発明によれば、歌唱における特定の声質や癖等の個性まで似せて歌唱音声を合成することのできる音声合成装置を提供することができる。
【０１２１】
また、本発明によれば、よりリアルな人間の歌唱音声を合成して、違和感のない自然な状態で歌を歌わせることが可能な音声合成装置を提供することができる。
【図面の簡単な説明】
【図１】本発明の実施例による音声の分析を表すブロック図である。
【図２】調和成分のマグニチュード・スペクトル・エンベロープを表す図である。
【図３】非調和成分のスペクトル・エンベロープを表す図である。。
【図４】声帯振動波形のスペクトル・エンベロープを表す図である。
【図５】ＥｘｃｉｔａｔｉｏｎＣｕｒｖｅの変化を表す図である。
【図６】ＶｏｃａｌＴｒａｃｔＲｅｓｏｎａｎｃｅにより作られるスペクトル・エンベロープを表す図である。
【図７】胸部共鳴波形のスペクトル・エンベロープ（ＣｈｅｓｔＲｅｓｏｎａｎｃｅ）を表す図である。
【図８】レゾナンスの周波数特性の例を示す図である。
【図９】ＳｐｅｃｔｒａｌＳｈａｐｅＤｉｆｆｅｒｅｎｔｉａｌの例を表す図である。
【図１０】図２の調和成分ＨＣのマグニチュード・スペクトル・エンベロープをＥｐＲパラメータに分解した図である。
【図１１】図１０に示したＥｘｃｉｔａｔｉｏｎＣｕｒｖｅのＥＧａｉｎを変化させた場合の全体のスペクトル・エンベロープの例である。
【図１２】図１０に示したＥｘｃｉｔａｔｉｏｎＣｕｒｖｅのＥＳｌｏｐｅを変化させた場合の全体のスペクトル・エンベロープの例である。
【図１３】図１０に示したＥｘｃｉｔａｔｉｏｎＣｕｒｖｅのＥＳｌｏｐｅＤｅｐｔｈを変化させた場合の全体のスペクトル・エンベロープの例である。
【図１４】Ｄｙｎａｍｉｃｓの変化にともなうＥｐＲパラメータの変化を示す図である。
【図１５】Ｏｐｅｎｉｎｇを変化させた時の周波数特性の変化を表す図である。
【図１６】音声合成装置の歌唱合成エンジンのブロック図である。
【符号の説明】
１…音声入力部、２…音声分析部、３…記憶部、４…入力部、５…パルス生成部、６…窓掛け＆ＦＦＴ部、７…データベース、８…加算部、９…ＩＦＦＴ＆Ｏｖｅｒｌａｐ加算部

Claims

音声を調和成分と非調和成分に分解する第１の分解手段と、
前記調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープとを減算した差分のマグニチュード・スペクトル・エンベロープとに分解する第２の分解手段と、
前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを記憶する記憶手段とを有する音声分析装置であって、
前記声帯振動波形のマグニチュード・スペクトル・エンベロープは、該マグニチュード・スペクトル・エンベロープの大きさを表すＥＧａｉｎと、該マグニチュード・スペクトル・エンベロープの傾き具合を表すＥＳｌｏｐｅと、該マグニチュード・スペクトル・エンベロープの最大値から最小値の深さを表すＥＳｌｏｐｅＤｅｐｔｈとの３つのパラメータで表され、
前記３つのパラメータは前記声帯振動波形のマグニチュード・スペクトル・エンベロープをＥｘｃｉｔａｔｉｏｎＣｕｒｖｅＭａｇ（ｆ）とすると、以下の式（１）で表すことができる音声分析装置。
前記レゾナンスは、声道フォルマントを表現する複数のレゾナンスと、胸部共鳴のフォルマントを表現するレゾナンスとを含む請求項１記載の音声分析装置。
音声を調和成分と非調和成分とに分解し、該調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープとを減算した差分のマグニチュード・スペクトル・エンベロープとに分解して記憶する記憶手段と、
合成する音声の情報を入力する入力手段と、
マグニチュードの周波数特性がフラットなマグニチュード・スペクトル・エンベロープを発生する発生手段と、
前記入力された情報に基づき、前記記憶手段から読み出した、前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを前記マグニチュードの周波数特性がフラットなマグニチュード・スペクトル・エンベロープに加算する加算手段とを有する音声合成装置であって、
前記声帯振動波形のマグニチュード・スペクトル・エンベロープは、該マグニチュード・スペクトル・エンベロープの大きさを表すＥＧａｉｎと、該マグニチュード・スペクトル・エンベロープの傾き具合を表すＥＳｌｏｐｅと、該マグニチュード・スペクトル・エンベロープの最大値から最小値の深さを表すＥＳｌｏｐｅＤｅｐｔｈとの３つのパラメータで表され、
前記３つのパラメータは前記声帯振動波形のマグニチュード・スペクトル・エンベロープをＥｘｃｉｔａｔｉｏｎＣｕｒｖｅＭａｇ（ｆ）とすると、以下の式（１）で表すことができる音声合成装置。
音声を調和成分と非調和成分に分解する第１の分解手段と、
前記調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープとを減算した差分のマグニチュード・スペクトル・エンベロープとに分解する第２の分解手段と、
前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを記憶する記憶手段と、
合成する音声の情報を入力する入力手段と、
マグニチュードの周波数特性がフラットなマグニチュード・スペクトル・エンベロープを発生する発生手段と、
前記入力された情報に基づき、前記記憶手段から読み出した、前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを前記マグニチュードの周波数特性がフラットなマグニチュード・スペクトル・エンベロープに加算する加算手段とを有する音声合成装置であって、
前記声帯振動波形のマグニチュード・スペクトル・エンベロープは、該マグニチュード・スペクトル・エンベロープの大きさを表すＥＧａｉｎと、該マグニチュード・スペクトル・エンベロープの傾き具合を表すＥＳｌｏｐｅと、該マグニチュード・スペクトル・エンベロープの最大値から最小値の深さを表すＥＳｌｏｐｅＤｅｐｔｈとの３つのパラメータで表され、
前記３つのパラメータは前記声帯振動波形のマグニチュード・スペクトル・エンベロープをＥｘｃｉｔａｔｉｏｎＣｕｒｖｅＭａｇ（ｆ）とすると、以下の式（１）で表すことができる音声分析装置。
前記レゾナンスは、声道フォルマントを表現する複数のレゾナンスと、胸部共鳴のフォルマントを表現するレゾナンスとを含む請求項３又は４記載の音声合成装置。
前記記憶手段は、さらに前記３つのパラメータを音の大きさに従い変化させる関数を記憶し、
音の大きさの変化に応じて音色を変化させることができる請求項３から５のいずれか１項に記載の音声合成装置。
前記記憶手段は、さらに前記レゾナンスのアンプリチュードを口の開き方に従い変化させる関数を記憶し、
口の開き方に応じて音色を変化させることができる請求項３から６のいずれか１項に記載の音声合成装置。
音声を調和成分と非調和成分に分解する第１の分解工程と、
前記調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープとを減算した差分のマグニチュード・スペクトル・エンベロープとに分解する第２の分解工程と、
前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを記憶する記憶工程とを有する音声分析方法であって、
前記声帯振動波形のマグニチュード・スペクトル・エンベロープは、該マグニチュード・スペクトル・エンベロープの大きさを表すＥＧａｉｎと、該マグニチュード・スペクトル・エンベロープの傾き具合を表すＥＳｌｏｐｅと、該マグニチュード・スペクトル・エンベロープの最大値から最小値の深さを表すＥＳｌｏｐｅＤｅｐｔｈとの３つのパラメータで表され、
前記３つのパラメータは前記声帯振動波形のマグニチュード・スペクトル・エンベロープをＥｘｃｉｔａｔｉｏｎＣｕｒｖｅＭａｇ（ｆ）とすると、以下の式（１）で表すことができる音声分析方法。
音声を調和成分と非調和成分とに分解し、該調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープとを減算した差分のマグニチュード・スペクトル・エンベロープとに分解して記憶する記憶手段から前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを読み出す読み出し工程と
合成する音声の情報を入力する入力工程と、
マグニチュードの周波数特性がフラットなマグニチュード・スペクトル・エンベロープを発生する発生工程と、
前記入力された情報に基づき、前記記憶手段から読み出した、前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを前記マグニチュードの周波数特性がフラットなマグニチュード・スペクトル・エンベロープに加算する加算工程とを有する音声合成方法であって、
前記声帯振動波形のマグニチュード・スペクトル・エンベロープは、該マグニチュード・スペクトル・エンベロープの大きさを表すＥＧａｉｎと、該マグニチュード・スペクトル・エンベロープの傾き具合を表すＥＳｌｏｐｅと、該マグニチュード・スペクトル・エンベロープの最大値から最小値の深さを表すＥＳｌｏｐｅＤｅｐｔｈとの３つのパラメータで表され、
前記３つのパラメータは前記声帯振動波形のマグニチュード・スペクトル・エンベロープをＥｘｃｉｔａｔｉｏｎＣｕｒｖｅＭａｇ（ｆ）とすると、以下の式（１）で表すことができる音声合成方法。
音声を調和成分と非調和成分に分解する第１の分解手順と、
前記調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープを減算した差分のスペクトル・エンベロープとに分解する第２の分解手順と、
前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを記憶する記憶手順とを有する音声分析手順をコンピュータに実行させるためのプログラムであって、
前記声帯振動波形のマグニチュード・スペクトル・エンベロープは、該マグニチュード・スペクトル・エンベロープの大きさを表すＥＧａｉｎと、該マグニチュード・スペクトル・エンベロープの傾き具合を表すＥＳｌｏｐｅと、該マグニチュード・スペクトル・エンベロープの最大値から最小値の深さを表すＥＳｌｏｐｅＤｅｐｔｈとの３つのパラメータで表され、
前記３つのパラメータは前記声帯振動波形のマグニチュード・スペクトル・エンベロープをＥｘｃｉｔａｔｉｏｎＣｕｒｖｅＭａｇ（ｆ）とすると、以下の式（１）で表すことができる音声分析手順をコンピュータに実行させるためのプログラム。
音声を調和成分と非調和成分とに分解し、該調和成分のマグニチュード・スペクトル・エンベロープを、声帯振動波形のマグニチュード・スペクトル・エンベロープとフォルマントを近似するレゾナンスのマグニチュード・スペクトル・エンベロープと前記調和成分のマグニチュード・スペクトル・エンベロープから前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープとを減算した差分のマグニチュード・スペクトル・エンベロープとに分解して記憶する記憶手段から前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを読み出す読み出し手順と
合成する音声の情報を入力する入力手順と、
マグニチュードの周波数特性がフラットなマグニチュード・スペクトル・エンベロープを発生する発生手順と、
前記入力された情報に基づき、前記記憶手段から読み出した、前記非調和成分と前記声帯振動波形のマグニチュード・スペクトル・エンベロープと前記レゾナンスのマグニチュード・スペクトル・エンベロープと前記差分のマグニチュード・スペクトル・エンベロープとを前記マグニチュードの周波数特性がフラットなマグニチュード・スペクトル・エンベロープに加算する加算手順とを有する音声合成手順をコンピュータに実行させるためのプログラムであって、
前記声帯振動波形のマグニチュード・スペクトル・エンベロープは、該マグニチュード・スペクトル・エンベロープの大きさを表すＥＧａｉｎと、該マグニチュード・スペクトル・エンベロープの傾き具合を表すＥＳｌｏｐｅと、該マグニチュード・スペクトル・エンベロープの最大値から最小値の深さを表すＥＳｌｏｐｅＤｅｐｔｈとの３つのパラメータで表され、
前記３つのパラメータは前記声帯振動波形のマグニチュード・スペクトル・エンベロープをＥｘｃｉｔａｔｉｏｎＣｕｒｖｅＭａｇ（ｆ）とすると、以下の式（１）で表すことができる音声合成手順をコンピュータに実行させるためのプログラム。