JP2005024794A - Method, device, and program for speech synthesis - Google Patents
Method, device, and program for speech synthesis Download PDFInfo
- Publication number
- JP2005024794A JP2005024794A JP2003188873A JP2003188873A JP2005024794A JP 2005024794 A JP2005024794 A JP 2005024794A JP 2003188873 A JP2003188873 A JP 2003188873A JP 2003188873 A JP2003188873 A JP 2003188873A JP 2005024794 A JP2005024794 A JP 2005024794A
- Authority
- JP
- Japan
- Prior art keywords
- waveform
- speech
- pitch
- target
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、例えばテキスト合成に用いられる音声合成方法と装置およびコンピュータ読み取り可能なテキスト合成プログラムに関する。
【0002】
【従来の技術】
音声合成方式の一つである規則合成方式は、入力された韻律情報から自動的に合成音声に変換する技術であり、任意の文章(テキスト)から人工的に音声を作り出すテキスト合成などに使用されている。
【0003】
図4に示すように、規則合成方式では、音韻記号列、音韻継続時間長、ピッチパターンおよびパワーなどの韻律情報100に従って音声素片記憶部あるいは原音声波形記憶部21に記憶されている音節あるいは音素などの小さな単位(音声素片)を選択し、選択された音声素片に対してピッチおよび時間長を変更して接続することで合成音声信号105を生成する。
【0004】
ピッチの変更方法としてはPSOLAと呼ばれる方法が良く知られており、PSOLAでは音声素片に対してピッチ周期毎に窓掛けを行ってピッチ波形を切り出した後、合成すべきピッチ周期間隔で並べ直し重ね合わせてピッチの変更を行い、合成音声信号を生成する。(図5および図6)
【0005】
【特許文献1】
特許第329604号公報
【0006】
【発明が解決しようとする課題】
ここで、そのため、PSOLAではピッチ波形の抽出方法が合成音声の音質を向上するポイントとなる。特許第329604号では、合成音声のピッチが原音声のピッチよりも低くなる場合は、原音声のピッチ周期の2倍に等しい窓長をもつハニング窓でピッチ波形を切り出し、合成音声のピッチが原音声のピッチよりも高くなる場合は、合成音声のピッチ周期の2倍に等しい窓長をもつハニング窓でピッチ波形を切り出すことでピッチの変更に伴う合成音声の音質の劣化を抑えている。
【0007】
しかし、ピッチの変更が小さい場合は合成音声の音質の劣化は少ないが、ピッチを大きく変更した場合はピッチとスペクトルの音響的なミスマッチが原因で合成音声の音質は著しく劣化してしまうという問題がある。
【0008】
【課題を解決するための手段】
上記問題を解決するため、本発明においては、少なくとも音韻情報を含む韻律情報に基づいて原音声波形から抽出されるピッチ波形を所望のピッチ周期間隔で重畳して音声を生成する音声合成方法において、前記韻律情報に基づいて目標波形記億部から目標波形を選択し、選択された目標波形と抽出すべきピッチ波形との間で定義される誤差評価関数に基づいて、原音声波形記憶部の前記原音声波形から前記ピッチ波形を抽出し、該ピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成することを特徴とする。
【0009】
また本発明においては、少なくとも音韻情報を含む韻律情報に基づいて原音声波形から抽出されるピッチ波形を所望のピッチ周期間隔で重畳して音声を生成する音声合成方法において、前記韻律情報に基づいて目標波形記億部から目標波形を選択し、選択された目標波形と抽出すべきピッチ波形との間で定義される第1の誤差評価関数と、前記抽出すべきピッチ波形を重畳して得られる合成音声波形と前記原音声波形との間で定義される第2の誤差評価関数とに基づいて、原音声波形記憶部の原音声波形から前記ピッチ波形を抽出し、該ピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成することを特徴とする。
【0010】
また本発明においては、少なくとも音韻情報を含む韻律情報に基づいて原音声波形から抽出されるピッチ波形を所望のピッチ周期間隔で重畳して音声を生成する音声合成方法において、前記韻律情報に基づいて目標波形記億部から目標波形として複数ピッチの時間幅を有する音声波形データを選択し、当該音声波形データと抽出すべきピッチ波形に基づく音声波形との間で定義される第1の誤差評価関数と、前記抽出すべきピッチ波形を重畳して得られる合成音声波形と前記原音声波形との間で定義される第2の誤差評価関数とに基づいて、原音声波形記憶部の原音声波形から前記ピッチ波形を抽出し、該ピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成することを特徴とする。
【0011】
また本発明においては、少なくとも音韻情報を含む韻律情報に基づいて原音声波形から抽出されるピッチ波形を所望のピッチ周期間隔で重畳して音声を生成する音声合成方法において、前記韻律情報に基づいて目標スペクトル記憶部から目標スペクトルを選択し、選択された目標スペクトルと抽出すべきピッチ波形のスペクトルとの間で定義される誤差評価関数に基づいて、前記原音波形記憶部の前記原音声波形から前記ピッチ波形を抽出し、該ピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成することを特徴とする。
【0012】
また本発明においては、少なくとも音韻情報を含む韻律情報に基づいて原音声波形から抽出されるピッチ波形を所望のピッチ周期間隔で重畳して音声を生成する音声合成方法において、前記韻律情報に基づいて目標スペクトル記憶部から目標スペクトルを選択し、選択された目標スペクトルと抽出すべきピッチ波形のスペクトルとの間で定義される第1の誤差評価関数と、前記抽出すべきピッチ波形を重畳して得られる合成音声波形と前記原音声波形との間で定義される第2の誤差評価関数とに基づいて、原音声波形記憶部の原音声波形から前記ピッチ波形を抽出し、該ピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成することを特徴とする。
【0013】
また本発明においては、少なくとも音韻情報を含む韻律情報に基づいて原音声波形から抽出されるピッチ波形を所望のピッチ周期間隔で重畳して音声を生成する音声合成方法において、前記韻律情報に基づいて目標スペクトル記憶部から目標スペクトルとして所定の周波数成分を含むスペクトルデータを選択し、当該スペクトルデータと抽出すべきピッチ波形に基づく音声波形のスペクトルとの間で定義される第1の誤差評価関数と、前記抽出すべきピッチ波形を重畳して得られる合成音声波形と前記原音声波形との間で定義される第2の誤差評価関数とに基づいて、原音声波形記憶部の原音声波形から前記ピッチ波形を抽出し、該ピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成することを特徴とする。
【0014】
また本発明においては、少なくとも音韻情報を含む韻律情報に基づいて原音声波形から抽出されるピッチ波形を所望のピッチ周期間隔で重畳して音声を生成する音声合成方法において、前記韻律情報に基づいて目標波形記億部から目標波形を選択し、原音声波形記憶部の原音声波形から窓関数をかけて抽出されたピッチ波形と前記選択された目標波形との間で定義される誤差評価関数に基づいてピッチ波形を選択し、、該ピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成することを特徴とする音声合成方法を提供する。
【0015】
また本発明においては、目標波形を記憶した目標波形記憶部と、原音声波形を記憶した原音声波形記憶部と、少なくとも韻律情報に基づいて目標波形記億部から目標波形を選択する目標波形選択部と、選択された目標波形と前記原音声波形記憶部に記憶された原音声波形から抽出すべきピッチ波形との間で定義される誤差評価関数に基づいて、前記原音声波形から前記ピッチ波形を抽出するピッチ波形抽出部と、該抽出されたピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成することを特徴とする音声合成装置を提供する。
【0016】
また本発明においては、少なくとも音韻情報を含む韻律情報に基づいて原音声波形から抽出されるピッチ波形を所望のピッチ周期間隔で重畳して音声を生成する処理を行なうコンピュータ読み取り可能な音声合成プログラムにおいて、前記韻律情報に基づいて目標波形記億部から目標波形を選択するステップと、選択された目標波形と抽出すべきピッチ波形との間で定義される誤差評価関数に基づいて、原音声波形記憶部の前記原音声波形から前記ピッチ波形を抽出するステップと、該ピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成するステップとを備えたことを特徴とするコンピュータ読み取り可能な音声合成プログラムを提供する。
【0017】
【発明の実施の形態】
(第1の実施形態)
図1に本発明の第1の実施形態に係る音声合成システムの構成を示す。この音声合成システムの主要部分は、目標波形記憶部20と、目標波形選択部10と、原音声波形記憶部21と、ピッチ波形抽出部11と、ピッチ波形重畳部12とから構成されている。
【0018】
本実施形態の音声合成システムの動作をテキスト合成の場合を例にとって、図7に示すフローチャートを用いて説明する。
【0019】
まず、図1に示す文解析・韻律情報生成(処理部)にテキスト文章が入力されると、テキスト合成に供されるテキスト文章の文解析が行われて音韻記号列、音韻継続時間長、ピッチパターンおよびパワ−などの韻律情報が生成され、目標波形選択部10およびピッチ波形抽出部11に入力される(ステップS1)。
【0020】
目標波形選択部10では、音韻記号列、音韻継続時間長、ピッチパターンおよびパワ−などの韻律情報100に基づいて目標波形記憶部20から目標波形102が選択される(ステップS2)。目標波形記憶部20には、例えば、オフラインで収集された1ピッチ波形としての音声素片が記憶されており、入力された韻律情報に対応した最適な音声素片が選択される。
【0021】
ピッチ波形抽出部11では、音韻記号列、音韻継続時間長、ピッチパターンおよびパワ−などの韻律情報100に基づいて原音声波形記憶部21から原音声波形103が選択される(ステップS3)。原音声波形記憶部21には、例えば、文章単位に収集された音声波形データが記憶されており、入力された韻律情報に対応した(一部の)音声波形データが選択される。
【0022】
そして、選択された目標波形とピッチ波形との間で定義される第1の誤差評価関数、および選択された原音声波形と上記ピッチ波形から得られる合成音声波形との間で定義される第2の誤差評価関数に基づいて、原音声波形からピッチ波形が抽出される(ステップS4)。
【0023】
最後に、抽出されたピッチ波形104が韻律情報100により決定されるピッチ周期間隔で重畳されて所定の時間長連続する合成音声105が生成される(ステップS5)。
【0024】
次に、本実施形態の特徴的な部分であるピッチ波形抽出部11について、第1の誤差評価関数と第2の誤差評価関数の重み付き和で決定される総誤差を最小にするピッチ波形を解析的に求める場合を例にとって詳細に述べる。
【0025】
目標波形とピッチ波形との間で定義される第1の誤差評価関数をD1、原音声波形と合成音声波形との間で定義される第2の誤差評価関数をD2とすると、第1の誤差評価関数D1及び第2の誤差評価関数D2は次式で与えられる。
【0026】
【数1】
【0027】
なお、xはピッチ波形、uは目標波形、rは原音声波形、Aはピッチ波形を原音声波形のピッチに合わせて重畳する操作を表す行列、e1は目標波形とピッチ波形との誤差ベクトル(第1の誤差ベクトル)、e2は原音声波形と合成音声波形との誤差ベクトル(第2の誤差ベクトル)、g1は第1の誤差評価関数に対する最適ゲイン、g2は第2の誤差評価関数に対する最適ゲインである。
【0028】
従って、第1の誤差評価関数D1に対する重み係数をw1、第2の誤差評価関数D2に対する重み係数をw2とすると、総誤差Dは
【0029】
【数2】
【0030】
となる。
【0031】
ここで、総誤差Eを最小にするピッチ波形x、第1の誤差評価関数に対する最適ゲインg1、および第2の誤差評価関数に対する最適ゲインg2を求める。総誤差Dをピッチ波形x、第1の誤差評価関数に対する最適ゲインg1、および第2の誤差評価関数に対する最適ゲインg2のそれぞれの変数で偏微分すると
【0032】
【数3】
【0033】
となる。従って、
【0034】
【数4】
【0035】
より、
【0036】
【数5】
【0037】
となる。上式を繰り返し計算すればg1、g2およびxは求められる。
【0038】
また、第1の誤差ベクトルおよび第2の誤差ベクトルにそれぞれ聴覚重み付けを行い、ピッチ波形を抽出することも可能である。この場合、聴覚重み付けされた第1の誤差評価関数をDw1、聴覚重み付けされた第2の誤差評価関数をDw2とすると、聴覚重み付け総誤差Dwは次式で与えられる。
【0039】
【数6】
【0040】
なお、W1は第1誤差ベクトルに対する聴覚重み付けの操作を表す行列、W2は第2誤差ベクトルに対する聴覚重み付けの操作を表す行列である。
【0041】
従って、先に述べた聴覚重み付けを行わない場合と同様にして、ピッチ波形x、第1の誤差評価関数に対する最適ゲインg1、および第2の誤差評価関数に対する最適ゲインg2を求めると、
【0042】
【数7】
【0043】
となる。
【0044】
以上の例では、目標波形記憶部20には、例えば、オフラインで収集された1ピッチ波形としての音声素片が記憶されているとして実施例を説明したが、記憶されているデータはオフラインで収集された1ピッチ波形に限定されるものではない。例えば、予めの学習により得られた音声素片を記憶しておくよう構成しても良いし、1ピッチ波形ではなく複数ピッチの時間幅を有する音声波形データを目標波形として記憶しておくよう構成しても良い。その場合には、複数ピッチの時間幅を有する音声波形データと抽出すべきピッチ波形に基づく音声波形(例えばピッチ波形を重畳して得られた合成音声波形)との誤差を誤差ベクトルとして、前述した第1の誤差ベクトルに置き換えて、ピッチ波形の評価を行なう。
【0045】
また原音声波形記憶部21には、例えば、文章単位に収集された音声波形データが記憶されているとして実施例を説明したが、記憶されているデータは文章単位に収集された音声波形データに限られるものではない。例えば、収録された音声波形データを一定の時間や音韻毎に分けられた音声素片データを記憶しておくよう構成しても良いし、文章よりも小さな文法単位毎に連続した音声波形データを記憶するよう構成しても良い。
【0046】
以上の例では、目標波形として音声の時間波形を目標波形記憶部20に記憶するようシステムを構成した例を説明したが、目標波形記憶部20に記憶された目標波形(時間波形)101の代わりに、これと等価な周波数成分としての目標スペクトルを記憶し、第1の誤差評価関数を目標スペクトルとピッチ波形の周波数スペクトルとの間で定義し、誤差を評価することも可能である。このときの音声合成システムの構成は図2のようになる。
【0047】
図2は図1と比較して、目標波形記憶部20および目標波形選択部10が目標スペクトル記憶部40および目標スペクトル選択部30に置き換わり、原音声波形記憶部21とピッチ波形抽出部11の間に原音声波形から抽出されたピッチ波形を拘束フーリエ変換(FFT)処理するFFT処理部31が追加された構成となっている。なお、図2では図1と同一の要素に同一の参照番号を付してある。
【0048】
ここで、目標スペクトル記憶部40には、例えば、オフラインで収集された1ピッチ波形としての音声素片に相当する周波数成分(スペクトル)が記憶されており、入力された韻律情報に対応した最適な音声素片相当のスペクトルが選択される。さらに、第2の誤差評価関数を原音声波形とピッチ波形との間で定義することも可能である。
【0049】
このように、目標波形と原音声波形およびピッチ波形との間で定義される誤差評価関数に基づいて最適なピッチ波形を抽出することで、より望ましいスペクトル包絡をもつピッチ波形を得ることができ、合成音声の音質は向上する。さらに、異なるピッチに対応する目標波形を幾つか用意し、合成音声のピッチに応じて目標波形を変えてピッチ波形を抽出することで、ピッチとスペクトルの音響的なミスマッチが解消され、ピッチの変更に伴う合成音声の音質の劣化は無くなり、合成音声の音質はさらに向上する。
(第2の実施形態)
図3に本発明の第2の実施形態に係る音声合成システムの構成を示す。本実施形態は解析的にピッチ波形を抽出する第1の実施形態と異なり、切り出し窓(ウィンドウ)を用いて原音声波形からピッチ波形を切り出すことによりピッチ波形を抽出する構成となっている。なお、本実施形態では、図3に示されるようにピッチ波形抽出部11は、切り出し窓決定部50、ピッチ波形切り出し部51および誤差評価部52から構成されている。ピッチ波形の抽出は、予め、切り出し窓の窓関数あるいは窓長の少なくとも一方を変えた複数の切り出し窓を用意しておき、それぞれの切り出し窓を用いて切り出されたピッチ波形のうち、目標波形との間で定義される誤差評価関数により決定される誤差が最小となるものを選択することで実現される。なお、誤差評価関数は次式で定義されるようなものが考えられる。
【0050】
【数8】
【0051】
ここで、xはピッチ波形、uは目標波形、rは原音声波形、Mは原音声波形からピッチ波形を切り出す操作を表す行列、eは目標波形とピッチ波形との誤差ベクトル、gは誤差評価関数に対する最適ゲインである。
【0052】
本実施形態によって抽出されるピッチ波形は、解析的方法で抽出されたピッチ波形と比べると一般に精度が高くはないため、準最適なものになっているが、予め用意した複数の切り出し窓を用いて原音声波形からピッチ波形を切り出すことでピッチ波形を抽出しているので計算量が少ないという利点がある。
【0053】
また、目標波形とピッチ波形との間で定義される誤差だけでなく、原音声波形と合成音声波形との間で定義される誤差を考慮してピッチ波形を切り出すことも可能である。この場合、誤差評価関数としては次式で定義されるようなものが考えられる。
【0054】
【数9】
【0055】
ここで、xはピッチ波形、uは目標波形、rは原音声波形、Mは原音声波形からピッチ波形を切り出す操作を表す行列、Aはピッチ波形を原音声波形のピッチに合わせて重畳する操作を表す行列、w1は目標波形とピッチ波形との間で定義される誤差、w2は原音声波形と合成音声波形との間で定義される誤差、g1は目標波形に対する最適ゲイン、g2は原音声波形に対する最適ゲインである。
【0056】
なお、本実施形態では誤差評価関数は波形領域で定義してあるが、スペクトル領域で定義することも可能である。
【0057】
以上、本発明の実施形態を幾つか説明したが、本発明は上述した実施形態に限られるものではなく、種々変更して実施が可能である。例えば、誤差評価関数に関しても、上述した関数に限定される必要はなく、少なくとも目標波形あるいは目標スペクトルの一方を含む形で定義されていれば良い。
【0058】
原音声波形から抽出したピッチ波形と予め用意した目標波形との間で定義される誤差評価関数に基づいて原音声波形からピッチ波形を抽出することで、より望ましいスペクトル包絡をもつピッチ波形を得ることが可能になり、合成音声の音質は向上する。
【0059】
上述した本発明に基づく音声合成処理は、ハードウェアより実現することも可能であるが、コンピュータを用いてソフトウェア処理により実現することも可能である。従って、本発明によれば上述した音声合成処理をコンピュータに行わせるためのプログラムを提供することもできる。
【0060】
【発明の効果】
以上説明したように、本発明によれば目標波形とピッチ波形との間で定義される誤差評価関数に基づいてピッチ波形を抽出することにより、高品質な合成音声を得ることができる。
【図面の簡単な説明】
【図1】本発明に係る音声合成方法の第1の実施形態を説明するための音声合成システムの構成を示すブロック図
【図2】本発明に係る音声合成方法の第2の実施形態を説明するための音声合成システムの構成を示すブロック図
【図3】本発明に係る音声合成方法の第3の実施形態を説明するための音声合成システムの構成を示すブロック図
【図4】従来の音声合成方法を説明するための音声合成システムの構成を示すブロック図
【図5】PSOLA方式の合成音声波形の生成を説明するための図
【図6】PSOLA方式の合成音声波形の生成を説明するための図
【図7】本発明に係る音声合成方法の第1の実施形態を説明する音声合成システムのフローチャート
【符号の説明】
10 … 目標波形選択部
11 … ピッチ波形抽出部
12 … ピッチ波形重畳部
20 … 目標波形記憶部
21 … 原音声波形記憶部
30 … 目標スペクトル選択部
31 … FFT処理部
40 … 目標スペクトル記憶部
50 … 切り出し窓決定部
51 … ピッチ波形切り出し部
52 … 誤差評価部
100 … 韻律情報
101 … 候補目標波形
102 … 目標波形
103 … 原音声波形
104 … ピッチ波形
105 … 合成音声
201 … 候補目標スペクトル
202 … 目標スペクトル
203 … 原音声スペクトル
300 … 切り出し窓
301 … 候補ピッチ波形
302 … ピッチ波形
400 … 原音声波形
401 … ピッチ周期を小さくするときの窓関数
402 … ピッチ周期を小さくしたときの合成音声
403 … ピッチ周期を大きくするときの窓関数
404 … ピッチ周期を大きくしたときの窓関数[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech synthesis method and apparatus used for text synthesis, for example, and a computer-readable text synthesis program.
[0002]
[Prior art]
The rule synthesis method, which is one of the speech synthesis methods, is a technology that automatically converts input prosodic information into synthesized speech, and is used for text synthesis that artificially creates speech from arbitrary sentences (text). ing.
[0003]
As shown in FIG. 4, in the rule synthesis method, the syllables stored in the speech unit storage unit or the original speech
[0004]
As a method for changing the pitch, a method called PSOLA is well known. In PSOLA, a speech waveform is windowed for each pitch period to cut out a pitch waveform, and then rearranged at pitch period intervals to be synthesized. The pitch is changed by superposition, and a synthesized speech signal is generated. (FIGS. 5 and 6)
[0005]
[Patent Document 1]
Japanese Patent No. 329604 [0006]
[Problems to be solved by the invention]
Here, therefore, in PSOLA, the pitch waveform extraction method is a point that improves the quality of synthesized speech. In Japanese Patent No. 329604, when the pitch of the synthesized speech is lower than the pitch of the original speech, the pitch waveform is cut out with a Hanning window having a window length equal to twice the pitch period of the original speech, and the pitch of the synthesized speech is When the pitch is higher than the pitch of the voice, the pitch waveform is cut out with a Hanning window having a window length equal to twice the pitch period of the synthesized voice, thereby suppressing deterioration of the quality of the synthesized voice accompanying the pitch change.
[0007]
However, when the pitch change is small, there is little degradation in the quality of the synthesized speech, but when the pitch is changed greatly, there is a problem that the quality of the synthesized speech is significantly degraded due to an acoustic mismatch between the pitch and the spectrum. is there.
[0008]
[Means for Solving the Problems]
In order to solve the above problem, in the present invention, in a speech synthesis method for generating speech by superimposing a pitch waveform extracted from an original speech waveform based on prosodic information including at least phonemic information at a desired pitch period interval, A target waveform is selected from the target waveform storage unit based on the prosodic information, and based on an error evaluation function defined between the selected target waveform and the pitch waveform to be extracted, the original speech waveform storage unit The pitch waveform is extracted from the original speech waveform, and the synthesized speech is generated by superimposing the pitch waveform at a desired pitch period interval.
[0009]
Also, in the present invention, in a speech synthesis method for generating speech by superimposing a pitch waveform extracted from an original speech waveform on the basis of prosodic information including at least phonemic information at a desired pitch period interval, based on the prosodic information It is obtained by selecting a target waveform from the target waveform storage and superposing the first error evaluation function defined between the selected target waveform and the pitch waveform to be extracted and the pitch waveform to be extracted. Based on a synthesized error waveform and a second error evaluation function defined between the original sound waveform, the pitch waveform is extracted from the original sound waveform in the original sound waveform storage unit, and the pitch waveform is converted to a desired pitch. It is characterized in that synthesized speech is generated by superimposing at periodic intervals.
[0010]
Also, in the present invention, in a speech synthesis method for generating speech by superimposing a pitch waveform extracted from an original speech waveform on the basis of prosodic information including at least phonemic information at a desired pitch period interval, based on the prosodic information A first error evaluation function defined between speech waveform data and a speech waveform based on the pitch waveform to be extracted is selected from speech waveform data having a plurality of pitch time widths as a target waveform from the target waveform storage And a second error evaluation function defined between the synthesized speech waveform obtained by superimposing the pitch waveform to be extracted and the original speech waveform, from the original speech waveform in the original speech waveform storage unit The pitch waveform is extracted, and the synthesized speech is generated by superimposing the pitch waveform at a desired pitch period interval.
[0011]
Also, in the present invention, in a speech synthesis method for generating speech by superimposing a pitch waveform extracted from an original speech waveform on the basis of prosodic information including at least phonemic information at a desired pitch period interval, based on the prosodic information Select a target spectrum from the target spectrum storage unit, and based on the error evaluation function defined between the selected target spectrum and the spectrum of the pitch waveform to be extracted, from the original speech waveform of the original sound waveform storage unit A pitch waveform is extracted, and the synthesized speech is generated by superimposing the pitch waveform at a desired pitch period interval.
[0012]
Also, in the present invention, in a speech synthesis method for generating speech by superimposing a pitch waveform extracted from an original speech waveform on the basis of prosodic information including at least phonemic information at a desired pitch period interval, based on the prosodic information A target spectrum is selected from the target spectrum storage unit, and the first error evaluation function defined between the selected target spectrum and the spectrum of the pitch waveform to be extracted is superimposed on the pitch waveform to be extracted. The pitch waveform is extracted from the original speech waveform in the original speech waveform storage unit based on the synthesized error waveform and the second error evaluation function defined between the original speech waveform and the pitch waveform is It is characterized in that synthesized speech is generated by superimposing at pitch period intervals.
[0013]
Also, in the present invention, in a speech synthesis method for generating speech by superimposing a pitch waveform extracted from an original speech waveform on the basis of prosodic information including at least phonemic information at a desired pitch period interval, based on the prosodic information Selecting a spectrum data including a predetermined frequency component as a target spectrum from the target spectrum storage unit, a first error evaluation function defined between the spectrum data and a spectrum of a speech waveform based on a pitch waveform to be extracted; Based on the second error evaluation function defined between the synthesized speech waveform obtained by superimposing the pitch waveform to be extracted and the original speech waveform, the pitch is calculated from the original speech waveform in the original speech waveform storage unit. A waveform is extracted, and the synthesized speech is generated by superimposing the pitch waveform at a desired pitch period interval.
[0014]
Also, in the present invention, in a speech synthesis method for generating speech by superimposing a pitch waveform extracted from an original speech waveform on the basis of prosodic information including at least phonemic information at a desired pitch period interval, based on the prosodic information A target waveform is selected from the target waveform storage unit, and an error evaluation function defined between the pitch waveform extracted from the original speech waveform in the original speech waveform storage unit by applying a window function and the selected target waveform is used. There is provided a speech synthesis method characterized in that a pitch waveform is selected based on this and a synthesized speech is generated by superimposing the pitch waveform at a desired pitch period interval.
[0015]
Further, in the present invention, a target waveform storage unit that stores a target waveform, an original speech waveform storage unit that stores an original speech waveform, and a target waveform selection that selects a target waveform from a target waveform storage unit based on at least prosodic information And the pitch waveform from the original speech waveform based on an error evaluation function defined between the selected target waveform and the pitch waveform to be extracted from the original speech waveform stored in the original speech waveform storage unit And a speech synthesizer characterized in that the synthesized speech is generated by superimposing the extracted pitch waveform at a desired pitch period interval.
[0016]
Further, in the present invention, in a computer-readable speech synthesis program for performing a process of generating speech by superimposing a pitch waveform extracted from an original speech waveform based on prosodic information including at least phonemic information at a desired pitch period interval Selecting a target waveform from the target waveform storage based on the prosodic information and storing an original speech waveform based on an error evaluation function defined between the selected target waveform and the pitch waveform to be extracted Extracting the pitch waveform from the original speech waveform of the unit, and generating a synthesized speech by superimposing the pitch waveform at a desired pitch period interval. Provide a program.
[0017]
DETAILED DESCRIPTION OF THE INVENTION
(First embodiment)
FIG. 1 shows the configuration of a speech synthesis system according to the first embodiment of the present invention. The main part of the speech synthesis system includes a target
[0018]
The operation of the speech synthesis system of this embodiment will be described with reference to the flowchart shown in FIG.
[0019]
First, when a text sentence is input to the sentence analysis / prosodic information generation (processing unit) shown in FIG. 1, sentence analysis of the text sentence used for text synthesis is performed, and a phoneme symbol string, a phoneme duration, a pitch Prosody information such as pattern and power is generated and input to the target
[0020]
The target
[0021]
The pitch waveform extraction unit 11 selects the
[0022]
Then, a first error evaluation function defined between the selected target waveform and the pitch waveform, and a second defined between the selected original speech waveform and the synthesized speech waveform obtained from the pitch waveform. A pitch waveform is extracted from the original speech waveform based on the error evaluation function (step S4).
[0023]
Finally, the extracted
[0024]
Next, a pitch waveform that minimizes the total error determined by the weighted sum of the first error evaluation function and the second error evaluation function for the pitch waveform extraction unit 11 that is a characteristic part of the present embodiment. The case where it is obtained analytically will be described in detail.
[0025]
When the first error evaluation function defined between the target waveform and the pitch waveform is D 1 and the second error evaluation function defined between the original speech waveform and the synthesized speech waveform is D 2 , error evaluation function D 1 and the second error evaluation function D 2 of is given by the following equation.
[0026]
[Expression 1]
[0027]
X is a pitch waveform, u is a target waveform, r is an original speech waveform, A is a matrix representing an operation for superimposing the pitch waveform in accordance with the pitch of the original speech waveform, and e 1 is an error vector between the target waveform and the pitch waveform. (First error vector), e 2 is an error vector (second error vector) between the original speech waveform and the synthesized speech waveform, g 1 is an optimum gain for the first error evaluation function, and g 2 is a second error. This is the optimum gain for the evaluation function.
[0028]
Therefore, if the weighting coefficient for the first error evaluation function D 1 is w 1 and the weighting coefficient for the second error evaluation function D 2 is w 2 , the total error D is
[Expression 2]
[0030]
It becomes.
[0031]
Here, the pitch waveform x that minimizes the total error E, the optimum gain g 1 for the first error evaluation function, and the optimum gain g 2 for the second error evaluation function are obtained. When the total error D is partially differentiated with respect to the respective variables of the pitch waveform x, the optimum gain g 1 for the first error evaluation function, and the optimum gain g 2 for the second error evaluation function,
[Equation 3]
[0033]
It becomes. Therefore,
[0034]
[Expression 4]
[0035]
Than,
[0036]
[Equation 5]
[0037]
It becomes. G 1 , g 2 and x can be obtained by repeatedly calculating the above equation.
[0038]
It is also possible to extract a pitch waveform by performing auditory weighting on each of the first error vector and the second error vector. In this case, if the perceptually weighted first error evaluation function is Dw1 , and the perceptually weighted second error evaluation function is Dw2 , the perceptual weighting total error Dw is given by the following equation.
[0039]
[Formula 6]
[0040]
Note that W 1 is a matrix representing an operation of auditory weighting for the first error vector, and W 2 is a matrix representing an operation of auditory weighting for the second error vector.
[0041]
Accordingly, when the pitch waveform x, the optimum gain g 1 for the first error evaluation function, and the optimum gain g 2 for the second error evaluation function are obtained in the same manner as in the case where the auditory weighting described above is not performed,
[0042]
[Expression 7]
[0043]
It becomes.
[0044]
In the above example, the target
[0045]
Further, the embodiment has been described on the assumption that the speech waveform data collected in units of sentences is stored in the original speech
[0046]
In the above example, an example in which the system is configured to store the time waveform of the voice as the target waveform in the target
[0047]
2, compared with FIG. 1, the target
[0048]
Here, in the target spectrum storage unit 40, for example, frequency components (spectrums) corresponding to speech segments as a one-pitch waveform collected offline are stored, and the optimum spectrum corresponding to the input prosodic information is stored. A spectrum corresponding to a speech unit is selected. Further, the second error evaluation function can be defined between the original speech waveform and the pitch waveform.
[0049]
Thus, by extracting the optimum pitch waveform based on the error evaluation function defined between the target waveform and the original speech waveform and the pitch waveform, it is possible to obtain a pitch waveform having a more desirable spectral envelope, The sound quality of synthesized speech is improved. Furthermore, by preparing several target waveforms corresponding to different pitches, and extracting the pitch waveform by changing the target waveform according to the pitch of the synthesized speech, the acoustic mismatch between the pitch and the spectrum is eliminated, and the pitch is changed. As a result, the quality of the synthesized speech is not degraded, and the quality of the synthesized speech is further improved.
(Second Embodiment)
FIG. 3 shows the configuration of a speech synthesis system according to the second embodiment of the present invention. Unlike the first embodiment in which the pitch waveform is analytically extracted, the present embodiment is configured to extract the pitch waveform by cutting out the pitch waveform from the original speech waveform using a clipping window. In this embodiment, as shown in FIG. 3, the pitch waveform extraction unit 11 includes a cutout window determination unit 50, a pitch waveform cutout unit 51, and an error evaluation unit 52. The pitch waveform is extracted in advance by preparing a plurality of cutout windows in which at least one of the window function or the window length of the cutout window is changed, and among the pitch waveforms cut out using each cutout window, This is realized by selecting the one that minimizes the error determined by the error evaluation function defined between the two. The error evaluation function may be defined by the following equation.
[0050]
[Equation 8]
[0051]
Here, x is a pitch waveform, u is a target waveform, r is an original speech waveform, M is a matrix representing an operation for extracting a pitch waveform from the original speech waveform, e is an error vector between the target waveform and the pitch waveform, and g is an error evaluation. This is the optimal gain for the function.
[0052]
The pitch waveform extracted by this embodiment is generally less accurate than the pitch waveform extracted by an analytical method, and thus is sub-optimal. However, a plurality of cutout windows prepared in advance are used. Since the pitch waveform is extracted by cutting out the pitch waveform from the original speech waveform, there is an advantage that the calculation amount is small.
[0053]
In addition to the error defined between the target waveform and the pitch waveform, it is also possible to cut out the pitch waveform in consideration of the error defined between the original speech waveform and the synthesized speech waveform. In this case, an error evaluation function defined by the following equation can be considered.
[0054]
[Equation 9]
[0055]
Here, x is a pitch waveform, u is a target waveform, r is an original speech waveform, M is a matrix representing an operation for cutting out a pitch waveform from the original speech waveform, and A is an operation for superimposing the pitch waveform in accordance with the pitch of the original speech waveform. , W 1 is an error defined between the target waveform and the pitch waveform, w 2 is an error defined between the original speech waveform and the synthesized speech waveform, g 1 is an optimum gain for the target waveform, g 2 is the optimum gain for the original speech waveform.
[0056]
In the present embodiment, the error evaluation function is defined in the waveform region, but can also be defined in the spectral region.
[0057]
Although several embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments, and various modifications can be made. For example, the error evaluation function need not be limited to the above-described function, and may be defined so as to include at least one of the target waveform or the target spectrum.
[0058]
Obtaining a pitch waveform with a more desirable spectral envelope by extracting the pitch waveform from the original speech waveform based on an error evaluation function defined between the pitch waveform extracted from the original speech waveform and a target waveform prepared in advance And the quality of the synthesized speech is improved.
[0059]
The above-described speech synthesis processing according to the present invention can be realized by hardware, but can also be realized by software processing using a computer. Therefore, according to the present invention, it is possible to provide a program for causing a computer to perform the above-described speech synthesis processing.
[0060]
【The invention's effect】
As described above, according to the present invention, a high-quality synthesized speech can be obtained by extracting a pitch waveform based on an error evaluation function defined between a target waveform and a pitch waveform.
[Brief description of the drawings]
FIG. 1 is a block diagram showing the configuration of a speech synthesis system for explaining a first embodiment of a speech synthesis method according to the present invention. FIG. 2 explains a second embodiment of the speech synthesis method according to the present invention. FIG. 3 is a block diagram showing the configuration of a speech synthesis system for explaining a third embodiment of the speech synthesis method according to the present invention. FIG. 5 is a block diagram showing a configuration of a speech synthesis system for explaining a synthesis method. FIG. 5 is a diagram for explaining generation of a synthesized speech waveform of the PSOLA system. FIG. 6 is a diagram for explaining generation of a synthesized speech waveform of the PSOLA system. FIG. 7 is a flowchart of a speech synthesis system for explaining the first embodiment of the speech synthesis method according to the present invention.
DESCRIPTION OF
Claims (11)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003188873A JP2005024794A (en) | 2003-06-30 | 2003-06-30 | Method, device, and program for speech synthesis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003188873A JP2005024794A (en) | 2003-06-30 | 2003-06-30 | Method, device, and program for speech synthesis |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005024794A true JP2005024794A (en) | 2005-01-27 |
Family
ID=34187270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003188873A Pending JP2005024794A (en) | 2003-06-30 | 2003-06-30 | Method, device, and program for speech synthesis |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005024794A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010210334A (en) * | 2009-03-09 | 2010-09-24 | Railway Technical Res Inst | Method for determining scour around bridge pier and system for evaluating soundness of bridge pier base |
JP2019168620A (en) * | 2018-03-26 | 2019-10-03 | カシオ計算機株式会社 | Synthetic sound generating device, method, and program |
CN112102810A (en) * | 2020-09-22 | 2020-12-18 | 深圳追一科技有限公司 | Voice synthesis method, system and related equipment |
US20220172703A1 (en) * | 2019-08-20 | 2022-06-02 | Ai, Inc. | Acoustic model learning apparatus, method and program and speech synthesis apparatus, method and program |
-
2003
- 2003-06-30 JP JP2003188873A patent/JP2005024794A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010210334A (en) * | 2009-03-09 | 2010-09-24 | Railway Technical Res Inst | Method for determining scour around bridge pier and system for evaluating soundness of bridge pier base |
JP2019168620A (en) * | 2018-03-26 | 2019-10-03 | カシオ計算機株式会社 | Synthetic sound generating device, method, and program |
JP7183556B2 (en) | 2018-03-26 | 2022-12-06 | カシオ計算機株式会社 | Synthetic sound generator, method, and program |
US20220172703A1 (en) * | 2019-08-20 | 2022-06-02 | Ai, Inc. | Acoustic model learning apparatus, method and program and speech synthesis apparatus, method and program |
CN112102810A (en) * | 2020-09-22 | 2020-12-18 | 深圳追一科技有限公司 | Voice synthesis method, system and related equipment |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3294604B2 (en) | Processor for speech synthesis by adding and superimposing waveforms | |
JP5085700B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
US8280738B2 (en) | Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method | |
JP4469883B2 (en) | Speech synthesis method and apparatus | |
JP5159325B2 (en) | Voice processing apparatus and program thereof | |
JP6791258B2 (en) | Speech synthesis method, speech synthesizer and program | |
Bonada et al. | Expressive singing synthesis based on unit selection for the singing synthesis challenge 2016 | |
JPH031200A (en) | Regulation type voice synthesizing device | |
JP3450237B2 (en) | Speech synthesis apparatus and method | |
JP2005024794A (en) | Method, device, and program for speech synthesis | |
JP5874639B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP4451665B2 (en) | How to synthesize speech | |
JP3756864B2 (en) | Speech synthesis method and apparatus and speech synthesis program | |
JP4963345B2 (en) | Speech synthesis method and speech synthesis program | |
JP3727885B2 (en) | Speech segment generation method, apparatus and program, and speech synthesis method and apparatus | |
JP5275470B2 (en) | Speech synthesis apparatus and program | |
JP2001034284A5 (en) | Speech synthesis method and equipment | |
JP2001034284A (en) | Voice synthesizing method and voice synthesizer and recording medium recorded with text voice converting program | |
JP5106274B2 (en) | Audio processing apparatus, audio processing method, and program | |
JP4332323B2 (en) | Speech synthesis method and apparatus and dictionary generation method and apparatus | |
JPH09179576A (en) | Voice synthesizing method | |
KR102480360B1 (en) | Apparatus, method and computer program for generating synthesized sound source using learning through image | |
JP3967571B2 (en) | Sound source waveform generation device, speech synthesizer, sound source waveform generation method and program | |
JP2001100777A (en) | Method and device for voice synthesis | |
JP5677137B2 (en) | Prosody conversion device and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050415 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050606 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060721 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070202 |