JP2005024794A - Method, device, and program for speech synthesis - Google Patents

Method, device, and program for speech synthesis Download PDF

Info

Publication number
JP2005024794A
JP2005024794A JP2003188873A JP2003188873A JP2005024794A JP 2005024794 A JP2005024794 A JP 2005024794A JP 2003188873 A JP2003188873 A JP 2003188873A JP 2003188873 A JP2003188873 A JP 2003188873A JP 2005024794 A JP2005024794 A JP 2005024794A
Authority
JP
Japan
Prior art keywords
waveform
speech
pitch
target
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003188873A
Other languages
Japanese (ja)
Inventor
Katsumi Tsuchiya
勝美 土谷
Takehiko Kagoshima
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003188873A priority Critical patent/JP2005024794A/en
Publication of JP2005024794A publication Critical patent/JP2005024794A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To solve the problem that a synthesized speech becomes worse according as the pitch is varied, in a method and a device for speech synthesis used for text synthesis and a computer-readable text synthesis program. <P>SOLUTION: The speech synthesizer is equipped with a target waveform storage part 20 which stores a target waveform, a source speech waveform storage part 21 which stores a source speech waveform, a target waveform selection part 10 which selects the target waveform from the target waveform storage part according to at least rhythm information, and a pitch waveform extraction part 11 which extracts a pitch waveform from the source speech waveform according to an error evaluation function defined between the selected target waveform and the pitch waveform which should be extracted from the source speech waveform stored in the source speech waveform storage part, and superposes the extracted pitch waveform at a desired pitch period interval to generate a synthesized speech. Consequently, a synthesized speech of high quality can be obtained by extracting the pitch waveform according to the error evaluating function defined between the target waveform and pitch waveform. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、例えばテキスト合成に用いられる音声合成方法と装置およびコンピュータ読み取り可能なテキスト合成プログラムに関する。
【0002】
【従来の技術】
音声合成方式の一つである規則合成方式は、入力された韻律情報から自動的に合成音声に変換する技術であり、任意の文章(テキスト)から人工的に音声を作り出すテキスト合成などに使用されている。
【0003】
図4に示すように、規則合成方式では、音韻記号列、音韻継続時間長、ピッチパターンおよびパワーなどの韻律情報100に従って音声素片記憶部あるいは原音声波形記憶部21に記憶されている音節あるいは音素などの小さな単位(音声素片)を選択し、選択された音声素片に対してピッチおよび時間長を変更して接続することで合成音声信号105を生成する。
【0004】
ピッチの変更方法としてはPSOLAと呼ばれる方法が良く知られており、PSOLAでは音声素片に対してピッチ周期毎に窓掛けを行ってピッチ波形を切り出した後、合成すべきピッチ周期間隔で並べ直し重ね合わせてピッチの変更を行い、合成音声信号を生成する。(図5および図6)
【0005】
【特許文献1】
特許第329604号公報
【0006】
【発明が解決しようとする課題】
ここで、そのため、PSOLAではピッチ波形の抽出方法が合成音声の音質を向上するポイントとなる。特許第329604号では、合成音声のピッチが原音声のピッチよりも低くなる場合は、原音声のピッチ周期の2倍に等しい窓長をもつハニング窓でピッチ波形を切り出し、合成音声のピッチが原音声のピッチよりも高くなる場合は、合成音声のピッチ周期の2倍に等しい窓長をもつハニング窓でピッチ波形を切り出すことでピッチの変更に伴う合成音声の音質の劣化を抑えている。
【0007】
しかし、ピッチの変更が小さい場合は合成音声の音質の劣化は少ないが、ピッチを大きく変更した場合はピッチとスペクトルの音響的なミスマッチが原因で合成音声の音質は著しく劣化してしまうという問題がある。
【0008】
【課題を解決するための手段】
上記問題を解決するため、本発明においては、少なくとも音韻情報を含む韻律情報に基づいて原音声波形から抽出されるピッチ波形を所望のピッチ周期間隔で重畳して音声を生成する音声合成方法において、前記韻律情報に基づいて目標波形記億部から目標波形を選択し、選択された目標波形と抽出すべきピッチ波形との間で定義される誤差評価関数に基づいて、原音声波形記憶部の前記原音声波形から前記ピッチ波形を抽出し、該ピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成することを特徴とする。
【0009】
また本発明においては、少なくとも音韻情報を含む韻律情報に基づいて原音声波形から抽出されるピッチ波形を所望のピッチ周期間隔で重畳して音声を生成する音声合成方法において、前記韻律情報に基づいて目標波形記億部から目標波形を選択し、選択された目標波形と抽出すべきピッチ波形との間で定義される第1の誤差評価関数と、前記抽出すべきピッチ波形を重畳して得られる合成音声波形と前記原音声波形との間で定義される第2の誤差評価関数とに基づいて、原音声波形記憶部の原音声波形から前記ピッチ波形を抽出し、該ピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成することを特徴とする。
【0010】
また本発明においては、少なくとも音韻情報を含む韻律情報に基づいて原音声波形から抽出されるピッチ波形を所望のピッチ周期間隔で重畳して音声を生成する音声合成方法において、前記韻律情報に基づいて目標波形記億部から目標波形として複数ピッチの時間幅を有する音声波形データを選択し、当該音声波形データと抽出すべきピッチ波形に基づく音声波形との間で定義される第1の誤差評価関数と、前記抽出すべきピッチ波形を重畳して得られる合成音声波形と前記原音声波形との間で定義される第2の誤差評価関数とに基づいて、原音声波形記憶部の原音声波形から前記ピッチ波形を抽出し、該ピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成することを特徴とする。
【0011】
また本発明においては、少なくとも音韻情報を含む韻律情報に基づいて原音声波形から抽出されるピッチ波形を所望のピッチ周期間隔で重畳して音声を生成する音声合成方法において、前記韻律情報に基づいて目標スペクトル記憶部から目標スペクトルを選択し、選択された目標スペクトルと抽出すべきピッチ波形のスペクトルとの間で定義される誤差評価関数に基づいて、前記原音波形記憶部の前記原音声波形から前記ピッチ波形を抽出し、該ピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成することを特徴とする。
【0012】
また本発明においては、少なくとも音韻情報を含む韻律情報に基づいて原音声波形から抽出されるピッチ波形を所望のピッチ周期間隔で重畳して音声を生成する音声合成方法において、前記韻律情報に基づいて目標スペクトル記憶部から目標スペクトルを選択し、選択された目標スペクトルと抽出すべきピッチ波形のスペクトルとの間で定義される第1の誤差評価関数と、前記抽出すべきピッチ波形を重畳して得られる合成音声波形と前記原音声波形との間で定義される第2の誤差評価関数とに基づいて、原音声波形記憶部の原音声波形から前記ピッチ波形を抽出し、該ピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成することを特徴とする。
【0013】
また本発明においては、少なくとも音韻情報を含む韻律情報に基づいて原音声波形から抽出されるピッチ波形を所望のピッチ周期間隔で重畳して音声を生成する音声合成方法において、前記韻律情報に基づいて目標スペクトル記憶部から目標スペクトルとして所定の周波数成分を含むスペクトルデータを選択し、当該スペクトルデータと抽出すべきピッチ波形に基づく音声波形のスペクトルとの間で定義される第1の誤差評価関数と、前記抽出すべきピッチ波形を重畳して得られる合成音声波形と前記原音声波形との間で定義される第2の誤差評価関数とに基づいて、原音声波形記憶部の原音声波形から前記ピッチ波形を抽出し、該ピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成することを特徴とする。
【0014】
また本発明においては、少なくとも音韻情報を含む韻律情報に基づいて原音声波形から抽出されるピッチ波形を所望のピッチ周期間隔で重畳して音声を生成する音声合成方法において、前記韻律情報に基づいて目標波形記億部から目標波形を選択し、原音声波形記憶部の原音声波形から窓関数をかけて抽出されたピッチ波形と前記選択された目標波形との間で定義される誤差評価関数に基づいてピッチ波形を選択し、、該ピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成することを特徴とする音声合成方法を提供する。
【0015】
また本発明においては、目標波形を記憶した目標波形記憶部と、原音声波形を記憶した原音声波形記憶部と、少なくとも韻律情報に基づいて目標波形記億部から目標波形を選択する目標波形選択部と、選択された目標波形と前記原音声波形記憶部に記憶された原音声波形から抽出すべきピッチ波形との間で定義される誤差評価関数に基づいて、前記原音声波形から前記ピッチ波形を抽出するピッチ波形抽出部と、該抽出されたピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成することを特徴とする音声合成装置を提供する。
【0016】
また本発明においては、少なくとも音韻情報を含む韻律情報に基づいて原音声波形から抽出されるピッチ波形を所望のピッチ周期間隔で重畳して音声を生成する処理を行なうコンピュータ読み取り可能な音声合成プログラムにおいて、前記韻律情報に基づいて目標波形記億部から目標波形を選択するステップと、選択された目標波形と抽出すべきピッチ波形との間で定義される誤差評価関数に基づいて、原音声波形記憶部の前記原音声波形から前記ピッチ波形を抽出するステップと、該ピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成するステップとを備えたことを特徴とするコンピュータ読み取り可能な音声合成プログラムを提供する。
【0017】
【発明の実施の形態】
(第1の実施形態)
図1に本発明の第1の実施形態に係る音声合成システムの構成を示す。この音声合成システムの主要部分は、目標波形記憶部20と、目標波形選択部10と、原音声波形記憶部21と、ピッチ波形抽出部11と、ピッチ波形重畳部12とから構成されている。
【0018】
本実施形態の音声合成システムの動作をテキスト合成の場合を例にとって、図7に示すフローチャートを用いて説明する。
【0019】
まず、図1に示す文解析・韻律情報生成(処理部)にテキスト文章が入力されると、テキスト合成に供されるテキスト文章の文解析が行われて音韻記号列、音韻継続時間長、ピッチパターンおよびパワ−などの韻律情報が生成され、目標波形選択部10およびピッチ波形抽出部11に入力される(ステップS1)。
【0020】
目標波形選択部10では、音韻記号列、音韻継続時間長、ピッチパターンおよびパワ−などの韻律情報100に基づいて目標波形記憶部20から目標波形102が選択される(ステップS2)。目標波形記憶部20には、例えば、オフラインで収集された1ピッチ波形としての音声素片が記憶されており、入力された韻律情報に対応した最適な音声素片が選択される。
【0021】
ピッチ波形抽出部11では、音韻記号列、音韻継続時間長、ピッチパターンおよびパワ−などの韻律情報100に基づいて原音声波形記憶部21から原音声波形103が選択される(ステップS3)。原音声波形記憶部21には、例えば、文章単位に収集された音声波形データが記憶されており、入力された韻律情報に対応した(一部の)音声波形データが選択される。
【0022】
そして、選択された目標波形とピッチ波形との間で定義される第1の誤差評価関数、および選択された原音声波形と上記ピッチ波形から得られる合成音声波形との間で定義される第2の誤差評価関数に基づいて、原音声波形からピッチ波形が抽出される(ステップS4)。
【0023】
最後に、抽出されたピッチ波形104が韻律情報100により決定されるピッチ周期間隔で重畳されて所定の時間長連続する合成音声105が生成される(ステップS5)。
【0024】
次に、本実施形態の特徴的な部分であるピッチ波形抽出部11について、第1の誤差評価関数と第2の誤差評価関数の重み付き和で決定される総誤差を最小にするピッチ波形を解析的に求める場合を例にとって詳細に述べる。
【0025】
目標波形とピッチ波形との間で定義される第1の誤差評価関数をD、原音声波形と合成音声波形との間で定義される第2の誤差評価関数をDとすると、第1の誤差評価関数D及び第2の誤差評価関数Dは次式で与えられる。
【0026】
【数1】

Figure 2005024794
【0027】
なお、xはピッチ波形、uは目標波形、rは原音声波形、Aはピッチ波形を原音声波形のピッチに合わせて重畳する操作を表す行列、eは目標波形とピッチ波形との誤差ベクトル(第1の誤差ベクトル)、eは原音声波形と合成音声波形との誤差ベクトル(第2の誤差ベクトル)、gは第1の誤差評価関数に対する最適ゲイン、gは第2の誤差評価関数に対する最適ゲインである。
【0028】
従って、第1の誤差評価関数Dに対する重み係数をw、第2の誤差評価関数Dに対する重み係数をwとすると、総誤差Dは
【0029】
【数2】
Figure 2005024794
【0030】
となる。
【0031】
ここで、総誤差Eを最小にするピッチ波形x、第1の誤差評価関数に対する最適ゲインg、および第2の誤差評価関数に対する最適ゲインgを求める。総誤差Dをピッチ波形x、第1の誤差評価関数に対する最適ゲインg、および第2の誤差評価関数に対する最適ゲインgのそれぞれの変数で偏微分すると
【0032】
【数3】
Figure 2005024794
【0033】
となる。従って、
【0034】
【数4】
Figure 2005024794
【0035】
より、
【0036】
【数5】
Figure 2005024794
【0037】
となる。上式を繰り返し計算すればg、gおよびxは求められる。
【0038】
また、第1の誤差ベクトルおよび第2の誤差ベクトルにそれぞれ聴覚重み付けを行い、ピッチ波形を抽出することも可能である。この場合、聴覚重み付けされた第1の誤差評価関数をDw1、聴覚重み付けされた第2の誤差評価関数をDw2とすると、聴覚重み付け総誤差Dは次式で与えられる。
【0039】
【数6】
Figure 2005024794
【0040】
なお、Wは第1誤差ベクトルに対する聴覚重み付けの操作を表す行列、Wは第2誤差ベクトルに対する聴覚重み付けの操作を表す行列である。
【0041】
従って、先に述べた聴覚重み付けを行わない場合と同様にして、ピッチ波形x、第1の誤差評価関数に対する最適ゲインg、および第2の誤差評価関数に対する最適ゲインgを求めると、
【0042】
【数7】
Figure 2005024794
【0043】
となる。
【0044】
以上の例では、目標波形記憶部20には、例えば、オフラインで収集された1ピッチ波形としての音声素片が記憶されているとして実施例を説明したが、記憶されているデータはオフラインで収集された1ピッチ波形に限定されるものではない。例えば、予めの学習により得られた音声素片を記憶しておくよう構成しても良いし、1ピッチ波形ではなく複数ピッチの時間幅を有する音声波形データを目標波形として記憶しておくよう構成しても良い。その場合には、複数ピッチの時間幅を有する音声波形データと抽出すべきピッチ波形に基づく音声波形(例えばピッチ波形を重畳して得られた合成音声波形)との誤差を誤差ベクトルとして、前述した第1の誤差ベクトルに置き換えて、ピッチ波形の評価を行なう。
【0045】
また原音声波形記憶部21には、例えば、文章単位に収集された音声波形データが記憶されているとして実施例を説明したが、記憶されているデータは文章単位に収集された音声波形データに限られるものではない。例えば、収録された音声波形データを一定の時間や音韻毎に分けられた音声素片データを記憶しておくよう構成しても良いし、文章よりも小さな文法単位毎に連続した音声波形データを記憶するよう構成しても良い。
【0046】
以上の例では、目標波形として音声の時間波形を目標波形記憶部20に記憶するようシステムを構成した例を説明したが、目標波形記憶部20に記憶された目標波形(時間波形)101の代わりに、これと等価な周波数成分としての目標スペクトルを記憶し、第1の誤差評価関数を目標スペクトルとピッチ波形の周波数スペクトルとの間で定義し、誤差を評価することも可能である。このときの音声合成システムの構成は図2のようになる。
【0047】
図2は図1と比較して、目標波形記憶部20および目標波形選択部10が目標スペクトル記憶部40および目標スペクトル選択部30に置き換わり、原音声波形記憶部21とピッチ波形抽出部11の間に原音声波形から抽出されたピッチ波形を拘束フーリエ変換(FFT)処理するFFT処理部31が追加された構成となっている。なお、図2では図1と同一の要素に同一の参照番号を付してある。
【0048】
ここで、目標スペクトル記憶部40には、例えば、オフラインで収集された1ピッチ波形としての音声素片に相当する周波数成分(スペクトル)が記憶されており、入力された韻律情報に対応した最適な音声素片相当のスペクトルが選択される。さらに、第2の誤差評価関数を原音声波形とピッチ波形との間で定義することも可能である。
【0049】
このように、目標波形と原音声波形およびピッチ波形との間で定義される誤差評価関数に基づいて最適なピッチ波形を抽出することで、より望ましいスペクトル包絡をもつピッチ波形を得ることができ、合成音声の音質は向上する。さらに、異なるピッチに対応する目標波形を幾つか用意し、合成音声のピッチに応じて目標波形を変えてピッチ波形を抽出することで、ピッチとスペクトルの音響的なミスマッチが解消され、ピッチの変更に伴う合成音声の音質の劣化は無くなり、合成音声の音質はさらに向上する。
(第2の実施形態)
図3に本発明の第2の実施形態に係る音声合成システムの構成を示す。本実施形態は解析的にピッチ波形を抽出する第1の実施形態と異なり、切り出し窓(ウィンドウ)を用いて原音声波形からピッチ波形を切り出すことによりピッチ波形を抽出する構成となっている。なお、本実施形態では、図3に示されるようにピッチ波形抽出部11は、切り出し窓決定部50、ピッチ波形切り出し部51および誤差評価部52から構成されている。ピッチ波形の抽出は、予め、切り出し窓の窓関数あるいは窓長の少なくとも一方を変えた複数の切り出し窓を用意しておき、それぞれの切り出し窓を用いて切り出されたピッチ波形のうち、目標波形との間で定義される誤差評価関数により決定される誤差が最小となるものを選択することで実現される。なお、誤差評価関数は次式で定義されるようなものが考えられる。
【0050】
【数8】
Figure 2005024794
【0051】
ここで、xはピッチ波形、uは目標波形、rは原音声波形、Mは原音声波形からピッチ波形を切り出す操作を表す行列、eは目標波形とピッチ波形との誤差ベクトル、gは誤差評価関数に対する最適ゲインである。
【0052】
本実施形態によって抽出されるピッチ波形は、解析的方法で抽出されたピッチ波形と比べると一般に精度が高くはないため、準最適なものになっているが、予め用意した複数の切り出し窓を用いて原音声波形からピッチ波形を切り出すことでピッチ波形を抽出しているので計算量が少ないという利点がある。
【0053】
また、目標波形とピッチ波形との間で定義される誤差だけでなく、原音声波形と合成音声波形との間で定義される誤差を考慮してピッチ波形を切り出すことも可能である。この場合、誤差評価関数としては次式で定義されるようなものが考えられる。
【0054】
【数9】
Figure 2005024794
【0055】
ここで、xはピッチ波形、uは目標波形、rは原音声波形、Mは原音声波形からピッチ波形を切り出す操作を表す行列、Aはピッチ波形を原音声波形のピッチに合わせて重畳する操作を表す行列、wは目標波形とピッチ波形との間で定義される誤差、wは原音声波形と合成音声波形との間で定義される誤差、gは目標波形に対する最適ゲイン、gは原音声波形に対する最適ゲインである。
【0056】
なお、本実施形態では誤差評価関数は波形領域で定義してあるが、スペクトル領域で定義することも可能である。
【0057】
以上、本発明の実施形態を幾つか説明したが、本発明は上述した実施形態に限られるものではなく、種々変更して実施が可能である。例えば、誤差評価関数に関しても、上述した関数に限定される必要はなく、少なくとも目標波形あるいは目標スペクトルの一方を含む形で定義されていれば良い。
【0058】
原音声波形から抽出したピッチ波形と予め用意した目標波形との間で定義される誤差評価関数に基づいて原音声波形からピッチ波形を抽出することで、より望ましいスペクトル包絡をもつピッチ波形を得ることが可能になり、合成音声の音質は向上する。
【0059】
上述した本発明に基づく音声合成処理は、ハードウェアより実現することも可能であるが、コンピュータを用いてソフトウェア処理により実現することも可能である。従って、本発明によれば上述した音声合成処理をコンピュータに行わせるためのプログラムを提供することもできる。
【0060】
【発明の効果】
以上説明したように、本発明によれば目標波形とピッチ波形との間で定義される誤差評価関数に基づいてピッチ波形を抽出することにより、高品質な合成音声を得ることができる。
【図面の簡単な説明】
【図1】本発明に係る音声合成方法の第1の実施形態を説明するための音声合成システムの構成を示すブロック図
【図2】本発明に係る音声合成方法の第2の実施形態を説明するための音声合成システムの構成を示すブロック図
【図3】本発明に係る音声合成方法の第3の実施形態を説明するための音声合成システムの構成を示すブロック図
【図4】従来の音声合成方法を説明するための音声合成システムの構成を示すブロック図
【図5】PSOLA方式の合成音声波形の生成を説明するための図
【図6】PSOLA方式の合成音声波形の生成を説明するための図
【図7】本発明に係る音声合成方法の第1の実施形態を説明する音声合成システムのフローチャート
【符号の説明】
10 … 目標波形選択部
11 … ピッチ波形抽出部
12 … ピッチ波形重畳部
20 … 目標波形記憶部
21 … 原音声波形記憶部
30 … 目標スペクトル選択部
31 … FFT処理部
40 … 目標スペクトル記憶部
50 … 切り出し窓決定部
51 … ピッチ波形切り出し部
52 … 誤差評価部
100 … 韻律情報
101 … 候補目標波形
102 … 目標波形
103 … 原音声波形
104 … ピッチ波形
105 … 合成音声
201 … 候補目標スペクトル
202 … 目標スペクトル
203 … 原音声スペクトル
300 … 切り出し窓
301 … 候補ピッチ波形
302 … ピッチ波形
400 … 原音声波形
401 … ピッチ周期を小さくするときの窓関数
402 … ピッチ周期を小さくしたときの合成音声
403 … ピッチ周期を大きくするときの窓関数
404 … ピッチ周期を大きくしたときの窓関数[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech synthesis method and apparatus used for text synthesis, for example, and a computer-readable text synthesis program.
[0002]
[Prior art]
The rule synthesis method, which is one of the speech synthesis methods, is a technology that automatically converts input prosodic information into synthesized speech, and is used for text synthesis that artificially creates speech from arbitrary sentences (text). ing.
[0003]
As shown in FIG. 4, in the rule synthesis method, the syllables stored in the speech unit storage unit or the original speech waveform storage unit 21 according to the prosodic information 100 such as the phoneme symbol string, the phoneme duration, the pitch pattern, and the power. A small unit (speech unit) such as a phoneme is selected, and the synthesized speech signal 105 is generated by connecting the selected speech unit with a different pitch and time length.
[0004]
As a method for changing the pitch, a method called PSOLA is well known. In PSOLA, a speech waveform is windowed for each pitch period to cut out a pitch waveform, and then rearranged at pitch period intervals to be synthesized. The pitch is changed by superposition, and a synthesized speech signal is generated. (FIGS. 5 and 6)
[0005]
[Patent Document 1]
Japanese Patent No. 329604 [0006]
[Problems to be solved by the invention]
Here, therefore, in PSOLA, the pitch waveform extraction method is a point that improves the quality of synthesized speech. In Japanese Patent No. 329604, when the pitch of the synthesized speech is lower than the pitch of the original speech, the pitch waveform is cut out with a Hanning window having a window length equal to twice the pitch period of the original speech, and the pitch of the synthesized speech is When the pitch is higher than the pitch of the voice, the pitch waveform is cut out with a Hanning window having a window length equal to twice the pitch period of the synthesized voice, thereby suppressing deterioration of the quality of the synthesized voice accompanying the pitch change.
[0007]
However, when the pitch change is small, there is little degradation in the quality of the synthesized speech, but when the pitch is changed greatly, there is a problem that the quality of the synthesized speech is significantly degraded due to an acoustic mismatch between the pitch and the spectrum. is there.
[0008]
[Means for Solving the Problems]
In order to solve the above problem, in the present invention, in a speech synthesis method for generating speech by superimposing a pitch waveform extracted from an original speech waveform based on prosodic information including at least phonemic information at a desired pitch period interval, A target waveform is selected from the target waveform storage unit based on the prosodic information, and based on an error evaluation function defined between the selected target waveform and the pitch waveform to be extracted, the original speech waveform storage unit The pitch waveform is extracted from the original speech waveform, and the synthesized speech is generated by superimposing the pitch waveform at a desired pitch period interval.
[0009]
Also, in the present invention, in a speech synthesis method for generating speech by superimposing a pitch waveform extracted from an original speech waveform on the basis of prosodic information including at least phonemic information at a desired pitch period interval, based on the prosodic information It is obtained by selecting a target waveform from the target waveform storage and superposing the first error evaluation function defined between the selected target waveform and the pitch waveform to be extracted and the pitch waveform to be extracted. Based on a synthesized error waveform and a second error evaluation function defined between the original sound waveform, the pitch waveform is extracted from the original sound waveform in the original sound waveform storage unit, and the pitch waveform is converted to a desired pitch. It is characterized in that synthesized speech is generated by superimposing at periodic intervals.
[0010]
Also, in the present invention, in a speech synthesis method for generating speech by superimposing a pitch waveform extracted from an original speech waveform on the basis of prosodic information including at least phonemic information at a desired pitch period interval, based on the prosodic information A first error evaluation function defined between speech waveform data and a speech waveform based on the pitch waveform to be extracted is selected from speech waveform data having a plurality of pitch time widths as a target waveform from the target waveform storage And a second error evaluation function defined between the synthesized speech waveform obtained by superimposing the pitch waveform to be extracted and the original speech waveform, from the original speech waveform in the original speech waveform storage unit The pitch waveform is extracted, and the synthesized speech is generated by superimposing the pitch waveform at a desired pitch period interval.
[0011]
Also, in the present invention, in a speech synthesis method for generating speech by superimposing a pitch waveform extracted from an original speech waveform on the basis of prosodic information including at least phonemic information at a desired pitch period interval, based on the prosodic information Select a target spectrum from the target spectrum storage unit, and based on the error evaluation function defined between the selected target spectrum and the spectrum of the pitch waveform to be extracted, from the original speech waveform of the original sound waveform storage unit A pitch waveform is extracted, and the synthesized speech is generated by superimposing the pitch waveform at a desired pitch period interval.
[0012]
Also, in the present invention, in a speech synthesis method for generating speech by superimposing a pitch waveform extracted from an original speech waveform on the basis of prosodic information including at least phonemic information at a desired pitch period interval, based on the prosodic information A target spectrum is selected from the target spectrum storage unit, and the first error evaluation function defined between the selected target spectrum and the spectrum of the pitch waveform to be extracted is superimposed on the pitch waveform to be extracted. The pitch waveform is extracted from the original speech waveform in the original speech waveform storage unit based on the synthesized error waveform and the second error evaluation function defined between the original speech waveform and the pitch waveform is It is characterized in that synthesized speech is generated by superimposing at pitch period intervals.
[0013]
Also, in the present invention, in a speech synthesis method for generating speech by superimposing a pitch waveform extracted from an original speech waveform on the basis of prosodic information including at least phonemic information at a desired pitch period interval, based on the prosodic information Selecting a spectrum data including a predetermined frequency component as a target spectrum from the target spectrum storage unit, a first error evaluation function defined between the spectrum data and a spectrum of a speech waveform based on a pitch waveform to be extracted; Based on the second error evaluation function defined between the synthesized speech waveform obtained by superimposing the pitch waveform to be extracted and the original speech waveform, the pitch is calculated from the original speech waveform in the original speech waveform storage unit. A waveform is extracted, and the synthesized speech is generated by superimposing the pitch waveform at a desired pitch period interval.
[0014]
Also, in the present invention, in a speech synthesis method for generating speech by superimposing a pitch waveform extracted from an original speech waveform on the basis of prosodic information including at least phonemic information at a desired pitch period interval, based on the prosodic information A target waveform is selected from the target waveform storage unit, and an error evaluation function defined between the pitch waveform extracted from the original speech waveform in the original speech waveform storage unit by applying a window function and the selected target waveform is used. There is provided a speech synthesis method characterized in that a pitch waveform is selected based on this and a synthesized speech is generated by superimposing the pitch waveform at a desired pitch period interval.
[0015]
Further, in the present invention, a target waveform storage unit that stores a target waveform, an original speech waveform storage unit that stores an original speech waveform, and a target waveform selection that selects a target waveform from a target waveform storage unit based on at least prosodic information And the pitch waveform from the original speech waveform based on an error evaluation function defined between the selected target waveform and the pitch waveform to be extracted from the original speech waveform stored in the original speech waveform storage unit And a speech synthesizer characterized in that the synthesized speech is generated by superimposing the extracted pitch waveform at a desired pitch period interval.
[0016]
Further, in the present invention, in a computer-readable speech synthesis program for performing a process of generating speech by superimposing a pitch waveform extracted from an original speech waveform based on prosodic information including at least phonemic information at a desired pitch period interval Selecting a target waveform from the target waveform storage based on the prosodic information and storing an original speech waveform based on an error evaluation function defined between the selected target waveform and the pitch waveform to be extracted Extracting the pitch waveform from the original speech waveform of the unit, and generating a synthesized speech by superimposing the pitch waveform at a desired pitch period interval. Provide a program.
[0017]
DETAILED DESCRIPTION OF THE INVENTION
(First embodiment)
FIG. 1 shows the configuration of a speech synthesis system according to the first embodiment of the present invention. The main part of the speech synthesis system includes a target waveform storage unit 20, a target waveform selection unit 10, an original speech waveform storage unit 21, a pitch waveform extraction unit 11, and a pitch waveform superposition unit 12.
[0018]
The operation of the speech synthesis system of this embodiment will be described with reference to the flowchart shown in FIG.
[0019]
First, when a text sentence is input to the sentence analysis / prosodic information generation (processing unit) shown in FIG. 1, sentence analysis of the text sentence used for text synthesis is performed, and a phoneme symbol string, a phoneme duration, a pitch Prosody information such as pattern and power is generated and input to the target waveform selection unit 10 and the pitch waveform extraction unit 11 (step S1).
[0020]
The target waveform selection unit 10 selects a target waveform 102 from the target waveform storage unit 20 based on prosodic information 100 such as a phoneme symbol string, a phoneme duration, a pitch pattern, and power (step S2). The target waveform storage unit 20 stores, for example, speech units as a one-pitch waveform collected offline, and an optimal speech unit corresponding to the input prosodic information is selected.
[0021]
The pitch waveform extraction unit 11 selects the original speech waveform 103 from the original speech waveform storage unit 21 based on the prosodic information 100 such as a phoneme symbol string, a phoneme duration, a pitch pattern, and power (step S3). The original speech waveform storage unit 21 stores, for example, speech waveform data collected for each sentence, and (part) speech waveform data corresponding to the input prosodic information is selected.
[0022]
Then, a first error evaluation function defined between the selected target waveform and the pitch waveform, and a second defined between the selected original speech waveform and the synthesized speech waveform obtained from the pitch waveform. A pitch waveform is extracted from the original speech waveform based on the error evaluation function (step S4).
[0023]
Finally, the extracted pitch waveform 104 is superimposed at a pitch cycle interval determined by the prosodic information 100, and a synthesized speech 105 that is continuous for a predetermined time length is generated (step S5).
[0024]
Next, a pitch waveform that minimizes the total error determined by the weighted sum of the first error evaluation function and the second error evaluation function for the pitch waveform extraction unit 11 that is a characteristic part of the present embodiment. The case where it is obtained analytically will be described in detail.
[0025]
When the first error evaluation function defined between the target waveform and the pitch waveform is D 1 and the second error evaluation function defined between the original speech waveform and the synthesized speech waveform is D 2 , error evaluation function D 1 and the second error evaluation function D 2 of is given by the following equation.
[0026]
[Expression 1]
Figure 2005024794
[0027]
X is a pitch waveform, u is a target waveform, r is an original speech waveform, A is a matrix representing an operation for superimposing the pitch waveform in accordance with the pitch of the original speech waveform, and e 1 is an error vector between the target waveform and the pitch waveform. (First error vector), e 2 is an error vector (second error vector) between the original speech waveform and the synthesized speech waveform, g 1 is an optimum gain for the first error evaluation function, and g 2 is a second error. This is the optimum gain for the evaluation function.
[0028]
Therefore, if the weighting coefficient for the first error evaluation function D 1 is w 1 and the weighting coefficient for the second error evaluation function D 2 is w 2 , the total error D is
[Expression 2]
Figure 2005024794
[0030]
It becomes.
[0031]
Here, the pitch waveform x that minimizes the total error E, the optimum gain g 1 for the first error evaluation function, and the optimum gain g 2 for the second error evaluation function are obtained. When the total error D is partially differentiated with respect to the respective variables of the pitch waveform x, the optimum gain g 1 for the first error evaluation function, and the optimum gain g 2 for the second error evaluation function,
[Equation 3]
Figure 2005024794
[0033]
It becomes. Therefore,
[0034]
[Expression 4]
Figure 2005024794
[0035]
Than,
[0036]
[Equation 5]
Figure 2005024794
[0037]
It becomes. G 1 , g 2 and x can be obtained by repeatedly calculating the above equation.
[0038]
It is also possible to extract a pitch waveform by performing auditory weighting on each of the first error vector and the second error vector. In this case, if the perceptually weighted first error evaluation function is Dw1 , and the perceptually weighted second error evaluation function is Dw2 , the perceptual weighting total error Dw is given by the following equation.
[0039]
[Formula 6]
Figure 2005024794
[0040]
Note that W 1 is a matrix representing an operation of auditory weighting for the first error vector, and W 2 is a matrix representing an operation of auditory weighting for the second error vector.
[0041]
Accordingly, when the pitch waveform x, the optimum gain g 1 for the first error evaluation function, and the optimum gain g 2 for the second error evaluation function are obtained in the same manner as in the case where the auditory weighting described above is not performed,
[0042]
[Expression 7]
Figure 2005024794
[0043]
It becomes.
[0044]
In the above example, the target waveform storage unit 20 has been described as an example in which a speech segment as a one-pitch waveform collected offline is stored. However, stored data is collected offline. However, the present invention is not limited to the one pitch waveform. For example, a speech unit obtained by learning in advance may be stored, or speech waveform data having a time width of a plurality of pitches instead of a single pitch waveform may be stored as a target waveform. You may do it. In this case, the error between the speech waveform data having a time width of a plurality of pitches and the speech waveform based on the pitch waveform to be extracted (for example, a synthesized speech waveform obtained by superimposing the pitch waveform) is used as an error vector. The pitch waveform is evaluated in place of the first error vector.
[0045]
Further, the embodiment has been described on the assumption that the speech waveform data collected in units of sentences is stored in the original speech waveform storage unit 21, for example, but the stored data is converted into the speech waveform data collected in units of sentences. It is not limited. For example, the recorded speech waveform data may be configured to store speech segment data divided for each fixed time or phoneme, or continuous speech waveform data for each grammar unit smaller than a sentence. You may comprise so that it may memorize | store.
[0046]
In the above example, an example in which the system is configured to store the time waveform of the voice as the target waveform in the target waveform storage unit 20 has been described, but instead of the target waveform (time waveform) 101 stored in the target waveform storage unit 20. It is also possible to store the target spectrum as a frequency component equivalent to this, define the first error evaluation function between the target spectrum and the frequency spectrum of the pitch waveform, and evaluate the error. The configuration of the speech synthesis system at this time is as shown in FIG.
[0047]
2, compared with FIG. 1, the target waveform storage unit 20 and the target waveform selection unit 10 are replaced with the target spectrum storage unit 40 and the target spectrum selection unit 30, and between the original speech waveform storage unit 21 and the pitch waveform extraction unit 11. In addition, an FFT processing unit 31 for performing a restricted Fourier transform (FFT) process on the pitch waveform extracted from the original speech waveform is added. In FIG. 2, the same elements as those in FIG. 1 are denoted by the same reference numerals.
[0048]
Here, in the target spectrum storage unit 40, for example, frequency components (spectrums) corresponding to speech segments as a one-pitch waveform collected offline are stored, and the optimum spectrum corresponding to the input prosodic information is stored. A spectrum corresponding to a speech unit is selected. Further, the second error evaluation function can be defined between the original speech waveform and the pitch waveform.
[0049]
Thus, by extracting the optimum pitch waveform based on the error evaluation function defined between the target waveform and the original speech waveform and the pitch waveform, it is possible to obtain a pitch waveform having a more desirable spectral envelope, The sound quality of synthesized speech is improved. Furthermore, by preparing several target waveforms corresponding to different pitches, and extracting the pitch waveform by changing the target waveform according to the pitch of the synthesized speech, the acoustic mismatch between the pitch and the spectrum is eliminated, and the pitch is changed. As a result, the quality of the synthesized speech is not degraded, and the quality of the synthesized speech is further improved.
(Second Embodiment)
FIG. 3 shows the configuration of a speech synthesis system according to the second embodiment of the present invention. Unlike the first embodiment in which the pitch waveform is analytically extracted, the present embodiment is configured to extract the pitch waveform by cutting out the pitch waveform from the original speech waveform using a clipping window. In this embodiment, as shown in FIG. 3, the pitch waveform extraction unit 11 includes a cutout window determination unit 50, a pitch waveform cutout unit 51, and an error evaluation unit 52. The pitch waveform is extracted in advance by preparing a plurality of cutout windows in which at least one of the window function or the window length of the cutout window is changed, and among the pitch waveforms cut out using each cutout window, This is realized by selecting the one that minimizes the error determined by the error evaluation function defined between the two. The error evaluation function may be defined by the following equation.
[0050]
[Equation 8]
Figure 2005024794
[0051]
Here, x is a pitch waveform, u is a target waveform, r is an original speech waveform, M is a matrix representing an operation for extracting a pitch waveform from the original speech waveform, e is an error vector between the target waveform and the pitch waveform, and g is an error evaluation. This is the optimal gain for the function.
[0052]
The pitch waveform extracted by this embodiment is generally less accurate than the pitch waveform extracted by an analytical method, and thus is sub-optimal. However, a plurality of cutout windows prepared in advance are used. Since the pitch waveform is extracted by cutting out the pitch waveform from the original speech waveform, there is an advantage that the calculation amount is small.
[0053]
In addition to the error defined between the target waveform and the pitch waveform, it is also possible to cut out the pitch waveform in consideration of the error defined between the original speech waveform and the synthesized speech waveform. In this case, an error evaluation function defined by the following equation can be considered.
[0054]
[Equation 9]
Figure 2005024794
[0055]
Here, x is a pitch waveform, u is a target waveform, r is an original speech waveform, M is a matrix representing an operation for cutting out a pitch waveform from the original speech waveform, and A is an operation for superimposing the pitch waveform in accordance with the pitch of the original speech waveform. , W 1 is an error defined between the target waveform and the pitch waveform, w 2 is an error defined between the original speech waveform and the synthesized speech waveform, g 1 is an optimum gain for the target waveform, g 2 is the optimum gain for the original speech waveform.
[0056]
In the present embodiment, the error evaluation function is defined in the waveform region, but can also be defined in the spectral region.
[0057]
Although several embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments, and various modifications can be made. For example, the error evaluation function need not be limited to the above-described function, and may be defined so as to include at least one of the target waveform or the target spectrum.
[0058]
Obtaining a pitch waveform with a more desirable spectral envelope by extracting the pitch waveform from the original speech waveform based on an error evaluation function defined between the pitch waveform extracted from the original speech waveform and a target waveform prepared in advance And the quality of the synthesized speech is improved.
[0059]
The above-described speech synthesis processing according to the present invention can be realized by hardware, but can also be realized by software processing using a computer. Therefore, according to the present invention, it is possible to provide a program for causing a computer to perform the above-described speech synthesis processing.
[0060]
【The invention's effect】
As described above, according to the present invention, a high-quality synthesized speech can be obtained by extracting a pitch waveform based on an error evaluation function defined between a target waveform and a pitch waveform.
[Brief description of the drawings]
FIG. 1 is a block diagram showing the configuration of a speech synthesis system for explaining a first embodiment of a speech synthesis method according to the present invention. FIG. 2 explains a second embodiment of the speech synthesis method according to the present invention. FIG. 3 is a block diagram showing the configuration of a speech synthesis system for explaining a third embodiment of the speech synthesis method according to the present invention. FIG. 5 is a block diagram showing a configuration of a speech synthesis system for explaining a synthesis method. FIG. 5 is a diagram for explaining generation of a synthesized speech waveform of the PSOLA system. FIG. 6 is a diagram for explaining generation of a synthesized speech waveform of the PSOLA system. FIG. 7 is a flowchart of a speech synthesis system for explaining the first embodiment of the speech synthesis method according to the present invention.
DESCRIPTION OF SYMBOLS 10 ... Target waveform selection part 11 ... Pitch waveform extraction part 12 ... Pitch waveform superposition part 20 ... Target waveform storage part 21 ... Original audio | voice waveform storage part 30 ... Target spectrum selection part 31 ... FFT processing part 40 ... Target spectrum storage part 50 ... Cutout window determination unit 51 ... Pitch waveform cutout unit 52 ... Error evaluation unit 100 ... Prosody information 101 ... Candidate target waveform 102 ... Target waveform 103 ... Original speech waveform 104 ... Pitch waveform 105 ... Synthetic speech 201 ... Candidate target spectrum 202 ... Target spectrum 203 ... Original voice spectrum 300 ... Clipping window 301 ... Candidate pitch waveform 302 ... Pitch waveform 400 ... Original voice waveform 401 ... Window function 402 when the pitch period is reduced ... Synthetic voice 403 when the pitch period is reduced ... Window function 404 when increasing ... Window function when the pitch period was largely

Claims (11)

少なくとも音韻情報を含む韻律情報に基づいて原音声波形から抽出されるピッチ波形を所望のピッチ周期間隔で重畳して音声を生成する音声合成方法において、前記韻律情報に基づいて目標波形記億部から目標波形を選択し、選択された目標波形と抽出すべきピッチ波形との間で定義される誤差評価関数に基づいて、原音声波形記憶部の前記原音声波形から前記ピッチ波形を抽出し、該ピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成することを特徴とする音声合成方法。In a speech synthesis method for generating speech by superimposing a pitch waveform extracted from an original speech waveform based on prosodic information including at least phonemic information at a desired pitch period interval, from a target waveform storage unit based on the prosodic information Selecting a target waveform, extracting the pitch waveform from the original speech waveform in the original speech waveform storage unit based on an error evaluation function defined between the selected target waveform and the pitch waveform to be extracted; A speech synthesis method comprising generating synthesized speech by superimposing pitch waveforms at a desired pitch period interval. 少なくとも音韻情報を含む韻律情報に基づいて原音声波形から抽出されるピッチ波形を所望のピッチ周期間隔で重畳して音声を生成する音声合成方法において、前記韻律情報に基づいて目標波形記億部から目標波形を選択し、選択された目標波形と抽出すべきピッチ波形との間で定義される第1の誤差評価関数と、前記抽出すべきピッチ波形を重畳して得られる合成音声波形と前記原音声波形との間で定義される第2の誤差評価関数とに基づいて、原音声波形記憶部の原音声波形から前記ピッチ波形を抽出し、該ピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成することを特徴とする音声合成方法。In a speech synthesis method for generating speech by superimposing a pitch waveform extracted from an original speech waveform based on prosodic information including at least phonemic information at a desired pitch period interval, from a target waveform storage unit based on the prosodic information A target error is selected, a first error evaluation function defined between the selected target waveform and the pitch waveform to be extracted, a synthesized speech waveform obtained by superimposing the pitch waveform to be extracted, and the original waveform The pitch waveform is extracted from the original speech waveform of the original speech waveform storage unit based on the second error evaluation function defined between the speech waveform and the pitch waveform is superimposed at a desired pitch period interval. A speech synthesis method characterized by generating synthesized speech. 少なくとも音韻情報を含む韻律情報に基づいて原音声波形から抽出されるピッチ波形を所望のピッチ周期間隔で重畳して音声を生成する音声合成方法において、前記韻律情報に基づいて目標波形記億部から目標波形として複数ピッチの時間幅を有する音声波形データを選択し、当該音声波形データと抽出すべきピッチ波形に基づく音声波形との間で定義される第1の誤差評価関数と、前記抽出すべきピッチ波形を重畳して得られる合成音声波形と前記原音声波形との間で定義される第2の誤差評価関数とに基づいて、原音声波形記憶部の原音声波形から前記ピッチ波形を抽出し、該ピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成することを特徴とする音声合成方法。In a speech synthesis method for generating speech by superimposing a pitch waveform extracted from an original speech waveform based on prosodic information including at least phonemic information at a desired pitch period interval, from a target waveform storage unit based on the prosodic information A speech error data having a plurality of pitch time widths is selected as a target waveform, a first error evaluation function defined between the speech waveform data and a speech waveform based on the pitch waveform to be extracted, and the extraction should be performed Based on a synthesized speech waveform obtained by superimposing the pitch waveform and a second error evaluation function defined between the original speech waveform, the pitch waveform is extracted from the original speech waveform in the original speech waveform storage unit. A speech synthesis method comprising generating synthesized speech by superimposing the pitch waveform at a desired pitch period interval. 前記目標波形記憶部は、選択される目標波形の候補として音声素片が記憶されていることを特徴とする請求項1、2または3記載の音声合成方法。The speech synthesis method according to claim 1, wherein the target waveform storage unit stores speech segments as candidates for a target waveform to be selected. 少なくとも音韻情報を含む韻律情報に基づいて原音声波形から抽出されるピッチ波形を所望のピッチ周期間隔で重畳して音声を生成する音声合成方法において、前記韻律情報に基づいて目標スペクトル記憶部から目標スペクトルを選択し、選択された目標スペクトルと抽出すべきピッチ波形のスペクトルとの間で定義される誤差評価関数に基づいて、前記原音波形記憶部の前記原音声波形から前記ピッチ波形を抽出し、該ピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成することを特徴とする音声合成方法。In a speech synthesis method for generating speech by superimposing a pitch waveform extracted from an original speech waveform based on prosodic information including at least phonemic information at a desired pitch period interval, a target spectrum storage unit can generate a target based on the prosodic information. Selecting a spectrum, and extracting the pitch waveform from the original speech waveform of the original sound waveform storage unit based on an error evaluation function defined between the selected target spectrum and the spectrum of the pitch waveform to be extracted; A speech synthesis method characterized by generating synthesized speech by superimposing the pitch waveform at a desired pitch period interval. 少なくとも音韻情報を含む韻律情報に基づいて原音声波形から抽出されるピッチ波形を所望のピッチ周期間隔で重畳して音声を生成する音声合成方法において、前記韻律情報に基づいて目標スペクトル記憶部から目標スペクトルを選択し、選択された目標スペクトルと抽出すべきピッチ波形のスペクトルとの間で定義される第1の誤差評価関数と、前記抽出すべきピッチ波形を重畳して得られる合成音声波形と前記原音声波形との間で定義される第2の誤差評価関数とに基づいて、原音声波形記憶部の原音声波形から前記ピッチ波形を抽出し、該ピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成することを特徴とする音声合成方法。In a speech synthesis method for generating speech by superimposing a pitch waveform extracted from an original speech waveform based on prosodic information including at least phonemic information at a desired pitch period interval, a target spectrum storage unit can generate a target based on the prosodic information. Selecting a spectrum, a first error evaluation function defined between the selected target spectrum and the spectrum of the pitch waveform to be extracted; a synthesized speech waveform obtained by superimposing the pitch waveform to be extracted; and Based on the second error evaluation function defined between the original speech waveform and the original speech waveform, the pitch waveform is extracted from the original speech waveform in the original speech waveform storage unit, and the pitch waveform is superimposed at a desired pitch period interval. And a synthesized speech is generated. 少なくとも音韻情報を含む韻律情報に基づいて原音声波形から抽出されるピッチ波形を所望のピッチ周期間隔で重畳して音声を生成する音声合成方法において、前記韻律情報に基づいて目標スペクトル記憶部から目標スペクトルとして所定の周波数成分を含むスペクトルデータを選択し、当該スペクトルデータと抽出すべきピッチ波形に基づく音声波形のスペクトルとの間で定義される第1の誤差評価関数と、前記抽出すべきピッチ波形を重畳して得られる合成音声波形と前記原音声波形との間で定義される第2の誤差評価関数とに基づいて、原音声波形記憶部の原音声波形から前記ピッチ波形を抽出し、該ピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成することを特徴とする音声合成方法。In a speech synthesis method for generating speech by superimposing a pitch waveform extracted from an original speech waveform based on prosodic information including at least phonemic information at a desired pitch period interval, a target spectrum storage unit can generate a target based on the prosodic information. A first error evaluation function defined between a spectrum data including a predetermined frequency component as a spectrum and defined between the spectrum data and a spectrum of a speech waveform based on the pitch waveform to be extracted, and the pitch waveform to be extracted. Is extracted from the original speech waveform of the original speech waveform storage unit based on the second error evaluation function defined between the synthesized speech waveform obtained by superimposing and the original speech waveform, A speech synthesis method comprising generating synthesized speech by superimposing pitch waveforms at a desired pitch period interval. 前記目標スペクトル記憶部は、選択される目標スペクトルの候補として音声素片に相当するスペクトルが記憶されていることを特徴とする請求項5、6または7記載の音声合成方法。The speech synthesis method according to claim 5, wherein the target spectrum storage unit stores a spectrum corresponding to a speech segment as a candidate of a target spectrum to be selected. 少なくとも音韻情報を含む韻律情報に基づいて原音声波形から抽出されるピッチ波形を所望のピッチ周期間隔で重畳して音声を生成する音声合成方法において、前記韻律情報に基づいて目標波形記億部から目標波形を選択し、原音声波形記憶部の原音声波形から窓関数をかけて抽出されたピッチ波形と前記選択された目標波形との間で定義される誤差評価関数に基づいてピッチ波形を選択し、該ピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成することを特徴とする音声合成方法。In a speech synthesis method for generating speech by superimposing a pitch waveform extracted from an original speech waveform based on prosodic information including at least phonemic information at a desired pitch period interval, from a target waveform storage unit based on the prosodic information Select a target waveform and select a pitch waveform based on an error evaluation function defined between the pitch waveform extracted from the original speech waveform in the original speech waveform storage unit by applying a window function and the selected target waveform And generating a synthesized speech by superimposing the pitch waveform at a desired pitch period interval. 目標波形を記憶した目標波形記憶部と、原音声波形を記憶した原音声波形記憶部と、少なくとも韻律情報に基づいて目標波形記億部から目標波形を選択する目標波形選択部と、選択された目標波形と前記原音声波形記憶部に記憶された原音声波形から抽出すべきピッチ波形との間で定義される誤差評価関数に基づいて、前記原音声波形から前記ピッチ波形を抽出するピッチ波形抽出部と、該抽出されたピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成することを特徴とする音声合成装置。A target waveform storage unit that stores the target waveform, an original speech waveform storage unit that stores the original speech waveform, a target waveform selection unit that selects a target waveform from the target waveform storage unit based on at least prosodic information, and Pitch waveform extraction for extracting the pitch waveform from the original speech waveform based on an error evaluation function defined between a target waveform and a pitch waveform to be extracted from the original speech waveform stored in the original speech waveform storage unit And a synthesized speech by superimposing the extracted pitch waveform at a desired pitch period interval. 少なくとも音韻情報を含む韻律情報に基づいて原音声波形から抽出されるピッチ波形を所望のピッチ周期間隔で重畳して音声を生成する処理を行なうコンピュータ読み取り可能な音声合成プログラムにおいて、前記韻律情報に基づいて目標波形記億部から目標波形を選択するステップと、選択された目標波形と抽出すべきピッチ波形との間で定義される誤差評価関数に基づいて、原音声波形記憶部の前記原音声波形から前記ピッチ波形を抽出するステップと、該ピッチ波形を所望のピッチ周期間隔で重畳して合成音声を生成するステップとを備えたことを特徴とするコンピュータ読み取り可能な音声合成プログラム。In a computer-readable speech synthesis program for performing a process of generating speech by superimposing a pitch waveform extracted from an original speech waveform based on prosodic information including at least phonemic information at a desired pitch period interval, based on the prosodic information Selecting the target waveform from the target waveform storage unit and an error evaluation function defined between the selected target waveform and the pitch waveform to be extracted. A computer-readable speech synthesis program comprising: extracting the pitch waveform from the step; and superimposing the pitch waveform at a desired pitch period interval to generate synthesized speech.
JP2003188873A 2003-06-30 2003-06-30 Method, device, and program for speech synthesis Pending JP2005024794A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003188873A JP2005024794A (en) 2003-06-30 2003-06-30 Method, device, and program for speech synthesis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003188873A JP2005024794A (en) 2003-06-30 2003-06-30 Method, device, and program for speech synthesis

Publications (1)

Publication Number Publication Date
JP2005024794A true JP2005024794A (en) 2005-01-27

Family

ID=34187270

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003188873A Pending JP2005024794A (en) 2003-06-30 2003-06-30 Method, device, and program for speech synthesis

Country Status (1)

Country Link
JP (1) JP2005024794A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010210334A (en) * 2009-03-09 2010-09-24 Railway Technical Res Inst Method for determining scour around bridge pier and system for evaluating soundness of bridge pier base
JP2019168620A (en) * 2018-03-26 2019-10-03 カシオ計算機株式会社 Synthetic sound generating device, method, and program
CN112102810A (en) * 2020-09-22 2020-12-18 深圳追一科技有限公司 Voice synthesis method, system and related equipment
US20220172703A1 (en) * 2019-08-20 2022-06-02 Ai, Inc. Acoustic model learning apparatus, method and program and speech synthesis apparatus, method and program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010210334A (en) * 2009-03-09 2010-09-24 Railway Technical Res Inst Method for determining scour around bridge pier and system for evaluating soundness of bridge pier base
JP2019168620A (en) * 2018-03-26 2019-10-03 カシオ計算機株式会社 Synthetic sound generating device, method, and program
JP7183556B2 (en) 2018-03-26 2022-12-06 カシオ計算機株式会社 Synthetic sound generator, method, and program
US20220172703A1 (en) * 2019-08-20 2022-06-02 Ai, Inc. Acoustic model learning apparatus, method and program and speech synthesis apparatus, method and program
CN112102810A (en) * 2020-09-22 2020-12-18 深圳追一科技有限公司 Voice synthesis method, system and related equipment

Similar Documents

Publication Publication Date Title
JP3294604B2 (en) Processor for speech synthesis by adding and superimposing waveforms
JP5085700B2 (en) Speech synthesis apparatus, speech synthesis method and program
US8280738B2 (en) Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method
JP4469883B2 (en) Speech synthesis method and apparatus
JP5159325B2 (en) Voice processing apparatus and program thereof
JP6791258B2 (en) Speech synthesis method, speech synthesizer and program
Bonada et al. Expressive singing synthesis based on unit selection for the singing synthesis challenge 2016
JPH031200A (en) Regulation type voice synthesizing device
JP3450237B2 (en) Speech synthesis apparatus and method
JP2005024794A (en) Method, device, and program for speech synthesis
JP5874639B2 (en) Speech synthesis apparatus, speech synthesis method, and speech synthesis program
JP4451665B2 (en) How to synthesize speech
JP3756864B2 (en) Speech synthesis method and apparatus and speech synthesis program
JP4963345B2 (en) Speech synthesis method and speech synthesis program
JP3727885B2 (en) Speech segment generation method, apparatus and program, and speech synthesis method and apparatus
JP5275470B2 (en) Speech synthesis apparatus and program
JP2001034284A5 (en) Speech synthesis method and equipment
JP2001034284A (en) Voice synthesizing method and voice synthesizer and recording medium recorded with text voice converting program
JP5106274B2 (en) Audio processing apparatus, audio processing method, and program
JP4332323B2 (en) Speech synthesis method and apparatus and dictionary generation method and apparatus
JPH09179576A (en) Voice synthesizing method
KR102480360B1 (en) Apparatus, method and computer program for generating synthesized sound source using learning through image
JP3967571B2 (en) Sound source waveform generation device, speech synthesizer, sound source waveform generation method and program
JP2001100777A (en) Method and device for voice synthesis
JP5677137B2 (en) Prosody conversion device and program

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050415

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060721

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070202