JP4274852B2 - 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 - Google Patents
音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 Download PDFInfo
- Publication number
- JP4274852B2 JP4274852B2 JP2003141492A JP2003141492A JP4274852B2 JP 4274852 B2 JP4274852 B2 JP 4274852B2 JP 2003141492 A JP2003141492 A JP 2003141492A JP 2003141492 A JP2003141492 A JP 2003141492A JP 4274852 B2 JP4274852 B2 JP 4274852B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- fundamental frequency
- prosodic
- character data
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Description
【発明の属する技術分野】
本発明は、基本周波数の変更による音声劣化を低減して高品質な音声を合成できる音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体に関するものである。
【0002】
【従来の技術】
従来、電話による株価案内システム等、各種情報案内システムや、Eメール・Webの読み上げ等、様々な分野で合成音声が利用されている。しかし、現状の合成音声は人間の発声に比べてまだ十分な品質を達成できておらず、合成音声の品質向上への要望は強い。
【0003】
従来の音声合成システムとして、データベースから音声素片を選択し、韻律を変形せずに選択された音声素片をそのまま出力することで肉声らしさや音声の個人性を伝える音声合成システムが存在する(第1従来例:[参考文献:特許第2761552号、「音声合成装置」])。
【0004】
また、韻律変形を行う方法によって、音声劣化の許容範囲の広さやその分布が異なる。例えば、PSOLA法は下方向への許容範囲は広く、HARP法は上方向への許容範囲が広いことが知られている(第2従来例:[参考文献:A NEW F0 MODIFICATION ALGORITHM BY MANIPULATING HARMONICS OF MAGNITUDE SPECTRUM", Satoshi TAKANO, Masanobu ABE, Eurospeech '99])。
【0005】
さらに、音声素片の基本周波数パタンの変形の種類においては、基本周波数パタンを平行に移動した場合と、基本周波数の形状を任意に変化させた場合を比較すると、同程度の変形量でも平行に移動した場合における劣化の許容範囲の方が広いことが知られている(第3従来例:[参考文献:高野,阿部,音講論,PP.217−218.2000(3)])。
【0006】
また、イントネーションが不自然にならないように工夫した音声合成方法が特開2000−194390号公報に開示されている。
【0007】
【特許文献1】
特許第2761552号公報
【特許文献2】
特開2000−194390号公報
【非特許文献1】
A NEW FO MODIFICATION ALGORITHM BY MANIPULATING HARMONICS OF MAGNITUDE SPECTRUM", Satoshi TAKANO, Masanobu ABE, Eurospeech '99
【非特許文献2】
高野,阿部,音講論,PP.217−218.2000(3)
【0008】
【発明が解決しようとする課題】
しかしながら、上記第1従来例のような音声合成システムにおいては、肉声らしい声質の合成音声を得られる代わりに、データベースに十分な音声素片が無い場合や、データベースから上手く選択できなかった場合に、音声素片間での基本周波数の不整合が生じることがあり、この場合、音質が劣化するという問題がある。
【0009】
また、第2従来例及び第3従来例では、音声劣化の許容範囲に関して理論的に述べられているにすぎず、どのようにして実用化するかは明確ではない。
【0010】
また、第4従来例では、合成する目標となる基本周波数パタンに対してイントネーションが不自然にならない許容範囲を設けることを特徴としており、合成された音声のイントネーションは必ず正しくなるが、音声素片の基本周波数値が目標とかけ離れた値だった揚合は音声の持つ肉声らしさが著しく損なわれるという問題点がある。
【0011】
本発明の目的は上記の問題点に鑑み、基本周波数の変更による音声劣化を低減して高品質な音声を合成できる音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体を提供することである。
【0012】
【課題を解決するための手段】
本発明は上記の目的を達成するために、音声素片が蓄積されているデータベースを備え、入力された文字データを音声に変換するコンピュータ装置からなる音声合成装置を用いて、前記データベースから選択された音声素片に対して韻律変形を行って前記文字データに対応する音声を合成する音声合成方法において、前記音声合成装置は、合成する音声全体のうち韻律変形を行っても品質が劣化しない区間の長さにおける品質劣化の第2許容範囲に基づき、連続する2つの音声素片間の接続点を含む前記第2許容範囲の区間内で前後の音声素片のもつ基本周波数値の変化が滑らかになるように韻律変形を行い、前記連続する2つの音声素片を連結して音声を合成する音声合成方法を提案する。
【0013】
さらに、本発明は上記の目的を達成するために、音声素片が蓄積されているデータベースを備え、入力された文字データを音声に変換するコンピュータ装置からなる音声合成装置を用いて、前記データベースから選択された音声素片に対して韻律変形を行って前記文字データに対応する音声を合成する音声合成方法において、前記音声合成装置は、前記データベースから選択された音声素片の基本周波数パタンに対して、韻律変形によって音声素片の持つ基本周波数パタンの形状を保ったまま基本周波数の値を上下させたときの品質劣化の第1許容範囲に基づき、連続する2つの音声素片間の接続点における基本周波数値の差の値を最小化するように、韻律変形によって各音声素片の持つ基本周波数パタンの形状を平行に移動させると共に、合成する音声全体のうち、韻律変形を行っても品質が劣化しない区間の長さにおける品質劣化の第2許容範囲に基づき、連続する2つの音声素片間の接続点を含む前記第2許容範囲の区間内で前後の音声素片のもつ基本周波数値の変化が滑らかになるように韻律変形を行い、前記連続する2つの音声素片を連結して音声を合成する音声合成方法を提案する。
【0014】
また、本発明は上記の目的を達成するために、上記音声合成方法において、前記第2許容範囲は、韻律変形を行った区間が何ms連続しているかという長さと、合計する音声全体の長さに対して韻律変形を行った区間の長さが何%なのかという2つの許容範囲からなる音声合成方法を提案する。
【0015】
上記本発明の音声合成方法では、韻律変形を行う場合においても、その変形量が十分小さい場合には、合成音声の品質劣化もまた小さいという事実を利用している。即ち、データベースから選択抽出された音声素片に対して韻律変形を行う場合に、韻律変形による劣化が起こらないか、もしくは劣化が生じてもそれを許容できる範囲で韻律変形を行う。
【0016】
具体的には、図1に示すように、ある音声素片のもつ基本周波数パタン101があった場合、韻律変形による劣化が聞き取れない範囲102、劣化するが許容できる範囲103、劣化がひどくて許容できない範囲104a,104bが存在する。これらの範囲は様々な要因によって変化する。
【0017】
また、合成した音声全体の中で、韻律変形を行った個所の継続時間が短いほど劣化は聞き取り難くなるため、韻律変形の時間が短く、且つ韻律変形を行う回数が少ないほど劣化が少なくなるので、本発明では、韻律変形を行う時間軸上での区間の長さに許容範囲をもたせ、該許容範囲内で韻律変形を行っている。
【0018】
従って、本発明の音声合成方法では、韻律変形による品質劣化の許容範囲をこれらの要素から予測してデータベース化しておき、その後に、それぞれの音声素片について劣化の許容範囲内で各音声素片間の基本周波数値の差の値を最小化するように韻律変形を行っているので、韻律変形による音声素片の劣化を防ぎつつ、尚且つ接続する音声素片間の基本周波数の不連続性や合成目標となる基本周波数パタンとの差異を最小限に抑えた高品質な音声を合成することが可能となる。
【0019】
また、本発明は上記の音声合成方法を実施するための音声合成装置として、入力された文字データに対応する音声を合成する音声合成装置において、複数の音声素片と、合成する音声全体のうち音声素片に対して韻律変形を行っても品質が劣化しない区間の長さにおける品質劣化の第2許容範囲とが蓄積されているデータベースと、音声合成対象となる文字データを入力する手段と、前記入力された文字データに対応する音声素片を前記データベースから選択抽出する手段と、前記入力された文字データに対応する音声素片に対して、連続する2つの音声素片間の接続点を含む前記第2許容範囲の区間内で前後の音声素片のもつ基本周波数値の変化が滑らかになるように韻律変形を行い、前記連続する2つの音声素片を連結して音声を合成する手段とを備えている音声合成装置を提案する。
【0020】
さらに、本発明は上記の音声合成方法を実施するための音声合成装置として、入力された文字データに対応する音声を合成する音声合成装置において、複数の音声素片と、各音声素片毎に音声素片の基本周波数パタンに対して、韻律変形によって音声素片の持つ基本周波数パタンの形状を保ったまま基本周波数の値を上下させたときの品質劣化の第1許容範囲と、合成する音声全体のうち音声素片に対して韻律変形を行っても品質が劣化しない区間の長さにおける品質劣化の第2許容範囲とが蓄積されているデータベースと、音声合成対象となる文字データを入力する手段と、前記入力された文字データに対応する音声素片を前記データベースから選択抽出する手段と、前記入力された文字データに対応して連続する2つの音声素片間の接続点における基本周波数値の差の値を最小化するように、前記第1許容範囲内で韻律変形によって各音声素片の持つ基本周波数パタンの形状を基本周波数の値を上下させて平行に移動させると共に、韻律変形を行う時間軸上での区間の長さにおける品質劣化の第2許容範囲に基づき、連続する2つの音声素片間の接続点を含む前記第2許容範囲の区間内で前後の音声素片のもつ基本周波数値の変化が滑らかになるように韻律変形を行い、前記連続する2つの音声素片を連結して音声を合成する手段とを備えている音声合成装置を提案する。
【0021】
また、本発明は上記の目的を達成するために、上記音声合成装置において、前記第2許容範囲は、韻律変形を行った区間が何ms連続しているかという長さと、合計する音声全体の長さに対して韻律変形を行った区間の長さが何%なのかという2つの許容範囲からなる音声合成方法を提案する。
【0022】
また、本発明は上記の音声合成方法を実施するための音声合成装置を周知のコンピュータ装置によって容易に構成するためのコンピュータプログラムとして、上記音声合成装置を構成する各手段としてコンピュータを機能させる音声合成コンピュータプログラムを提案する。
【0025】
また、本発明は、上記音声合成コンピュータプログラムを容易に配布可能にするために、上記音声合成コンピュータプログラムが記憶されているコンピュータ読み取り可能な情報記憶媒体を提案する。
【0026】
【発明の実施の形態】
以下、図面に基づいて本発明の一実施形態を説明する。
【0027】
図2は本発明の一実施形態における音声合成装置を示す機能構成図である。図において、200は音声合成装置で、周知のコンピュータ装置によって構成され、予め設定されている音声合成コンピュータプログラムによって駆動する。
【0028】
また、音声合成装置200は、テキスト入力手段201と、音声合成データベース202、音声素片選択手段203、音声素片記憶手段204、音声合成手段205、合成音声記憶手段206、合成音声出力手段207とから構成されている。尚、これらの構成部分は、コンピュータ装置のハードウェア及びソフトウェアの双方によって構成されている。
【0029】
テキスト入力手段201は、ワープロ等で作成した、かな漢字混じり文のテキストを音声合成のための文字データとして入力する。
【0030】
音声合成データベース202は、音声波形や、音声の基本周波数パタン(以下、基本周波数を単にF0と称する)、音声波形に対応する音素ラベル列、音素の境界を示すラベルデータ、などの音声合成のために必要な情報が予め実験等によって求められて格納されているデータベースである。
【0031】
音声素片選択手段203は、音声合成データベース202の中から合成したいテキストに適合する音声素片を選択する部分であり、音声合成データベース202から合成に使用可能な音声素片を検索し、コスト計算の後に最適な音声素片を選択し出力する。
【0032】
音声素片記憶手段204は、音声素片選択手段203によって音声合成データベース202から選択抽出された音声素片を一時的に記憶する。
【0033】
音声合成手段205は、選択された音声素片に対して韻律変形処理を行い、音声素片を接続して合成音声として出力する。
【0034】
合成音声記憶手段206は、音声合成手段205によって生成された合成音声を一時的に記憶する。
【0035】
合成音声出力手段207は、合成音声記憶手段206に記憶されている合成音声を出力する。
【0036】
また、上記音声合成手段205は、図3に示すように、劣化許容範囲決定手段301と、品質劣化量データベース302、韻律変形量制御手段303、韻律変形手段304とから構成されている。尚、これらの構成部分は、コンピュータ装置のハードウェア及びソフトウェアの双方によって構成されている。
【0037】
劣化許容範囲決定手段301は、音声素片記憶手段204に記憶されている各音声素片に対して音声素片毎の韻律変形の許容範囲を、品質劣化量データベース302に格納されている許容範囲の値に基づいて決定する。
【0038】
品質劣化量データベース302には、音声素片毎に品質劣化量に関する韻律変形の許容範囲の値が格納されている。この許容範囲は、韻律変形を施した音声を実際に試聴し、劣化が聞き取れる範囲、劣化していても許容できる範囲を評価する実験等によってあらかじめ得た値である。
【0039】
また、品質劣化量データベース302には、上記許容範囲として、音声素片の基本周波数パタンに対して、韻律変形によって音声素片の持つ基本周波数パタンの形状を保ったまま基本周波数の値を上下させたときの品質劣化の第1許容範囲と、韻律変形を行う時間軸上での区間の長さにおける品質劣化の第2許容範囲とが格納されている。
【0040】
韻律変形量制御手段303は、音声素片毎に品質劣化量データベース302から選択された前記第1許容範囲内で韻律変形量を制御すると共に、前記第2許容範囲内で韻律変形量を制御する。
【0041】
韻律変形手段304は、韻律変形量制御手段303によって制御された前記第1許容範囲内の変形量に基づき、連続する2つの音声素片間の接続点における基本周波数値の差の値を最小化するように、韻律変形によって各音声素片の持つ基本周波数パタンの形状を平行に移動させて韻律変形を行うか、または前記第2許容範囲内の変形量に基づき、連続する2つの音声素片間の接続点を含む前記第2許容範囲の区間内で前後の音声素片のもつ基本周波数値の変化が滑らかになるように韻律変形を行うか、あるいはこれらの双方によって韻律変形を行う。
【0042】
次に、上記構成よりなる音声合成装置の動作に関して図4のフローチャートを参照して詳細に説明する。尚、以下の説明においては、本発明の特徴部分である音声合成手段205における音声合成プログラム処理に関して特に詳細に説明する。
【0043】
劣化許容範囲決定手段301の処理において、N個の音声素片のそれぞれについて劣化許容範囲を設定する(401,402)。
【0044】
音声素片の劣化には、404で計算している韻律変形に伴う品質劣化量と、405で計算している音声素片を接続した際に生じるF0差による品質劣化量、と言う2種類の劣化がある。韻律変形量が大きいと404の劣化量もまた大きくなるが、大きく韻律変形することによって音声素片間のF0差を小さくできるため405の劣化が少なくなる、というように404と405の劣化量はトレードオフの関係にあるため、各音声素片の韻律変形量について、2つの品質劣化を最小化するような最適な韻律変形量の組合せをDP等のアルゴリズムを用いて探索する(403〜406)。
【0045】
上記韻律変形量制御手段303の処理によって各音声素片の最適な韻律変形量の組合せが求まった後、これに基づいて、N個の音声素片のそれぞれについて韻律変形を行う(407,408)。
【0046】
(第1実施例)
次に、本実施形態における第1実施例を説明する。
【0047】
第1実施例では、音声合成データベース202 から選択された音声素片の基本周波数パタンに対して、韻律変形によって音声素片の持つ基本周波数パタンの形状を保ったまま基本周波数の値を上下させたときの品質劣化の第1許容範囲に基づき、連続する2つの音声素片間の接続点における基本周波数値の差の値を最小化するように、韻律変形によって各音声素片の持つ基本周波数パタンの形状を平行に移動させて前記連続する2つの音声素片を連結して音声を合成する方法を実施する音声合成装置に関して説明する。
【0048】
第1実施例では、劣化許容範囲決定手段301の韻律変形による品質劣化の許容範囲を決定する処理において、各音声素片の持つF0パタンに対して、図5に示すように劣化の許容範囲を決定する事を特徴とする。
【0049】
この許容範囲は、前述した第1許容範囲に相当し、前述のように韻律変形を施した音声を実際に試聴し、劣化が聞き取れる範囲、劣化していても許容できる範囲を評価する実験等によってあらかじめ得た値を品質劣化量データベース302に保存し、その値を用いる。
【0050】
例えば、用いようとする韻律変形方式について、各音声素片511a〜511dの持つF0値を±10%程度、F0パタン全体の形状を保持したまま平行に移動した場合は劣化が聞き取れず、±15%程度の平行移動であれば劣化は聞き取れるが許容できるというような実験結果が得られていた場合、その音声素片511a〜511dについて、F0パタンを平行移動することが可能な範囲(第1許容範囲)512を、±15%までと設定する。
【0051】
このように設定された許容範囲512に従い、劣化許容範囲決定手段301の処理において、N個の音声素片のそれぞれについて劣化許容範囲、すなわち各音声素片について上記のようにF0値を平行移動可能な範囲を設定した後、韻律変形量制御手段303の処理において、各音声素片の韻律変形による劣化と、各音声素片の接続点におけるF0差による劣化の二つを考慮して、劣化が最小となるような音声素片の韻律変形量の組み合わせを決定し、図5に示すように音声素片511a〜511dを平行に移動した音声素片511a'〜511d'を得る。その結果、音声の肉声らしさを保ったまま513のような理想的なF0パタンに近づけることが可能となり、高品質な音声を合成することが可能となる。
【0052】
このとき、選択された音声素片が1〜m個存在した場合においては、あるn番目の音声素片Unit[n](以下、単にU[n]と称する)について、n番目の音声素片の許容範囲をRange[n](以下、単にR[n]と称する)とし、そのR[n]の範囲の中で実際にF0値をValue[n](以下、単にV[n]と称する)だけ変形した場合に、F0値の変形量V[n]に対する品質劣化量を次の式(1)によって表されるQualityVoice[n](以下、単にQV[n]と称する)とする。
【0053】
【数1】
【0054】
また、音声素片U[n]とU[n+1]の接続点におけるF0値をOriginalF0[n](以下、単にOF0[n]と称する)、OriginalF0[n+1](以下、単にOF0[n+1]と称する)、OF0[n]、OF0[n+1]をそれぞれV[n]]、V[n+1]だけ変形した後の接続点におけるF0値をF0[n]、F0[n+1]とすると、F0[n]、OF0[n]の関係は次の式(2)のようになる。
【0055】
【数2】
【0056】
F0[n]とF0[n+1]のギャップによる品質劣化量を次の式(3)によって表されるQualityGap[n,n+1](以下、単にQG[n,n+1]と称する)とする。
【0057】
【数3】
【0058】
その場合、QG、QVで表される品質劣化量は少なければ少ないほど良いため、全QGを加算した値に対して重み(α1)を掛けた値と、同じく全QVの総計に重み(α2)を掛けた値の和を最小化するようなF0値の変形量V[n]の組合わせを次の式(4)によって求める。
【0059】
【数4】
【0060】
韻律変形手段304では、韻律変形量制御手段303の処理の結果に従い、各音声素片に対して韻律変形を行った後、合成音声として出力する。
【0061】
(第2実施例)
次に、本実施形態における第2実施例を説明する。
【0062】
第2実施例では、韻律変形を行う時間軸上での区間の長さにおける品質劣化の許容範囲に基づき、連続する2つの音声素片間の接続点を含む第2許容範囲の区間内で前後の音声素片のもつ基本周波数値の変化が滑らかになるように韻律変形を行い、連続する2つの音声素片を連結して音声を合成する方法を実施する音声合成装置に関して説明する。
【0063】
第2実施例では、劣化許容範囲決定手段301の韻律変形による品質劣化の許容範囲を決定する処理において、合成する音声全体のうち、韻律変形を行っても品質が劣化しない区間の長さを設定することを特徴とする。
【0064】
この許容範囲は、前述した第2許容範囲に相当し、この劣化しない区間の長さの許容範囲は、韻律変形を行った区間が何ms連続しているかという長さと、合成する音声全体の長さに対して韻律変形を行った区間の長さが何%なのかという2つの許容範囲があり、上記第1実施例の場合のようにその値を品質劣化量データベース302に保存して用いる。
【0065】
例えば、用いようとする韻律変形方式において、連続して何ms韻律変形を行うと劣化が聞き取れるかについて、連続した80msの区間に韻律変形を行った場合には劣化が聞き取れず、160ms程度においては劣化は聞き取れるが許容できるというような実験結果が得られていた場合、連続して韻律変形を行うことが可能な区間の許容範囲を160msまでと設定する。
【0066】
また、同じく用いようとする韻律変形方式において、音声全体の長さに対して韻律変形を行った区間の比率について、全体の10%の区間に対して韻律変形を行った場合は劣化が聞き取れず、20%程度の区間に対して韻律変形を行った場合は、劣化は聞き取れるが許容できるというような実験結果が得られていた場合、韻律変形を行う区間は音声全体の長さに対して20%までと設定する。
【0067】
このように設定された許容範囲に従い、図6及び図7に示すように、韻律変形量制御手段303の処理において音声素片間のF0値のギャップが大きい部分611a,612a,714,715から順番に、出来る限り劣化が聞き取れない範囲の移動で音声素片のF0値が滑らかに遷移するように、設定された許容範囲613,713内で韻律変形を行う区間とその長さを決定する。
【0068】
韻律変形手段304では、韻律変形量制御手段303の結果に従い、各音声素片に対して韻律変形を行った後、合成音声として出力する。
【0069】
これにより、図6に示す音声合成処理おいては、音声素片611の許容範囲613内に存在する部分611aと、音声素片612の許容範囲613内に存在する部分612aとに韻律変形処理が施されて許容範囲613内において滑らかな音声パタン614が生成される。また、図7に示す音声合成処理おいては、音声素片711と音声素片712の間に位置する許容範囲713内に存在する音声素片714,715に韻律変形処理が施されて許容範囲713内において滑らかな音声パタン716が生成される。
【0070】
(第3実施例)
次に、本実施形態における第3実施例を説明する。
【0071】
第3実施例では、上記の第1実施例において説明した音声素片のF0パタンを平行移動して韻律変形する方法と、第2実施例において説明した許容範囲の区間内で韻律変形を行う方法の両方を同時に行うことを特徴とする。
【0072】
例えば、図8に示すように、選択された音声素片811a〜811cにおいて、音声素片811a〜811c間のF0値の不連続性の大きさとその音声素片811a〜811cの継続時間の両方を考慮し、上記第1実施例及び第2実施例の場合のように各音声素片811a〜811cを第1許容範囲812内で平行移動し、さらに第2許容範囲813の区間内で音声パタンが滑らかに変化するように韻律変形を施した音声パタン814を生成することによって、F0値が滑らかに遷移するように音声を合成する。
【0073】
前述したように本実施形態は、選択された音声素片自体が持つF0パタンに対して韻律変形を加える許容範囲を設定することに特徴ある。
【0074】
そのため、通常、音声合成システムにおいては目標のF0値を持つ合成音声を得られるが本実施形態では必ずしも目標のF0値を持った合成音声を得られるとは限らず、目標とするF0値が音声素片の許容範囲内に存在しない場合は目標のF0とは異なった合成音声が出力されるが、その代わりに韻律変形の量に制限を課すことで必ず肉声らしさを保持した合成音声を得られるという利点を持つ。
【0075】
従って、特開2000−194390号公報に開示される従来例は合成音声のイントネーションを重視し、本実施形態は、合成目標のイントネーションとの差異を許し、その代わりに合成音声の肉声らしさを重視しているという大きな方向性の違いがある。
【0076】
尚、上記実施形態及び各実施例は、本発明の一具体例であって本発明が上記具体例の構成のみに限定されないことは言うまでもないことである。
【0077】
また、上記の音声合成プログラムを記録したコンピュータ読み取り可能な情報記憶媒体を作成することにより、上記音声合成コンピュータプログラムを容易に配布することが可能になる。
【0078】
【発明の効果】
以上説明したように本発明によれば、韻律変形による品質劣化の許容範囲内で合成を行うことで、肉声らしさと音声素片間の基本周波数の整合性の両方を実現する高品質な音声を合成することができる。その結果、各種情報案内等従来のサービスにおいてより高品質な合成音声を提供することが可能となり、また従来は品質の問題から合成音声を利用できなかった分野においても音声合成技術を利用可能になる。
【図面の簡単な説明】
【図1】本発明に係る音声素片のもつ基本周波数パタンと劣化の許容範囲との関係を説明する図
【図2】本発明の一実施形態における音声合成装置を示す機能構成図
【図3】本発明の一実施形態における音声合成手段の詳細構成を示す図
【図4】本発明の一実施形態における音声合成手段の音声合成動作を説明するフローチャート
【図5】本発明の一実施形態における第1実施例の音声合成方法を説明する図
【図6】本発明の一実施形態における第2実施例の音声合成方法を説明する図
【図7】本発明の一実施形態における第2実施例の音声合成方法を説明する図
【図8】本発明の一実施形態における第3実施例の音声合成方法を説明する図
【符号の説明】
101…基本周波数パタン、102…韻律変形による劣化が聞き取れない範囲、103…劣化するが許容できる範囲、104a,104b…劣化がひどくて許容できない範囲、200…音声合成装置、201…テキスト入力手段、202…音声合成データベース、203…音声素片選択手段、204…音声素片記憶手段、205…音声合成手段、206…合成音声記憶手段、207…合成音声出力手段、301…劣化許容範囲決定手段、302…品質劣化量データベース、303…韻律変形量制御手段、304…韻律変形手段、511a〜511d,511a'〜511d'…音声素片、512…許容範囲(第1許容範囲)、513…理想的な音声パタン、611,612,711,712…ギャップが大きい部分、613,713…許容範囲(第2許容範囲)、811a〜811c…音声素片、812…第1許容範囲、813…第2許容範囲。
Claims (8)
- 音声素片が蓄積されているデータベースを備え、入力された文字データを音声に変換するコンピュータ装置からなる音声合成装置を用いて、前記データベースから選択された音声素片に対して韻律変形を行って前記文字データに対応する音声を合成する音声合成方法において、
前記音声合成装置は、
合成する音声全体のうち韻律変形を行っても品質が劣化しない区間の長さにおける品質劣化の第2許容範囲に基づき、連続する2つの音声素片間の接続点を含む前記第2許容範囲の区間内で前後の音声素片のもつ基本周波数値の変化が滑らかになるように韻律変形を行い、前記連続する2つの音声素片を連結して音声を合成する
ことを特徴とする音声合成方法。 - 音声素片が蓄積されているデータベースを備え、入力された文字データを音声に変換するコンピュータ装置からなる音声合成装置を用いて、前記データベースから選択された音声素片に対して韻律変形を行って前記文字データに対応する音声を合成する音声合成方法において、
前記音声合成装置は、
前記データベースから選択された音声素片の基本周波数パタンに対して、韻律変形によって音声素片の持つ基本周波数パタンの形状を保ったまま基本周波数の値を上下させたときの品質劣化の第1許容範囲に基づき、連続する2つの音声素片間の接続点における基本周波数値の差の値を最小化するように、韻律変形によって各音声素片の持つ基本周波数パタンの形状を平行に移動させると共に、
合成する音声全体のうち、韻律変形を行っても品質が劣化しない区間の長さにおける品質劣化の第2許容範囲に基づき、連続する2つの音声素片間の接続点を含む前記第2許容範囲の区間内で前後の音声素片のもつ基本周波数値の変化が滑らかになるように韻律変形を行い、前記連続する2つの音声素片を連結して音声を合成する
ことを特徴とする音声合成方法。 - 前記第2許容範囲は、韻律変形を行った区間が何ms連続しているかという長さと、合計する音声全体の長さに対して韻律変形を行った区間の長さが何%なのかという2つの許容範囲からなる
ことを特徴とする請求項1又は請求項2に記載の音声合成方法。 - 入力された文字データに対応する音声を合成する音声合成装置において、
複数の音声素片と、合成する音声全体のうち音声素片に対して韻律変形を行っても品質が劣化しない区間の長さにおける品質劣化の第2許容範囲とが蓄積されているデータベースと、
音声合成対象となる文字データを入力する手段と、
前記入力された文字データに対応する音声素片を前記データベースから選択抽出する手段と、
前記入力された文字データに対応する音声素片に対して、連続する2つの音声素片間の接続点を含む前記第2許容範囲の区間内で前後の音声素片のもつ基本周波数値の変化が滑らかになるように韻律変形を行い、前記連続する2つの音声素片を連結して音声を合成する手段とを備えている
ことを特徴とする音声合成装置。 - 入力された文字データに対応する音声を合成する音声合成装置において、
複数の音声素片と、各音声素片毎に音声素片の基本周波数パタンに対して、韻律変形によって音声素片の持つ基本周波数パタンの形状を保ったまま基本周波数の値を上下させたときの品質劣化の第1許容範囲と、合成する音声全体のうち音声素片に対して韻律変形を行っても品質が劣化しない区間の長さにおける品質劣化の第2許容範囲とが蓄積されているデータベースと、
音声合成対象となる文字データを入力する手段と、
前記入力された文字データに対応する音声素片を前記データベースから選択抽出する手段と、
前記入力された文字データに対応して連続する2つの音声素片間の接続点における基本周波数値の差の値を最小化するように、前記第1許容範囲内で韻律変形によって各音声素片の持つ基本周波数パタンの形状を基本周波数の値を上下させて平行に移動させると共に、韻律変形を行う時間軸上での区間の長さにおける品質劣化の第2許容範囲に基づき、連続する2つの音声素片間の接続点を含む前記第2許容範囲の区間内で前後の音声素片のもつ基本周波数値の変化が滑らかになるように韻律変形を行い、前記連続する2つの音声素片を連結して音声を合成する手段とを備えている
ことを特徴とする音声合成装置。 - 前記第2許容範囲は、韻律変形を行った区間が何ms連続しているかという長さと、合計する音声全体の長さに対して韻律変形を行った区間の長さが何%なのかという2つの許容範囲からなる
ことを特徴とする請求項4又は請求項5に記載の音声合成装置。 - 請求項4乃至6のいずれか1項に記載の音声合成装置を構成する各手段としてコンピュータを機能させる音声合成コンピュータプログラム。
- 前記請求項7に記載の音声合成コンピュータプログラムが記憶されていることを特徴とするコンピュータ読み取り可能な情報記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003141492A JP4274852B2 (ja) | 2003-05-20 | 2003-05-20 | 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003141492A JP4274852B2 (ja) | 2003-05-20 | 2003-05-20 | 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004347653A JP2004347653A (ja) | 2004-12-09 |
JP4274852B2 true JP4274852B2 (ja) | 2009-06-10 |
Family
ID=33529833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003141492A Expired - Lifetime JP4274852B2 (ja) | 2003-05-20 | 2003-05-20 | 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4274852B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011030424A1 (ja) * | 2009-09-10 | 2011-03-17 | 株式会社東芝 | 音声合成装置およびプログラム |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008139631A (ja) * | 2006-12-04 | 2008-06-19 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法、装置、プログラム |
JP5434587B2 (ja) * | 2007-02-20 | 2014-03-05 | 日本電気株式会社 | 音声合成装置及び方法とプログラム |
JP5366919B2 (ja) * | 2010-12-07 | 2013-12-11 | 日本電信電話株式会社 | 音声合成方法、装置、及びプログラム |
JP6446993B2 (ja) | 2014-10-20 | 2019-01-09 | ヤマハ株式会社 | 音声制御装置およびプログラム |
TWI662544B (zh) * | 2018-05-28 | 2019-06-11 | 塞席爾商元鼎音訊股份有限公司 | 偵測環境噪音以改變播放語音頻率之方法及其聲音播放裝置 |
CN110570875A (zh) * | 2018-06-05 | 2019-12-13 | 塞舌尔商元鼎音讯股份有限公司 | 检测环境噪音以改变播放语音频率的方法及声音播放装置 |
CN110648686B (zh) * | 2018-06-27 | 2023-06-23 | 达发科技股份有限公司 | 调整语音频率的方法及其声音播放装置 |
-
2003
- 2003-05-20 JP JP2003141492A patent/JP4274852B2/ja not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011030424A1 (ja) * | 2009-09-10 | 2011-03-17 | 株式会社東芝 | 音声合成装置およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2004347653A (ja) | 2004-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3913770B2 (ja) | 音声合成装置および方法 | |
US8234110B2 (en) | Voice conversion method and system | |
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP2008203543A (ja) | 声質変換装置及び音声合成装置 | |
JPS62160495A (ja) | 音声合成装置 | |
JP2009047957A (ja) | ピッチパターン生成方法及びその装置 | |
JP4274852B2 (ja) | 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 | |
JP2001282278A (ja) | 音声情報処理装置及びその方法と記憶媒体 | |
Takano et al. | A Japanese TTS system based on multiform units and a speech modification algorithm with harmonics reconstruction | |
CN112185341A (zh) | 基于语音合成的配音方法、装置、设备和存储介质 | |
Mizutani et al. | Concatenative speech synthesis based on the plural unit selection and fusion method | |
CN105719641B (zh) | 用于波形拼接语音合成的选音方法和装置 | |
JP3601974B2 (ja) | 音声合成装置及び音声合成方法 | |
JP4476855B2 (ja) | 音声合成装置及びその方法 | |
JP4468506B2 (ja) | 音声データ作成装置および声質変換方法 | |
JP4454780B2 (ja) | 音声情報処理装置とその方法と記憶媒体 | |
EP1453036A1 (en) | Method and apparatus for synthesizing speech from text | |
JP5275470B2 (ja) | 音声合成装置およびプログラム | |
JP2010078808A (ja) | 音声合成装置及び方法 | |
JP4414864B2 (ja) | 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体 | |
WO2013011634A1 (ja) | 波形処理装置、波形処理方法および波形処理プログラム | |
JP3310226B2 (ja) | 音声合成方法および装置 | |
JP2005241789A (ja) | 素片接続型音声合成装置及び方法、並びに音声素片データベースの作成方法 | |
JP2004341259A (ja) | 音声素片伸縮装置およびその方法 | |
JP5620776B2 (ja) | 話速調整装置、音声合成システム、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050804 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080313 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080422 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080612 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090302 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090303 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4274852 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120313 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130313 Year of fee payment: 4 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |