JP4274852B2

JP4274852B2 - 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体

Info

Publication number: JP4274852B2
Application number: JP2003141492A
Authority: JP
Inventors: 未来長谷部; 匡伸阿部; 秀之水野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-05-20
Filing date: 2003-05-20
Publication date: 2009-06-10
Anticipated expiration: 2023-05-20
Also published as: JP2004347653A

Description

【０００１】
【発明の属する技術分野】
本発明は、基本周波数の変更による音声劣化を低減して高品質な音声を合成できる音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体に関するものである。
【０００２】
【従来の技術】
従来、電話による株価案内システム等、各種情報案内システムや、Ｅメール・Ｗｅｂの読み上げ等、様々な分野で合成音声が利用されている。しかし、現状の合成音声は人間の発声に比べてまだ十分な品質を達成できておらず、合成音声の品質向上への要望は強い。
【０００３】
従来の音声合成システムとして、データベースから音声素片を選択し、韻律を変形せずに選択された音声素片をそのまま出力することで肉声らしさや音声の個人性を伝える音声合成システムが存在する（第１従来例：［参考文献：特許第２７６１５５２号、「音声合成装置」］）。
【０００４】
また、韻律変形を行う方法によって、音声劣化の許容範囲の広さやその分布が異なる。例えば、ＰＳＯＬＡ法は下方向への許容範囲は広く、ＨＡＲＰ法は上方向への許容範囲が広いことが知られている（第２従来例：［参考文献：A NEW F0 MODIFICATION ALGORITHM BY MANIPULATING HARMONICS OF MAGNITUDE SPECTRUM", Satoshi TAKANO, Masanobu ABE, Eurospeech '99]）。
【０００５】
さらに、音声素片の基本周波数パタンの変形の種類においては、基本周波数パタンを平行に移動した場合と、基本周波数の形状を任意に変化させた場合を比較すると、同程度の変形量でも平行に移動した場合における劣化の許容範囲の方が広いことが知られている（第３従来例：［参考文献：高野，阿部，音講論，PP．217−218．2000(3)］）。
【０００６】
また、イントネーションが不自然にならないように工夫した音声合成方法が特開２０００−１９４３９０号公報に開示されている。
【０００７】
【特許文献１】
特許第２７６１５５２号公報
【特許文献２】
特開２０００−１９４３９０号公報
【非特許文献１】
A NEW FO MODIFICATION ALGORITHM BY MANIPULATING HARMONICS OF MAGNITUDE SPECTRUM", Satoshi TAKANO, Masanobu ABE, Eurospeech '99
【非特許文献２】
高野，阿部，音講論，PP．217−218．2000(3)
【０００８】
【発明が解決しようとする課題】
しかしながら、上記第１従来例のような音声合成システムにおいては、肉声らしい声質の合成音声を得られる代わりに、データベースに十分な音声素片が無い場合や、データベースから上手く選択できなかった場合に、音声素片間での基本周波数の不整合が生じることがあり、この場合、音質が劣化するという問題がある。
【０００９】
また、第２従来例及び第３従来例では、音声劣化の許容範囲に関して理論的に述べられているにすぎず、どのようにして実用化するかは明確ではない。
【００１０】
また、第４従来例では、合成する目標となる基本周波数パタンに対してイントネーションが不自然にならない許容範囲を設けることを特徴としており、合成された音声のイントネーションは必ず正しくなるが、音声素片の基本周波数値が目標とかけ離れた値だった揚合は音声の持つ肉声らしさが著しく損なわれるという問題点がある。
【００１１】
本発明の目的は上記の問題点に鑑み、基本周波数の変更による音声劣化を低減して高品質な音声を合成できる音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体を提供することである。
【００１２】
【課題を解決するための手段】
本発明は上記の目的を達成するために、音声素片が蓄積されているデータベースを備え、入力された文字データを音声に変換するコンピュータ装置からなる音声合成装置を用いて、前記データベースから選択された音声素片に対して韻律変形を行って前記文字データに対応する音声を合成する音声合成方法において、前記音声合成装置は、合成する音声全体のうち韻律変形を行っても品質が劣化しない区間の長さにおける品質劣化の第２許容範囲に基づき、連続する２つの音声素片間の接続点を含む前記第２許容範囲の区間内で前後の音声素片のもつ基本周波数値の変化が滑らかになるように韻律変形を行い、前記連続する２つの音声素片を連結して音声を合成する音声合成方法を提案する。
【００１３】
さらに、本発明は上記の目的を達成するために、音声素片が蓄積されているデータベースを備え、入力された文字データを音声に変換するコンピュータ装置からなる音声合成装置を用いて、前記データベースから選択された音声素片に対して韻律変形を行って前記文字データに対応する音声を合成する音声合成方法において、前記音声合成装置は、前記データベースから選択された音声素片の基本周波数パタンに対して、韻律変形によって音声素片の持つ基本周波数パタンの形状を保ったまま基本周波数の値を上下させたときの品質劣化の第１許容範囲に基づき、連続する２つの音声素片間の接続点における基本周波数値の差の値を最小化するように、韻律変形によって各音声素片の持つ基本周波数パタンの形状を平行に移動させると共に、合成する音声全体のうち、韻律変形を行っても品質が劣化しない区間の長さにおける品質劣化の第２許容範囲に基づき、連続する２つの音声素片間の接続点を含む前記第２許容範囲の区間内で前後の音声素片のもつ基本周波数値の変化が滑らかになるように韻律変形を行い、前記連続する２つの音声素片を連結して音声を合成する音声合成方法を提案する。
【００１４】
また、本発明は上記の目的を達成するために、上記音声合成方法において、前記第２許容範囲は、韻律変形を行った区間が何ｍｓ連続しているかという長さと、合計する音声全体の長さに対して韻律変形を行った区間の長さが何％なのかという２つの許容範囲からなる音声合成方法を提案する。
【００１５】
上記本発明の音声合成方法では、韻律変形を行う場合においても、その変形量が十分小さい場合には、合成音声の品質劣化もまた小さいという事実を利用している。即ち、データベースから選択抽出された音声素片に対して韻律変形を行う場合に、韻律変形による劣化が起こらないか、もしくは劣化が生じてもそれを許容できる範囲で韻律変形を行う。
【００１６】
具体的には、図１に示すように、ある音声素片のもつ基本周波数パタン101があった場合、韻律変形による劣化が聞き取れない範囲102、劣化するが許容できる範囲103、劣化がひどくて許容できない範囲104a,104bが存在する。これらの範囲は様々な要因によって変化する。
【００１７】
また、合成した音声全体の中で、韻律変形を行った個所の継続時間が短いほど劣化は聞き取り難くなるため、韻律変形の時間が短く、且つ韻律変形を行う回数が少ないほど劣化が少なくなるので、本発明では、韻律変形を行う時間軸上での区間の長さに許容範囲をもたせ、該許容範囲内で韻律変形を行っている。
【００１８】
従って、本発明の音声合成方法では、韻律変形による品質劣化の許容範囲をこれらの要素から予測してデータベース化しておき、その後に、それぞれの音声素片について劣化の許容範囲内で各音声素片間の基本周波数値の差の値を最小化するように韻律変形を行っているので、韻律変形による音声素片の劣化を防ぎつつ、尚且つ接続する音声素片間の基本周波数の不連続性や合成目標となる基本周波数パタンとの差異を最小限に抑えた高品質な音声を合成することが可能となる。
【００１９】
また、本発明は上記の音声合成方法を実施するための音声合成装置として、入力された文字データに対応する音声を合成する音声合成装置において、複数の音声素片と、合成する音声全体のうち音声素片に対して韻律変形を行っても品質が劣化しない区間の長さにおける品質劣化の第２許容範囲とが蓄積されているデータベースと、音声合成対象となる文字データを入力する手段と、前記入力された文字データに対応する音声素片を前記データベースから選択抽出する手段と、前記入力された文字データに対応する音声素片に対して、連続する２つの音声素片間の接続点を含む前記第２許容範囲の区間内で前後の音声素片のもつ基本周波数値の変化が滑らかになるように韻律変形を行い、前記連続する２つの音声素片を連結して音声を合成する手段とを備えている音声合成装置を提案する。
【００２０】
さらに、本発明は上記の音声合成方法を実施するための音声合成装置として、入力された文字データに対応する音声を合成する音声合成装置において、複数の音声素片と、各音声素片毎に音声素片の基本周波数パタンに対して、韻律変形によって音声素片の持つ基本周波数パタンの形状を保ったまま基本周波数の値を上下させたときの品質劣化の第１許容範囲と、合成する音声全体のうち音声素片に対して韻律変形を行っても品質が劣化しない区間の長さにおける品質劣化の第２許容範囲とが蓄積されているデータベースと、音声合成対象となる文字データを入力する手段と、前記入力された文字データに対応する音声素片を前記データベースから選択抽出する手段と、前記入力された文字データに対応して連続する２つの音声素片間の接続点における基本周波数値の差の値を最小化するように、前記第１許容範囲内で韻律変形によって各音声素片の持つ基本周波数パタンの形状を基本周波数の値を上下させて平行に移動させると共に、韻律変形を行う時間軸上での区間の長さにおける品質劣化の第２許容範囲に基づき、連続する２つの音声素片間の接続点を含む前記第２許容範囲の区間内で前後の音声素片のもつ基本周波数値の変化が滑らかになるように韻律変形を行い、前記連続する２つの音声素片を連結して音声を合成する手段とを備えている音声合成装置を提案する。
【００２１】
また、本発明は上記の目的を達成するために、上記音声合成装置において、前記第２許容範囲は、韻律変形を行った区間が何ｍｓ連続しているかという長さと、合計する音声全体の長さに対して韻律変形を行った区間の長さが何％なのかという２つの許容範囲からなる音声合成方法を提案する。
【００２２】
また、本発明は上記の音声合成方法を実施するための音声合成装置を周知のコンピュータ装置によって容易に構成するためのコンピュータプログラムとして、上記音声合成装置を構成する各手段としてコンピュータを機能させる音声合成コンピュータプログラムを提案する。
【００２５】
また、本発明は、上記音声合成コンピュータプログラムを容易に配布可能にするために、上記音声合成コンピュータプログラムが記憶されているコンピュータ読み取り可能な情報記憶媒体を提案する。
【００２６】
【発明の実施の形態】
以下、図面に基づいて本発明の一実施形態を説明する。
【００２７】
図２は本発明の一実施形態における音声合成装置を示す機能構成図である。図において、200は音声合成装置で、周知のコンピュータ装置によって構成され、予め設定されている音声合成コンピュータプログラムによって駆動する。
【００２８】
また、音声合成装置200は、テキスト入力手段201と、音声合成データベース202、音声素片選択手段203、音声素片記憶手段204、音声合成手段205、合成音声記憶手段206、合成音声出力手段207とから構成されている。尚、これらの構成部分は、コンピュータ装置のハードウェア及びソフトウェアの双方によって構成されている。
【００２９】
テキスト入力手段201は、ワープロ等で作成した、かな漢字混じり文のテキストを音声合成のための文字データとして入力する。
【００３０】
音声合成データベース202は、音声波形や、音声の基本周波数パタン（以下、基本周波数を単にＦ₀と称する）、音声波形に対応する音素ラベル列、音素の境界を示すラベルデータ、などの音声合成のために必要な情報が予め実験等によって求められて格納されているデータベースである。
【００３１】
音声素片選択手段203は、音声合成データベース202の中から合成したいテキストに適合する音声素片を選択する部分であり、音声合成データベース202から合成に使用可能な音声素片を検索し、コスト計算の後に最適な音声素片を選択し出力する。
【００３２】
音声素片記憶手段204は、音声素片選択手段203によって音声合成データベース202から選択抽出された音声素片を一時的に記憶する。
【００３３】
音声合成手段205は、選択された音声素片に対して韻律変形処理を行い、音声素片を接続して合成音声として出力する。
【００３４】
合成音声記憶手段206は、音声合成手段205によって生成された合成音声を一時的に記憶する。
【００３５】
合成音声出力手段207は、合成音声記憶手段206に記憶されている合成音声を出力する。
【００３６】
また、上記音声合成手段205は、図３に示すように、劣化許容範囲決定手段301と、品質劣化量データベース302、韻律変形量制御手段303、韻律変形手段304とから構成されている。尚、これらの構成部分は、コンピュータ装置のハードウェア及びソフトウェアの双方によって構成されている。
【００３７】
劣化許容範囲決定手段301は、音声素片記憶手段204に記憶されている各音声素片に対して音声素片毎の韻律変形の許容範囲を、品質劣化量データベース302に格納されている許容範囲の値に基づいて決定する。
【００３８】
品質劣化量データベース302には、音声素片毎に品質劣化量に関する韻律変形の許容範囲の値が格納されている。この許容範囲は、韻律変形を施した音声を実際に試聴し、劣化が聞き取れる範囲、劣化していても許容できる範囲を評価する実験等によってあらかじめ得た値である。
【００３９】
また、品質劣化量データベース302には、上記許容範囲として、音声素片の基本周波数パタンに対して、韻律変形によって音声素片の持つ基本周波数パタンの形状を保ったまま基本周波数の値を上下させたときの品質劣化の第１許容範囲と、韻律変形を行う時間軸上での区間の長さにおける品質劣化の第２許容範囲とが格納されている。
【００４０】
韻律変形量制御手段303は、音声素片毎に品質劣化量データベース302から選択された前記第１許容範囲内で韻律変形量を制御すると共に、前記第２許容範囲内で韻律変形量を制御する。
【００４１】
韻律変形手段304は、韻律変形量制御手段303によって制御された前記第１許容範囲内の変形量に基づき、連続する２つの音声素片間の接続点における基本周波数値の差の値を最小化するように、韻律変形によって各音声素片の持つ基本周波数パタンの形状を平行に移動させて韻律変形を行うか、または前記第２許容範囲内の変形量に基づき、連続する２つの音声素片間の接続点を含む前記第２許容範囲の区間内で前後の音声素片のもつ基本周波数値の変化が滑らかになるように韻律変形を行うか、あるいはこれらの双方によって韻律変形を行う。
【００４２】
次に、上記構成よりなる音声合成装置の動作に関して図４のフローチャートを参照して詳細に説明する。尚、以下の説明においては、本発明の特徴部分である音声合成手段205における音声合成プログラム処理に関して特に詳細に説明する。
【００４３】
劣化許容範囲決定手段301の処理において、Ｎ個の音声素片のそれぞれについて劣化許容範囲を設定する（401,402）。
【００４４】
音声素片の劣化には、404で計算している韻律変形に伴う品質劣化量と、405で計算している音声素片を接続した際に生じるＦ₀差による品質劣化量、と言う２種類の劣化がある。韻律変形量が大きいと404の劣化量もまた大きくなるが、大きく韻律変形することによって音声素片間のＦ₀差を小さくできるため405の劣化が少なくなる、というように404と405の劣化量はトレードオフの関係にあるため、各音声素片の韻律変形量について、２つの品質劣化を最小化するような最適な韻律変形量の組合せをＤＰ等のアルゴリズムを用いて探索する(403〜406)。
【００４５】
上記韻律変形量制御手段303の処理によって各音声素片の最適な韻律変形量の組合せが求まった後、これに基づいて、Ｎ個の音声素片のそれぞれについて韻律変形を行う（407,408）。
【００４６】
（第１実施例）
次に、本実施形態における第１実施例を説明する。
【００４７】
第１実施例では、音声合成データベース202 から選択された音声素片の基本周波数パタンに対して、韻律変形によって音声素片の持つ基本周波数パタンの形状を保ったまま基本周波数の値を上下させたときの品質劣化の第１許容範囲に基づき、連続する２つの音声素片間の接続点における基本周波数値の差の値を最小化するように、韻律変形によって各音声素片の持つ基本周波数パタンの形状を平行に移動させて前記連続する２つの音声素片を連結して音声を合成する方法を実施する音声合成装置に関して説明する。
【００４８】
第１実施例では、劣化許容範囲決定手段301の韻律変形による品質劣化の許容範囲を決定する処理において、各音声素片の持つＦ₀パタンに対して、図５に示すように劣化の許容範囲を決定する事を特徴とする。
【００４９】
この許容範囲は、前述した第１許容範囲に相当し、前述のように韻律変形を施した音声を実際に試聴し、劣化が聞き取れる範囲、劣化していても許容できる範囲を評価する実験等によってあらかじめ得た値を品質劣化量データベース302に保存し、その値を用いる。
【００５０】
例えば、用いようとする韻律変形方式について、各音声素片511a〜511dの持つＦ₀値を±１０％程度、Ｆ₀パタン全体の形状を保持したまま平行に移動した場合は劣化が聞き取れず、±１５％程度の平行移動であれば劣化は聞き取れるが許容できるというような実験結果が得られていた場合、その音声素片511a〜511dについて、Ｆ₀パタンを平行移動することが可能な範囲（第１許容範囲）512を、±１５％までと設定する。
【００５１】
このように設定された許容範囲512に従い、劣化許容範囲決定手段301の処理において、Ｎ個の音声素片のそれぞれについて劣化許容範囲、すなわち各音声素片について上記のようにＦ₀値を平行移動可能な範囲を設定した後、韻律変形量制御手段303の処理において、各音声素片の韻律変形による劣化と、各音声素片の接続点におけるＦ₀差による劣化の二つを考慮して、劣化が最小となるような音声素片の韻律変形量の組み合わせを決定し、図５に示すように音声素片511a〜511dを平行に移動した音声素片511a'〜511d'を得る。その結果、音声の肉声らしさを保ったまま513のような理想的なＦ₀パタンに近づけることが可能となり、高品質な音声を合成することが可能となる。
【００５２】
このとき、選択された音声素片が１〜ｍ個存在した場合においては、あるｎ番目の音声素片Unit[n]（以下、単にU[n]と称する）について、ｎ番目の音声素片の許容範囲をRange[n]（以下、単にR[n]と称する）とし、そのR[n]の範囲の中で実際にＦ₀値をValue[n]（以下、単にV[n]と称する）だけ変形した場合に、Ｆ₀値の変形量V[n]に対する品質劣化量を次の式(1)によって表されるQualityVoice[n]（以下、単にQV[n]と称する）とする。
【００５３】
【数１】

【００５４】
また、音声素片U[n]とU[n+1]の接続点におけるＦ₀値をOriginalF₀[n]（以下、単にＯＦ₀[n]と称する）、OriginalF₀[n+1]（以下、単にＯＦ₀[n+1]と称する）、ＯＦ₀[n]、ＯＦ₀[n+1]をそれぞれV[n]］、V[n+1]だけ変形した後の接続点におけるＦ₀値をＦ₀[n]、Ｆ₀[n+1]とすると、Ｆ₀[n]、ＯＦ₀[n]の関係は次の式(2)のようになる。
【００５５】
【数２】

【００５６】
Ｆ₀[n]とＦ₀[n+1]のギャップによる品質劣化量を次の式(3)によって表されるQualityGap[n,n+1]（以下、単にＱＧ[n,n+1]と称する)とする。
【００５７】
【数３】

【００５８】
その場合、ＱＧ、ＱＶで表される品質劣化量は少なければ少ないほど良いため、全ＱＧを加算した値に対して重み（α１）を掛けた値と、同じく全ＱＶの総計に重み（α２）を掛けた値の和を最小化するようなＦ₀値の変形量Ｖ[n]の組合わせを次の式(4)によって求める。
【００５９】
【数４】

【００６０】
韻律変形手段304では、韻律変形量制御手段303の処理の結果に従い、各音声素片に対して韻律変形を行った後、合成音声として出力する。
【００６１】
（第２実施例）
次に、本実施形態における第２実施例を説明する。
【００６２】
第２実施例では、韻律変形を行う時間軸上での区間の長さにおける品質劣化の許容範囲に基づき、連続する２つの音声素片間の接続点を含む第２許容範囲の区間内で前後の音声素片のもつ基本周波数値の変化が滑らかになるように韻律変形を行い、連続する２つの音声素片を連結して音声を合成する方法を実施する音声合成装置に関して説明する。
【００６３】
第２実施例では、劣化許容範囲決定手段301の韻律変形による品質劣化の許容範囲を決定する処理において、合成する音声全体のうち、韻律変形を行っても品質が劣化しない区間の長さを設定することを特徴とする。
【００６４】
この許容範囲は、前述した第２許容範囲に相当し、この劣化しない区間の長さの許容範囲は、韻律変形を行った区間が何ｍｓ連続しているかという長さと、合成する音声全体の長さに対して韻律変形を行った区間の長さが何％なのかという２つの許容範囲があり、上記第１実施例の場合のようにその値を品質劣化量データベース302に保存して用いる。
【００６５】
例えば、用いようとする韻律変形方式において、連続して何ｍｓ韻律変形を行うと劣化が聞き取れるかについて、連続した８０ｍｓの区間に韻律変形を行った場合には劣化が聞き取れず、１６０ｍｓ程度においては劣化は聞き取れるが許容できるというような実験結果が得られていた場合、連続して韻律変形を行うことが可能な区間の許容範囲を１６０ｍｓまでと設定する。
【００６６】
また、同じく用いようとする韻律変形方式において、音声全体の長さに対して韻律変形を行った区間の比率について、全体の１０％の区間に対して韻律変形を行った場合は劣化が聞き取れず、２０％程度の区間に対して韻律変形を行った場合は、劣化は聞き取れるが許容できるというような実験結果が得られていた場合、韻律変形を行う区間は音声全体の長さに対して２０％までと設定する。
【００６７】
このように設定された許容範囲に従い、図６及び図７に示すように、韻律変形量制御手段303の処理において音声素片間のＦ₀値のギャップが大きい部分611a,612a,714,715から順番に、出来る限り劣化が聞き取れない範囲の移動で音声素片のＦ₀値が滑らかに遷移するように、設定された許容範囲613,713内で韻律変形を行う区間とその長さを決定する。
【００６８】
韻律変形手段304では、韻律変形量制御手段303の結果に従い、各音声素片に対して韻律変形を行った後、合成音声として出力する。
【００６９】
これにより、図６に示す音声合成処理おいては、音声素片611の許容範囲613内に存在する部分611aと、音声素片612の許容範囲613内に存在する部分612aとに韻律変形処理が施されて許容範囲613内において滑らかな音声パタン614が生成される。また、図７に示す音声合成処理おいては、音声素片711と音声素片712の間に位置する許容範囲713内に存在する音声素片714,715に韻律変形処理が施されて許容範囲713内において滑らかな音声パタン716が生成される。
【００７０】
（第３実施例）
次に、本実施形態における第３実施例を説明する。
【００７１】
第３実施例では、上記の第１実施例において説明した音声素片のＦ₀パタンを平行移動して韻律変形する方法と、第２実施例において説明した許容範囲の区間内で韻律変形を行う方法の両方を同時に行うことを特徴とする。
【００７２】
例えば、図８に示すように、選択された音声素片811a〜811cにおいて、音声素片811a〜811c間のＦ₀値の不連続性の大きさとその音声素片811a〜811cの継続時間の両方を考慮し、上記第１実施例及び第２実施例の場合のように各音声素片811a〜811cを第１許容範囲812内で平行移動し、さらに第２許容範囲813の区間内で音声パタンが滑らかに変化するように韻律変形を施した音声パタン814を生成することによって、Ｆ₀値が滑らかに遷移するように音声を合成する。
【００７３】
前述したように本実施形態は、選択された音声素片自体が持つＦ₀パタンに対して韻律変形を加える許容範囲を設定することに特徴ある。
【００７４】
そのため、通常、音声合成システムにおいては目標のＦ₀値を持つ合成音声を得られるが本実施形態では必ずしも目標のＦ₀値を持った合成音声を得られるとは限らず、目標とするＦ₀値が音声素片の許容範囲内に存在しない場合は目標のＦ₀とは異なった合成音声が出力されるが、その代わりに韻律変形の量に制限を課すことで必ず肉声らしさを保持した合成音声を得られるという利点を持つ。
【００７５】
従って、特開２０００−１９４３９０号公報に開示される従来例は合成音声のイントネーションを重視し、本実施形態は、合成目標のイントネーションとの差異を許し、その代わりに合成音声の肉声らしさを重視しているという大きな方向性の違いがある。
【００７６】
尚、上記実施形態及び各実施例は、本発明の一具体例であって本発明が上記具体例の構成のみに限定されないことは言うまでもないことである。
【００７７】
また、上記の音声合成プログラムを記録したコンピュータ読み取り可能な情報記憶媒体を作成することにより、上記音声合成コンピュータプログラムを容易に配布することが可能になる。
【００７８】
【発明の効果】
以上説明したように本発明によれば、韻律変形による品質劣化の許容範囲内で合成を行うことで、肉声らしさと音声素片間の基本周波数の整合性の両方を実現する高品質な音声を合成することができる。その結果、各種情報案内等従来のサービスにおいてより高品質な合成音声を提供することが可能となり、また従来は品質の問題から合成音声を利用できなかった分野においても音声合成技術を利用可能になる。
【図面の簡単な説明】
【図１】本発明に係る音声素片のもつ基本周波数パタンと劣化の許容範囲との関係を説明する図
【図２】本発明の一実施形態における音声合成装置を示す機能構成図
【図３】本発明の一実施形態における音声合成手段の詳細構成を示す図
【図４】本発明の一実施形態における音声合成手段の音声合成動作を説明するフローチャート
【図５】本発明の一実施形態における第１実施例の音声合成方法を説明する図
【図６】本発明の一実施形態における第２実施例の音声合成方法を説明する図
【図７】本発明の一実施形態における第２実施例の音声合成方法を説明する図
【図８】本発明の一実施形態における第３実施例の音声合成方法を説明する図
【符号の説明】
101…基本周波数パタン、102…韻律変形による劣化が聞き取れない範囲、103…劣化するが許容できる範囲、104a,104b…劣化がひどくて許容できない範囲、200…音声合成装置、201…テキスト入力手段、202…音声合成データベース、203…音声素片選択手段、204…音声素片記憶手段、205…音声合成手段、206…合成音声記憶手段、207…合成音声出力手段、301…劣化許容範囲決定手段、302…品質劣化量データベース、303…韻律変形量制御手段、304…韻律変形手段、511a〜511d,511a'〜511d'…音声素片、512…許容範囲（第１許容範囲）、513…理想的な音声パタン、611,612,711,712…ギャップが大きい部分、613,713…許容範囲（第２許容範囲）、811a〜811c…音声素片、812…第１許容範囲、813…第２許容範囲。

Claims

音声素片が蓄積されているデータベースを備え、入力された文字データを音声に変換するコンピュータ装置からなる音声合成装置を用いて、前記データベースから選択された音声素片に対して韻律変形を行って前記文字データに対応する音声を合成する音声合成方法において、
前記音声合成装置は、
合成する音声全体のうち韻律変形を行っても品質が劣化しない区間の長さにおける品質劣化の第２許容範囲に基づき、連続する２つの音声素片間の接続点を含む前記第２許容範囲の区間内で前後の音声素片のもつ基本周波数値の変化が滑らかになるように韻律変形を行い、前記連続する２つの音声素片を連結して音声を合成する
ことを特徴とする音声合成方法。
音声素片が蓄積されているデータベースを備え、入力された文字データを音声に変換するコンピュータ装置からなる音声合成装置を用いて、前記データベースから選択された音声素片に対して韻律変形を行って前記文字データに対応する音声を合成する音声合成方法において、
前記音声合成装置は、
前記データベースから選択された音声素片の基本周波数パタンに対して、韻律変形によって音声素片の持つ基本周波数パタンの形状を保ったまま基本周波数の値を上下させたときの品質劣化の第１許容範囲に基づき、連続する２つの音声素片間の接続点における基本周波数値の差の値を最小化するように、韻律変形によって各音声素片の持つ基本周波数パタンの形状を平行に移動させると共に、
合成する音声全体のうち、韻律変形を行っても品質が劣化しない区間の長さにおける品質劣化の第２許容範囲に基づき、連続する２つの音声素片間の接続点を含む前記第２許容範囲の区間内で前後の音声素片のもつ基本周波数値の変化が滑らかになるように韻律変形を行い、前記連続する２つの音声素片を連結して音声を合成する
ことを特徴とする音声合成方法。
前記第２許容範囲は、韻律変形を行った区間が何ｍｓ連続しているかという長さと、合計する音声全体の長さに対して韻律変形を行った区間の長さが何％なのかという２つの許容範囲からなる
ことを特徴とする請求項１又は請求項２に記載の音声合成方法。
入力された文字データに対応する音声を合成する音声合成装置において、
複数の音声素片と、合成する音声全体のうち音声素片に対して韻律変形を行っても品質が劣化しない区間の長さにおける品質劣化の第２許容範囲とが蓄積されているデータベースと、
音声合成対象となる文字データを入力する手段と、
前記入力された文字データに対応する音声素片を前記データベースから選択抽出する手段と、
前記入力された文字データに対応する音声素片に対して、連続する２つの音声素片間の接続点を含む前記第２許容範囲の区間内で前後の音声素片のもつ基本周波数値の変化が滑らかになるように韻律変形を行い、前記連続する２つの音声素片を連結して音声を合成する手段とを備えている
ことを特徴とする音声合成装置。
入力された文字データに対応する音声を合成する音声合成装置において、
複数の音声素片と、各音声素片毎に音声素片の基本周波数パタンに対して、韻律変形によって音声素片の持つ基本周波数パタンの形状を保ったまま基本周波数の値を上下させたときの品質劣化の第１許容範囲と、合成する音声全体のうち音声素片に対して韻律変形を行っても品質が劣化しない区間の長さにおける品質劣化の第２許容範囲とが蓄積されているデータベースと、
音声合成対象となる文字データを入力する手段と、
前記入力された文字データに対応する音声素片を前記データベースから選択抽出する手段と、
前記入力された文字データに対応して連続する２つの音声素片間の接続点における基本周波数値の差の値を最小化するように、前記第１許容範囲内で韻律変形によって各音声素片の持つ基本周波数パタンの形状を基本周波数の値を上下させて平行に移動させると共に、韻律変形を行う時間軸上での区間の長さにおける品質劣化の第２許容範囲に基づき、連続する２つの音声素片間の接続点を含む前記第２許容範囲の区間内で前後の音声素片のもつ基本周波数値の変化が滑らかになるように韻律変形を行い、前記連続する２つの音声素片を連結して音声を合成する手段とを備えている
ことを特徴とする音声合成装置。
前記第２許容範囲は、韻律変形を行った区間が何ｍｓ連続しているかという長さと、合計する音声全体の長さに対して韻律変形を行った区間の長さが何％なのかという２つの許容範囲からなる
ことを特徴とする請求項４又は請求項５に記載の音声合成装置。
請求項４乃至６のいずれか１項に記載の音声合成装置を構成する各手段としてコンピュータを機能させる音声合成コンピュータプログラム。
前記請求項７に記載の音声合成コンピュータプログラムが記憶されていることを特徴とするコンピュータ読み取り可能な情報記憶媒体。