JP4202090B2

JP4202090B2 - スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法

Info

Publication number: JP4202090B2
Application number: JP2002317332A
Authority: JP
Inventors: 起承李; 正壽金; 在原李
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2001-10-31
Filing date: 2002-10-31
Publication date: 2008-12-24
Anticipated expiration: 2022-10-31
Also published as: US7277856B2; EP1308928A2; KR20030035522A; KR100438826B1; JP2003150187A; US20030083878A1; DE60228381D1; EP1308928A3; EP1308928B1

Description

【０００１】
【発明の属する技術分野】
本発明は、音声を合成するシステムに係り、特に、合成された音声の音声ユニットの転移部にスムージングの技術を適用して不連続歪みを防止する音声合成システム及びその方法に関する。
【０００２】
【従来の技術】
文字と音声とを合成する文字−音声合成（Ｔｅｘｔ−Ｔｏ−Ｓｐｅｅｃｈ：ＴＴＳ）システムとは、ユーザが任意に入力した文章を、コンピュータ等を用いて自動的に音声を生成して聴取者に聞かせる一種の音声合成システムをいう。この種のＴＴＳシステムは自動案内システム等の応用分野で汎用されており、人間と機器との対話を具現するためのキーテクノロジーの１つである。この種のＴＴＳシステムは、１９９０年代に大容量データベースに基づくコーパス基盤のＴＴＳシステムが紹介されて以来、人間の音声に一段と近い合成音を生成するに至った。また、データ−ドリブン（ｄａｔａ−ｄｒｉｖｅｎ）技術の適用された韻律を予測する技術の性能が向上され一層臨場感のある音声が得られるようになった。
【０００３】
しかしながら、この分野におけるこのような発展にも拘わらず、音声合成装置には解決すべき数々の問題点が内包されている。その問題点とは、合成された音声の音声ユニットの転移部で発生する音の不連続性である。音声合成装置は、基本的に音声ユニットの単位に分割された各々の音声信号を音素列により連結させて連続音を生成するものである。したがって、互いに隣り合った各々の音声が相異なる特性を有している場合、聴取上、歪みを来す恐れがある。このような聴取上の歪みは、スペクトルの急激な変動及び不連続性や、不自然に変動する音素の韻律、あるいは波形の変動による揺れといった形態で出現する。
【０００４】
一方、音声ユニット間の転移部で発生する不連続性を除去するために、主として２種類の方法が用いられている。１つの方法は、音声ユニットの選択時に予め連結される音声ユニット間の違いを測定し、この違いを最小化させるように音声ユニットを選択することである。もう１つの方法は、合成された音声に対して連結される音声ユニットの転移部にスムージングの技術を適用することである。
【０００５】
前者の方法については、これまで絶えず研究がなされてきており、最近では回帰特性を反映する不連続歪みを最小化する技術等が開発され、ＴＴＳシステムに実機で適用されている。これに対し、後者の方法については前者の方法に比べると研究例が少ない。その理由としては、スムージングの技術が、信号処理技術に基づく音声合成よりも音声の符号化技術により重要な要素技術であると認識されている点、及びスムージングの技術そのものが音声信号に歪みを来す恐れがあるという点が挙げられる。
【０００６】
現在、前記音声合成装置に適用されているスムージング方法では、一般に、音声符号化に用いられる方法がそのまま適用されている。図１は、音声符号化に適用される各種のスムージング方法を、そのまま音声合成に適用した場合の自然性の歪み、及び明瞭性の歪みに対する結果が示す表である。ここで適用されたスムージングの技術は、ＷＩに基づく技術、ＬＰ−ポール技術及び連続効果である。図１に示すように、各種のスムージングの技術を適用した場合よりもスムージングを適用しなかった場合に、自然性の歪み及び明瞭性の歪みがむしろ小さくなっており、音質的に優れている。この結果、音声合成にスムージングの技術を適用した場合よりも、この技術を適用しない場合の方がより音質の面で効果的であるため、音声符号化器に適用されるスムージングの技術をそのまま音声合成に適用することは好ましくないことが理解される（例えば、非特許文献１参照）。
【０００７】
音声符号化器における歪みはその大部分が量子化エラー等により発生するものであり、前記スムージングの技術においてもこのような量子化エラー等の不具合を最小化させるために用いられる技術である。しかし、音声合成装置においては録音された音声信号そのものを用いるため、音声符号化器には量子化エラーが存在せず、したがってこの場合の歪みは、誤った音声ユニットの選択や音声ユニット間のスペクトルの急激な変動、あるいは音声ユニットの不連続性に起因するものである。すなわち、前記音声符号化器と音声合成装置とは、歪みを引き起こす原因が相異なるために、音声符号化器に適用されるスムージングの技術を音声合成装置に対して同じように適用しても、同様の効果が得られない。
【０００８】
【非特許文献１】
ＩＥＥＥＴｒａｎｓ．ｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏ、ＪＡＮ／２０００ｐｐ．３９−４０
【０００９】
【発明が解決しようとする課題】
本発明は前記問題点に鑑みてなされたものであり、その第１の目的は、スムージングフィルタの係数を適切に変化させて不連続歪みを減らす音声合成システム及びその方法を提供することにある。
【００１０】
また、本発明の第２の目的は、前記音声合成方法がコンピュータにて実行可能なプログラムコードとして記録された記録媒体を提供することにある。
【００１１】
さらに、本発明の第３の目的は、音声合成システムでスムージングフィルタの係数を制御してその特性を制御するスムージングフィルタ特性制御装置及びその方法を提供することにある。
【００１２】
そして、本発明の第４の目的は、前記スムージングフィルタ特性制御方法がコンピュータにて実行可能なプログラムコードとして記録された記録媒体を提供することにある。
【００１３】
【課題を解決するための手段】
（１）前記第１の目的を達成するために、本発明に係るスムージングフィルタを用いた音声合成システムは、スムージングの技術を用いて合成された音声の音素間の不連続歪みを制御する音声合成システムであって、前記音声合成に用いられる標本音素間の不連続性を所定の学習により予測し、予測された不連続度と、実際の不連続度との割合を求め、その結果に基づいてスムージングフィルタの係数を決定し、前記決定されたフィルタ係数に対応させて前記音声合成された音素簡の境界で発生する不連続性がスムージングされるように制御する不連続歪み処理部を含んで構成される。
【００１４】
（２）また、前記所定の学習は、分類と回帰樹（ＣＡＲＴ）の方式により行うことができる。
【００１５】
（３）また、前記スムージングフィルタを用いた音声合成システムは、合成された音声の音素間の境界で発生する不連続性をフィルタ係数に対応させてスムージングするスムージングフィルタと、前記合成された音声の音素間の境界で発生する実際の不連続度と、前記音声合成に用いられた文脈情報である標本音素を利用して前記所定の学習結果により予測された不連続度とを比較し、この比較の結果を係数選択信号Ｒとして出力するフィルタ特性制御部と、前記スムージングフィルタが前記合成された音声の音素間の不連続歪みを前記のように予測された不連続度に応じてスムージングするように、前記係数選択信号Ｒに応じて前記フィルタ係数αを決定するフィルタ係数決定部とを含んで構成することができる。
【００１６】
（４）さらに、前記所定の学習は、ＣＡＲＴ方式により行うことができる。
（５）そして、前記不連続の予測に用いられる標本音素は、予測しようとする音素境界を中心として、これ以前の２音素及びこれ以後の２音素であるように構成することができる。
【００１７】
（６）また、前記係数選択信号Ｒは、下記式（１）に基づいて求めることができる。
【００１８】
【数７】

【００１９】
前記式（１）中、Ｄ_pは予測された不連続度を表し、Ｄ_rは実際の不連続度を表す。
【００２０】
（７）また、前記フィルタ係数決定部は、前記係数選択信号Ｒに応じて下記式（２）に基づき前記フィルタ係数を決定することができる。
【００２１】
【数８】

【００２２】
前記式（２）中、Ｒは係数選択信号を表し、αはフィルタ係数を表す。
【００２３】
（８）また、前記第１の目的を達成するための本発明に係るスムージングフィルタを用いた音声合成方法は、スムージングの技術を用いて合成された音声の音素間の不連続歪みを制御する音声合成方法において、（ａ）前記合成された音声の音素間の境界で発生する実際の不連続度と、前記音声合成に用いられた標本音素を利用して所定の学習結果に基づき予測された不連続度との割合を求め、その結果を係数選択信号Ｒとして出力する段階と、（ｂ）前記スムージングフィルタが前記合成された音声の音素間の不連続歪みを前記予測された不連続度に応じてスムージングするように、前記（ａ）段階で出力された係数選択信号Ｒに応じて前記スムージングフィルタのフィルタ係数を決定する段階と、（ｃ）前記決定されたフィルタ係数に対応させて前記音声合成された音素簡の境界で発生する不連続性をスムージングする段階とを含んで構成される。
【００２４】
（９）そして、前記第２の目的を解決するための本発明に係る記録媒体は、前記スムージングフィルタを用いた音声合成方法がコンピュータで実行することが可能なプログラムコードとして記録された記録媒体として構成される。
【００２５】
（１０）前記第３の目的を達成するための本発明に係るスムージングフィルタ特性制御装置は、合成された音声の音素間の不連続歪みを制御する音声合成システムに用いられるスムージングフィルタの特性を音素境界の特性によって適切に変化させるスムージングフィルタ特性制御装置であって、前記合成された音声信号の音素間の境界で発生する不連続度を実際の不連続度として求める不連続測定部と、実際の発音上で発生する音素間の不連続性の学習結果を記憶し、前記音声信号の合成に用いられる標本音素が入力されると、この入力された前記標本音素間の境界に対する不連続性を学習結果に基づいて予測し、このように予測された不連続度として出力する不連続予測部と、前記実際の不連続度と前記予測された不連続度との割合を求め、その結果を前記スムージングフィルタのフィルタ係数を決定する係数選択信号として出力する比較部とを備えて構成される。
【００２６】
（１１）また、前記不連続予測部における前記学習は、ＣＡＲＴ方式により行うことが可能である。
（１２）また、前記不連続の予測に用いられる標本音素は、予測しようとする音素境界を中心として以前の２音素及び以後の２音素であるように構成することができる。
【００２７】
（１３）さらに、前記実際の不連続度Ｄ_r及び前記予測された不連続度Ｄ_pは、下記式（３）に基づき各々求めることができる。
【００２８】
【数９】

【００２９】
前記式（３）中、Ｗ_pは合成された音声で不連続度を求めようとする音素境界面を基準として、この音素境界面より左側に位置する音素ユニットにおける最後のピッチ周期の音声波形を表し、Ｗ_nは前記音素境界面より右側に位置する音素ユニットにおける最初のピッチ周期の音声波形を表す。また、Ｗ’_pは不連続度を予測しようとする音素境界面を基準として、この音素境界面より左側に位置する音素ユニットにおける最後のピッチ周期の音声波形を表し、Ｗ’_nは前記音素境界面より右側に位置する音素ユニットにおける最初のピッチ周期の音声波形を表す。
【００３０】
（１４）さらにまた、前記比較部は、下記式（１）に基づき前記係数選択信号Ｒを求めることができる。
【００３１】
【数１０】

【００３２】
前記式（１）中、Ｄ_pは予測された不連続度であり、Ｄ_rは実際の不連続度を表す。
【００３３】
（１５）そして、前記フィルタ係数は、前記係数選択信号Ｒに応じて下記式（２）に基づき決定することができる。
【００３４】
【数１１】

【００３５】
前記式（２）中、Ｒは係数選択信号を表し、αはフィルタ係数を表す。
【００３６】
（１６）前記第３の目的を達成するための本発明に係るスムージングフィルタ特性制御方法は、合成された音声の音素間の不連続歪みを制御する音声合成システムに用いられるスムージングフィルタの特性を音素境界の特性によって適切に変化させるスムージングフィルタ特性制御方法であって、（ａ）標本音素を用いて音素間の不連続予測を学習する段階と、（ｂ）前記合成された音声信号の音素間の境界で発生する不連続度を実際の不連続度として求める段階と、（ｃ）前記音声信号の合成に用いられる標本音素間の境界に対する不連続性を前記学習結果により予測し、このように予測された不連続度を求める段階と、（ｄ）前記実際の不連続度と前記予測された不連続度との割合を係数選択信号として出力し、求められた係数選択信号に基づき前記スムージングフィルタのフィルタ係数を決定する段階とを含んで構成される。
【００３７】
（１７）また、前記（ｄ）段階は、（ｄ１）前記予測された不連続度と前記実際の不連続度との割合Ｒを求める段階と、（ｄ２）下記式（２）に基づき前記フィルタ係数αを決定する段階とを含んで構成することができる。
【００３８】
【数１２】

【００３９】
前記式（２）中、Ｒは係数選択信号を表し、αはフィルタ係数を表す。
【００４０】
（１８）そして、前記第４の目的を達成するための本発明に係る記録媒体は、前記スムージングフィルタ制御方法がコンピュータで実行することが可能なプログラムコードにて記録された記録媒体として構成される。
【００４１】
【発明の実施の形態】
以下、添付した図面に基づいて、本発明に係るスムージングフィルタを利用した音声合成システム及びその方法について詳細に説明する。
図２は、本発明に係るスムージングフィルタを用いた音声合成システムの一実施の形態を模式的に示すブロック図である。図２に示す音声合成システムは、フィルタ特性制御部５０、スムージングフィルタ３０及びフィルタ係数決定部４０を含む不連続歪み処理部を備えて構成されている。
【００４２】
図２に示すように、フィルタ特性制御部５０は、スムージングフィルタ３０のフィルタ係数を制御することにより、スムージングフィルタ３０の特性を制御する。具体的に、フィルタ特性制御部５０は、合成された音声ＩＮの音素間の境界で発生する不連続度と学習された文脈情報に基づき予測された不連続度とを比較し、その比較の結果を係数選択信号Ｒとして前記フィルタ係数決定部４０に出力する。ここで、フィルタ特性制御部５０は、不連続測定部５２、比較部５４及び不連続予測部５６を含んで構成される。
【００４３】
不連続測定部５２は、合成された音声ＩＮの音素間の境界で発生する実際の不連続度を求める。
不連続予測部５６は、合成された音声ＩＮの合成に用いられる標本音素Ｃｏｎを利用して合成される音声の不連続度を予測する。ここで、不連続予測部５６は、分類と回帰樹（ＣＡＲＴ：ＣｌａｓｓｉｆｉｃａｔｉｏｎａｎｄＲｅｇｒｅｓｓｉｏｎＴｒｅｅ）により予測可能であり、ＣＡＲＴは、事前の学習過程を通じて形成される。これについては、図３及び図４を参照しながら詳細に説明する。
【００４４】
比較部５４は、不連続測定部５２からの実際の不連続度と、不連続予測部５６からの予測された不連続度との間の割合を求め、その結果を係数選択信号Ｒとして出力する。
引き続いて、フィルタ係数決定部４０は、係数選択信号Ｒに応じてスムージングフィルタが前記合成された音声ＩＮの音素間で実際の不連続性が予測された不連続度に基づいてスムージングするように、スムージングの度合いを示すフィルタ係数αを決定する。
【００４５】
スムージングフィルタ３０は、フィルタ係数決定部４０で決定されたフィルタ係数に対応させて合成された音声ＩＮの音素間の境界で発生する不連続性をスムージングする。ここで、スムージングフィルタ３０の特性は、下記式（４）のように定義することができる。
【００４６】
【数１３】

【００４７】
前記式（４）中、Ｗ’_n及びＷ’_pは、各々、スムージングフィルタ３０によりスムージングされた波形を表わし、Ｗ_pは、不連続度を測定しようとする音素の境界面を基準として、この音素の境界面より左側に位置する音声ユニット（音素ユニット）における最初のピッチ周期の音声波形であり、Ｗ_nは前記音素の境界面より右側に位置する音声ユニット（音素ユニット）における最後のピッチ周期の音声波形を表す。
【００４８】
前記式（４）より、フィルタ係数が１に近くなるほどスムージングフィルタのスムージングの度合いが弱く、０に近くなるほどスムージングの度合いが強くなるということが理解される。
【００４９】
図３は、図２に示す不連続予測部５６で、ＣＡＲＴ方式により学習結果が形成される不連続予測ツリーを示す図面である。ここでは説明の便宜を図るために、図３では不連続の予測に用いられる変数として、音素が有声音であるか否かを判断するもののみを例示したが、実際により一層正確な予測を行うために、音素そのものに関する情報や、音素の音律構成成分等、種々の音素の特性を考慮することが望ましい。
【００５０】
図４は、図３に示すようなＣＡＲＴの入力される音素境界に隣接した４つの標本音素、及びＣＡＲＴの出力を各々示す図面である。ここでは、不連続の予測に用いられる標本音素の数が、予測しようとする音素境界を中心として隣接した４音素、すなわち、この音素以前の２音素（ｐ、ｐｐ）及びこの音素以後の２音素（ｎ、ｎｎ）となっている。一方、不連続の予測に用いられるＣＡＲＴの性能として相関値及び分散減少率が用いられる。
【００５１】
ここで、前記相関値はＣＡＲＴに関する研究でほとんど標準化した性能尺度であり、０．７５を上回る値が得られたときにこのＣＡＲＴを用いた予測装置に妥当性が与えられると提示される場合がある。例えば、ＣＡＲＴ学習に総３４２、８９９個のデータ及び性能評価のために総８５、６０８個のテストデータ（総４２８、５０７個のデータ）サンプルを用い、不連続の予測時に音素境界を中心として隣接した４音素を用いた場合、相関値としては、学習データに対して０．７５７、テストデータに対して０．７３３の値が得られる。
【００５２】
これら両方の値がともに０．７５近傍で得られる値であり、前記ＣＡＲＴを用いた不連続予測が有用であるということが理解される。一方、隣接音素を２つのみ用いた場合、相関値は学習データの場合に０．６８５、テストデータの場合に０．６８１であり、４音素を用いた場合よりも性能が低下するということが理解される。また、音素境界を中心として６音素を用いた場合には、相関値は学習データの場合に０．７５０、テストデータを用いた場合に０．７２７となっている。その結、前記ＣＡＲＴを用いて不連続性を予測するとき、前記ＣＡＲＴへの入力に用いられる音素の数が４つであるときに最高の性能が得られる。
【００５３】
また、図４（ａ）に示すように、音素境界を中心として４つの標本音素ｐｐ、ｐ、ｎ、ｎｎが図３に示すＣＡＲＴに入力されると、図４（ｂ）に示すように、境界面を基準として、この境界面より左側に位置する音声ユニット（音素ユニット）における最後のピッチ周期の音声波形Ｗ_p、及び前記境界面より右側に位置する音声ユニット（音素ユニット）における最初のピッチ周期の音声波形Ｗ_nの不連続予測値が出力される。このようにして、前記ＣＡＲＴから出力される音声波形Ｗ_p及びＷ_nを用いて不連続度を下記式（５）に基づいて予測することができる。
【００５４】
【数１４】

【００５５】
前記式（５）中、Ｄ_pは予測された不連続度を表し、Ｗ_pは図４（ｂ）に示す境界面を基準として、この境界面より左側に位置する音声ユニット（音素ユニット）における最後のピッチ周期の音声波形を表し、Ｗ_nは図４（ｂ）に示す境界面より右側に位置する音声ユニット（音素ユニット）における最初のピッチ周期の音声波形を表す。
【００５６】
また、図３に示すように、前記ＣＡＲＴは、階層的な構造を有する質問によって予測値を決定するように設計される。各原案に記述された質問は、ＣＡＲＴの入力値に基づき決定される。そして、それ以上の質問がないターミナルノード６４、７２、６８、７０で予測値は決定される。まず、不連続度を予測しようとする音素境界を中心として直前の音素ｐが有声音であるか否かを判断し（６０）、有声音ではなければ、前記式（５）により不連続度をＡとして予測する（７２）。一方、音素ｐが有声音であれば、音素ｐｐが有声音であるか否かを判断し（６２）、有声音であれば、前記式（５）により不連続度をＢとして予測する。さらに、音素ｐｐが有声音ではなければ、音素ｎが有声音であるか否かによって（６６）不連続度をＣまたはＤとして予測する（６８、７０）。
【００５７】
次に、図２〜図４に基づき、本発明に係る音声合成システムの動作を詳細に説明する。まず、図２を参照すると、フィルタ特性制御部５０は、実際の不連続性を測定する不連続測定部５２を通して合成された音声信号ＩＮの音素間の境界で発生する実際の不連続度Ｄ_rを求め、不連続予測部５６を通じて合成された音声ＩＮに用いられる標本音素Ｃｏｎを利用して不連続性を予測し、このように予測された不連続度Ｄ_pを求める。そして、下記式（１）のように、予測された不連続度Ｄ_pと実際の不連続度Ｄ_rとの割合Ｒを求め、このように求めた割合を係数選択信号Ｒとして出力する。
【００５８】
【数１５】

【００５９】
前記式（１）中、Ｄ_pは予測された不連続度を表し、Ｄ_rは実際の不連続度を表す。
【００６０】
ここで、不連続予測部５６は、前述したように、前記ＣＡＲＴ方式によって実際に人間の音声を通じて発生する文脈情報に基づき音素間の不連続予測が学習されており、音声合成に用いられる標本音素Ｃｏｎが入力されれば、学習された結果に基づく不連続度であるＤ_pを求める。したがって、このようにして予測された不連続度Ｄ_pは、実際に人間が発音するときに発生する不連続性を予測した結果であるといえる。
【００６１】
また、フィルタ係数決定部４０は、係数選択信号Ｒに応じて下記式（２）に基づいてフィルタ係数を決定し、このように決定されたフィルタ係数αをスムージングフィルタ３０に出力する。
【００６２】
【数１６】

【００６３】
前記式（２）中、Ｒは係数選択信号を表し、αはフィルタ係数を表す。
【００６４】
前記式（２）を参照すると、Ｒが１より大きければ、すなわち、実際の不連続度Ｄ_rが予測された不連続度Ｄ_pよりも小さければ、スムージングフィルタ３０でスムージングが弱く行われるようにフィルタ係数αを小さくする（前記式（４）参照）。予測された不連続度Ｄ_pが実際の不連続度Ｄ_rよりも大きいということは、実際の発音上で不連続度が大きいものの、合成された音声では不連続度が低く現れた場合である。
【００６５】
すなわち、実際に発音された音声上の不連続度が大きい場合には、前記スムージングフィルタ３０は、合成された音声ＩＮのスムージングの度合いを弱くすることにより、この合成された音声ＩＮが実際に発音されたとき音声上の不連続度を維持するように制御する。
【００６６】
これに対して、Ｒが１より小さい、すなわち、実際の不連続度Ｄ_rが予測された不連続度Ｄ_pよりも大きい場合には、スムージングフィルタ３０で、フィルタ係数を大きくして、スムージングの度合いを強めてスムージングを行うようにする（前記式（４）参照）。
【００６７】
また、予測された不連続度Ｄ_pが実際の不連続度Ｄ_rよりも小さい場合は、実際に発音された音声上で不連続度が実際の不連続度Ｄ_rよりも低く現れるということに対応する。したがって、この場合には、スムージングの度合いを強くして合成された音声ＩＮが、実際に発音された音声上の不連続度を維持するように制御する。
【００６８】
そして、スムージングフィルタ３０は、フィルタ係数決定部４０で決定されたフィルタ係数に基づき合成された音声ＩＮをスムージングする。
以上説明したように、スムージングフィルタ３０は、予測された不連続度Ｄ_pと実際の不連続度Ｄ_rとの割合に対応して適切に変化するフィルタ係数により、合成された音声ＩＮの不連続度が予測された不連続度Ｄ_pに追従するように合成された音声ＩＮをスムージングする。すなわち、合成された音声ＩＮの不連続性が実際の発音上で発生する不連続に追従するようにスムージングされるので、合成された音声ＩＮが実際の音声に一層近くなる。
【００６９】
本発明はまた、コンピュータで読取り可能な記録媒体に、コンピュータで読取り可能なコードを記録した記録媒体として具現することが可能である。コンピュータで読取り可能な記録媒体としては、コンピュータシステムに読み込むことが可能なデータが記憶され得るあらゆる種類の記録装置を含む。コンピュータで読取り可能な記録媒体の例としては、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、ＲＡＭ（ｒａｍｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＣＤ−ＲＯＭ（ｃｏｍｐａｃｔｄｉｓｋ−ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、磁気テープ、フレキシブルディスク、光データ記憶装置などが挙げられ、さらに、キャリアウェーブ（例えば、インタネットを介して伝送）の形で具現されるものも含む。また、コンピュータで読取り可能な記録媒体としては、ネットワークで結ばれたコンピュータシステムに分散され、分散方式によりコンピュータで読取り可能なコードが記録されて実行することができる。
【００７０】
以上、添付した図面及び明細書において、本発明を、本発明に係る最適な実施形態を例として特定の用語を用いて説明したが、これらの用語は単に本発明を具体的に説明するために用いられたものであって、特定の構成物に限定する、あるいは本発明の技術範囲を特定の範囲に制限するために用いられたものではない。よって、当該技術分野に属する当業者であれば、これらの記載事項に基づいて種々の変形、及び均等な他の実施形態を具現することが可能な点は容易に理解されるであろう。よって、本発明の真の技術的な保護範囲は、特許請求の範囲に記載された技術的思想によって定められるべきである。
【００７１】
【発明の効果】
以上、説明した通りに構成される本発明によれば以下の効果を奏する。
すなわち、本発明に係るスムージングフィルタを用いた音声合成システム及びその方法によれば、スムージングフィルタ３０は予測された不連続度Ｄ_p及び実際の不連続度Ｄ_rの割合に対応して適切に変化するフィルタ係数により、合成された音声ＩＮの不連続度が予測された不連続度Ｄ_pに追従するように合成された音声ＩＮをスムージングする。すなわち、合成された音声ＩＮの不連続性が実際の発音上で発生する不連続に追従するようにスムージングされるので、合成された音声ＩＮが実際の音声に一層近くなる。
【図面の簡単な説明】
【図１】音声符号化器に適用される各種のスムージング方法をそのまま音声合成に適用した場合の自然性及び明瞭性の面における歪みに対する結果を示す図面である。
【図２】本発明に係るスムージングフィルタを用いた音声合成システムの一実施の形態を概略的に示すブロック図である。
【図３】図２に示す不連続予測部でＣＡＲＴ方式により学習結果が形成される不連続予測ツリーを示す図面である。
【図４】図３に示すＣＡＲＴ入力となる２音素間の境界を中心に互いに隣接した４つの標本音素及び前記ＣＡＲＴ入力の１境界部分に対するＣＡＲＴの出力を各々示す図面である。
【符号の説明】
３０スムージングフィルタ
４０フィルタ係数決定部
５０フィルタ特性制御部
５２不連続測定部
５４比較部
５６不連続予測部

Claims

スムージングの技術を用いて合成された音声の音素間の不連続歪みを制御する音声合成システムであって、
前記音声合成に用いられる標本音素間の不連続性を所定の学習により予測し、予測された不連続度と、実際の不連続度との割合を求め、その結果に基づいてスムージングフィルタの係数を決定し、前記決定されたフィルタ係数に対応させて前記音声合成された音素簡の境界で発生する不連続性がスムージングされるように制御する不連続歪み処理部を含むことを特徴とするスムージングフィルタを用いた音声合成システム。
前記所定の学習は、分類と回帰樹（ＣＡＲＴ）の方式により行われることを特徴とする請求項１に記載のスムージングフィルタを用いた音声合成システム。
合成された音声の音素間の境界で発生する不連続性をフィルタ係数に対応させてスムージングするスムージングフィルタと、
前記合成された音声の音素間の境界で発生する実際の不連続度と、前記音声合成に用いられた文脈情報である標本音素を利用して前記所定の学習結果により予測された不連続度との割合を求め、その結果を係数選択信号Ｒとして出力するフィルタ特性制御部と、
前記スムージングフィルタが前記合成された音声の音素間の不連続歪みを前記のように予測された不連続度に応じてスムージングするように、前記係数選択信号Ｒに応じて前記フィルタ係数αを決定するフィルタ係数決定部と、を含むことを特徴とするスムージングフィルタを用いた音声合成システム。
前記所定の学習は、ＣＡＲＴ方式により行われることを特徴とする請求項３に記載のスムージングフィルタを用いた音声合成システム。
前記不連続の予測に用いられる標本音素は、予測しようとする音素境界を中心として、これ以前の２音素及びこれ以後の２音素であることを特徴とする請求項４に記載のスムージングフィルタを用いた音声合成システム。
前記係数選択信号Ｒは、下記式（１）に基づき求められることを特徴とする請求項３に記載のスムージングフィルタを用いた音声合成システム。

前記式（１）中、Ｄ_pは予測された不連続度を表し、Ｄ_rは実際の不連続度を表す。
前記フィルタ係数決定部は、前記係数選択信号Ｒに応じて下記式（２）に基づき前記フィルタ係数を決定することを特徴とする請求項３に記載のスムージングフィルタを用いた音声合成システム。

前記式（２）中、Ｒは係数選択信号を表し、αはフィルタ係数を表す。
スムージングの技術を用いて合成された音声の音素間の不連続歪みを制御する音声合成方法であって、
（ａ）前記合成された音声の音素間の境界で発生する実際の不連続度と、前記音声合成に用いられた標本音素を利用して所定の学習結果に基づき予測された不連続度との割合を求め、その結果を係数選択信号Ｒとして出力する段階と、
（ｂ）前記スムージングフィルタが前記合成された音声の音素間の不連続歪みを前記予測された不連続度に応じてスムージングするように、前記（ａ）段階で出力された係数選択信号Ｒに応じて前記スムージングフィルタのフィルタ係数を決定する段階と、
（ｃ）前記決定されたフィルタ係数に対応させて前記音声合成された音素簡の境界で発生する不連続性をスムージングする段階と、を含むことを特徴とするスムージングフィルタを用いた音声合成方法。
請求項８に記載のスムージングフィルタを用いた音声合成方法がコンピュータで実行することが可能なプログラムコードとして記録された記録媒体。
合成された音声の音素間の不連続歪みを制御する音声合成システムに用いられるスムージングフィルタの特性を音素境界の特性によって適切に変化させるスムージングフィルタ特性制御装置であって、
前記合成された音声信号の音素間の境界で発生する不連続度を実際の不連続度として求める不連続測定部と、
実際の発音上で発生する音素間の不連続性の学習結果を記憶し、前記音声信号の合成に用いられる標本音素が入力されると、この入力された前記標本音素間の境界に対する不連続性を学習結果に基づいて予測し、このように予測された不連続度として出力する不連続予測部と、
前記実際の不連続度と前記予測された不連続度との割合を求め、その結果を前記スムージングフィルタのフィルタ係数を決定する係数選択信号として出力する比較部と、を備えることを特徴とするスムージングフィルタ特性制御装置。
前記不連続予測部における前記学習は、ＣＡＲＴ方式により行われることを特徴とする請求項１０に記載のスムージングフィルタ特性制御装置。
前記不連続の予測に用いられる標本音素は、予測しようとする音素境界を中心として以前の２音素及び以後の２音素であることを特徴とする請求項１１に記載のスムージングフィルタ特性制御装置。
前記実際の不連続度Ｄ_r及び前記予測された不連続度Ｄ_pは、下記式（３）に基づき各々求められることを特徴とする請求項１２に記載のスムージングフィルタ特性制御装置。

前記式（３）中、Ｗ_pは合成された音声で不連続度を求めようとする音素境界面を基準として、この音素境界面より左側に位置する音素ユニットにおける最後のピッチ周期の音声波形を表し、Ｗ_nは前記音素境界面より右側に位置する音素ユニットにおける最初のピッチ周期の音声波形を表す。また、Ｗ’_pは不連続度を予測しようとする音素境界面を基準として、この音素境界面より左側に位置する音素ユニットにおける最後のピッチ周期の音声波形を表し、Ｗ’_nは前記音素境界面より右側に位置するユニットにおける最初のピッチ周期の音声波形を表す。
前記比較部は、下記式（１）に基づき前記係数選択信号Ｒを求めることを特徴とする請求項１０に記載のスムージングフィルタ特性制御装置。

前記式（４）中、Ｄ_pは予測された不連続度であり、Ｄ_rは実際の不連続度を表す。
前記フィルタ係数は、前記係数選択信号Ｒに応じて下記式（２）に基づき決定されることを特徴とする請求項１０に記載のスムージングフィルタ特性制御装置。

前記式（２）中、Ｒは係数選択信号を表し、αはフィルタ係数を表す。
合成された音声の音素間の不連続歪みを制御する音声合成システムに用いられるスムージングフィルタの特性を音素境界の特性によって適切に変化させるスムージングフィルタ特性制御方法であって、
（ａ）標本音素を用いて音素間の不連続予測を学習する段階と、
（ｂ）前記合成された音声信号の音素間の境界で発生する不連続度を実際の不連続度として求める段階と、
（ｃ）前記音声信号の合成に用いられる標本音素間の境界に対する不連続性を前記学習結果により予測し、このように予測された不連続度を求める段階と、
（ｄ）前記実際の不連続度と前記予測された不連続度との割合を係数選択信号として出力し、求められた係数選択信号に基づき前記スムージングフィルタのフィルタ係数を決定する段階と、を含むことを特徴とするスムージングフィルタ特性制御方法。
前記（ｄ）段階は、
（ｄ１）前記予測された不連続度と前記実際の不連続度との割合Ｒを求める段階と、（ｄ２）下記式（２）に基づき前記フィルタ係数αを決定する段階と、を含むことを特徴とする請求項１６に記載のスムージングフィルタ特性制御方法。

前記式（２）中、Ｒは係数選択信号を表し、αはフィルタ係数を表す。
請求項１６に記載のスムージングフィルタ制御方法がコンピュータで実行することが可能なプログラムコードにて記録された記録媒体。