JP2003150187A

JP2003150187A - スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法

Info

Publication number: JP2003150187A
Application number: JP2002317332A
Authority: JP
Inventors: Ki-Seung Lee; 起承李; Jeong-Su Kim; 正壽金; Jae-Won Lee; 在原李
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2001-10-31
Filing date: 2002-10-31
Publication date: 2003-05-23
Anticipated expiration: 2022-10-31
Also published as: KR100438826B1; EP1308928A2; EP1308928A3; JP4202090B2; US20030083878A1; DE60228381D1; US7277856B2; KR20030035522A; EP1308928B1

Abstract

(57)【要約】【課題】スムージングフィルタを用いた音声合成シス
テム及びその方法を提供する。【解決手段】合成に用いられる標本音素間の不連続性
を学習により予測し、このように予測された不連続度に
対応して音声合成された音素間の不連続性が、適切にス
ムージングされるように制御する不連続歪み処理部を含
むスムージング技術を用いて合成された音声の音素間の
不連続歪みを制御する音声合成システムとする。スムー
ジングフィルタ３０は、不連続性予測部５６で予測され
た不連続度と不連続性測定部５２で測定された実際の不
連続度との割合に応じて適切に変化するフィルタ係数α
がフィルタ係数決定部４０でされ、このフィルタ係数α
により合成された音声の不連続度が不連続性予測部５６
で予測された不連続度に追従するようにスムージングす
るように構成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声を合成するシ
ステムに係り、特に、合成された音声の音声ユニットの
転移部にスムージングの技術を適用して不連続歪みを防
止する音声合成システム及びその方法に関する。

【０００２】

【従来の技術】文字と音声とを合成する文字−音声合成
（Ｔｅｘｔ−Ｔｏ−Ｓｐｅｅｃｈ：ＴＴＳ）システムと
は、ユーザが任意に入力した文章を、コンピュータ等を
用いて自動的に音声を生成して聴取者に聞かせる一種の
音声合成システムをいう。この種のＴＴＳシステムは自
動案内システム等の応用分野で汎用されており、人間と
機器との対話を具現するためのキーテクノロジーの１つ
である。この種のＴＴＳシステムは、１９９０年代に大
容量データベースに基づくコーパス基盤のＴＴＳシステ
ムが紹介されて以来、人間の音声に一段と近い合成音を
生成するに至った。また、データ−ドリブン（ｄａｔａ
−ｄｒｉｖｅｎ）技術の適用された韻律を予測する技術
の性能が向上され一層臨場感のある音声が得られるよう
になった。

【０００３】しかしながら、この分野におけるこのよう
な発展にも拘わらず、音声合成装置には解決すべき数々
の問題点が内包されている。その問題点とは、合成され
た音声の音声ユニットの転移部で発生する音の不連続性
である。音声合成装置は、基本的に音声ユニットの単位
に分割された各々の音声信号を音素列により連結させて
連続音を生成するものである。したがって、互いに隣り
合った各々の音声が相異なる特性を有している場合、聴
取上、歪みを来す恐れがある。このような聴取上の歪み
は、スペクトルの急激な変動及び不連続性や、不自然に
変動する音素の韻律、あるいは波形の変動による揺れと
いった形態で出現する。

【０００４】一方、音声ユニット間の転移部で発生する
不連続性を除去するために、主として２種類の方法が用
いられている。１つの方法は、音声ユニットの選択時に
予め連結される音声ユニット間の違いを測定し、この違
いを最小化させるように音声ユニットを選択することで
ある。もう１つの方法は、合成された音声に対して連結
される音声ユニットの転移部にスムージングの技術を適
用することである。

【０００５】前者の方法については、これまで絶えず研
究がなされてきており、最近では回帰特性を反映する不
連続歪みを最小化する技術等が開発され、ＴＴＳシステ
ムに実機で適用されている。これに対し、後者の方法に
ついては前者の方法に比べると研究例が少ない。その理
由としては、スムージングの技術が、信号処理技術に基
づく音声合成よりも音声の符号化技術により重要な要素
技術であると認識されている点、及びスムージングの技
術そのものが音声信号に歪みを来す恐れがあるという点
が挙げられる。

【０００６】現在、前記音声合成装置に適用されている
スムージング方法では、一般に、音声符号化に用いられ
る方法がそのまま適用されている。図１は、音声符号化
に適用される各種のスムージング方法を、そのまま音声
合成に適用した場合の自然性の歪み、及び明瞭性の歪み
に対する結果が示す表である。ここで適用されたスムー
ジングの技術は、ＷＩに基づく技術、ＬＰ−ポール技術
及び連続効果である。図１に示すように、各種のスムー
ジングの技術を適用した場合よりもスムージングを適用
しなかった場合に、自然性の歪み及び明瞭性の歪みがむ
しろ小さくなっており、音質的に優れている。この結
果、音声合成にスムージングの技術を適用した場合より
も、この技術を適用しない場合の方がより音質の面で効
果的であるため、音声符号化器に適用されるスムージン
グの技術をそのまま音声合成に適用することは好ましく
ないことが理解される（例えば、非特許文献１参照）。

【０００７】音声符号化器における歪みはその大部分が
量子化エラー等により発生するものであり、前記スムー
ジングの技術においてもこのような量子化エラー等の不
具合を最小化させるために用いられる技術である。しか
し、音声合成装置においては録音された音声信号そのも
のを用いるため、音声符号化器には量子化エラーが存在
せず、したがってこの場合の歪みは、誤った音声ユニッ
トの選択や音声ユニット間のスペクトルの急激な変動、
あるいは音声ユニットの不連続性に起因するものであ
る。すなわち、前記音声符号化器と音声合成装置とは、
歪みを引き起こす原因が相異なるために、音声符号化器
に適用されるスムージングの技術を音声合成装置に対し
て同じように適用しても、同様の効果が得られない。

【０００８】

【非特許文献１】ＩＥＥＥＴｒａｎｓ．ｏｎＳｐ
ｅｅｃｈａｎｄＡｕｄｉｏ、ＪＡＮ／２０００
ｐｐ．３９−４０

【０００９】

【発明が解決しようとする課題】本発明は前記問題点に
鑑みてなされたものであり、その第１の目的は、スムー
ジングフィルタの係数を適切に変化させて不連続歪みを
減らす音声合成システム及びその方法を提供することに
ある。

【００１０】また、本発明の第２の目的は、前記音声合
成方法がコンピュータにて実行可能なプログラムコード
として記録された記録媒体を提供することにある。

【００１１】さらに、本発明の第３の目的は、音声合成
システムでスムージングフィルタの係数を制御してその
特性を制御するスムージングフィルタ特性制御装置及び
その方法を提供することにある。

【００１２】そして、本発明の第４の目的は、前記スム
ージングフィルタ特性制御方法がコンピュータにて実行
可能なプログラムコードとして記録された記録媒体を提
供することにある。

【００１３】

【課題を解決するための手段】（１）前記第１の目的を
達成するために、本発明に係るスムージングフィルタを
用いた音声合成システムは、スムージングの技術を用い
て合成された音声の音素間の不連続歪みを制御する音声
合成システムであって、前記音声合成に用いられる標本
音素間の不連続性を所定の学習により予測し、このよう
に予測された不連続度に対応させて前記合成された音声
の音素間の不連続性が適切にスムージングされるように
制御する不連続歪み処理部を含んで構成される。

【００１４】（２）また、前記所定の学習は、分類と回
帰樹（ＣＡＲＴ）の方式により行うことができる。

【００１５】（３）また、前記スムージングフィルタを
用いた音声合成システムは、合成された音声の音素間の
境界で発生する不連続性をフィルタ係数に対応させてス
ムージングするスムージングフィルタと、前記合成され
た音声の音素間の境界で発生する実際の不連続度と、前
記音声合成に用いられた文脈情報である標本音素を利用
して前記所定の学習結果により予測された不連続度とを
比較し、この比較の結果を係数選択信号Ｒとして出力す
るフィルタ特性制御部と、前記スムージングフィルタが
前記合成された音声の音素間の不連続歪みを前記のよう
に予測された不連続度に応じてスムージングするよう
に、前記係数選択信号Ｒに応じて前記フィルタ係数αを
決定するフィルタ係数決定部とを含んで構成することが
できる。

【００１６】（４）さらに、前記所定の学習は、ＣＡＲ
Ｔ方式により行うことができる。（５）そして、前記不連続の予測に用いられる標本音素
は、予測しようとする音素境界を中心として、これ以前
の２音素及びこれ以後の２音素であるように構成するこ
とができる。

【００１７】（６）また、前記係数選択信号Ｒは、下記
式（１）に基づいて求めることができる。

【００１８】

【数７】

【００１９】前記式（１）中、Ｄ_pは予測された不連続
度を表し、Ｄ_rは実際の不連続度を表す。

【００２０】（７）また、前記フィルタ係数決定部は、
前記係数選択信号Ｒに応じて下記式（２）に基づき前記
フィルタ係数を決定することができる。

【００２１】

【数８】

【００２２】前記式（２）中、Ｒは係数選択信号を表
し、αはフィルタ係数を表す。

【００２３】（８）また、前記第１の目的を達成するた
めの本発明に係るスムージングフィルタを用いた音声合
成方法は、スムージングの技術を用いて合成された音声
の音素間の不連続歪みを制御する音声合成方法におい
て、（ａ）前記合成された音声の音素間の境界で発生す
る実際の不連続度と、前記音声合成に用いられた標本音
素を利用して所定の学習結果に基づき予測された不連続
度とを比較する段階と、（ｂ）前記スムージングフィル
タが前記合成された音声の音素間の不連続歪みを前記予
測された不連続度に応じてスムージングするように、前
記（ａ）段階における比較結果に対応するフィルタ係数
を決定する段階と、（ｃ）前記決定されたフィルタ係数
に対応させて前記音声合成された音素簡の境界で発生す
る不連続性をスムージングする段階とを含んで構成され
る。

【００２４】（９）そして、前記第２の目的を解決する
ための本発明に係る記録媒体は、前記スムージングフィ
ルタを用いた音声合成方法がコンピュータで実行するこ
とが可能なプログラムコードとして記録された記録媒体
として構成される。

【００２５】（１０）前記第３の目的を達成するための
本発明に係るスムージングフィルタ特性制御装置は、合
成された音声の音素間の不連続歪みを制御する音声合成
システムに用いられるスムージングフィルタの特性を音
素境界の特性によって適切に変化させるスムージングフ
ィルタ特性制御装置であって、前記合成された音声信号
の音素間の境界で発生する不連続度を実際の不連続度と
して求める不連続測定部と、実際の発音上で発生する音
素間の不連続性の学習結果を記憶し、前記音声信号の合
成に用いられる標本音素が入力されると、この入力され
た前記標本音素間の境界に対する不連続性を学習結果に
基づいて予測し、このように予測された不連続度として
出力する不連続予測部と、前記実際の不連続度と前記予
測された不連続度とを比較し、この比較の結果を前記ス
ムージングフィルタのフィルタ係数を決定する係数選択
信号として出力する比較部とを備えて構成される。

【００２６】（１１）また、前記不連続予測部における
前記学習は、ＣＡＲＴ方式により行うことが可能であ
る。（１２）また、前記不連続の予測に用いられる標本音素
は、予測しようとする音素境界を中心として以前の２音
素及び以後の２音素であるように構成することができ
る。

【００２７】（１３）さらに、前記実際の不連続度Ｄ_r
及び前記予測された不連続度Ｄ_pは、下記式（３）に基
づき各々求めることができる。

【００２８】

【数９】

【００２９】前記式（３）中、Ｗ_pは合成された音声で
不連続度を求めようとする音素境界面を基準として、こ
の音素境界面より左側に位置する音素ユニットにおける
最後のピッチ周期の音声波形を表し、Ｗ_nは前記音素境
界面より右側に位置する音素ユニットにおける最初のピ
ッチ周期の音声波形を表す。また、Ｗ’_pは不連続度を
予測しようとする音素境界面を基準として、この音素境
界面より左側に位置する音素ユニットにおける最後のピ
ッチ周期の音声波形を表し、Ｗ’_nは前記音素境界面よ
り右側に位置する音素ユニットにおける最初のピッチ周
期の音声波形を表す。

【００３０】（１４）さらにまた、前記比較部は、下記
式（１）に基づき前記係数選択信号Ｒを求めることがで
きる。

【００３１】

【数１０】

【００３２】前記式（１）中、Ｄ_pは予測された不連続
度であり、Ｄ_rは実際の不連続度を表す。

【００３３】（１５）そして、前記フィルタ係数は、前
記係数選択信号Ｒに応じて下記式（２）に基づき決定す
ることができる。

【００３４】

【数１１】

【００３５】前記式（２）中、Ｒは係数選択信号を表
し、αはフィルタ係数を表す。

【００３６】（１６）前記第３の目的を達成するための
本発明に係るスムージングフィルタ特性制御方法は、合
成された音声の音素間の不連続歪みを制御する音声合成
システムに用いられるスムージングフィルタの特性を音
素境界の特性によって適切に変化させるスムージングフ
ィルタ特性制御方法であって、（ａ）標本音素を用いて
音素間の不連続予測を学習する段階と、（ｂ）前記合成
された音声信号の音素間の境界で発生する不連続度を実
際の不連続度として求める段階と、（ｃ）前記音声信号
の合成に用いられる標本音素間の境界に対する不連続性
を前記学習結果により予測し、このように予測された不
連続度を求める段階と、（ｄ）前記実際の不連続度と前
記予測された不連続度とに基づき前記スムージングフィ
ルタのフィルタ係数を決定する段階とを含んで構成され
る。

【００３７】（１７）また、前記（ｄ）段階は、（ｄ
１）前記予測された不連続度と前記実際の不連続度との
割合Ｒを求める段階と、（ｄ２）下記式（２）に基づき
前記フィルタ係数αを決定する段階とを含んで構成する
ことができる。

【００３８】

【数１２】

【００３９】前記式（２）中、Ｒは係数選択信号を表
し、αはフィルタ係数を表す。

【００４０】（１８）そして、前記第４の目的を達成す
るための本発明に係る記録媒体は、前記スムージングフ
ィルタ制御方法がコンピュータで実行することが可能な
プログラムコードにて記録された記録媒体として構成さ
れる。

【００４１】

【発明の実施の形態】以下、添付した図面に基づいて、
本発明に係るスムージングフィルタを利用した音声合成
システム及びその方法について詳細に説明する。図２
は、本発明に係るスムージングフィルタを用いた音声合
成システムの一実施の形態を模式的に示すブロック図で
ある。図２に示す音声合成システムは、フィルタ特性制
御部５０、スムージングフィルタ３０及びフィルタ係数
決定部４０を含む不連続歪み処理部を備えて構成されて
いる。

【００４２】図２に示すように、フィルタ特性制御部５
０は、スムージングフィルタ３０のフィルタ係数を制御
することにより、スムージングフィルタ３０の特性を制
御する。具体的に、フィルタ特性制御部５０は、合成さ
れた音声ＩＮの音素間の境界で発生する不連続度と学習
された文脈情報に基づき予測された不連続度とを比較
し、その比較の結果を係数選択信号Ｒとして前記フィル
タ係数決定部４０に出力する。ここで、フィルタ特性制
御部５０は、不連続測定部５２、比較部５４及び不連続
予測部５６を含んで構成される。

【００４３】不連続測定部５２は、合成された音声ＩＮ
の音素間の境界で発生する実際の不連続度を求める。不
連続予測部５６は、合成された音声ＩＮの合成に用いら
れる標本音素Ｃｏｎを利用して合成される音声の不連続
度を予測する。ここで、不連続予測部５６は、分類と回
帰樹（ＣＡＲＴ：Ｃｌａｓｓｉｆｉｃａｔｉｏｎａｎ
ｄＲｅｇｒｅｓｓｉｏｎＴｒｅｅ）により予測可能
であり、ＣＡＲＴは、事前の学習過程を通じて形成され
る。これについては、図３及び図４を参照しながら詳細
に説明する。

【００４４】比較部５４は、不連続測定部５２からの実
際の不連続度と、不連続予測部５６からの予測された不
連続度との間の割合を求め、その結果を係数選択信号Ｒ
として出力する。引き続いて、フィルタ係数決定部４０
は、係数選択信号Ｒに応じてスムージングフィルタが前
記合成された音声ＩＮの音素間で実際の不連続性が予測
された不連続度に基づいてスムージングするように、ス
ムージングの度合いを示すフィルタ係数αを決定する。

【００４５】スムージングフィルタ３０は、フィルタ係
数決定部４０で決定されたフィルタ係数に対応させて合
成された音声ＩＮの音素間の境界で発生する不連続性を
スムージングする。ここで、スムージングフィルタ３０
の特性は、下記式（４）のように定義することができ
る。

【００４６】

【数１３】

【００４７】前記式（４）中、Ｗ’_n及びＷ’_pは、各
々、スムージングフィルタ３０によりスムージングされ
た波形を表わし、Ｗ_pは、不連続度を測定しようとする
音素の境界面を基準として、この音素の境界面より左側
に位置する音声ユニット（音素ユニット）における最初
のピッチ周期の音声波形であり、Ｗ_nは前記音素の境界
面より右側に位置する音声ユニット（音素ユニット）に
おける最後のピッチ周期の音声波形を表す。

【００４８】前記式（４）より、フィルタ係数が１に近
くなるほどスムージングフィルタのスムージングの度合
いが弱く、０に近くなるほどスムージングの度合いが強
くなるということが理解される。

【００４９】図３は、図２に示す不連続予測部５６で、
ＣＡＲＴ方式により学習結果が形成される不連続予測ツ
リーを示す図面である。ここでは説明の便宜を図るため
に、図３では不連続の予測に用いられる変数として、音
素が有声音であるか否かを判断するもののみを例示した
が、実際により一層正確な予測を行うために、音素その
ものに関する情報や、音素の音律構成成分等、種々の音
素の特性を考慮することが望ましい。

【００５０】図４は、図３に示すようなＣＡＲＴの入力
される音素境界に隣接した４つの標本音素、及びＣＡＲ
Ｔの出力を各々示す図面である。ここでは、不連続の予
測に用いられる標本音素の数が、予測しようとする音素
境界を中心として隣接した４音素、すなわち、この音素
以前の２音素（ｐ、ｐｐ）及びこの音素以後の２音素
（ｎ、ｎｎ）となっている。一方、不連続の予測に用い
られるＣＡＲＴの性能として相関値及び分散減少率が用
いられる。

【００５１】ここで、前記相関値はＣＡＲＴに関する研
究でほとんど標準化した性能尺度であり、０．７５を上
回る値が得られたときにこのＣＡＲＴを用いた予測装置
に妥当性が与えられると提示される場合がある。例え
ば、ＣＡＲＴ学習に総３４２、８９９個のデータ及び性
能評価のために総８５、６０８個のテストデータ（総４
２８、５０７個のデータ）サンプルを用い、不連続の予
測時に音素境界を中心として隣接した４音素を用いた場
合、相関値としては、学習データに対して０．７５７、
テストデータに対して０．７３３の値が得られる。

【００５２】これら両方の値がともに０．７５近傍で得
られる値であり、前記ＣＡＲＴを用いた不連続予測が有
用であるということが理解される。一方、隣接音素を２
つのみ用いた場合、相関値は学習データの場合に０．６
８５、テストデータの場合に０．６８１であり、４音素
を用いた場合よりも性能が低下するということが理解さ
れる。また、音素境界を中心として６音素を用いた場合
には、相関値は学習データの場合に０．７５０、テスト
データを用いた場合に０．７２７となっている。その
結、前記ＣＡＲＴを用いて不連続性を予測するとき、前
記ＣＡＲＴへの入力に用いられる音素の数が４つである
ときに最高の性能が得られる。

【００５３】また、図４（ａ）に示すように、音素境界
を中心として４つの標本音素ｐｐ、ｐ、ｎ、ｎｎが図３
に示すＣＡＲＴに入力されると、図４（ｂ）に示すよう
に、境界面を基準として、この境界面より左側に位置す
る音声ユニット（音素ユニット）における最後のピッチ
周期の音声波形Ｗ_p、及び前記境界面より右側に位置す
る音声ユニット（音素ユニット）における最初のピッチ
周期の音声波形Ｗ_nの不連続予測値が出力される。この
ようにして、前記ＣＡＲＴから出力される音声波形Ｗ_p
及びＷ_nを用いて不連続度を下記式（５）に基づいて予
測することができる。

【００５４】

【数１４】

【００５５】前記式（５）中、Ｄ_pは予測された不連続
度を表し、Ｗ_pは図４（ｂ）に示す境界面を基準とし
て、この境界面より左側に位置する音声ユニット（音素
ユニット）における最後のピッチ周期の音声波形を表
し、Ｗ_nは図４（ｂ）に示す境界面より右側に位置する
音声ユニット（音素ユニット）における最初のピッチ周
期の音声波形を表す。

【００５６】また、図３に示すように、前記ＣＡＲＴ
は、階層的な構造を有する質問によって予測値を決定す
るように設計される。各原案に記述された質問は、ＣＡ
ＲＴの入力値に基づき決定される。そして、それ以上の
質問がないターミナルノード６４、７２、６８、７０で
予測値は決定される。まず、不連続度を予測しようとす
る音素境界を中心として直前の音素ｐが有声音であるか
否かを判断し（６０）、有声音ではなければ、前記式
（５）により不連続度をＡとして予測する（７２）。一
方、音素ｐが有声音であれば、音素ｐｐが有声音である
か否かを判断し（６２）、有声音であれば、前記式
（５）により不連続度をＢとして予測する。さらに、音
素ｐｐが有声音ではなければ、音素ｎが有声音であるか
否かによって（６６）不連続度をＣまたはＤとして予測
する（６８、７０）。

【００５７】次に、図２〜図４に基づき、本発明に係る
音声合成システムの動作を詳細に説明する。まず、図２
を参照すると、フィルタ特性制御部５０は、実際の不連
続性を測定する不連続測定部５２を通して合成された音
声信号ＩＮの音素間の境界で発生する実際の不連続度Ｄ
_rを求め、不連続予測部５６を通じて合成された音声Ｉ
Ｎに用いられる標本音素Ｃｏｎを利用して不連続性を予
測し、このように予測された不連続度Ｄ_pを求める。そ
して、下記式（１）のように、予測された不連続度Ｄ_p
と実際の不連続度Ｄ_rとの割合Ｒを求め、このように求
めた割合を係数選択信号Ｒとして出力する。

【００５８】

【数１５】

【００５９】前記式（１）中、Ｄ_pは予測された不連続
度を表し、Ｄ_rは実際の不連続度を表す。

【００６０】ここで、不連続予測部５６は、前述したよ
うに、前記ＣＡＲＴ方式によって実際に人間の音声を通
じて発生する文脈情報に基づき音素間の不連続予測が学
習されており、音声合成に用いられる標本音素Ｃｏｎが
入力されれば、学習された結果に基づく不連続度である
Ｄ_pを求める。したがって、このようにして予測された
不連続度Ｄ_pは、実際に人間が発音するときに発生する
不連続性を予測した結果であるといえる。

【００６１】また、フィルタ係数決定部４０は、係数選
択信号Ｒに応じて下記式（２）に基づいてフィルタ係数
を決定し、このように決定されたフィルタ係数αをスム
ージングフィルタ３０に出力する。

【００６２】

【数１６】

【００６３】前記式（２）中、Ｒは係数選択信号を表
し、αはフィルタ係数を表す。

【００６４】前記式（２）を参照すると、Ｒが１より大
きければ、すなわち、実際の不連続度Ｄ_rが予測された
不連続度Ｄ_pよりも小さければ、スムージングフィルタ
３０でスムージングが弱く行われるようにフィルタ係数
αを小さくする（前記式（４）参照）。予測された不連
続度Ｄ_pが実際の不連続度Ｄ_rよりも大きいということ
は、実際の発音上で不連続度が大きいものの、合成され
た音声では不連続度が低く現れた場合である。

【００６５】すなわち、実際に発音された音声上の不連
続度が大きい場合には、前記スムージングフィルタ３０
は、合成された音声ＩＮのスムージングの度合いを弱く
することにより、この合成された音声ＩＮが実際に発音
されたとき音声上の不連続度を維持するように制御す
る。

【００６６】これに対して、Ｒが１より小さい、すなわ
ち、実際の不連続度Ｄ_rが予測された不連続度Ｄ_pよりも
大きい場合には、スムージングフィルタ３０で、フィル
タ係数を大きくして、スムージングの度合いを強めてス
ムージングを行うようにする（前記式（４）参照）。

【００６７】また、予測された不連続度Ｄ_pが実際の不
連続度Ｄ_rよりも小さい場合は、実際に発音された音声
上で不連続度が実際の不連続度Ｄ_rよりも低く現れると
いうことに対応する。したがって、この場合には、スム
ージングの度合いを強くして合成された音声ＩＮが、実
際に発音された音声上の不連続度を維持するように制御
する。

【００６８】そして、スムージングフィルタ３０は、フ
ィルタ係数決定部４０で決定されたフィルタ係数に基づ
き合成された音声ＩＮをスムージングする。以上説明し
たように、スムージングフィルタ３０は、予測された不
連続度Ｄ_pと実際の不連続度Ｄ_rとの割合に対応して適切
に変化するフィルタ係数により、合成された音声ＩＮの
不連続度が予測された不連続度Ｄ_pに追従するように合
成された音声ＩＮをスムージングする。すなわち、合成
された音声ＩＮの不連続性が実際の発音上で発生する不
連続に追従するようにスムージングされるので、合成さ
れた音声ＩＮが実際の音声に一層近くなる。

【００６９】本発明はまた、コンピュータで読取り可能
な記録媒体に、コンピュータで読取り可能なコードを記
録した記録媒体として具現することが可能である。コン
ピュータで読取り可能な記録媒体としては、コンピュー
タシステムに読み込むことが可能なデータが記憶され得
るあらゆる種類の記録装置を含む。コンピュータで読取
り可能な記録媒体の例としては、ＲＯＭ（ｒｅａｄｏ
ｎｌｙｍｅｍｏｒｙ）、ＲＡＭ（ｒａｍｄｏｍａｃ
ｃｅｓｓｍｅｍｏｒｙ）、ＣＤ−ＲＯＭ（ｃｏｍｐａ
ｃｔｄｉｓｋ−ｒｅａｄｏｎｌｙｍｅｍｏｒ
ｙ）、磁気テープ、フレキシブルディスク、光データ記
憶装置などが挙げられ、さらに、キャリアウェーブ（例
えば、インタネットを介して伝送）の形で具現されるも
のも含む。また、コンピュータで読取り可能な記録媒体
としては、ネットワークで結ばれたコンピュータシステ
ムに分散され、分散方式によりコンピュータで読取り可
能なコードが記録されて実行することができる。

【００７０】以上、添付した図面及び明細書において、
本発明を、本発明に係る最適な実施形態を例として特定
の用語を用いて説明したが、これらの用語は単に本発明
を具体的に説明するために用いられたものであって、特
定の構成物に限定する、あるいは本発明の技術範囲を特
定の範囲に制限するために用いられたものではない。よ
って、当該技術分野に属する当業者であれば、これらの
記載事項に基づいて種々の変形、及び均等な他の実施形
態を具現することが可能な点は容易に理解されるであろ
う。よって、本発明の真の技術的な保護範囲は、特許請
求の範囲に記載された技術的思想によって定められるべ
きである。

【００７１】

【発明の効果】以上、説明した通りに構成される本発明
によれば以下の効果を奏する。すなわち、本発明に係る
スムージングフィルタを用いた音声合成システム及びそ
の方法によれば、スムージングフィルタ３０は予測され
た不連続度Ｄ_p及び実際の不連続度Ｄ_rの割合に対応して
適切に変化するフィルタ係数により、合成された音声Ｉ
Ｎの不連続度が予測された不連続度Ｄ_pに追従するよう
に合成された音声ＩＮをスムージングする。すなわち、
合成された音声ＩＮの不連続性が実際の発音上で発生す
る不連続に追従するようにスムージングされるので、合
成された音声ＩＮが実際の音声に一層近くなる。

【図面の簡単な説明】

【図１】音声符号化器に適用される各種のスムージング
方法をそのまま音声合成に適用した場合の自然性及び明
瞭性の面における歪みに対する結果を示す図面である。

【図２】本発明に係るスムージングフィルタを用いた音
声合成システムの一実施の形態を概略的に示すブロック
図である。

【図３】図２に示す不連続予測部でＣＡＲＴ方式により
学習結果が形成される不連続予測ツリーを示す図面であ
る。

【図４】図３に示すＣＡＲＴ入力となる２音素間の境界
を中心に互いに隣接した４つの標本音素及び前記ＣＡＲ
Ｔ入力の１境界部分に対するＣＡＲＴの出力を各々示す
図面である。

【符号の説明】

３０スムージングフィルタ４０フィルタ係数決定部５０フィルタ特性制御部５２不連続測定部５４比較部５６不連続予測部

───────────────────────────────────────────────────── フロントページの続き (72)発明者金正壽大韓民国京畿道水原市八達区梅灘４洞 810番地三星２次アパート３棟 1009号 (72)発明者李在原大韓民国ソウル特別市瑞草区方背３洞 1006−１番地瑞草ＥＳＡ３次アパート 807号Ｆターム(参考） 5D045 AA07

Claims

【特許請求の範囲】

【請求項１】スムージングの技術を用いて合成された
音声の音素間の不連続歪みを制御する音声合成システム
であって、前記音声合成に用いられる標本音素間の不連続性を所定
の学習により予測し、このように予測された不連続度に
対応させて前記合成された音声の音素間の不連続性が適
切にスムージングされるように制御する不連続歪み処理
部を含むことを特徴とするスムージングフィルタを用い
た音声合成システム。
【請求項２】前記所定の学習は、分類と回帰樹（ＣＡ
ＲＴ）の方式により行われることを特徴とする請求項１
に記載のスムージングフィルタを用いた音声合成システ
ム。
【請求項３】合成された音声の音素間の境界で発生す
る不連続性をフィルタ係数に対応させてスムージングす
るスムージングフィルタと、前記合成された音声の音素間の境界で発生する実際の不
連続度と、前記音声合成に用いられた文脈情報である標
本音素を利用して前記所定の学習結果により予測された
不連続度とを比較し、この比較の結果を係数選択信号Ｒ
として出力するフィルタ特性制御部と、前記スムージングフィルタが前記合成された音声の音素
間の不連続歪みを前記のように予測された不連続度に応
じてスムージングするように、前記係数選択信号Ｒに応
じて前記フィルタ係数αを決定するフィルタ係数決定部
と、を含むことを特徴とするスムージングフィルタを用
いた音声合成システム。
【請求項４】前記所定の学習は、ＣＡＲＴ方式により
行われることを特徴とする請求項３に記載のスムージン
グフィルタを用いた音声合成システム。
【請求項５】前記不連続の予測に用いられる標本音素
は、予測しようとする音素境界を中心として、これ以前
の２音素及びこれ以後の２音素であることを特徴とする
請求項４に記載のスムージングフィルタを用いた音声合
成システム。
【請求項６】前記係数選択信号Ｒは、下記式（１）に
基づき求められることを特徴とする請求項３に記載のス
ムージングフィルタを用いた音声合成システム。【数１】前記式（１）中、Ｄ_pは予測された不連続度を表し、Ｄ_r
は実際の不連続度を表す。
【請求項７】前記フィルタ係数決定部は、前記係数選
択信号Ｒに応じて下記式（２）に基づき前記フィルタ係
数を決定することを特徴とする請求項３に記載のスムー
ジングフィルタを用いた音声合成システム。【数２】前記式（２）中、Ｒは係数選択信号を表し、αはフィル
タ係数を表す。
【請求項８】スムージングの技術を用いて合成された
音声の音素間の不連続歪みを制御する音声合成方法であ
って、（ａ）前記合成された音声の音素間の境界で発生する実
際の不連続度と、前記音声合成に用いられた標本音素を
利用して所定の学習結果に基づき予測された不連続度と
を比較する段階と、（ｂ）前記スムージングフィルタが前記合成された音声
の音素間の不連続歪みを前記予測された不連続度に応じ
てスムージングするように、前記（ａ）段階における比
較結果に対応するフィルタ係数を決定する段階と、（ｃ）前記決定されたフィルタ係数に対応させて前記音
声合成された音素簡の境界で発生する不連続性をスムー
ジングする段階と、を含むことを特徴とするスムージン
グフィルタを用いた音声合成方法。
【請求項９】請求項８に記載のスムージングフィルタ
を用いた音声合成方法がコンピュータで実行することが
可能なプログラムコードとして記録された記録媒体。
【請求項１０】合成された音声の音素間の不連続歪み
を制御する音声合成システムに用いられるスムージング
フィルタの特性を音素境界の特性によって適切に変化さ
せるスムージングフィルタ特性制御装置であって、前記合成された音声信号の音素間の境界で発生する不連
続度を実際の不連続度として求める不連続測定部と、実際の発音上で発生する音素間の不連続性の学習結果を
記憶し、前記音声信号の合成に用いられる標本音素が入
力されると、この入力された前記標本音素間の境界に対
する不連続性を学習結果に基づいて予測し、このように
予測された不連続度として出力する不連続予測部と、前記実際の不連続度と前記予測された不連続度とを比較
し、この比較の結果を前記スムージングフィルタのフィ
ルタ係数を決定する係数選択信号として出力する比較部
と、を備えることを特徴とするスムージングフィルタ特
性制御装置。
【請求項１１】前記不連続予測部における前記学習
は、ＣＡＲＴ方式により行われることを特徴とする請求
項１０に記載のスムージングフィルタ特性制御装置。
【請求項１２】前記不連続の予測に用いられる標本音
素は、予測しようとする音素境界を中心として以前の２
音素及び以後の２音素であることを特徴とする請求項１
１に記載のスムージングフィルタ特性制御装置。
【請求項１３】前記実際の不連続度Ｄ_r及び前記予測
された不連続度Ｄ_pは、下記式（３）に基づき各々求め
られることを特徴とする請求項１２に記載のスムージン
グフィルタ特性制御装置。【数３】前記式（３）中、Ｗ_pは合成された音声で不連続度を求
めようとする音素境界面を基準として、この音素境界面
より左側に位置する音素ユニットにおける最後のピッチ
周期の音声波形を表し、Ｗ_nは前記音素境界面より右側
に位置する音素ユニットにおける最初のピッチ周期の音
声波形を表す。また、Ｗ’_pは不連続度を予測しようと
する音素境界面を基準として、この音素境界面より左側
に位置する音素ユニットにおける最後のピッチ周期の音
声波形を表し、Ｗ’_nは前記音素境界面より右側に位置
するユニットにおける最初のピッチ周期の音声波形を表
す。
【請求項１４】前記比較部は、下記式（１）に基づき
前記係数選択信号Ｒを求めることを特徴とする請求項１
０に記載のスムージングフィルタ特性制御装置。【数４】前記式（４）中、Ｄ_pは予測された不連続度であり、Ｄ_r
は実際の不連続度を表す。
【請求項１５】前記フィルタ係数は、前記係数選択信
号Ｒに応じて下記式（２）に基づき決定されることを特
徴とする請求項１０に記載のスムージングフィルタ特性
制御装置。【数５】前記式（２）中、Ｒは係数選択信号を表し、αはフィル
タ係数を表す。
【請求項１６】合成された音声の音素間の不連続歪み
を制御する音声合成システムに用いられるスムージング
フィルタの特性を音素境界の特性によって適切に変化さ
せるスムージングフィルタ特性制御方法であって、（ａ）標本音素を用いて音素間の不連続予測を学習する
段階と、（ｂ）前記合成された音声信号の音素間の境界で発生す
る不連続度を実際の不連続度として求める段階と、（ｃ）前記音声信号の合成に用いられる標本音素間の境
界に対する不連続性を前記学習結果により予測し、この
ように予測された不連続度を求める段階と、（ｄ）前記実際の不連続度と前記予測された不連続度と
に基づき前記スムージングフィルタのフィルタ係数を決
定する段階と、を含むことを特徴とするスムージングフ
ィルタ特性制御方法。
【請求項１７】前記（ｄ）段階は、（ｄ１）前記予測された不連続度と前記実際の不連続度
との割合Ｒを求める段階と、（ｄ２）下記式（２）に基づき前記フィルタ係数αを決
定する段階と、を含むことを特徴とする請求項１６に記
載のスムージングフィルタ特性制御方法。【数６】前記式（２）中、Ｒは係数選択信号を表し、αはフィル
タ係数を表す。
【請求項１８】請求項１６に記載のスムージングフィ
ルタ制御方法がコンピュータで実行することが可能なプ
ログラムコードにて記録された記録媒体。