JP4643914B2

JP4643914B2 - 音声合成方法および装置

Info

Publication number: JP4643914B2
Application number: JP2004048933A
Authority: JP
Inventors: フェレンチアッティラ; 正壽金; 在原李
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2003-02-25
Filing date: 2004-02-25
Publication date: 2011-03-02
Anticipated expiration: 2024-02-25
Also published as: DE602004000656D1; KR100486734B1; EP1453036B1; US20040167780A1; KR20040076440A; DE602004000656T2; US7369995B2; JP2004258660A; EP1453036A1

Description

本発明は音声合成（Text-to-Speech Synthesis：ＴＴＳ）に係り、特に平滑化された音声ユニットの接続方法および装置に関する。

音声合成は、収集された音声データを加工したコーパスに基づいたデータベース（data base、以下“ＤＢ”または“音声ＤＢ”という）により行われる。最近、音声合成が適用されるシステム毎にそれぞれのＤＢの容量によって、システム仕様を満たす音声合成を行うことに関心が集められている。すなわち、大容量の音声合成システムであるほど保存されるＤＢの容量が大きくなるので、音声データを削除することなく音声合成を行うことが可能である。しかし、全ての音声合成システムにおいて大容量ＤＢを適用できるわけではなく、携帯電話、個人携帯情報端末機（Personal Digital Assistant：ＰＤＡ）等では、容量の少ないＤＢのみを適用することができる。したがって、携帯電話などにおいて、小容量のＤＢを用いて、良質の音声合成を行うことに注目が集まっている。

音声合成時に行われる隣接した二つの音声ユニット間の接続においては、音響的不整合を低減することが最大の関心事であり、これに関するいくつかの従来技術は次の通りである。

特許文献１「ウェイブフォーム・ブレンディング・テクニック・フォー・テクスト−トゥ−スピーチ・システム（Waveform Blending Technique for Text-to-Speech System）」は、最適接続点を決定し、隣接した二つのピッチ間に対してのみ行われる平滑化された接続について開示している。

特許文献２「メソッド・アンド・アパレイタス・フォー・スピーチ・シンセシス・ウィズアウト・プロソディ・モディフィケーション（Method and Apparatus for Speech Synthesis without Prosody Modification）」は、大容量のＤＢおよび制限された範囲での中小容量ＤＢで使われる音声合成システムであって、平滑化過程なしに大容量の音声ＤＢを利用した接続について開示している。

特許文献３「ファスト・ウェイブフォーム・シンクロニゼイション・フォー・コンカティネーション・アンド・タイムスケール・モディフィケーション・オブ・スピーチ（Fast Waveform Synchronization for Concatenation and Timescale Modification of Speech）」は、１ピッチ区間で行われる制限的な平滑化に係り、正確なピッチマーキングなしに接続される左右ユニットの境界部を調整する。

音声合成時に行われる隣接した二つの有声音音声ユニット間の接続においては、音響的不整合を低減して自然な音声合成を具現することと、音声合成を具現するハードウェアの資源によって効率的な音声合成を具現することとが問題になる。
米国特許第５，４９０，２３４号明細書米国特許出願公開第２００２／００９９５４７号明細書米国特許出願公開第２００２／０１４３５２６号明細書

したがって、本発明が解決しようとする技術的課題は、音響的考慮に基づいて接続時の不整合を低減し、言語から独立的に接続し、かつ小さなＤＢサイズでも良好な音声合成を実現できる音声合成方法を提供することである。

また、本発明が解決しようとする他の技術的課題は、前記音声合成方法を行う音声合成装置を提供することである。

前記技術的課題を解決するために、データベース（ＤＢ）を用いて音声ユニットを接続する本発明による音声合成方法は、（ａ）接続される前記音声ユニットを決定して左側ユニットと右側ユニットとに区切る段階と、（ｂ）前記左側ユニットと前記右側ユニットとの内挿される所定領域を可変的に決定する段階と、（ｃ）前記左側ユニットと前記右側ユニットとの境界部に拡張部を連結する段階と、（ｄ）前記拡張部に対して対応ユニットを基準にピッチマークを整列する段階と、（ｅ）前記左側ユニットおよび前記右側ユニットを重畳する段階とを含む。

本発明において、（ｃ）段階は、（ｃ１）前記ＤＢ内に前記左側ユニットおよび／または前記右側ユニットに対して別途のセグメントデータが存在するか否かを判断する段階と、（ｃ２）前記ＤＢ内に前記別途のセグメントデータが存在する場合に、前記データを用いて境界部を拡張する段階と、（ｃ３）前記別途のセグメントデータが存在していない場合に、外挿法によって境界部を拡張する段階と、を含むことができる。

本発明は、前記（ｄ）段階後に前記重畳される領域のピッチトラックを等比率的に内挿して前記（ｅ）段階に進む段階をさらに含むことができる。

前記他の技術的課題を解決するために、データベース（ＤＢ）を用いて音声ユニットを接続する本発明による音声合成装置は、接続される前記音声ユニットを決定して左側ユニットと右側ユニットとに区切り、前記左側ユニットと前記右側ユニットとの内挿される所定領域を可変的に決定する接続領域決定部と、前記左側ユニットと前記右側ユニットとの境界部に拡張部を連結して出力する境界部拡張部と、前記拡張部に対して対応ユニットを基準にピッチマークを整列して出力するピッチマーク整列部と、ピッチマークが整列された前記左側ユニットおよび前記右側ユニットを重畳するユニット重畳部とを含む。

本発明による音声合成装置において、前記境界部拡張部は、前記ＤＢ内に前記左側ユニットおよび前記右側ユニットに対して別途のセグメントデータが存在するか否かを判断して、前記ＤＢ内に前記別途のセグメントデータが存在する場合に前記データを用いて境界部を拡張し、前記別途のセグメントデータが存在していない場合に外挿法によって境界部を拡張することができる。

本発明による音声合成装置は、前記ピッチマーク整列部からピッチマークを入力されて、前記重畳される領域のピッチトラックを等比率的に内挿して前記ユニット重畳部に出力するピッチトラック内挿部をさらに含むことができる。

本発明によるＤＢを用いた音声合成方法によれば、コーパスに基づいた小容量ＤＢでも、別途のセグメントデータの有無によって、別途のセグメントデータを用いた内挿法または外挿されたデータの外挿法を選択的に利用して、平滑化された接続を行うことによって、接続境界部の音響的不整合を緩和でき、良好な品質の音声合成を行うことができる。本発明は、大容量および中容量ＤＢを具備するシステムでも効果があるが、相対的に小容量ＤＢを具備するシステムでさらに自然かつ満足な音声合成出力を提供する効果がある。

以下、本発明による音声合成方法および装置を添付した図面を参照して次のように詳細に説明する。本発明は音声のデータを加工して保存したデータベース（ＤＢ）を用いて音声ユニットを接続する音声合成方法および装置に関する。

接続される音声ユニットは無声音−無声音、無声音−有声音、有声音−無声音、有声音−有声音の隣接した対に分類できる。したがって、隣接した有声音−有声音の音声ユニット間の平滑化された接続は高品質の音声合成において必須的であり、本発明の音声合成方法および装置は、有声音−有声音の音声ユニットの接続に関する。あらゆる言語で有声音−有声音ユニットの遷移が現れるため、本発明は言語から独立的に適用できる音声合成方法および装置を提供する。

ＤＢを用いた音声合成過程は、音声合成のためのＤＢを生成するオフライン処理過程と、入力された文字を生成されたＤＢを利用して音声に変換するオンライン処理過程とに分けられる。

音声合成のためのオフライン処理過程は、最適のコーパス選択段階と、コーパス録音段階と、音素および韻律ラベルを付ける段階と、コーパスを音声ユニットに分割する段階と、波形コーディング方法を用いてデータを圧縮する段階と、コーディングされた音声データを音声ＤＢに保存する段階と、音声ユニットの音素−音響パラメータを抽出する段階と、前記パラメータが含まれたユニットＤＢを生成する段階と、データサイズを縮小するために音声およびユニットＤＢを削除する段階とを含む。

音声合成のためのオンライン処理過程は、文字入力段階と、文字前処理段階と、品詞（ＰＯＳ：Part of Speech）分析段階と、綴字音素変換段階と、韻律情報生成段階と、ユニットＤＢに保存された音素−音響パラメータに基づいて適した音声ユニットを選択する段階と、韻律重畳段階と、接続および平滑化段階と、音声出力段階とを含む。

図１は、本発明による内挿法に基づいた音素接続方法の望ましい一実施例を説明するためのフローチャートであって、接続される音声ユニット決定段階（Ｓ１０段階）と、内挿領域決定段階（Ｓ１２段階）と、境界部拡張段階（Ｓ１４段階）と、ピッチマーク整列段階（Ｓ１６段階）と、ピッチトラック内挿段階（Ｓ１８段階）およびユニット重畳段階（Ｓ２０段階）を含む。

Ｓ１０段階では、接続される音声ユニットを決定して左側ユニットと右側ユニットに区切る。図２は音声合成が行われる音声ユニット、すなわち３個の有声音の音素が連続した区間での音声波形およびそのスペクトログラムを示し、３個の音素間境界部で波形不整合および音響スペクトログラムの断絶が確認できる。音声合成における平滑化された接続は、有声音の音声ユニットと有声音の音声ユニット間、すなわち、準安定領域で行われる。そして、接続される音声ユニットを決定して図３のように左側ユニットと右側ユニットとに区切る。

Ｓ１２段階では、左側ユニットと右側ユニットとの内挿される所定領域の長さを可変的に決定する。音素間に実際に内挿法によって接続される内挿領域を該当音素の全体長さに対する割合、たとえば４０％以下に決定する。図２を参照すれば、内挿領域として決定された音素長さの最大値である４０％の位置が分かる。内挿領域は音声合成の性能仕様および接続される音声ユニット間の不整合によって可変的である。

Ｓ１４段階は、左側ユニットと右側ユニットとの境界部に拡張部を連結する段階である。Ｓ１４段階は別途のセグメントデータを連結して境界部を拡張することもあり、境界部の所定ピッチを反復させて境界部を拡張することもある。

図４は、Ｓ１４段階の望ましい一実施例を説明するためのフローチャートであって、左側および／または右側ユニットの別途のセグメントデータが存在する場合とそうでない場合とに分けて境界部を拡張する（Ｓ１４０〜Ｓ１４４段階）。

Ｓ１４０段階では、ＤＢ内に左側ユニットおよび右側ユニットの別途のセグメント分節データが存在するか否かを判断する。別途のセグメントデータが存在する場合に内挿法によって平滑化された接続を行う（Ｓ１４２段階）。すなわち、境界部を拡張するに当たって別途のセグメントデータが存在する場合には、図５に示されたように、重畳される対応ユニット領域のピッチ数だけの別途のセグメントデータをユニット境界部に連結して境界部を拡張する。別途のセグメントデータが存在していない場合、仮想の別途のセグメントデータが生成される（Ｓ１４４段階）。すなわち、別途のセグメントデータが存在していない場合には図６および図７に示されたように、音素境界部の１ピッチを重畳される対応ユニット領域に含まれたピッチ数だけ反復させてユニット境界部に連結して境界部を拡張する。このような過程は、図５および図７に図示されたように、右側音声ユニットについても同一に行われる（Ｓ１４６、Ｓ１４８、Ｓ１５０段階）。

図１に戻って、Ｓ１６段階は、左側ユニットと右側ユニットとを重畳させるための前処理段階であって、所定内挿領域を基準に左側ユニットおよび右側ユニットそれぞれの拡張部のピッチマークを同期化させて整列させる。図８を参照すれば、内挿領域を基準に左側ユニットの拡張部ピッチを狭める。また図９を参照すれば、内挿領域を基準に右側ユニットの拡張部ピッチを広げる。よって、内挿領域に属する左側ユニットのピッチトラックと右側ユニットのピッチトラックとが整合される。

Ｓ１８段階は、本発明において代替的にさらに備えられる段階であって、ピッチトラックを内挿する段階である。Ｓ１８段階は図１０に図示されたように、左側ユニットの内挿領域のピッチトラックを等比率的に内挿し、右側ユニットの内挿領域のピッチトラックを等比率的に内挿する。図１０を参照すれば、左側ユニットの内挿領域の左側端から右側端までピッチ間隔が均等な割合で狭まっていることが分かり、また、右側ユニットの内挿領域の左側端から右側端までピッチ間隔が均等な割合で狭まっていることが分かる。さらに、内挿領域で左側および右側ユニットのピッチはそれぞれ同期性を維持し、内挿領域で左側および右側ユニットのピッチマークはそれぞれ整列状態を維持する。

Ｓ２０段階では、左側ユニットと右側ユニットとを重畳する。ここで、重畳はフェード・イン／アウトによって行われる。図１１は、左側ユニットと右側ユニットとの重畳される領域がフェード・イン／フェード・アウトされた波形を示す。図１２は、図１１に図示された左側および右側ユニットが重畳された波形を示す。図１３は、平滑化過程なしに音素を接続した波形であって、接続境界部で急な波形の変化があったことが分かる。この場合、荒くて断絶された音声で現れる。これに比べて、図１２のユニット間接続境界部を調べれば急激な波形の変化なしにスムーズに接続されたことが分かる。

図１４は、ＤＢを用いて音声ユニットを接続する本発明による音声合成装置を説明するためのブロック図であって、接続領域決定部１０と境界部拡張部２０とピッチマーク整列部３０とユニット重畳部５０を含む。

本発明による音声合成装置はＤＢを用いて音声ユニットを接続する。接続領域決定部１０は、図１に図示されたＳ１０段階およびＳ１２段階を行うために、接続される音声ユニットを決定して左側ユニットと右側ユニットとに区切り、左側ユニットと右側ユニットとの内挿される所定領域を可変的に決定して出力する。ここで、接続される音声ユニットは有声音の音素単位である。

境界部拡張部２０は、図１に図示されたＳ１４段階を行うために、左側ユニットと右側ユニットとの境界部に拡張部を連結して出力する。ここで境界部拡張部２０は、コーパス内に左側ユニットおよび右側ユニットに対して別途のセグメントデータが存在するか否かを判断し、別途のセグメントデータが存在する場合に前記データを用いて境界部を拡張し、別途のセグメントデータが存在していない場合に外挿法によって境界部を拡張できる。

ピッチマーク整列部３０は、図１に図示されたＳ１６段階を行うために、拡張部に対して対応ユニットを基準にピッチマークを整列して出力する。

ユニット重畳部５０は、図１に図示されたＳ２０段階を行うために、ピッチマークが整列された左側ユニットおよび右側ユニットを重畳して出力する。ここでユニット重畳部５０は、左側ユニットをフェード・アウトして右側ユニットをフェード・インした後、左側ユニットと右側ユニットとを重畳できる。

本発明による音声合成装置は、図１に図示されたＳ１８段階を行うために、ピッチマーク整列部３０からピッチトラックおよび波形データを入力されて、重畳される領域のピッチトラックを等比率的に内挿してユニット重畳部５０に出力するピッチトラック内挿部４０を選択的にさらに含むことができる。

本発明により平滑化された接続により実現された音声と単純接続により実現された音声とを比較するために、１８人のユーザーに３回の設問調査、総５４回を施行した結果は次の表１の通りである。表１は単純接続、別途のセグメントデータを利用した内挿法による平滑化接続、および外挿されたデータの外挿法を用いた平滑化接続音声をそれぞれ聞かせてその選好度を１〜５点に評価するようにした設問調査結果である。

前記した音素間の音響的な不整合を低減する方法および装置は、言語から独立的な実現に適している。

本発明は上記に説明した図面に表現されるものに限定されるものではない。特に、本発明は音声合成において有声音と有声音間の平滑化された接続を中心に記載されたが、音声合成以外の分野で準安定の１次元信号を平滑化して接続しようとするときにも本発明が適用できることは明らかである。

本発明は上記に説明した図面に表現されたものに限定されるものではない。当業者ならば、特許請求の範囲に記載された本発明の範囲および目的内で置換、消去、併合、および段階の再配置などによって前述した実施例に対して多くの変形が可能である。

本発明は前記の音声合成に利用され、特に小容量のＤＢでも良好な音声合成を具現できる音声合成を具現するために利用される。

本発明によるＤＢを用いた音声合成方法の望ましい一実施例を示すフローチャートである。音声合成が行われねばならない音声ユニットが連続した区間での音声波形およびそのスペクトログラムを示す図である。図１のＳ１０段階で、接続が行われるために区切られた左側ユニットと右側ユニットとを示す図である。図１のＳ１４段階の望ましい一実施例を説明するフローチャートである。図１のＳ１４段階で、図３の２つの隣接した左側ユニットと右側ユニットとの境界部を別途のセグメントデータを用いて拡張することを説明する図である。図１のＳ１４段階で、外挿法によって左側ユニットの境界部を拡張する波形を説明する図である。図１のＳ１４段階で、外挿法によって右側ユニットの境界部を拡張する波形を説明する図である。図１のＳ１６段階で、所定内挿領域を基準に左側ユニットの拡張部ピッチを圧縮してピッチマークを整列することを説明する図である。図１のＳ１６段階で、左側ユニットの内挿領域を基準に右側ユニットの拡張部ピッチを伸張してピッチマークを整列することを説明する図である。図１のＳ１８段階で、重畳される左側ユニットおよび右側ユニットの内挿領域のピッチトラックを等比率的に内挿することを説明する図である。左側ユニットおよび右側ユニットの重畳される領域がフェード・イン／フェード・アウトされた波形を示す図である。図１１に図示された左側および右側ユニットが重畳された波形を示す図である。平滑化過程なしに音素を接続した波形を示す図である。ＤＢを用いて音声ユニットを接続する本発明による音声合成装置を示すブロック図である。

符号の説明

１０接続領域決定部
２０境界拡張部
３０ピッチマーク整列部
４０ピッチトラック内挿部
５０ユニット重畳部

Claims

データベースを用いて音声ユニットを接続する音声合成方法において、
（ａ）接続される前記音声ユニットを決定して左側ユニットと右側ユニットとに区切る段階と、
（ｂ）前記左側ユニットと前記右側ユニットとの内挿される所定領域を可変的に決定する段階と、
（ｃ）前記左側ユニットの境界部及び前記右側ユニットの境界部の夫々に拡張部を連結する段階と、
（ｄ）前記内挿される所定領域を基準に、前記左側ユニット及び前記右側ユニット夫々の拡張部のピッチマークを同期化させる段階と、
（ｅ）前記左側ユニットおよび前記右側ユニットを重畳する段階と、を含み、
前記（ｃ）段階は、
（ｃ１）前記データベース内に前記左側ユニットと前記右側ユニットとの前記境界部に連結されるセグメントデータが存在するか否かを判断する段階と、
（ｃ２）前記データベース内に前記セグメントデータが存在する場合に、該セグメントデータを用いて境界部を拡張する段階と、
（ｃ３）前記セグメントデータが存在していない場合に、外挿法によって境界部を拡張する段階と、を含むことを特徴とする音声合成方法。
前記接続される音声ユニットは有声音の音素単位であることを特徴とする請求項１に記載の音声合成方法。
前記（ｅ）段階は、
前記左側ユニットをフェード・アウトして前記右側ユニットをフェード・インした後、前記左側ユニットと前記右側ユニットとを重畳することを特徴とする請求項１に記載の音声合成方法。
（ｆ）前記（ｄ）段階後に、重畳される前記所定領域のピッチトラックを等比率的に内挿して前記（ｅ）段階に進む段階をさらに含むことを特徴とする請求項１に記載の音声合成方法。
データベースを用いて音声ユニットを接続する音声合成装置において、
接続される前記音声ユニットを決定して左側ユニットと右側ユニットとに区切り、前記左側ユニットと前記右側ユニットとの内挿される所定領域を可変的に決定する接続領域決定部と、
前記左側ユニットの境界部及び前記右側ユニットの境界部の夫々に拡張部を連結して出力する境界部拡張部と、
前記内挿される所定領域を基準に、前記左側ユニット及び前記右側ユニット夫々の拡張部のピッチマークを同期化させ出力するピッチマーク整列部と、
ピッチマークが整列された前記左側ユニットおよび前記右側ユニットを重畳するユニット重畳部と、を含み、
前記境界部拡張部は、
前記データベース内に前記左側ユニットと前記右側ユニットとの前記境界部に連結されるセグメントデータが存在するか否かを判断して、前記データベース内に前記セグメントデータが存在する場合に該セグメントデータを用いて境界部を拡張し、前記セグメントデータが存在していない場合に外挿法によって境界部を拡張する、ことを特徴とする音声合成装置。
前記接続される音声ユニットは有声音の音素単位であることを特徴とする請求項５に記載の音声合成装置。
前記ユニット重畳部は、
前記左側ユニットをフェード・アウトして前記右側ユニットをフェード・インした後、前記左側ユニットと前記右側ユニットとを重畳することを特徴とする請求項５に記載の音声合成装置。
前記ピッチマーク整列部からピッチマークを入力され、重畳される前記所定領域のピッチトラックを等比率的に内挿して前記ユニット重畳部に出力するピッチトラック内挿部をさらに含むことを特徴とする請求項５に記載の音声合成装置。