JP2005539261A

JP2005539261A - 音声合成における時間幅を制御する方法

Info

Publication number: JP2005539261A
Application number: JP2004537353A
Authority: JP
Inventors: エルカン、エフ．ヒヒ
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-09-17
Filing date: 2003-08-05
Publication date: 2005-12-22
Anticipated expiration: 2023-08-05
Also published as: CN1682281A; US20060004578A1; DE60311482D1; CN1682281B; WO2004027758A1; EP1543503B1; AU2003249443A1; JP5175422B2; ATE352837T1; TW200416668A; KR101029493B1; DE60311482T2; KR20050057409A; TWI307875B; EP1543503A1; US7912708B2

Abstract

本発明は音声信号の合成方法に関し、オリジナル音声信号のインターバルの第１クラスに第１識別子を割り当て、オリジナル音声信号のインターバルの第２クラスに第２識別子を割り当て、オリジナル信号をウインドゥイングして幾つかのピッチベルを用意し、割り当てられた第１識別子を有するピッチベルを処理して音声信号の時間幅を調整し、処理されたピッチベルに重畳及び加え合わせ操作を実行する。

Description

本発明は、音声処理の分野、より詳細には、それに限定されるものではないが、テキストを音声に変換し合成する分野に関する。

テキストを音声に変換し合成する、すなわちテキスト・ツー・スピーチ（ＴＴＳ）合成を行うシステムの機能は、与えられた言語の一般的なテキストから音声を合成することである。現今では、ＴＴＳシステムは電話回線を介してデータベースにアクセスしたり障害者を手助けしたりするような多くの用途にとって実用期に入ってきた。音声を合成する一つの方法は、半音節（デミシラブル）又は多音節（ポリフォン）のような音声のサブユニットの記録セットのエレメントを連結することによるものである。成功している商業システムの大部分は多音節の連結を用いている。多音節は、２つのグループ（２音節）、３つのグループ（３音節）、又はそれを超える音節を含み、無意味な言葉（ナンセンスワード）から安定スペクトル領域において音声の所望のグループ分けをセグメント化することによって決定される。連結ベースの合成においては、隣接する２音間の移行部の会話は合成された音声の品質を保証するのに非常に重要なものである。多音を基本的なサブユニットとして選択することによって、隣接する２音間の移行部が記録用サブユニット内に保存され、その連結は類似音間で行われる。しかしながら、そのような音を含む新しいワードの韻律論上の連結を実行するために、合成の前に、音は調整された時間幅及びピッチを持っていなければならない。この処理は合成音声の単調な（モノトーンの）響きの生成を避けるために必要なものである。ＴＴＳシステムでは、この機能は韻律モジュールによって実行される。記録用サブユニットにおける時間幅及びピッチの調整を可能とするために、多くの連結に基づくＴＴＳシステムがタイムドメイン・ピッチ同期・重畳加え合わせ（ＴＤ−ＰＳＯＬＡ）合成モデルを用いる（E.Moulines and F.Charpentier“Pitch synchronous waveform processing techniques for text-to-speech synthesis using diphones,”Speech Commun., vol.9, pp.453-467, 1990）。このＴＤ−ＰＳＯＬＡモデルでは、音声信号はまずピッチマーキングアルゴリズムに通される。このアルゴリズムは発声されたセグメント内の信号のピーク点にマークを割り当て、無音声セグメント内に１０ｍｓ離してマークを割り当てる。合成は、ピッチマークに中心を合わされたハニング（Hanning）ウインドウセグメントと、次のものへと先のピッチマークから延びるセグメントとの重畳によって作られる。時間幅の調整はウインドウセグメントの幾つかを削除または複写することによって行われる。他方、ピッチ周期の調整はウインドウセグメント間の重畳を増加又は減少することによって行われる。

しかしながら、多くの商業的ＴＴＳシステムにおいて達成された成功にもかかわらず、合成のＴＤ−ＰＳＯＬＳＡモデルを用いることによって生成される合成音声は幾つかの欠点を持っている。その主たるものは大きな韻律論的な変化にあり、次にその概要について説明する。

上述のようなＰＳＯＬＡ法の例が、欧州特許第０３６３２３３号明細書、米国特許第５４７９５６４号明細書、及び欧州特許第０７０６１７０号明細書に開示されている。具体例は、T.Dutoit and H.Leich, “Speech Communications”, Elsevier Publisher, November 1993に開示されているＭＢＲ−ＰＳＯＬＡ法である。米国特許第５４７９５６４号明細書は、一定の基本周波数を有する音響信号の周波数を、その信号から抽出された短期信号を重畳して加え合わせることによって調整する手段を示唆している。短期信号を得るのに用いられる重み付けウインドウの長さは音響信号の周期の２倍にほぼ等しく、周期内のそれらの位置は任意の値にセットされうる（連続するウインドウ間の時間シフトが音響信号の周期に等しいとすれば）。米国特許第５４７９５６４号明細書は又、不連続性を平滑化するように、連結するセグメント間に波形補間を施す手段についても記載している。このＰＳＯＬＡ法は与えられた音声信号の時間幅調整を可能とする。これは音声合成のために重畳及び加え合わせ操作が施される前にピッチベル（pitch bell）を繰り返し、又は削除することによって行われる。ピッチベル内の情報は常に破裂音内のような繰り返しに対して適しているとは限らない。このようにして人工音が導入されることは、従来技術によるＰＳＯＬＡ法の一般的な欠点である。これらの人工音は合成された音声信号を金属音にしてしまうことがあり、合成信号の明瞭性に重大な悪影響を与え、又はそれを破壊してしまうことさえありうる。

したがって本発明の目的は、音声信号の改善された処理方法を提供することである。

本発明は又、音声信号を処理する方法、コンピュータプログラム（コンピュータプログラムプロダクト）、及びコンピュータシステムを提供するものである。要するに、本発明は改善された明瞭性をもって自然に響く合成音声信号の合成を可能にするものである。

これらの目的は、オリジナル音声信号に含まれるある一定のインターバルを分類することによって達成される。本発明の好ましい実施態様によれば、オリジナル音声信号内で「ステッディ（steady）」及び「ダイナミック」インターバルが識別される。この分類分けはただ一回だけ実行されることが必要である。それは調整された時間幅を有するオリジナル音声信号に基づいて音声信号を合成するために用いられる。

本発明は、ピッチベル型ダイナミックインターバルの繰り返しは、従来のＰＳＯＬＡ法において行われているように、意図的ではない周期性を導入し、それが金属音的に響く合成信号のような人工音に導き、又、明瞭性を減少させたり破壊したりする、という認識に基づくものである。

本発明によれば、この問題は、時間幅調整の目的のためにピッチベルの処理をオリジナル音声信号のステッディインターバルのピッチベルに限定することによって解決される。言い換えれば、時間幅調整は、異なる時間幅を持つことができる音声インターバル上でのみ実行される。これは、母音の中央又は/s/音のような子音に対しては真である。しかし、最後が短周期より短い局部事象が起こる場合がある。これらは、発声されない破裂音（/p/,/t/,/k/）、又は舌及び唇によって生成されるティックアンドクリック（ticks and clicks）のスタートのように急に変化する。これらの事象を含む周期は明瞭性にとって重要なものであり、マニュアル操作によって省略されてはならない。それらの繰り返しは不自然に響く人工音を導入するので、これも又問題である。非発声音から母音への移行のスタート時の周期も又長くしたり短くしたりしてはならない局部特徴を持つ。人工音を避けるために、全ての周期が特別な周期クラス型情報でマークされる。この情報は周期が繰り返されるか省略されるかを決定するために用いられる。そのため、オリジナル音声信号のダイナミックインターバルのウインドゥイング（windowing）によって得られるピッチベルは時間幅調整のために繰り返されることはない。ダイナミックとして分類分けされ明瞭性にとって重要であるインターバルから得られるピッチベルは、明瞭性を維持するために合成信号内に保持される。ダイナミックとして分類分けされるが明瞭性にとって重要でないオリジナル音声信号のインターバルのウインドゥイングによって得られるピッチベルは、結果的に得られる合成音声信号の品質に重大な悪影響を与えることもなく、重畳及び加え合わせを実行する前に削除されてもよいし、削除されなくてもよい。

本発明の好ましい応用例は、テキスト／音声合成のプロセスにおいて調整される大量の自然音声記録を保存するテキスト／音声変換システムに対するものである。

本発明の好ましい実施態様によれば、音声信号のウインドゥイングのために、二乗コサイン関数が用いられる。好ましくは、非発声音声を含むステッディインターバルのためにサインウインドウが用いられる。非発声音声を含むそのようなステッディインターバルのために得られたピッチベルは、時間幅調整のプロセスに導入されうる意図的でない、いかなる周期性をも除去するために無作為化される。

次に本発明の好ましい実施例について図面を参照して詳細に説明する。

図１は本発明の方法の好ましい実施例を示すフローチャートである。ステップ１００において、自然音声の記録が用意される。ステップ１０２において、自然音声記録中のインターバルが識別され、分類分けされる。音声インターバルの分類のために、一例として次の分類体系が用いられる。すなわち、
− 沈黙（無言）
．非発声周期
ｖ発声周期
ｐ非常に重要なダイナミック非発声周期（１回だけ用いられるべき）
ｂ非常に重要なダイナミック発声周期（１回だけ用いられるべき）
ｑダイナミック非発声周期（１回だけ用いてもよい）
ｃダイナミック発声周期（１回だけ用いてもよい）
がそれである。

音声インターバルの２つの基本カテゴリーは、「ステッディ」と「ダイナミック」音声インターバルである。音声インターバルは、自然音声信号の基本周波数の少なくとも２つの周期の連番に対して実質的に一定の信号特性を持っている時、「ステッディ」と分類される。対照的に、その信号特性が基本周波数の１つの周期内でのみ出現する時、オリジナル音声記録の音声インターバルは「ダイナミック」と分類される。

ここで考慮される分類体系において、「．」及び「ｖ」周期はステッディ周期である。「ｐ」、「ｂ」、「ｑ」及び「ｃ」周期は、連続する処理において異なる処理がなされるダイナミック周期である。

ステップ１０４において、自然音声信号はピッチベルを得るためにウインドゥイングが施される。好ましくは、ウインドゥイングは二乗コサインウインドウ手段によって実行され、又は「．」周期に対してはサインウインドウによって実行される。

ステップ１０６において、「ステッディ」と分類された周期に対して得られたピッチベルは音声信号の時間幅を調整するために処理される。これは、オリジナル時間幅を増加させるか減少させるように、ピッチベルの繰り返し又は削除によって行われる。「ダイナミック」と分類された周期から得られたピッチベルは、人工音の導入を避けるために、繰り返しは行われない。「ｐ」又は「ｂ」と分類された周期から得られたピッチベルは、オリジナル信号の明瞭性を維持するために削除されない。「ｑ」又は［ｃ」と分類された周期に対して得られたピッチベルも又繰り返されないが、結果的に得られる合成信号の明瞭性を大きく損なうことなく削除されうる。

好ましくは、「．」と分類された周期に対して得られたピッチベルは周期性の導入を避けるために無作為化法で得られる。さらにこれは、その周期のウインドゥイングのためにサインウインドウの利用によって助けられる。

ステップ１０８において、処理されたピッチベルは合成信号を得るために重畳され、加え合わされる。

図２は自然音声信号２００の処理の一例を示すものである。自然音声信号２００はダイナミックインターバル２０２、２０４、２０６、２０８、２１０及び２１２を持っている。ダイナミックインターバル２０２は「ｂ」、「ｃ」と分類された周期を含む。ダイナミックインターバル２０４は「ｃ」、「ｑと分類された周期を含む。ダイナミックインターバル２０６は「ｑ」と分類された周期を含む。ダイナミックインターバル２０８は「ｑ」、「ｃ」及び「ｂ」と分類された周期を含む。ダイナミックインターバル２１０は「ｃ」、「ｂ」と分類された周期を含む。最後に、ダイナミックインターバル２１２は「ｃ」、「ｂ」と分類された周期を含む。さらに、自然音声信号２００はステッディインターバル２１４、２１６、２１８、２２０、２２２及び２２４を含む。ステッディインターバル２１４は「ｖ」と分類された周期を含み、ステッディインターバル２１６は「．」と分類された周期を含み、ステッディインターバル２１８は「．」と分類された周期を含み、ステッディインターバル２２０は「ｖ」と分類された周期を含み、ステッディインターバル２２２は「ｖ」と分類された周期を含み、最後にステッディインターバル２２４は「ｖ」と分類された周期を含む。この分類は適当な信号分析プログラム手段によってマニュアル操作か自動的に行われる。好ましくは、自動分析は、専門家によって制御されるプログラム手段によって実行され、若しくは、もし必要ならマニュアルによって修正される。この分類は無制限数の信号合成を可能とするために、ただ１回だけ実行される必要がある。

ここで考慮される例においては、オリジナル音声信号２００に比較して拡張された時間幅を有する自然音声信号２００に基づいて１つの信号が合成されるものとする。この目的のために、自然音声信号２００は、従来技術で公知のＰＳＯＬＡ法で用いられるような自然音声信号２００の基本周波数に同期して位置するウインドウ手段によってウインドウされる。

好ましくは、ウインドウとして、二乗コサイン関数が用いられる。「．」と分類された周期に対しては、ノイズの入った信号音声のピッチベルが繰り返された時に導入されうる意図しない周期性を減少させるために、サインウインドウが用いられる。さらに意図しない周期性に対する対策として、「．」と分類された周期に対するピッチベルが無作為化された方法で得られる。ここで考慮される例では、合成されるべき信号は時間軸２２６の領域内で次のように構成されている。

合成されるべき音声信号の第１インターバル２２８はダイナミックインターバル２０２からのピッチベルを含む。これらのピッチベルは、インターバル２２８の時間幅が、ダイナミックインターバル２０２に関して変化しないことを示す調整なしに、インターバル２２８のために用いられる。インターバル２３０の時間幅は対応するステッディインターバル２１４の時間幅の約２倍である。これは、ステッディインターバル２１４に対して得られたピッチベルのそれぞれを繰り返すことによって達成される。インターバル２３２の時間幅はダイナミックインターバル２０４に比較して変化していない。インターバル２３４はステッディインターバル２１６から得られたピッチベルによって構成される。ステッディインターバル２１６に含まれる各ピッチベルは、このインターバルの時間幅を倍増させるために再び繰り返される。次のインターバル２３６、２３８、２４０、２４２、・・・もインターバル２０６、２１８、２０８、２２０、２１０、２２２、２１２、２２４から同様に得られる。次に、結果として生じる合成信号を得るために、ピッチベルは時間軸２２６の領域内で重畳される。代替的に、「ｑ」又は「ｃ」と分類された自然音声信号２００の周期から得られたピッチベルが削除されることもありうる。いずれの場合でも、「ダイナミック」と分類された自然音声信号２００の周期から得られたピッチベルはどれでも繰り返えされることはない。この時間幅調整の方法は合成信号の品質及び明瞭性に重大な影響を及ぼしかねない人工音を導入することなしに達成されうる。

ここで考慮される例では、「ｐ」は発話の明瞭性に対して非常に重要な局部（非発声）イベントをマークするために用いられる。通常、唇又は舌による空気排出後のノイズ突発がこのタイプである。音素/p/、/t/及び/k/は少なくとも１つのそのような周期を持っている。「ｐ」でマークされた周期は、音素の最終時間幅にもかかわらず、合成音声にただ一度だけ現れるようにしなければならない。幾つかの局部（非発声）イベントは明瞭性に対して非常に重要ということはないが、繰り返しが不自然に響く周期のシリーズに導入するかもしれないほどダイナミックである。これらの周期は文字「ｑ」でマークされる。これらは一度だけ用いられうるが、より重要な品質又は明瞭性の悪化を伴うことがない限り省略されることもできる。「ｐ」及び「ｑ」に対する発声対照は「ｂ」及び「ｃ」によって示されるタイプである。発声された破裂音/b/、/d/及び/g/は、通常、「ｂ」でマークされる少なくとも１つの周期を持つ。舌は、それが唇の他の部分を当たるか離れる時、ティックアンドクリック音を生成することもある。音素/l/はこれが起こりうる一例である。沈黙から母音への移行部、又は非発声子音から母音への移行部も、局部イベント付きの周期を持っている。母音の中間における周期は自然性に悪影響を与えることがない限り、複数回、繰り返すことができるが、移行部の中間に正しく落ちる周期は繰り返しに対してダイナミックでありすぎる。

図３は本発明のコンピュータシステムの一実施例のブロック図を示すものである。好ましくは、コンピュータシステムは本発明の原理を具体化するテキスト／音声変換システムである。このコンピュータシステム３００は自然音声信号を保存するために用いられるモジュール３０２を備えている。モジュール３０２に保存された自然音声信号の周期を自動的に、マニュアル操作で、又は対話形式で、分類するためにモジュール３０４が用いられる。又、モジュール３０２に保存された自然音声信号のウインドゥイングを実行するためにモジュール３０６が用いられる。このようにして幾つかのピッチベルが得られる。ピッチベル処理のためにモジュール３０８が用いられる。周期調整のためのピッチベル処理はステッディと分類されたインターバルから得られたピッチベル上でのみ実行される。加えて、明瞭性にとってあまり重要でないものと分類されたダイナミックインターバルから得られたピッチベルは、それらが合成信号内に生じないように、モジュール３０８によって削除することができる。合成信号を得るために、結果的に得られるピッチベルの重畳及び加え合わせ操作を実行するためにモジュール３１０が用いられる。モジュール３０２に保存されたオリジナル自然音声信号の周期の所望の調整結果がコンピュータシステム３００内に入力される。結果的に得られた合成信号はコンピュータシステム３００から搬送波に乗せて、又はデータファイルとして、出力される。

本発明の好ましい実施例のフローチャートである。本発明の実施例によるオリジナル音声信号に基づく音声信号の合成について説明する図である。本発明のコンピュータシステムの構成例を示すブロック図である。

符号の説明

２００自然音声信号
２０２ダイナミックインターバル
２０４ダイナミックインターバル
２０６ダイナミックインターバル
２０８ダイナミックインターバル
２１０ダイナミックインターバル
２１２ダイナミックインターバル
２１４ステッディインターバル
２１６ステッディインターバル
２１８ステッディインターバル
２２０ステッディインターバル
２２２ステッディインターバル
２２４ステッディインターバル
２２６時間軸インターバル
２３０インターバル
２３２インターバル
２３４インターバル
２３６インターバル
２３８インターバル
２４０インターバル
２４２インターバル
３００コンピュータシステム
３０２モジュール
３０４モジュール
３０６モジュール
３０８モジュール
３１０モジュール

Claims

オリジナル音声信号のインターバルの第１クラスに第１識別子を割り当て、前記オリジナル音声信号のインターバルの第２クラスに第２識別子を割り当て、
前記オリジナル信号をウインドゥイングして複数のピッチベルを用意し、
割り当てられた前記第１識別子を有するピッチベルを処理して前記音声信号の時間幅を調整し、
処理されたピッチベルに重畳及び加え合わせ操作を実行する、
音声信号の合成方法。
前記インターバルの第１クラスがステッディインターバルである、請求項１に記載の方法。
前記第１識別子として第１コード又は第２コードが用いられ、前記第コードが非発声インターバルを表し、前記第２コードが発声インターバルを表す、請求項１又は２に記載の方法。
前記インターバルの第２クラスがダイナミックインターバルである、請求項１ないし３のいずれか１項に記載の方法。
前記第２識別子として第３コード、第４コード、第５コード、又は第６コードが用いられ、前記第３コードは音声信号の明瞭性に対して不可欠な非発声インターバルを表し、前記第４コードは音声信号の明瞭性に対して不可欠な発声インターバルを表し、前記第５コードは音声信号の明瞭性に対して不可欠なものではない非発声インターバルを表し、前記第６コードは音声信号の明瞭性に対して不可欠なものではない発声インターバルを表す、請求項１ないし４のいずれか１項に記載の方法。
前記第５又は第６コードに割り当てられたピッチベルが任意に削除される、請求項５に記載の方法。
前記音声信号のウインドゥイングのために二乗コサイン関数が用いられる、請求項１ないし６のいずれか１項に記載の方法。
前記音声信号の非発声ステッディインターバルのウインドゥイングのためにサインウインドウが用いられる、請求項１ないし７のいずれか１項に記載の方法。
さらに、前記重畳及び加え合わせ操作を実行する前に、非発声ステッディ周期のピッチベルを無作為化する、請求項１ないし７のいずれか１項に記載の方法。
前記ウインドゥイングが、前記音声信号の基本周波数と同期して位置するウインドウ手段によって実行される、請求項１ないし９のいずれか１項に記載の方法。
オリジナル音声信号の時間幅を調整するために、
オリジナル音声信号のインターバルの第１クラスに第１識別子を割り当て、前記オリジナル音声信号のインターバルの第２クラスに第２識別子を割り当てる処理ステップと、
前記オリジナル信号をウインドゥイングして複数のピッチベルを用意する処理ステップと、
割り当てられた前記第１識別子を有するピッチベルを処理して前記音声信号の時間幅を調整する処理ステップと、
処理されたピッチベルに重畳及び加え合わせ操作を施す処理ステップと、
を実行するためのプログラム手段を備えた、
ディジタル記憶媒体のようなコンピュータプログラム。
音声信号を保存する手段（３０２）と、
オリジナル音声信号のインターバルの第１クラスに割り当てられた第１識別子を記憶し、オリジナル音声信号のインターバルの第２クラスに割り当てられた第２識別子を記憶する手段（３０４）と、
前記オリジナル信号をウインドゥイングして複数のピッチベルを用意する手段（３０６）と、
割り当てられた前記第１識別子を有するピッチベルを処理して前記音声信号の時間幅を調整する処理手段（３０８）と、
処理されたピッチベルに重畳及び加え合わせ操作を施す手段（３１０）と、
を備えた、コンピュータシステム、特にテキスト／音声変換システム。
重畳され加え合わせされた複数のピッチベルからなる合成音声信号であって、オリジナル音声信号の時間幅調整を実行するために、前記オリジナル音声信号のステッディ発声インターバル又はステッディ非発声インターバルのピッチベルのみが処理されている、合成音声信号。
重畳及び加え合わせ操作の前に、ダイナミック発声又は非発声インターバルに属する１つ又はそれ以上のピッチベルが削除されている、請求項１３に記載の音声信号。