JP4490818B2

JP4490818B2 - 定常音響信号のための合成方法

Info

Publication number: JP4490818B2
Application number: JP2004537354A
Authority: JP
Inventors: エルカン、エフ．ヒヒ
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-09-17
Filing date: 2003-08-05
Publication date: 2010-06-30
Anticipated expiration: 2023-08-05
Also published as: ES2266908T3; WO2004027753A1; CN100343893C; DE60305944D1; KR101016978B1; AU2003250410A1; EP1543497A1; JP2005539262A; TWI307876B; ATE329346T1; DE60305944T2; CN1682278A; US7558727B2; EP1543497B1; KR20050057372A; TW200425059A; US20060178873A1

Description

本発明は、音声または音楽の合成の分野に関し、限定はしないが、より詳細には、テキスト音声合成の分野に関する。

テキスト音声（ＴＴＳ）合成システムの機能は所与の言語で一般テキストから音声を合成することである。今日、ＴＴＳシステムは電話ネットワークを介したデータベースへのアクセスや障害者への援助など、多くの用途で実際的に運用されている。音声を合成する１つの方法は、半音節や多音字などの音声のサブユニットの記録されたセットの要素を連結することによる。成功している市販システムの大部分は多音字の連結を採用している。多音字は２つ（ダイフォン(diphone)）、３つ（トリフォン(triphone)）またはそれ以上の音字のグループを含み、安定したスペクトル領域で音字の所望のグループ化を分割することによって、単義語から決定することができる。連結ベースの合成において、２つの隣接する音字間の遷移の会話は合成音声の品質を保証するために重要である。基本サブユニットとしての多音字の選択で、２つの隣接する音字間の遷移は記録されたサブユニットに保存され、連結は同様の音字間で行われる。

しかしながら、合成の前に、音字は、それらの音字を含有する新しい単語の韻律制約を満たすために、それらの持続時間およびピッチを修正しなければならない。この処理は単調音響合成音声の生成を避けるために必要である。ＴＴＳシステムでは、韻律モジュールがこの機能を実行する。記録されたサブユニットにおける持続時間およびピッチの修正を可能にするために、多くの連結ベースのＴＴＳシステムは時間領域ピッチ同期重畳追加（ＴＤ−ＰＳＯＬＡ）（E.MoulinesおよびF.Charpentier、「Pitch synchronous waveform processing techniques for text-to-speech synthesis using diphones」、Speech Commun.、vol.9、pp.453-467、1990）合成モデルを採用している。合成すべき信号が延長された周期を有する必要がある場合、これは元の信号から得られたピッチ・ベルを反復することによって行われる。この反復プロセスを図１に示す。時間軸１００は元の信号の時間領域に属する。元の信号は時間軸１００上の０とＴの間の時間間隔にわたる長さＴを有する。さらに、元の信号は周期ｐに対応する基本周波数ｆを有する。ピッチ・ベルはウィンドウ１０２によって元の信号をウィンドウ処理することにより元の信号から得られる。本明細書で考察する例では、ウィンドウは時間軸１００の領域において周期ｐで離間される。このようにしてピッチ・ベル位置ｉは時間軸１００上で決定される。時間軸１０４は合成すべき信号の時間領域に属する。合成すべき信号は持続時間ｙＴを有する必要があり、ｙは任意の数とすることができる。次に、いくつかのピッチ・ベル位置ｊが時間軸１０４上で決定される。時間軸１００上と同様に、ピッチ・ベル位置ｊは元の信号の基本周波数ｆに対応する周期ｐで離間される。元の信号の持続時間を増加するために、元の信号から得られた元のピッチ・ベルの各々がｙ回反復される。これにより時間軸１０４の領域において間隔１０６、１０８、．．．が生じ、それにより間隔１０６、１０８、．．．の各々は同等のピッチ・ベルの反復から構成される。たとえば、間隔１０６はピッチ・ベル位置ｊ（ｉ＝１、ｋ＝１）〜ｊ（ｉ＝１、ｋ＝ｙ）で元の信号からのピッチ・ベル位置ｉ＝１から得られたピッチ・ベルの反復を含有する。これは元の信号の時間軸１００上のピッチ・ベル位置ｉ＝１から得られたピッチ・ベルのｙ個の反復を間隔１０６が含有することを意味する。同様に、以下の間隔１０８は元の信号からのピッチ位置ｉ＝２から得られたピッチ・ベルのｙ個の反復を含有する。したがって、合成信号はピッチ・ベル反復の連結されたシーケンスから構成される。

そのようなＰＳＯＬＡ方法の共通の欠点は極端持続時間操作が信号中にシーケンス間の可聴遷移を導入することである。特に、これは元の音声が、雑音成分と周期成分の両方を有する有声摩擦音(voiced fricative)のような混合音声である場合に問題になる。ピッチ・ベルの反復は雑音成分に周期性を導入し、これにより合成信号が不自然に聞こえるようになる。

したがって本発明は、特に、歌唱の場合のように、極端持続時間修正のために、音響信号を合成する改善された方法を提供することを目的とする。

本発明は、元の信号の持続時間を操作するために元の信号に基づいて音響信号を合成する方法を提供する。特に、本発明は、可聴アーティファクトなしに元の信号の極端持続時間およびピッチ修正を可能にする。これは元の信号の４〜１００倍程度の極端持続時間操作が起こりうる歌唱を合成するのに特に有用である。

本質的に、本発明は、反復ピッチ・ベルの１つの連鎖から次の連鎖への遷移が可聴なので、従来技術のＰＳＯＬＡ方法が持続時間操作後に合成信号にアーティファクトを導入するという観察に基づく。極端持続時間操作のために従来技術のＰＳＯＬＡタイプの方法を採用した場合に受けるこの効果は、雑音成分と周期成分の両方を含有する混合音声にとって特に不利である。

本発明によれば、ピッチ・ベルは合成すべき信号の所要のピッチ・ベル位置の各々について元の信号から無作為に選択される。このようにして雑音成分中の周期性の導入を避けることができ、元の信号の自然さが保存される。本発明の好ましい実施形態によれば、元の信号は雑音成分と周期成分の両方を有する有声摩擦音である。そのような有声摩擦音への本発明の適用は特に有益である。

本発明のさらなる好ましい実施形態によれば、有声摩擦音をウィンドウ処理するために２乗コサイン(raised cosine)が使用される。無声音響間隔に対しては、電力領域における全信号包絡線がほぼ一定のままであるという利点を有するサイン・ウィンドウが使用される。周期信号とは異なり、２つの雑音サンプルを追加した場合、総和を２つのサンプルのいずれかの絶対値よりも小さくすることができる。これは信号が（たいてい）同相でないためである。サイン・ウィンドウはこの効果に対して調節し、包絡線変調を除去する。

本発明のさらなる好ましい実施形態によれば、元の音響信号は、スペクトル的に同様であり、基本的に同じ情報内容を有する周期を有する。有声であるそのような周期は第１の分類子(classifier)によって分類され、無声であるそのような周期は第２の分類子によって分類される。

本発明のさらなる好ましい実施形態によれば、元の信号の分類情報はテキスト音声システムなどのコンピュータ・システムに記憶される。スペクトル的に同様である有声または無声の定常周期として分類される元の信号の間隔が本発明によって処理され、有声間隔に対しては２乗コサイン・ウィンドウが使用され、無声間隔に対してはサイン・ウィンドウが使用される。

以下に、図面を参照して本発明の好ましい実施形態についてより詳細に説明する。

図２は元の信号に基づいて信号を合成する一例を示す。時間軸２００は元の信号の時間領域を示す。元の信号は持続時間Ｔを有し、時間軸２００上の０とＴの間の時間にわたる。元の信号は周期ｐに対応する基本周波数ｆを有する。周期ｐはウィンドウ２０２によって元の信号をウィンドウ処理するために時間軸２００上の位置ｉを決定する。本明細書で考察する例では、以下の公式によるコサイン・ウィンドウが使用されるような有声混合音声である。

以前の関係では、ｍはウィンドウの長さであり、ｎはラニング指数(running index)である。

元の信号が無声音響信号の場合、以下のウィンドウを使用することが好ましい。

合成すべき信号の時間領域を時間軸２０４で示す。合成すべき信号はｙＴの持続時間を有する必要があり、ただしｙは任意の数、たとえばｙ＝４またはｙ＝６またはｙ＝２０またはｙ＝５０またはｙ＝１００とすることができる。

周期ｐは時間軸２０４上のピッチ・ベル位置ｊをも決定する。時間軸２００上と同様に、ピッチ・ベル位置は周期ｐで離間される。所要のピッチ・ベル位置ｊの各々について、時間軸２００の時間領域におけるピッチ・ベルｉの無作為選択が行われる。本明細書で考察する例では、時間軸２００の時間領域において元の信号をウィンドウ処理することによって得られるいくつかの６ピッチ・ベルがある。ピッチ・ベル位置ｊに対してこれらの得られたピッチ・ベルの１つを選択するために、１と６の間の乱数が発生する。このようにしてピッチ・ベル位置ｉ＝１〜ｉ＝６上の利用可能なピッチ・ベルからの無作為選択が行われる。このプロセスは時間軸２０４上のすべての所要のピッチ・ベル位置ｊに対して反復される。例えば、所要のピッチ・ベル位置ｊ＝１のピッチ・ベルは１と６の間の乱数を発生することによって選択される。本明細書で考察する例では、時間軸２００上のピッチ・ベル位置ｉ＝６から得られるピッチ・ベルが時間軸２０４上の所要のピッチ・ベル位置ｊ＝１に対して選択されるように番号６は得られる。同様に、所要のピッチ・ベル位置ｊ＝２に対して乱数が発生する。時間軸２００上のピッチ・ベル位置ｉ＝４のピッチ・ベルが所要のピッチ・ベル位置ｊ＝２に対して選択されるように乱数はこの例では４である。このプロセスは時間軸２０４上のすべての所要のピッチ・ベル位置ｊ＝１〜ｊ＝ｚに対して実行される。元の信号の領域からの無作為選択のために、間隔１０６、１０８、．．．は避けられる（図１参照）。したがって、そのようなアーティファクトは合成信号に導入されず、合成信号は極端持続時間操作に対しても自然に聞こえる。

図３はこの方法を示す流れ図を示す。ステップ３００で元の音の録音を行う。ステップ３０２で混合音声間隔を識別し、元の音の録音で有声または無声として分類する。これは定常周期について元の信号および／またその周波数スペクトルを分析する専門家によってまたはコンピュータ・プログラムによって手動で行うことができる。好ましくは、第１の分析がプログラムによって実施され、専門家がプログラムの出力を検討する。ステップ３０４でウィンドウ処理によって元の音響信号からピッチ・ベルを得る。ウィンドウ処理は元の音響信号の基本周波数と同期して配置されるウィンドウによって実施される、すなわちウィンドウは元の音響信号の領域において元の信号の周期ｐで離隔される。ステップ３０６で、信号を合成するためにピッチ・ベルが必要とされるピッチ・ベル位置ｊを決定する。この場合も、所要のピッチ・ベル位置ｊは周期ｐで離隔される。あるいは、ピッチ・ベル位置ｊは合成すべき信号のより高いまたはより低い所要の基本周波数に対応する別の周期ｑで離隔することができる。このようにして持続時間および周波数を修正することができる。ステップ３０８で、混合として分類される音響間隔内の所要のピッチ・ベル位置ｊの各々についてピッチ・ベルの無作為選択を実施する。他の音響間隔について、従来技術のＰＳＯＬＡタイプ方法を採用しても採用しなくてもよい。ステップ３１０で、合成すべき信号の領域においてピッチ・ベル位置ｊにピッチ・ベルを重畳および追加する。

図４は／ｚ／から／ｚ／への遷移のダイフォンである元の音響信号４００の一例を示す。また音響信号４００の周波数スペクトル４０２を図４に示す。

音響信号４０４は合成音響信号４０４の時間領域において所要のピッチ・ベル位置のための音響信号４００から得られたピッチ・ベルを手動で選択することによって本発明によって音響信号４００から得られる。本明細書で考察する例では、合成音響信号４０４は元の音響信号４００よりもｙ＝５倍長い。また、音響信号４０４の周波数スペクトル４０６を図４に示す。音響信号４０４およびその周波数スペクトル４０６から明らかなように、元の音響信号４００の特性は合成信号に保存され、アーチファクトは導入されない。したがって、音響信号４０４は音響信号４００と同等に聞こえるが、５倍より長くはならない。

図５はテキスト音声合成システムなどのコンピュータ・システムのブロック図を示す。コンピュータ・システム５００は元の音響信号を記憶するためのモジュール５０２を備える。モジュール５０４はモジュール５０２に記憶された元の信号の音響分類情報を入力し、記憶する働きをする。たとえば、元の信号において定常有声周期は「ｒ」でマークされ、定常無声周期は「ｓ」でマークされる。モジュール５０６はピッチ・ベルを得るためにモジュール５０２の元の音響信号をウィンドウ処理する働きをする。音響分類によって、定常有声周期または定常無声周期に２乗コサインまたはサイン・ウィンドウがそれぞれ使用される。モジュール５０８は合成すべき信号の領域において所要のピッチ・ベル位置ｊを決定する働きをする。所要のピッチ・ベル位置ｊを決定するために、入力パラメータ「長さｙ」が利用される。入力パラメータ長さｙは元の信号の持続時間の増倍率(multiplication factor)を指定する。さらに、持続時間に加えてまたはその代わりに基本周波数を変更するための追加の入力パラメータとして動的に変動するピッチを与えることが可能である。

モジュール５１０は元の音響信号から得られるピッチ・ベルの組からピッチ・ベルを選択する働きをする。モジュール５１０は擬似乱数発生器５１２に結合される。合成すべき信号の領域における所要のピッチ・ベル位置の各々について、擬似乱数は擬似乱数発生器５１２によって発生する。これらの擬似乱数によって、合成すべき信号の時間領域における所要のピッチ・ベル位置の各々について無作為に選択されるピッチ・ベルを与えるためにピッチ・ベルの組からのピッチ・ベルの選択がモジュール５１０によって行われる。モジュール５１４は合成すべき信号の時間領域における選択されたピッチ・ベルに対して重畳および追加を実施する働きをする。このようにして所要の持続時間を有する合成信号が得られる。

本発明は定常領域に適用できることに注意する。たとえば、そのような定常領域は母音または／ｚ／のような雑音有声音声とすることができる。したがって、本発明は「混合」音声に限定されない。

さらに、合成信号は元と同じピッチ（基本周波数）を有する必要がないことに注意する。いくつかの適用例では、たとえば歌唱を合成するためにピッチを変更する必要がある。合成信号における基本周波数のこの変更を行うために、合成信号における周期位置を元よりも互いにより近くにまたはより離れて置く。これは別段に合成手順を変更しない。

さらに、本発明はウィンドウのある一定の選択に制限されない。２乗コサインまたはサイン・ウィンドウの代わりに、三角ウィンドウなどの他のウィンドウを使用することができる。

従来技術のＰＳＯＬＡタイプ方法を示す図である。本発明の一実施形態による音響信号を合成するための一例を示す図である。本発明の方法の一実施形態の流れ図である。元の信号および合成信号の一例を示す図である。コンピュータ・システムの好ましい実施形態のブロック図である。

Claims

所要の第１の基本周波数を有する第１の音響信号を第２の基本周波数を有する第２の音響信号に基づいて合成する方法であって、
前記第１の音響信号の時間領域において前記第１の基本周波数の１つの周期で離隔された所要のピッチ・ベル位置を決定するステップと、
前記第２の音響信号の時間領域において前記第２の基本周波数の１つの周期で離隔されたピッチ・ベル位置で前記第２の音響信号をウィンドウ処理することによってピッチ・ベルを与えるステップと、
前記所要のピッチ・ベル位置の各々について前記与えられたピッチ・ベルからピッチ・ベルを無作為に選択するステップと、
前記第１の信号を合成するために前記選択されたピッチ・ベルに対して重畳および追加動作を行うステップと
を含む方法。
前記第２の音響信号が、雑音成分および周期成分を含む混合音声である請求項１に記載の方法。
前記第２の音響信号が有声摩擦音音響信号である請求項１または２に記載の方法。
前記第２の音響信号が有声音響信号であり、前記第２の音響信号をウィンドウ処理するために２乗コサインが使用される請求項１乃至３のいずれかに記載の方法。
前記第２の音響信号が無声音響信号であり、前記第２の音響信号をウィンドウ処理するためにサイン・ウィンドウが使用される請求項１乃至３のいずれかに記載の方法。
前記第２の音響信号がスペクトル的に似ている周期を有し、前記スペクトル的に似ている周期は基本的に同じ情報内容を有している請求項１乃至５のいずれかに記載の方法。
前記所要の第１の基本周波数と前記第２の基本周波数とが実質的に同じである前記請求項１乃至６のいずれかに記載の方法。
コンピュータによって実行される場合に所要の第１の基本周波数を有する第１の音響信号を第２の基本周波数を有する第２の音響信号に基づいて合成するプログラムを有するコンピュータ読取可能なデジタル記憶媒体であって、前記プログラムは、前記コンピュータに、
前記第１の音響信号の時間領域において前記第１の基本周波数の１つの周期で離隔された所要のピッチ・ベル位置を決定する手順と、
前記第２の音響信号の時間領域において前記第２の基本周波数の１つの周期で離隔されたピッチ・ベル位置で前記第２の音響信号をウィンドウ処理することによってピッチ・ベルを与える手順と、
前記所要のピッチ・ベル位置の各々について前記与えられたピッチ・ベルからピッチ・ベルを無作為に選択する手順と、
前記第１の信号を合成するために前記選択されたピッチ・ベルに対して重畳および追加動作を行う手順と
を実行させるように適合される、コンピュータ読取可能なデジタル記憶媒体。
所要の第１の基本周波数を有する第１の音響信号を第２の基本周波数を有する第２の音響信号に基づいて合成するためのコンピュータ・システム、特にテキスト音声合成システムであって、前記コンピュータ・システムが、
前記第１の音響信号の時間領域において前記第１の基本周波数の１つの周期で離隔された所要のピッチ・ベル位置を決定するための手段と、
前記第２の音響信号の時間領域において前記第２の基本周波数の１つの周期で離隔されたピッチ・ベル位置で前記第２の音響信号をウィンドウ処理することによってピッチ・ベルを与えるための手段と、
前記所要のピッチ・ベル位置の各々について前記与えられたピッチ・ベルからピッチ・ベルを無作為に選択するための手段と、
前記第１の信号を合成するために前記選択されたピッチ・ベルに対して重畳および追加動作を行うための手段と
を備えるコンピュータ・システム。
元の信号の内に前記第２の音響信号を含有する間隔を示すデータを記憶するように適合された、音響分類データを記憶するための手段をさらに備える請求項９に記載のコンピュータ・システム。