JP6449331B2

JP6449331B2 - パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法

Info

Publication number: JP6449331B2
Application number: JP2016567717A
Authority: JP
Inventors: ダチラジュ，ラジェシュ; ガナパシラジュ，アルビンド
Original assignee: インタラクティブ・インテリジェンス・インコーポレイテッド
Priority date: 2014-05-28
Filing date: 2014-05-28
Publication date: 2019-01-09
Anticipated expiration: 2034-05-28
Also published as: AU2020227065A1; AU2014395554B2; CA3178027A1; EP3149727A4; EP3149727A1; JP2017520016A; NZ725925A; AU2014395554A1; CA2947957A1; BR112016027537A2; BR112016027537B1; WO2015183254A1; EP3149727B1; CA2947957C; ZA201607696B; AU2020227065B2

Description

本発明は、音声合成のみならず、概して電気通信システム及び方法に関する。より詳細には、本発明は、統計的パラメトリック音声合成システムに基づく隠れマルコフモデルにおける励起信号の形成に関する。

パラメトリック音声合成システムに基づく声門パルスモデルの励起信号を形成する方法が提供されている。一実施形態において、励起信号を形成する為に基本周波数値が使用される。励起は、所与の話者のデータベースから選択された音源パルスを使用してモデル化される。音源信号は、励起信号の形成に使用する声門パルスを識別する為に、ベクトル表現において使用される声門セグメントにセグメント化される。新規の距離メトリックの使用及び話者の音声サンプルから抽出した原信号を保存することは、励起信号の低周波数情報の取込みに役立つ。加えて、話者の音声品質を正確に表現形成すると同時に音声合成の品質を向上させる為に、独自のセグメント結合方法を適用することによりセグメント端のアーチファクトが除去される。

一実施形態において、プレフィルタリングされた信号を得る為に音声信号上にプレフィルタリングを実施するステップと、逆フィルタリングパラメータを得る為にプレフィルタリングされた信号を分析するステップと、逆フィルタリングパラメータを使用して音声信号の逆フィルタリングを実施するステップと、逆フィルタリングされた音声信号を使用して集積された線形予測残差信号を算出するステップと、音声信号において声門セグメントの境界を識別するステップと、音声信号から識別された声門セグメントの境界を使用して集積された線形予測残差信号を声門パルスにセグメント化するステップと、声門パルスの正規化を実施するステップと、音声信号に得られた全ての正規化された声門パルスを収集することにより、声門パルスデータベースを形成するステップとを含む、音声信号から声門パルスデータベースを作成する方法が示される。

別の実施形態において、多数の声門パルス間の声門パルス距離メトリックを算出するステップと、声門パルスの重心を決定する為に声門パルスデータベースを多数のクラスタにクラスタ化するステップと、関連付けを決定する為に声門パルスの重心及び距離メトリックが数学的に定義される声門パルスデータベースにおいて、ベクトルを各声門パルスと関連付けることにより対応するベクトルデータベースを形成するステップと、ベクトルデータベースの固有ベクトルを決定するステップと、声門パルスデータベースから声門パルスと決定された各固有ベクトルとを関連付けることによりパラメトリックモデルを形成するステップとを含む、パラメトリックモデルを形成する方法が示される。

更に別の実施形態において、ａ）入力テキストをコンテキスト依存音素ラベルに変換するステップと、ｂ）基本周波数値、合成された音声持続時間及び音素ラベルのスペクトル特性を予測する為に学習したパラメトリックモデルを使用して、ステップ（ａ）で作成された音素ラベルを処理するステップと、ｃ）固有声門パルス及び前記予測した基本周波数値、音素ラベルのスペクトル特性及び合成された音声持続時間のうちの１つ又は１つ以上を使用して、励起信号を作成するステップと、ｄ）合成音声の出力を作成する為にフィルタを使用して、励起信号を音素ラベルのスペクトル特性と組合せるステップとを含む、入力テキストを使用して音声を合成する方法が示される。

図１は、音声システムに対するテキストに基づく隠れマルコフモデルのある実施形態を示す図である。図２は、ある信号のある実施形態示す図である。図３は、励起信号作成のある実施形態示す図である。図４は、励起信号作成のある実施形態示す図である。図５は、重畳境界のある実施形態示す図である。図６は、励起信号作成のある実施形態示す図である。図７は、声門パルス識別のある実施形態示す図である。図８は、声門パルスのデータベース作成のある実施形態示す図である。

本発明の原理を理解するのを促す目的で図面に示す実施形態を参照し、それを説明する為に具体的な用語を使用する。しかし、本発明の範囲はそれにより限定されるものではないことが理解されよう。本発明が関連する当業者なら通常思いつくように、記載された実施形態における変更及び更なる修正、並びに本明細書に記載された本発明の原理の更なる応用が考えられる。

励起は、一般に有声音領域のインパルスの準周期列であると推定されている。各列は、Ｔ_０＝１／Ｆ_０など一定時間で前列から分離され、式中Ｔ_０はピッチ周期を表し、Ｆ_０は基本周波数を表す。無声音領域において、励起は白色雑音としてモデル化される。有声音領域において、励起は実際にはインパルス列ではない。励起はむしろ、声の折り重なりによる振動により発生する音源パルスの列である。パルスの形状は、話者、話者の気分、言語的コンテキスト、感情などの各種要因により変動してもよい。

欧州特許ＥＰ２２４２０４５（２０１２年６月２７日取得、発明者ＴｈｏｍａｓＤｒｕｇｍａｎら）に記載されているように、ソースパルスは、（サンプリングを通じて）長さの正規化及びインパルスの整合によりベクトルとして数学的に処理されている。正規化されたソースパルス信号の最終的な長さは、標的ピッチに適合するように再サンプル化される。ソースパルスは、データベースから選択されないが、周波数領域においてパルス特性を処理する一連の計算を通じて得られる。加えて、線形予測（ＬＰ）係数を決定する一方で終了したプレフィルタリングは存在しないとして、パルスデータベース作成に使用される近似励起信号は低周波数源の内容を取込まず、線形予測係数は逆フィルタリングに使用される。

統計的パラメトリック音声合成において、音声単位信号は、音声を合成する為に使用可能なパラメータのセットにより表される。パラメータは、例えばＨＭＭなどの統計的モデルにより学習されてもよい。ある実施形態において、ソース／励起は、所与の音を生成する適切なフィルタを通過する際の信号であり、音声は、ソースフィルタモデルとして表されてもよい。図１は、音声（ＴＴＳ）システムへのテキストに基づく隠れマルコフモデル（ＨＭＭ）のある実施形態を示す図である。例示的システムのある実施形態は、例えば学習フェーズ及び合成フェーズの２つのフェーズを含んでいてもよい。

音声データベース１０５は、音声合成で使用する音声データ量を含むことができる。学習フェーズ中、音声信号１０６は、パラメータに変換される。パラメータは、励起パラメータ及びスペクトルパラメータを含んでいてもよい。励起パラメータ抽出１１０及びスペクトルパラメータ抽出１１５は、音声データベース１０５から伝えられる音声信号１０６から発生する。隠れマルコフモデル１２０は、これらの抽出されたパラメータ及び音声データベース１０５からラベル１０７を使用して学習されてもよい。任意のＨＭＭモデル数は、学習から生じてもよく、これらのコンテキスト依存ＨＭＭは、データベース１２５内に保存される。

合成フェーズは、コンテキスト依存ＨＭＭ１２５として始まり、パラメータ１４０を生成する為に使用される。パラメータ生成１４０は、音声が合成されるテキスト１３０のコーパスからの入力を利用してもよい。テキスト１３０は、分析１３５を経てもよく、抽出されたラベル１３６は、パラメータ１４０の生成において使用される。一実施形態において、励起パラメータ及びスペクトルパラメータは、１４０において生成されてもよい。

励起パラメータは、励起信号１４５を生成する為に使用されてもよく、励起信号１４５は、スペクトルパラメータと共に合成フィルタ１５０に入力される。フィルタパラメータは、一般にメル周波数ケプストラム係数（ＭＦＣＣ）であり、ＨＭＭを使用して統計的時系列によりしばしばモデル化される。フィルタの予測値及び時系列値として基本周波数は、励起信号を基本周波数値から作成することによりフィルタを合成する為に使用されてもよく、ＭＦＣＣ値は、フィルタを形成する為に使用される。

合成音声１５５は、励起信号がフィルタを通過する際に生成される。励起信号１４５の形成は、出力の品質又は合成音声１５５に不可欠である。励起の低周波数情報は取込まれない。従って、励起信号の低周波数源の内容を取込み、合成音声の品質を向上させる為の方法が必要であることが理解されよう。

図２は、音声セグメントの信号領域の一実施形態のグラフ図であり、全体として２００で示される。信号は、有声音セグメント、無声音セグメント及び休止セグメントといった種類の基本周波数値に基づくセグメントに分類される。縦軸２０５は、ヘルツ（Ｈｚ）による基本周波数を示すのに対し、横軸２１０は、ミリ秒（ｍｓ）の経過を表す。時系列であるＦ_０の２１５は、基本周波数を表す。有声音領域である２２０は、一連のピークが見られ、非ゼロセグメントと見なすことができる。以下に更なる詳細が記載されているように、非ゼロセグメント２２０は、全音声の励起信号を形成する為に連結されていてもよい。無声音領域２２５は、グラフ図２００においてピークを有することが見られずゼロセグメントと見なすことができる。ゼロセグメントは、休止又は音素ラベルにより所与される無声音セグメントを表すことができる。

図３は、励起信号作成のある実施形態を示す図であり、全体として３００で示される。図３は、無声音セグメント及び休止セグメント双方の励起信号作成を示す。Ｆ_０として表される基本周波数時系列値は、Ｆ_０値に基づき有声音セグメント、無声音セグメント及び休止セグメントに分類される信号領域３０５を表す。

励起信号３２０は、無声音セグメント及び休止セグメントの為に作成される。休止が発生した場合、励起信号にゼロ（０）が配置される。無声音領域において、適切なエネルギーの白色雑音（一実施形態において、これは聞き取り試験により実験的に決定されることができる）は励起信号として使用される。

信号領域３０５は、声門パルス３１０と共に励起生成３１５に使用され、続いて励起信号３２０の生成に使用される。声門パルス３１０は、声門パルスデータベースから識別された固有声門パルスを含み、以下の図８には、その作成の更なる詳細が記載されている。

図４は、有声音セグメントの励起信号作成のある実施形態を示す図であり、全体として４００で示される。固有声門パルスは、（以下の図７に更なる詳細が記載されている）声門パルスデータベースから識別されたと推定される。信号領域４０５は、有声音セグメントからモデルにより予測されることができるＦ_０値を含む。Ｎ_ｆで表されてもよいＦ_０セグメントの長さは、数学的方程式を使用して励起信号の長さを決定する為に使用される。

式中、ｆ_ｓは信号のサンプリング周波数を表す。ある非限定的実施例において、５／１０００の値は、決定されるＦ_０値の５ｍｓの継続時間の間隔を表す。単位時間の指定された継続時間の任意間隔が使用されていてもよい、という点に留意すべきである。Ｆ_０’（ｎ）として指定された別の配列は、Ｆ_０配列を線形補間することにより得られる。

Ｆ_０値から４１０の声門境界が作成され、４１０は信号領域４０５において有声音セグメントの励起信号のピッチ境界を示す。ピッチ周期配列は、以下の数学的方程式を使用して算出されることができる。

次に、ピッチ境界は、以下のように決定されたピッチ周期配列を使用して算出されることができる。

式中、Ｐ^０（０）＝１、ｉ＝１，２，３，・・・Ｋ、であり、式中Ｐ（ｋ＋１）は配列Ｔ_０（ｎ）の長さを丁度超える。

声門パルス４１５は、各声門境界から始まる声門パルスの重畳加算４２０において識別された声門境界４１０と共に使用される。次に図５及び図６に更に記載されている境界効果を回避する為に、励起信号４２５は「スティッチング」又はセグメント結合の処理を通じて作成される。

図５は、重畳境界のある実施形態を示す図であり、全体として５００で示される。図５００は、セグメントにおいて一連の声門パルス５１５及び重畳する声門パルス５２０を表す。縦軸５０５は、励起の振幅を表す。横軸５１０は、フレーム番号を表してもよい。

図６は、有声音セグメントの励起信号作成のある実施形態を示す図であり、全体として６００で示される。「スティッチング」は、理想的に境界効果のない（図４から）有声音セグメントの最終励起信号を形成する為に使用されてもよい。ある実施形態において、任意の異なる励起信号数は、図４及び図５００（図５）に示された重畳加算法を通じて形成されてもよい。異なる励起信号は、声門境界６０５において一定に増加するシフト量及び声門パルス信号に対して同量の循環左シフト６３０を有していてもよい。一実施形態において、声門パルス信号６１５が対応するピッチ周期未満の長さである場合、循環左シフトする６３０が実施される以前のピッチ周期の長さまで声門パルスはゼロ伸張６２５でもよい。ピッチ境界の異なる配列（Ｐ^ｍ（ｉ）、ｍ＝１，２，・・・Ｍ−１として表される）は、Ｐ^０と同じ長さのそれぞれからなる。配列は、以下の数学的方程式を使用して算出される。

式中、ｗは一般に１ｍｓｅｃ、又はサンプルでは、ｆ_ｓ／１０００と考えられている。例えば、サンプリング周波数にはｆ_ｓ＝１６，０００、ｗ＝１６。所与の音声セグメントに存在する最高ピッチ周期は、ｍ＊ｗとして表される。声門パルスが作成され、各ピッチ境界配列Ｐ^ｍと関連付けられる。声門パルス６２０は、第１のゼロをピッチ周期まで伸張し、次にｍ＊ｗサンプルにより循環左シフトすることにより一定の長さＮの声門パルス信号から得られてもよい。

フレーム境界の各セットに対して、声門パルスをゼロ（０）に初期化することにより励起信号６３５が形成される。配列Ｐ^ｍ（ｉ）、ｉ＝１，２，・・・Ｋの各ピッチ境界値から始まり、重畳加算６１０は声門パルス６２０を励起の第１のＮサンプルに加算する為に使用される。形成された信号は、スティッチングされた単一励起としてシフトｍに対応している。

ある実施形態において、全てのスティッチングされた単一励起信号の算術平均が算出され、算出された６４０は有声音セグメントの最終励起信号６４５を表す。

図７は声門パルス識別のある実施形態を示す図であり、全体として７００で示される。ある実施形態において、任意の２つの所与の声門パルスはそれら２つの間の距離メトリック／相違点を算出する為に使用されてもよい。これらは、処理８００（以下の図８に更に記載されている）において作成された声門パルスデータベース８４０から取出される。算出は、２つの所与の声門パルスｘ_ｉ，ｙ_ｉをサブバンド成分ｘ_ｉ ^（１），ｘ_ｉ ^（２），ｘ_ｉ ^（３）及びｙ_ｉ ^（１），ｙ_ｉ ^（２），ｙ_ｉ ^（３）に分解することにより実施されてもよい。所与の声門パルスは、例えば離散コサイン変換（ＤＣＴ）などの方法を使用して周波数領域に変換されてもよい。周波数バンドは、復調され時間領域に変換される多数のバンドに分割されてもよい。本実施例では、例証目的の為に３つのバンドが使用される。

次に各声門パルスの対応するサブバンド成分間のサブバンド距離メトリックが算出され、ｄ_ｓ（ｘ_ｉ ^（１），ｙ_ｉ ^（１））として表される。サブバンドメトリックはｄ_ｓ（ｆ，ｇ）として表されることができ、式中ｄ_ｓは２つのサブバンド成分ｆおよびｇ間の距離を表し、以下のパラグラフに記載されるように算出されることができる。

ｆおよびｇ間の正規化された循環相互相関関数が算出された。一実施形態において、これはＲ_ｆ，ｇ（ｎ）＝ｆ★ｇとして表されてもよく、式中「★」は２つの信号間の正規化された循環相互相関演算を表す。循環相互相関時は、２つの信号ｆおよびｇの長さが最長になるとされている。より短い信号はゼロ伸張される。正規化された循環相互相関の離散ヒルベルト変換が算出され、Ｒ_ｆ，ｇ ^ｈ（ｎ）として表される。正規化された循環相互相関及び正規化された循環相互相関の離散ヒルベルト変換を使用することで信号は、

として決定されることができる。

２つの信号ｆおよびｇとの間の角度のコサインは、数学的方程式を使用して決定されることができる。

全ｎにわたり、
。

２つのサブバンド成分ｆおよびｇとの間のサブバンドメトリック、ｄ_ｓ（ｆ，ｇ）は、

として決定されることができる。

声門パルス間の距離メトリックは最終的に、

として数学的に決定される。

声門パルスデータベース８４０は、修正されたｋ平均アルゴリズム７０５を使用して、例えば２５６（又はＭ）など多数のクラスタにクラスタ化されてもよい。ユークリッド距離メトリックを使用する代わりに、上記で定義された距離メトリックが使用される。次に、クラスタの重心は、以下のようなクラスタの全ての他の要素から距離の二乗和が最小であるクラスタの要素で更新される。

クラスタの重心
は、ｍ＝ｃの場合最小である。

一実施形態において、任意のｋクラスタの重心においてシフトしない場合クラスタ化の反復は終了される。

例えば２５６などＮ実数のセットであるベクトルは、対応するベクトルデータベース７１５を形成する為に声門パルスデータベース８４０において声門パルス７１０毎に関連付けられる。一実施形態において、関連付けは所与の声門パルスｘ_ｉ、ベクトルＶ_ｉ＝［Ψ_１（ｘ_ｉ），Ψ_２（ｘ_ｉ），Ψ_３（ｘ_ｉ），・・・Ψ_ｊ（ｘ_ｉ），・・・Ψ_２５６（ｘ_ｉ）］、式中Ψ_ｊ（ｘ_ｉ）＝ｄ^２（ｘ_ｉ,ｃ_ｊ）−ｄ^２（ｘ_ｉ,ｘ_０）−ｄ^２（ｃ_ｊ,ｘ_０）に対して実施され、ｘ_０はデータベースから選別した所定の声門パルスであり、ｄ^２（ｘ_ｉ,ｃ_ｊ）は上記で定義された２つの声門パルスｘ_ｉおよびｃ_ｊとの間の距離メトリックの二乗を表し、ｃ_１，ｃ_２，・・・ｃ_ｉ，・・ｃ_２５６、はクラスタ化により決定された声門パルスの重心と推定している。

従って、所与の声門パルスｘ_ｉと関連したベクトルは、数学的方程式で算出されることができる。

ステップ７２０において、ベクトルデータベース７１５の固有ベクトルを算出する為に主成分分析（ＰＣＡ）が実施される。一実施形態において、７２５で任意の一固有ベクトルが選択されてもよい。ベクトルデータベース７１５から選択された固有ベクトルに最も適合するベクトル７３０は、次にユークリッド距離の認識において決定される。最も適合するベクトル７３０に対応するパルスデータベース８４０からの声門パルスは、結果として生じる固有ベクトルと関連した固有声門パルス７３５と考えられる。

図８は、声門パルスデータベース作成のある実施形態を示す図であり、全体として８００で示される。音声信号８０５は、プレエンファシス８１０などプレフィルタリングを経る。線形予測（ＬＰ）分析８１５は、ＬＰ係数を得る為にプレフィルタリングされた信号を使用して実施される。従って、励起の低周波情報は取込まれることができる。係数が決定されると、集積された線形予測残差（ＩＬＰＲ）信号８２５を算出する為にプレフィルタされていない原音声信号８０５のフィルタを８２０で反転させる為に係数が使用される。ＩＬＰＲ信号８２５は、励起信号又は音源信号への近似として使用されることができる。ＩＬＰＲ信号８２５は、音声信号８０５から決定された声門セグメント／サイクル境界を使用して声門パルスにセグメント化８３５される。セグメント化８３５は、ゼロ周波数フィルタリング技術（ＺＦＦ）を使用して実施されてもよい。次に結果として生じる声門パルスはエネルギー正規化されることができる。全音声学習データの全ての音声パルスは、音声パルスデータベース８４０を形成する為に組合わされる

本発明は、図面及び前述の記述において詳しく図示され記述されているが、このような図示及び記述は例示的なものであり、その特性を限定するものと見なされるべきではなく、好ましい実施形態のみを示し記述しているが、本明細書及び以下の特許請求の範囲の少なくとも一方に記載されているように本発明の精神の範囲内の全等価物、変更及び修正も保護されるべきであると理解されよう。

従って、本発明の適切な範囲は、全てのこのような修正と同様に図面に示したもの及び本明細書に記載したものと等価の関係を包含するように、添付の請求の範囲の最も広い解釈によってのみ決定されるべきである。

Claims

パラメトリックモデルを形成する方法であって、
ａ．多数の声門パルス間の声門パルス距離メトリックを算出するステップと、
ｂ．声門パルスの重心を決定する為に声門パルスデータベースに記憶された複数の声門パルスを多数のクラスタにクラスタ化するステップと、
ｃ．関連付けを決定する為に前記声門パルスの重心及び前記距離メトリックが数学的に定義される前記声門パルスデータベースにおいて、ベクトルを各声門パルスと関連付けることにより対応するベクトルデータベースを形成するステップと、
ｄ．前記ベクトルデータベースの固有ベクトルを決定するステップと、
ｅ．前記声門パルスデータベースから声門パルスと各決定された固有ベクトルとを関連付けることによりパラメトリックモデルを形成するステップと
を含む方法。
前記声門パルスの数が２である、請求項１に記載の方法。
請求項１の前記ステップ（ａ）が、
ａ．前記声門パルスの数を対応するサブバンド成分に分解するステップと、
ｂ．各声門パルスの前記対応するサブバンド成分間のサブバンド距離メトリックを算出するステップと、
ｃ．前記サブバンド距離メトリックを使用して前記声門パルス距離メトリックを数学的に算出するステップと
を更に含む、請求項１に記載の方法。
請求項３の前記ステップ（ｃ）の算出は、数学的方程式
を使用して実施され、式中ｄ（ｘ_ｉ，ｙ_ｉ）は前記距離メトリックを表し、ｄ_ｓ ^２（ｘ_ｉ ^（ｎ），ｙ_ｉ ^（ｎ））は前記サブバンド距離メトリックを表す、請求項３に記載の方法。
前記クラスタの数が２５６である、請求項１に記載の方法。
請求項１の前記ステップ（ｂ）のクラスタ化は、前記声門パルス距離メトリックを利用する修正されたｋ平均計算を使用して実施される、請求項１に記載の方法。
前記修正されたｋ平均計算は、クラスタの全ての他の要素から距離の二乗和が最小である前記クラスタの要素でクラスタの重心を更新することを更に含む、請求項６に記載の方法。
前記クラスタからいずれの前記重心においてもシフトしない場合前記クラスタ化の反復を終了させることを更に含む、請求項７に記載の方法。
請求項１の前記ステップ（ｄ）の固有ベクトルの決定が主成分分析を使用して実施される、請求項１に記載の方法。
請求項１の前記ステップ（ｅ）は、
ａ．前記固有ベクトルを決定するステップと、
ｂ．前記ベクトルデータベースから前記固有ベクトルに最も適合するベクトルを決定するステップと
ｃ．前記声門パルスデータベースから最も適合する声門パルスを決定するステップと、
ｄ．前記固有ベクトルと関連付けた固有声門パルスとして前記固有ベクトルに最も適合する前記声門パルスデータベースから前記声門パルスを指定するステップと
を更に含む、請求項１に記載の方法。
音声合成に使用する前記形成されたパラメトリックモデルを学習するステップを更に含む、請求項１に記載の方法。
前記学習は、
ａ．学習テキストコーパスを定義するステップと、
ｂ．音声タレントの話す前記学習テキストを録音することにより音声データを得るステップと、
ｃ．前記学習テキストをコンテキスト依存音素ラベルに変換するステップと、
ｄ．前記音素ラベルを使用して前記音声データの複数のスペクトル特性を決定するステップと、
ｅ．前記音声データの基本周波数を予測するステップと、
ｆ．前記スペクトル特性、前記基本周波数及びオーディオストリームの継続時間を使用して前記オーディオストリーム上でパラメータの予測を実施するステップと
を更に含む、請求項１１に記載の方法。
入力テキストを使用して音声を合成する方法であって、
ａ．前記入力テキストをコンテキスト依存の音素ラベルに変換するステップと、
ｂ．基本周波数値、前記合成された音声持続時間及び前記音素ラベルのスペクトル特性を予測する為に学習したパラメトリックモデルを使用して、前記ステップ（ａ）で作成された前記音素ラベルを処理するステップと、
ｃ．固有声門パルス及び予測した基本周波数値、前記音素ラベルのスペクトル特性及び前記合成された音声持続時間のうちの１つ又は１つ以上を使用して励起信号を作成するステップと、
ｄ．合成音声の出力を作成する為にフィルタを使用して、前記励起信号と前記音素ラベルの前記スペクトル特性とを組合せるステップと
を含み、
前記励起信号を作成するステップは、
ｅ．励起の信号領域をセグメントの種類に分類するステップと、
ｆ．各種類の前記励起信号を作成するステップと
を更に含み、
前記セグメントの種類が有声音、無声音及び休止のうちの１つ又は１つ以上を含み、
ｇ．モデルから前記予測した基本周波数値を使用して、励起信号のピッチ境界を示す声門境界を作成するステップと、
ｈ．重畳加算法を使用して各声門境界から始まる声門パルスを加算するステップと、
ｉ．ｉ．前記声門パルスが対応するピッチ周期未満の長さである場合、左シフトより前の前記ピッチ周期の長さまで前記声門パルスはゼロ伸張する、前記声門境界において一定に増加するシフト量及び前記声門パルスに対して同量の循環左シフトで前記重畳加算法を通じて形成された多数の異なる励起を作成するステップと、
ｉｉ．前記異なる励起信号数の算術平均を決定するステップと、
ｉｉｉ．前記有声音セグメントの最終励起信号の前記算術平均を宣言するステップと
を更に含む、前記励起信号において境界効果を回避するステップと
を含む有声音信号に前記励起信号が作成される方法。
入力テキストを使用して音声を合成する方法であって、
ａ．前記入力テキストをコンテキスト依存音素ラベルに変換するステップと、
ｂ．基本周波数値、前記合成された音声持続時間及び前記音素ラベルのスペクトル特性を予測する為に学習したパラメトリックモデルを使用して、前記ステップ（ａ）で作成された前記音素ラベルを処理するステップと、
ｃ．固有声門パルス及び前記予測した基本周波数値、前記音素ラベルのスペクトル特性及び前記合成された音声持続時間のうちの１つ又は１つ以上を使用して励起信号を作成するステップと、
ｄ．合成音声の出力を作成する為にフィルタを使用して、前記励起信号と前記音素ラベルの前記スペクトル特性とを組合せるステップと
を含み、
前記固有声門パルスは声門パルスデータベースから識別され、前記識別は
ｅ．多数の声門パルス間の声門パルス距離メトリックを算出するステップと、
ｆ．声門パルスの重心を決定する為に前記声門パルスデータベースを多数のクラスタにクラスタ化するステップと、
ｇ．関連付けを決定する為に前記声門パルスの重心及び前記距離メトリックが数学的に定義される前記声門パルスデータベースにおいて、ベクトルを各声門パルスと関連付けることにより対応するベクトルデータベースを形成するステップと、
ｈ．前記ベクトルデータベースの固有ベクトルを決定するステップと、
ｉ．前記声門パルスデータベースから声門パルスと各決定された固有ベクトルとを関連付けることによりパラメトリックモデルを形成するステップと
を含む方法。
前記声門パルスの数が２である、請求項１４に記載の方法。
請求項１４の前記ステップ（ｅ）は、
ａ．前記声門パルスの数を対応するサブバンド成分に分解するステップと、
ｂ．各声門パルスの前記対応するサブバンド成分間のサブバンド距離メトリックを算出するステップと、
ｃ．前記サブバンド距離メトリックを使用して前記距離メトリックを数学的に算出するステップと
を更に含む、請求項１４に記載の方法。
請求項１６の前記ステップ（ｃ）の算出は、数学的方程式
を使用して実施され、式中ｄ（ｘ_ｉ，ｙ_ｉ）は前記距離メトリックを表し、ｄ_ｓ ^２（ｘ_ｉ ^（ｎ），ｙ_ｉ ^（ｎ））は前記サブバンド距離メトリックを表す、請求項１６に記載の方法。
前記クラスタの数が２５６である、請求項１４に記載の方法。
請求項１４の前記ステップ（ｆ）のクラスタ化は、前記声門パルス距離メトリックを利用する修正されたｋ平均計算を使用して実施される、請求項１４に記載の方法。
前記修正されたｋ平均計算は、クラスタの全ての他の要素から距離の二乗和が最小である前記クラスタの要素でクラスタの重心を更新することを更に含む、請求項１９に記載の方法。
前記クラスタからいずれの前記重心においてもシフトしない場合前記クラスタ化の反復を終了させることを更に含む、請求項２０に記載の方法。
請求項１４の前記ステップ（ｈ）の固有ベクトルの前記決定が主成分分析を使用して実施される、請求項１４に記載の方法。
請求項１４の前記ステップ（ｉ）は、
ａ．前記固有ベクトルを決定するステップと、
ｂ．前記ベクトルデータベースから前記固有ベクトルに最も適合するベクトルを決定するステップと
ｃ．前記声門パルスデータベースから最も適合する声門パルスを決定するステップと、
ｄ．前記固有ベクトルと関連付けた固有声門パルスとして、前記固有ベクトルに最も適合する前記声門パルスデータベースから前記声門パルスを指定するステップと
を更に含む、請求項１４に記載の方法。
音声信号から前記声門パルスデータベースを構成することを更に含み、前記構成は
ａ．プレフィルタリングされた信号を得る為に前記音声信号に対してプレフィルタリングを実施するステップと、
ｂ．逆フィルタリングパラメータを得る為に前記プレフィルタリングされた信号を分析するステップと、
ｃ．前記逆フィルタリングパラメータを使用して前記音声信号の逆フィルタリングを実施するステップと、
ｄ．前記逆フィルタリングされた音声信号を使用して集積された線形予測残差信号を算出するステップと、
ｅ．前記音声信号において声門セグメントの境界を識別するステップと、
ｆ．前記音声信号から前記識別された声門セグメントの境界を使用して前記集積された線形予測残差信号を声門パルスにセグメント化するステップと、
ｇ．前記声門パルスの正規化を実施するステップと、
ｈ．前記音声信号に得られた全ての正規化された声門パルスを収集することにより、前記声門パルスデータベースを形成するステップと
を含む、請求項１４に記載の方法。
請求項２４の前記ステップ（ｂ）の分析が線形予測を使用して実施される、請求項２４に記載の方法。
請求項２４の前記ステップ（ｂ）における前記逆フィルタリングパラメータが線形予測係数を含む、請求項２４に記載の方法。
請求項２４の前記ステップ（ｅ）の識別がゼロ周波数フィルタリング技術を使用して実施される、請求項２４に記載の方法。
請求項２４の前記ステップ（ａ）のプレフィルタリングがプレエンファシスを含む、請求項２４に記載の方法。