JP2017502349A

JP2017502349A - 提供されたテキストの音声合成のためのシステム及び方法

Info

Publication number: JP2017502349A
Application number: JP2016542126A
Authority: JP
Inventors: タン，インギ; ガナパシラジュ，アルビンド; ワイス，フェリックス，イマニュエル
Original assignee: インタラクティブ・インテリジェンス・グループ・インコーポレイテッド
Priority date: 2014-01-14
Filing date: 2015-01-14
Publication date: 2017-01-19
Anticipated expiration: 2035-01-14
Also published as: EP3095112A4; EP3095112B1; US20150199956A1; EP3095112A1; BR112016016310A2; AU2015206631A1; US10733974B2; US9911407B2; CA2934298A1; JP6614745B2; AU2020203559B2; ZA201604177B; CL2016001802A1; AU2020203559A1; WO2015108935A1; CA2934298C; US20180144739A1; BR112016016310B1; NZ721092A

Abstract

提供されたテキストの音声合成のためのシステムと方法が示される。特に、システム内でのパラメータ生成は、特徴ストリームの段階的近似に対して、音声の自然な流れを真似するために連続近似として実行される。提供されたテキストは、分割されることができ、パラメータは、音声モデルを使用して生成されることができる。音声モデルから生成されたパラメータは、音声合成に適用する新たなパラメータのセットを得るために後処理段階においてさらに使用されることができる。【選択図】図２

Description

本発明は、概して音声合成並びに通信システムと方法に関する。より詳細には、本発明は、パラメータ生成を使用し、提供されたテキストから音声を合成することに関する。

提供されたテキストの音声合成のためのシステムと方法が示される。特に、システム内でのパラメータ生成は、パラメータのストリームの段階的近似ではなく音声の自然な流れを真似するために連続近似として実行される。提供されたテキストは、分割されることができ、パラメータは、音声モデルを使用して生成されることができる。音声モデルから生成されたパラメータは、音声合成に適用する新たなパラメータのセットを得るために後処理段階においてさらに使用される。

ある実施形態において、提供されたテキストのためのコンテキストラベルを生成する手段と、音声モデルを使用して、前記提供されたテキストために生成された前記コンテキストラベルのためのパラメータのセットを生成する手段と、分散スケーリングが可能である、前記生成されたパラメータのセットの処理手段と、音声合成のために処理されたパラメータのセットを適用することが可能である、前記提供されたテキストのための音声合成手段とを含む、提供されたテキストの音声合成のためのシステムが示される。

別の実施形態において、提供されたテキストをフレーズのシーケンスに分割するステップと、音声モデルを使用して前記フレーズのシーケンスのためのパラメータを生成するステップと、提供されたテキストのための音声合成に使用可能である別のパラメータのセットを得るために、前記生成されたパラメータを処理するステップとを含む、連続的な特徴ストリームを使用する、音声合成に使用するための提供されたテキストのためのパラメータ生成方法が示される。

音声合成のシステムの実施形態を示す図である。

音声合成システムの変更実施形態を示す図である。

パラメータ生成の実施形態を示すフローチャートである。

パラメータ生成の実施形態を示す図である。

ｆ０パラメータ生成処理の実施形態を示すフローチャートである。

ＭＣＥＰｓ生成処理の実施形態を示すフローチャートである。

本発明の原理を理解するのを促す目的で、図面に表されている実施形態を参照し、具体的な用語を使用してそれらの実施形態を説明する。それにもかかわらず、本発明の範囲の限定はそれによって意図されていないことが理解されよう。説明されている実施形態における任意の変更およびさらなる修正、ならびに本明細書に記載されている本発明の原理の任意のさらなる応用は、本発明が関連する技術分野における当業者に一般的に想起されるように企図されている。

従来のテキスト読み上げ（ＴＴＳ）システムにおいて、文字言語若しくはテキストは、自動的に言語規格に変換されることができる。言語規格は、音声波形を生成するために音声コーパスの保存形式または音声コーパスのモデルに指標をつける。統計的パラメトリック音声システムは、いかなる音声もそのものは保存せず、かわりに音声モデルを保存する。音声コーパスのモデルと言語分析の出力結果とは、出力音声の合成に使用されるパラメータのセットを評価するために使用されることができる。音声コーパスのモデルは、音声パラメータが適合する確率関数の平均と共分散を含む。検索モデルは、音声シグナルを表すために、基本周波数（ｆ０）およびメルケプストラム（ＭＣＥＰｓ）などのスペクトルパラメータを生成することができる。しかし、これらのパラメータは、固定フレームレートのためであり、ステートマシンから得られる。パラメータのストリームの段階的近似は、音声の自然な流れの真似ではない結果を生む。自然な音声は、連続的であり段階的ではない。ある実施形態において、音声の自然な流れを真似するために、モデルの段階的近似を連続的なストリームへと変換するシステムと方法が開示される。

図１は、１００として全体が示されている音声合成のための従来のシステムのある実施形態を表す図である。音声合成システムの基本構成要素は、音声コーパス１０６、言語規格１０７、パラメータ化モジュール１０８を含むことができる訓練モジュール１０５と、テキスト１１１、コンテキストラベル１１２、統計的パラメータモデル１１３、音声合成モジュール１１４を含むことができる合成モジュール１１０とを含むことができる。

訓練モジュール１０５は、統計的パラメータモデル１１３を訓練するために使用することができる。訓練モジュール１０５は、音声コーパス１０６、言語規格１０７、パラメータ化モジュール１０８を含むことができる。音声コーパス１０６は、言語規格１０７に変換されることができる。音声コーパスは、言語のボキャブラリーを成立させる音節と単語の文脈における言語において生成される音声を扱うために選択された文字言語またはテキストを含むことができる。言語規格１０７は、音声コーパスのモデルの保存形式または音声波形を生成するための音声コーパスのモデルに指標をつける。音声そのものは保存されないが、音声のモデルは保存される。モデルは、音声パラメータが適合する確率関数の平均と共分散を含む。

合成モジュール１１０は、音声モデルを保存し音声を生成することができる。合成モジュール１１０は、テキスト１１１、コンテキストラベル１１２、統計的パラメータモデル１１３、音声合成モジュール１１４を含むことができる。コンテキストラベル１１２は、様々な粒度をもつことができるテキスト１１１内のコンテキスト情報を表し、たとえば、サラウンディングサウンド、サラウンディング単語、サラウンディングフレーズなどに関する情報を表す。コンテキストラベル１１２は、言語モデルから提供されたテキストのために生成されることができる。統計的パラメータモデル１１３は、音声パラメータが適合する確率関数の平均と共分散を含むことができる。

音声合成モジュール１１４は、テキスト１１１の音声パラメータを受信し、当該パラメータを合成音声へと変換する。これは、スペクトル情報を時間領域信号に変換するためのメル対数スペクトル近似（ＭＬＳＡ）フィルタなどの標準的な方法を使用してなされることができる。

図２は、２００として全体が示されているパラメータ生成を使用した音声合成システムのある変更実施形態を表す図である。システムの基本構成要素は、図１の基本構成要素と類似した構成要素にパラメータ生成モジュール２０５を加えた基本構成要素を含むことができる。統計的パラメトリック音声合成システムにおいて、音声信号は、固定フレームレートにおけるパラメータのセットとして表される。パラメータ生成モジュール２０５は、統計的パラメータモデル１１３からオーディオ信号を受信し、変換する。ある実施形態において、時間領域内のオーディオ信号は、より効率的な処理のためにスペクトル領域などの他の領域へと数学的に変換されている。スペクトル情報は、さらに音声信号を表すためにｆ０およびＭＣＥＰｓなどの周波数係数形式で保存される。パラメータ生成は、入力として指標をつけられた音声モデルと、出力として指標をつけられたスペクトルパラメータを有しているようなものである。ある実施形態において、隠れマルコフモデル（ＨＭＭ）技術が使用される。モデル１１３は、スタティック係数とも呼ばれるパラメータの統計分布だけでなく、それらの変化率も含む。変化率は、デルタ係数と呼ばれる一次導関数と、デルタデルタ係数とされる二次導関数とを有するものとして説明されることができる。３つのタイプのパラメータは、モデルの単一の観測ベクトル中に共にスタックされている。パラメータ生成処理は、下記により詳細に示される。

従来のパラメータの統計モデルにおいては、パラメータの平均と分散のみ考慮されている。平均パラメータは、パラメータ生成の各状態のために使用される。これは、自然な音声作用に反して各状態の遷移時において値が突然変化する区分的定数パラメータの軌跡を生成する。さらに、スタティック係数の統計的特性だけが考慮され、パラメータの値の変化速度は考慮されない。したがって、図２に表された変更実施形態のように、一次導関数と二次導関数の統計的特性が考慮されなければならない。

最尤パラメータ生成（ＭＬＰＧ）は、スタティック係数と導関数の統計的特性を考慮した方法である。しかし、この方法はシーケンスの長さを増加させる多大な計算量を有するため、リアルタイムシステムにおける実施は実際的ではない。テキストメッセージ全体ではなく言語セグメントに基づいたパラメータを生成するより効率的な方法が下記に示されている。言語セグメントは、ＴＴＳシステム中のコンテキストラベル「休止（ｐａｕｓｅ）」によって区切ることができる任意の単語群または文章群を指すこともある。

図３は、３００として全体が示されているパラメータの軌跡を生成するある実施形態を表すフローチャートである。パラメータの軌跡はテキストメッセージ全体のかわりに言語セグメントに基づいて生成される。パラメータ生成の前に、統計的パラメ―タモデル１１３に示される継続性モデルを使用して状態シーケンスが選択されることができる。これは、統計的パラメータモデル中の各状態から生成されるフレームの数を決定する。パラメータ生成モジュールによって仮定されるように、パラメータは同一の状態においては変化しない。この軌跡が結果として音声信号の質を低下させることになる。しかし、デルタパラメータとデルタデルタパラメータからの情報を使用してより平滑な軌跡を積算すると、音声合成出力はより自然でより明瞭である。

動作３０５において、状態シーケンスが選択される。たとえば、状態シーケンスは、モデル１１３の各状態から生成されるフレームの数を決定する統計的パラメータモデル１１３を使用して、選択されることができる。制御は動作３１０に移され、処理３００は継続する。

動作３１０において、セグメントが分割される。ある実施形態において、セグメント分割は、休止モデルに包含された状態のシーケンスとして定められる。制御は、動作３１５ａ、３１５ｂのうち少なくとも１つに移され、処理３００は継続する。

動作３１５ａおよび動作３１５ｂにおいて、スペクトルパラメータが生成される。スペクトルパラメータは音声シグナルを表し、基本周波数３１５ａ、ＭＣＥＰｓ、３１５ｂのうち少なくとも１つを含む。これらの処理は、下記の図５と図６とにおいて、より詳細に示される。制御は動作３２０に移され、処理３００は継続する。

動作３２０において、パラメータの軌跡が作成される。たとえば、パラメータの軌跡は、時間領域に沿った全ての状態にわたって各パラメータのストリームを連結することによって、作成されることができる。実際には、パラメータモデルの各次元は軌跡をもつ。そのような１つの次元のパラメータの軌跡作成の実例が図４に全体的に提供される。図４（ＫＩＮＧ，Ｓｉｍｏｎ（２０１０年６月２４日）Ａｂｅｇｉｎｎｅｒｓ’ ｇｕｉｄｅｔｏｓｔａｔｉｓｔｉｃａｌｐａｒａｍｅｔｒｉｃｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ：ＴｈｅＣｅｎｔｒｅｆｏｒＳｐｅｅｃｈＴｅｃｈｎｏｌｏｇｙＲｅｓｅａｒｃｈ，ＵｎｉｖｅｒｓｉｔｙｏｆＥｄｉｎｂｕｒｇｈ，ＵＫ、ｐｐ．９）は、平滑にされたＭＬＰＧからの軌跡の一般化された実施形態である。

図５は、５００として全体が示されている基本周波数パラメータ生成のための処理のある実施形態を表すフローチャートである。処理は、入力テキストが言語セグメントに分割された後にパラメータ生成モジュール２０５（図２）中に発生することがある。パラメータはセグメントごとに予測される。

動作５０５において、フレームがインクリメントされる。たとえば、フレームは、いくつかの音声化されたセグメントを含むことができる言語セグメントに対して、検査されることができる。パラメータのストリームは、ｉ＝１が第一フレームを表し、ｉ＝２が第二フレームを表すなどのように、フレームユニットに基づくことができる。フレームをインクリメントについて、「ｉ」の値は望ましい間隔で増加される。ある実施形態において、「ｉ」の値は各回に１ずつ増加されることができる。制御は動作５１０に移され、処理５００は継続する。

動作５１０において、言語セグメントが信号中に存在するか否かが判定される。言語セグメントが存在すると判定された場合、制御は動作５１５に移され、処理５００は継続する。言語セグメントが存在しないと判定された場合、制御は動作５２５に移され、処理５００は継続する。

動作５１０における判定は、任意の適切な基準に基づいて行われることができる。ある実施形態において、言語セグメントのセグメント分割は、休止モデルに包含された状態のシーケンスとして定められる。

動作５１５において、全体的な分散の調整が行われる。たとえば、全体的な分散は、言語セグメントの変動を調整するために使用されてもよい。ｆ０軌跡は、パラメータ生成におけるスタティック係数とデルタ係数の平均を使用するため、自然な音声と比較するとダイナミックレンジがより小さくなる傾向にあってもよい。分散スケーリングは、合成された信号がより鮮明に聞こえるように、ｆ０軌跡のダイナミックレンジを拡大することができる。制御は動作５２０に移され、処理５００は継続する。

動作５２０において、ログ領域から線形周波数領域への変換が基本周波数において実行され、処理５００は終了する。

動作５２５において、音声化が開始したか否かが判定される。音声化が開始していないと判定された場合、制御は動作５３０に移され、処理５００は継続する。音声化が開始したと判定された場合、制御は動作５３５に移され、処理５００は継続する。

動作５２０における判定は、任意の適切な基準に基づくことができる。ある実施形態において、ｆ０モデルがｆ０の有効値を予測した場合、セグメントは音声化されたセグメントであるとみなされ、ｆ０モデルがゼロを予測した場合、セグメントは音声化されていないセグメントであるとみなされる。

動作５３０において、フレームは音声化されていないと判定されている。ｆ０（ｉ）＝０のように当該フレームのスペクトルパラメータは０である。制御は動作５０５に戻され、処理５００は継続する。

動作５３５において、フレームは音声化されていると判定されており、第一フレームにおいて音声化されているか否かがさらに判定される。音声化が第一フレームにおいてなされていると判定された場合、制御は動作５４０に移され、処理５００は継続する。音声化が第一フレームにおいてなされていないと判定された場合、制御は動作５４５に移され、処理５００は継続する。

動作５３５における判定は、任意の適切な基準に基づくことができる。ある実施形態においては、判定は予測されたｆ０値に基づいており、別の実施形態においては、判定は音声化予測のための特定モデルに基づいている可能性がある。

動作５４０において、第一フレームのスペクトルパラメータは、ｆ０（ｉ）＝ｆ０＿ｍｅａｎ（ｉ）というセグメントの平均である。制御は動作５０５に戻され、処理５００は継続する。

動作５４５において、デルタ値が調整される必要があるか否かが判定される。デルタ値は調整が必要であると判定された場合、制御は動作５５０に移され、処理５００は継続する。デルタ値は調整が必要でないと判定された場合、制御は動作５５５に移され、処理５００は継続する。

動作５４５における判定は、任意の適切な基準に基づくことができる。たとえば、各フレームにおけるパラメータの望ましい水準への変更を制御するために調整が必要であることがある。

動作５５０において、デルタがクランプされる。ｆ０＿ｄｅｌｔａＭｅａｎ（ｉ）は、クランプ後にｆ０＿ｎｅｗ＿ｄｅｌｔａＭｅａｎ（ｉ）として示されることができる。クランプされなかった場合、ｆ０＿ｎｅｗ＿ｄｅｌｔａＭｅａｎ（ｉ）はｆ０＿ｄｅｌｔａＭｅａｎ（ｉ）に等しい。デルタをクランプする目的は、各フレームにおけるパラメータの望ましい水準への変更を確実に制御することである。変更が大きすぎる場合、いくつかのフレームに渡って変更が持続した場合、パラメータの軌跡は、望ましい自然な音声の範囲内に入らない。制御は動作５５５に移され、処理５００は継続する。

動作５５５において、現行のパラメータの値は、ｆ０（ｉ）＝ｆ０（ｉ−１）＋ｆ０＿ｎｅｗ＿ｄｅｌｔａＭｅａｎ（ｉ）という予測値にパラメータのデルタ値を足した値に更新される。これは、モデルごとの軌跡のランプアップまたはランプダウンを促進する。次に、制御は動作５６０に移され、処理５００は継続する。

動作５６０において、音声が終了されたか否かが判定される。音声が終了されていないと判定された場合、制御は動作５０５に移され、処理５００は継続する。音声が終了されたと判定された場合、制御は動作５６５に移され、処理５００は継続する。

動作５６０における判定は、任意の適切な基準に基づくことができる。ある実施形態において、連続フレームの数のｆ０値がゼロとなることは、音声が終了されたことを示すことができる。

動作５６５において、平均値の移行が行われる。たとえば、全ての有声フレーム、または音声化されたセグメントがひとたび終了されると、音声セグメントの平均値は望ましい値に調整されることができる。平均値の調整は、パラメータの軌跡を望ましい自然な音声の範囲に移行することもできる。制御は動作５７０に移され、処理５００は継続する。

動作５７０において、音声セグメントは平滑化される。たとえば、生成されたパラメータの軌跡は、ある箇所で突然変化した可能性があり、これにより、合成された言語音声に震音や音飛びを生じさせる。長尺のウィンドウの平滑化により、ｆ０軌跡をより平滑にすることができ、合成された言語音声をより自然にすることができる。制御は動作５０５に戻され、処理５００は継続する。処理は、任意の必要な回数継続的に繰り返すことができる。各フレームは、いくつかの音声化されたセグメントを含むことができる言語セグメントが終了するまで処理されることができる。言語セグメントの分散は、全体的な分散に基づいて調整されることができる。スタティック係数とデルタ係数の平均値がパラメータ生成に使用されるため、パラメータの軌跡は、自然な音声と比較するとより小さいダイナミックレンジを有してもよい。分散スケーリング法は、合成されたシグナルがくぐもった音にならないよう、パラメータの軌跡のダイナミックレンジを拡大するために使用されることができる。次に、スペクトルパラメータはログ領域から線状領域へと変換されることができる。

図６は、６００として全体が示されているＭＣＥＰｓ生成の実施形態を示すフローチャートである。処理は、パラメータ生成モジュール２０５（図２）において行われることがある。

動作６０５において、出力パラメータ値が初期化される。ある実施形態において、出力パラメータ値は以前のフレームにて生成されたパラメータに依存しているため、出力パラメータは時間ｉ＝０のときに初期化されることができる。したがって、初期ｍｃｅｐ（０）＝ｍｃｅｐ＿ｍｅａｎ（１）である。制御は動作６１０に移され、処理６００は継続する。

動作６１０において、フレームはインクリメントされる。たとえば、フレームは、いくつかの音声化されたセグメントを含むことができる言語セグメントに対して、検査されることができる。パラメータのストリームは、ｉ＝１が第一フレームを表し、ｉ＝２が第二フレームを表すなどのように、フレームユニットに基づくことができる。フレームのインクリメントについて、「ｉ」の値は望ましい間隔で増加される。ある実施形態において、「ｉ」の値は各回に１ずつ増加されることができる。制御は動作６１５に移され、処理６００は継続する。

動作６１５において、セグメントが終了されたか否かが判定される。セグメントが終了されたと判定された場合は、制御は動作６２０に移され、処理６００は継続する。セグメントが終了されていないと判定された場合は、制御は動作６３０に移され、処理は継続する。

動作６１５における判定は、言語モジュールからの情報及び休止の存在を使用して行われる。

動作６２０において、音声セグメントは平滑化される。たとえば、生成されたパラメータの軌跡はある箇所で突然変化した可能性があり、この突然変化により、合成された言語音声に震音や音飛びを生じさせる。長尺のウィンドウの平滑化により、軌跡をより平滑にすることができ、合成された言語音声をより自然にすることができる。制御は動作６２５に移され、処理６００は継続する。

動作６２５において、全体的な分散の調整が行われる。たとえば、全体的な分散は、言語セグメントの分散を調整するために使用されることができる。軌跡は、パラメータ生成にスタティック係数とデルタ係数の平均値を使用するため、自然な音声と比較するとダイナミックレンジがより小さくなる傾向があってもよい。分散スケーリングは、合成されたシグナルがくぐもった音にならないよう、軌跡のダイナミックレンジを拡大することができる。処理６００は終了する。

動作６３０において、音声化が開始したか否かが判定される。音声化が開始していないと判定された場合、制御は動作６３５に移され、処理６００は継続する。音声化が開始したと判定された場合、制御は動作６４０に移され、処理６００は継続する。

動作６３０の判定は、任意の適切な基準に基づくことができる。ある実施形態において、ｆ０モデルがｆ０の有効値を予測した場合、セグメントは音声化されたセグメントであるとみなされ、ｆ０モデルがゼロを予測した場合、セグメントは音声化されていないセグメントであるとみなされる。

動作６３５において、スペクトルパラメータが判定される。フレームのスペクトルパラメータは、ｍｃｅｐ（ｉ）＝（ｍｃｅｐ（ｉ−１）＋ｍｃｅｐ＿ｍｅａｎ（ｉ））／２となる。制御は動作６１０に戻され、処理６００は継続する。

動作６４０において、フレームは音声化されているか判定され、音声が第一フレームにあるか否かがさらに判定される。音声が第一フレームにあると判定された場合、制御は動作６３５に戻され、処理６００は継続する。音声が第一フレームにないと判定された場合、制御は動作６４５に移され、処理６００は継続する。

動作６４５において、音声は第一フレームに無く、スペクトルパラメータは、ｍｃｅｐ（ｉ）＝（ｍｃｅｐ（ｉ−１）＋ｍｃｅｐ＿ｄｅｌｔａ（ｉ）＋ｍｃｅｐ＿ｍｅａｎ（ｉ））／２となる。制御は動作６１０に戻され、処理６００は継続する。ある実施形態において、複数のＭＣＥＰｓはシステム中に存在することができる。処理６００は、すべてのＭＣＥＰｓが処理されるまで任意の回数繰り返すことができる。

図および前述の説明において本発明を詳細に表し、記述したが、これらは単に説明であり、特徴を限定するものではない。好ましい実施形態のみが表され、記述されていると理解すべきであって、ここに記載されている本発明の精神と、後述の保護を求める特許請求の範囲にある本発明の精神の少なくとも一方の範囲内からくるすべての均等物、変更、修正が含まれると理解すべきである。

ゆえに本発明の適切な範囲は、添付の特許請求の範囲の最も広い解釈によって決めるべきであり、そのようなすべての修正並びに図面に表された事項および明細書に記載された事項と均等の関係にあるすべての事項が含まれる。

Claims

ａ．提供されたテキストのためのコンテキストラベルを生成する手段と、
ｂ．音声モデルを使用して、前記提供されたテキストのために生成された前記コンテキストラベルのためのパラメータのセットを生成する手段と、
ｃ．分散スケーリングが可能である、前記生成されたパラメータのセットの処理手段と、
ｄ．音声合成のために処理されたパラメータのセットを適用することが可能である、前記提供されたテキストの音声合成手段と
を含む、提供されたテキストの音声合成システム。
前記音声モデルは、少なくとも１つのスペクトルパラメータの統計分布と前記スペクトルパラメータの変化率とを含む、請求項１に記載のシステム。
前記音声モデルは、予測統計的パラメータモデルを含む、請求項１に記載のシステム。
前記提供されたテキストのためのコンテキストラベルの前記生成手段は、言語モデルを含む、請求項１に記載のシステム。
前記音声合成手段は、スペクトル情報を時間領域信号へと変換可能な、請求項１に記載のシステム。
前記パラメータのセットの前記処理手段は、前記パラメータの前記変化率の判定と前記パラメータの軌跡の生成とが可能である、請求項１に記載のシステム。
ａ．提供されたテキストをフレーズのシーケンスに分割するステップと、
ｂ．音声モデルを使用して前記フレーズのシーケンスのためのパラメータを生成するステップと、
ｃ．提供されたテキストの音声合成に使用可能である別のパラメータのセットを得るために、前記生成されたパラメータを処理するステップと
を含む、連続的な特徴ストリームを使用する、音声合成に使用するために提供されたテキストのパラメータ生成方法。
前記分割は、言語知識に基づいて行われる、請求項７に記載の方法。
前記音声モデルは、予測統計的パラメータモデルを含む、請求項７に記載の方法。
前記フレーズのための前記生成されたパラメータは、スペクトルパラメータを含む、請求項７に記載の方法。
前記スペクトルパラメータは、フレーズに基づくスペクトルパラメータ値、スペクトルパラメータの変化率、スペクトル包絡線の値、スペクトル包絡線の変化率のうち１つまたは複数を含む、請求項１０に記載の方法。
前記フレーズは、言語的休止と音響的休止のうち少なくとも１つによって区切ることのできる単語群を含む、請求項７に記載の方法。
前記提供されたテキストのフレーズのシーケンスへの前記分割は、
ａ．前記テキストを表すパラメータとして判定される予測されたパラメータに基づくベクトル生成のステップと、
ｂ．フレームのインクリメント値を判定するステップと、
ｃ．フレーズの状態を判定するステップであって、
ｉ．前記フレーズが開始されている場合、音声化が開始されているか否かを判定し、
１．音声化が開始されている場合、有声音素のパラメータに基づいて前記ベクトルを調整し、ステップ（ｃ）を再開し、さもなければ
２．音声化が終了されている場合、無声音素のパラメータに基づいて前記ベクトルを調整し、ステップ（ｃ）から再開し、
ｉｉ．前記フレーズが終了されている場合、前記ベクトルを平滑化し、全体的な分散調整を行うステップと
をさらに含む、請求項７に記載の方法。
前記パラメータの前記生成は、
ａ．生成されたパラメータベクトルの第一要素の初期化のステップと、
ｂ．フレームのインクリメント値を判定するステップと、
ｃ．言語セグメントが存在するか否かを判定するステップであって、
ｉ．言語セグメントが存在しない場合、音声化が開始されているか否かを判定し、
１．音声化が開始されていない場合、有声音素のパラメータに基づいて前記パラメータベクトルを調整し、ステップ（ａ）から処理を再開し、
２．音声化が開始されている場合、第一フレームにおいて音声化されているか否かを判定し、前記音声が第一フレームにある場合、係数平均は基本周波数に等しく、前記音声が第一フレームにない場合、係数のクランプが実行される、
ｉｉ．言語セグメントが存在する場合、パラメータの軌跡の突然の変化を除去し、全体的な分散の調整を行うステップと
をさらに含むパラメータの軌跡の生成を含む、請求項７に記載の方法。
ステップｃ．ｉ．は、音声化が終了されたか否かを判定するステップであって、音声化が終了されていなければ、請求項１４をステップ（ａ）から繰り返し、音声化が終了されていれば、係数の平均を望ましい値に調整して前記セグメントの長尺のウィンドウの平滑化を行うステップをさらに含む、請求項１４に記載の方法。
前記初期化は、時間ゼロで行われる、請求項１４に記載の方法。
前記フレームのインクリメント値は、望ましい整数を含む、請求項１４に記載の方法。
前記望ましい整数は、１である、請求項１７に記載の方法。
フレームが音声化されているか否かの前記判定は、前記スペクトルパラメータのための予測値の検査を含み、音声化されたセグメントは、有効値を含む、請求項１４に記載の方法。
言語セグメントが存在するか否かの前記判定は、セグメント分割のための状態シーケンスの検査を含む、請求項１４に記載の方法。
前記パラメータの生成は、
ａ．生成されたパラメータベクトルの第一要素を初期化するステップと、
ｂ．フレームのインクリメント値を判定するステップと、
ｃ．フレームが音声化されているか否か判定するステップであって
ｉ．セグメントが音声化されていない場合、数式ｍｃｅｐ（ｉ）＝（ｍｃｅｐ（ｉ−１）＋ｍｃｅｐ＿ｍｅａｎ（ｉ））／２を適用し、
ｉｉ．セグメントが音声化され且つ第一フレーム内にある場合、数式ｍｃｅｐ（ｉ）＝（ｍｃｅｐ（ｉ−１）＋ｍｃｅｐ＿ｍｅａｎ（ｉ））／２を適用し、
ｉｉｉ．セグメントが音声化され且つ第一フレーム内にない場合、数式ｍｃｅｐ（ｉ）＝（ｍｃｅｐ（ｉ−１）＋ｍｃｅｐ＿ｄｅｌｔａ（ｉ）＋ｍｃｅｐ＿ｍｅａｎ（ｉ））／２を適用するステップと
ｄ．言語セグメントが終了したか否かを判定し、
ｉ．言語セグメントが終了されている場合、パラメータの軌跡の突然の変化を除去し、全体的な分散の調整を行い、
ｉｉ．言語セグメントが終了されていない場合、ステップ（ａ）から始まる処理を繰り返すステップと
を含むメルケプストラムパラメータ生成を含む、請求項７に記載の方法。
前記初期化は、時間ゼロで行われる、請求項２１に記載の方法。
前記フレームのインクリメント値は、望ましい整数を含む、請求項２１に記載の方法。
前記望ましい整数は、１である、請求項２３に記載の方法。
フレームが音声化しているか否かの前記判定は、前記スペクトルパラメータの予測値の検査を含み、音声化されたセグメントが有効値を含む、請求項２１に記載の方法。