JP5398909B2

JP5398909B2 - テキスト音声合成方法及びシステム

Info

Publication number: JP5398909B2
Application number: JP2012514523A
Authority: JP
Inventors: チュン、ビュン−ハ; クルヌトゥロビク、サシャ
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-06-10
Filing date: 2009-06-10
Publication date: 2014-01-29
Anticipated expiration: 2029-06-10
Also published as: GB2484615B; US20120278081A1; US8825485B2; WO2010142928A1; GB201200335D0; JP2012529664A; GB2484615A

Description

本発明は、テキストファイルの受信に応じてオーディオ音声又はオーディオ音声ファイルが出力されるテキスト音声合成システムに関する。より具体的には、本発明は、複数の異なる言語で音声又はオーディオ音声ファイルが出力され得る多言語テキスト音声合成システムに関係する。

テキスト音声合成システムは、例えば音声翻訳システム、衛星ナビゲーション、自動電話帳システムなどのような多種多様のアプリケーションでにおいて使用される。

言語ごとに必要な訓練データの量が相当に多い点でそのような多言語システムを訓練することについて相当な困難がある。さらに、そのようなシステムに必要な処理パワーの量は相当に多い。

最近、統計的パラメトリック多言語合成技術が、文献「J. Latorre, K. Iwano and S. Furui “New approach to the polyglot speech generation by means of an HMM speech based adaptable synthesizer” Speech Communication vol. 48, no. 10, pp1227 to 1242, 2006」によって提案された。このシステムは、十分な人数の話者からの音声データを混合することにって作成される平均声が、いかなる言語に対しても同一であると仮定する。これは、話者の音声特性を定義する最も重要な要因が話者の声道の大きさであることから、正当化される。いずれの言語の話者についても、平均すると声道の大きさはほとんど同じである。したがって、十分な人数の話者が考慮されるならば、それら話者の平均声がいずれの言語に対しても大体同じになければならないと仮定することができる。この仮説によれば、単一の多言語平均声への全言語の複数話者の混合音声データの考慮として、すべての言語の平均声を混合することによって、人工的な多言語話者を作成することができるはずである。

上記のシステムは、隠れマルコフモデルのテキスト音声合成を使用する。

単一の言語体系において、訓練は、例えば文献「M.J.F. Gales, "Maximum likelihood linear transformations for HMM-based speech recognition" in Computer Speech and Language, vol. 12, no. 2, pp.75-98, 1998）」で説明されるいわゆる話者適応訓練を用いて複数の話者からのデータを使用して達成される。

本発明は、上記の問題を解決しようとするものであり、データのすべてを一緒に考慮することによって訓練を行うことができるような構造を持つシステムを提供する。

したがって、第１の態様において、本発明は、テキスト音声合成システムを訓練する方法において、前記テキスト音声合成システムは、音響単位のシーケンスを音声ベクトルのシーケンスに変換するために使用される音響モデルを含み、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす、言語及び話者独立パラメータ、言語依存パラメータ及び話者依存パラメータを含む複数のモデル・パラメータを有するものであり、前記方法は、言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現することと、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、それぞれが既知の言語の話者からの既知のテキストに対応する複数のオーディオ音声の入力を受信することと、ここで、少なくとも二つの入力は異なる言語を有する、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータの初期推定を得ることと、言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータのより良好な推定を得るために、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータに関して前記補助関数を最大化すると、前記言語及び話者非依存パラメータ、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化のステップを繰り返す方法を提供する。

一つの実施形態において、一つのパラメータ・グループは、前記言語及び話者非依存パラメータを含み、一つのパラメータ・グループは、前記言語依存パラメータを含み、一つのパラメータ・グループは、前記話者依存パラメータを含み、前記補助関数を最大化することは、繰り返す方法で、各々のパラメータ・グループに関して前記関数を最大化することを含む。

一つの言語のための各々の確率分布における所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、前記言語依存パラメータは、言語依存である加重値であっても良い。好ましい実施形態において、前記所定のタイプのパラメータは、確率分布の平均である。

一つの好ましい実施形態において、前記平均は、クラスター化され、言語依存加重値は、各々の言語に対する各々のクラスターに適用される。更に好ましくは、各々のクラスターは、決定木であり、前記木により表現される決定は、言語変動、音声変動又は韻律変動に関係するものである。

前記決定木の構築は、好ましくは、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに話者依存パラメータを最大化するサイクルの後に実行される。

前記話者及び言語非依存パラメータはまた、前記確率分布の分散を含むことができ、前記分散は、好ましくは、クラスター化され、決定木は、各々のクラスターごとに形成される。

前記話者依存パラメータは、好ましくは、音声ベクトルに適用される変換パラメータ又は話者非依存モデル・パラメータを含む。

第２の態様において、本発明は、多言語テキスト音声合成システムを新しい言語で動作するように適応させる方法において、前記多言語テキスト音声合成システムは、音響単位のシーケンスを音声ベクトルのシーケンスへ変換するために使用される音響モデルと、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす言語及び話者非依存パラメータ、言語依存パラメータ並びに話者非依存パラメータ並びに話者依存パラメータを含む複数のモデル・パラメータを有するものであり、前記方法は、言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現することと、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、それぞれが既知のテキストに対応する複数のオーディオ音声の入力を、前記新しい言語で、少なくとも二人の話者から受信することと、前記新しい言語の前記話者のために使用される前記話者依存パラメータの初期推定を得ることと、前記新しい言語のための前記言語依存パラメータの初期推定を得ることと、すべての話者及び言語のための前記言語依存パラメータ及び話者依存パラメータのより良好な推定を得るために、前記言語依存パラメータ及び話者依存パラメータに関して前記補助関数を最大化することと、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化のステップを繰り返すことを含む方法を提供する。

上記の適応方法は、システムが、新しい言語を、その言語に関するわずかな訓練データと連携させることを可能にする。

第３の態様において、本発明は、複数の言語で使用されるテキスト音声合成方法において、前記方法は、選択された言語のテキストを入力することと、入力された前記テキストを音響単位のシーケンスに分割することと、音響単位を音声ベクトルに関連付ける確率分布を表す複数のモデル・パラメータを有する音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換することと、前記音声ベクトルのシーケンスを、前記選択された言語の音声として出力することを含み、前記選択された言語における各々の確率分布の所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、使用される加重値は、言語依存であり、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換することは、前記選択された言語のための前記言語依存加重値を検索することを含むテキスト音声合成方法を提供する。

上記方法は、前記音声出力のための声を選択することと、前記声のための変換パラメータを得ることと、前記変換パラメータを使用して、前記選択された言語のための前記音声ベクトルを、前記選択された声へ変換することを更に含んでも良い。

好ましい実施形態において、前記所定のタイプのパラメータは、平均である。

前記確率分布は、ガウス分布、ポアソン分布、ガンマ分布、スチューデントｔ分布又はラプラス分布から選択されても良い。

前記音響単位は、音素、書記素、コンテキスト依存の音素若しくは書記素、トライフォン、又は音節である。

前記音響モデルは、例えば、隠れマルコフモデル又は隠れセミマルコフモデルである。

第４の態様において、本発明は、複数の言語で使用されるテキスト音声合成処理システムにおいて、前記システムは、入力されたテキストを受理するように構成されるテキスト入力と、プロセッサとを含み、前記プロセッサは、入力された前記テキストを音響単位のシーケンスへ分割し、音響単位を音声ベクトルに関連付ける確率分布を表わす複数のモデル・パラメータを有する音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換し、前記音声ベクトルのシーケンスを、前記選択された言語の音声として出力するように構成され、前記選択された言語における各々の確率分布の所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、使用される加重値は、言語依存であり、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換することは、前記選択された言語のための前記言語依存加重値を検索することを含むテキスト音声合成方法を提供する。

第５の態様において、本発明は、訓練可能なテキスト音声合成システムにおいて、前記システムは、音響単位のシーケンスを音声ベクトルのシーケンスへ変換する音響モデルを動かすように構成されるプロセッサを含み、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす、言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータを含む複数のモデル・パラメータを有するものであり、前記プロセッサは、言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現し、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、それぞれが既知の言語の話者からの既知のテキストに対応する複数のオーディオ音声の入力を受信し、ここで、少なくとも二つの入力は異なる言語を有する、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータの初期推定を取得し、言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータのより良好な推定を得るために、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータに関して前記補助関数を最大化し、前記言語及び話者非依存パラメータ、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化を繰り返すシステムを提供する。

第６の態様において、本発明は、新しい言語に適用される多言語テキスト音声合成システムにおいて、前記多言語テキスト音声合成システムは、音響単位のシーケンスを音声ベクトルのシーケンスへ変換するために使用される音響モデルを実行するように構成されるプロセッサを含み、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす言語及び話者非依存パラメータ、言語依存パラメータ並びに話者非依存パラメータ並びに話者依存パラメータを含む複数のモデル・パラメータを有するものであり、前記プロセッサは、言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現し、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、それぞれが既知のテキストに対応する複数のオーディオ音声の入力を、前記新しい言語で、少なくとも二人の話者から受信し、前記新しい言語の前記話者のために使用される前記話者依存パラメータの初期推定を取得し、前記新しい言語のための前記言語依存パラメータの初期推定を取得し、すべての話者及び言語のための前記言語依存パラメータ及び話者依存パラメータのより良好な推定を得るために、前記言語依存パラメータ及び話者依存パラメータに関して前記補助関数を最大化し、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化のステップを繰り返すように更に構成される多言語テキスト音声合成システムを提供する。

本発明は、ハードウェアでも又は汎用コンピュータ中のソフトウェアでも実施することができる。さらに、本発明は、ハードウェアとソフトウェアとの組み合わせで実施することができる。本発明はまた、単一の処理装置、又は複数の処理装置からなる分散ネットワークにより実施することができる。

ソフトウェアにより本発明を実施することができるので、本発明は任意の適切なキャリア媒体上の汎用コンピュータに提供されるコンピュータコードを含む。キャリア媒体は、フロッピー（登録商標）ディスク、例えばＣＤＲＯＭ、磁気デバイス若しくはプログラマブル・メモリ・デバイスのような任意の記憶媒体、又は、例えば任意の信号（例えば、電気的信号、光学的信号若しくはマイクロ波信号）のような任意の一時的な媒体を含むことができる。

これから以下の制限されない実施形態を参照して本発明が説明される。それら実施形態において、各図は次の通りである。

図１は、テキスト音声合成システムの概略図である。図２は、既知の音声処理システムにより実行されるステップを示すフローチャートである。図３は、ガウス確率関数の概略図である。図４は、本発明の一実施形態に従った音声処理方法のフローチャートである。図５は、本発明の更なる実施形態に従った音声処理方法のフローチャートである。図６は、訓練可能なテキスト音声合成システムの概略図である。図７は、本発明の一実施形態に従った音声処理システムを訓練する方法を示すフローチャートである。図８は、本発明により使用される決定木の概略図である。図９は、本発明の一実施形態に従った言語変動及び話者変動の両方について訓練されている音声処理方法の概略図である。図１０は、本発明の一実施形態に従っったシステムの新しい言語への適応を示す概要図である。図１１は、新しい話者に適応する本発明の方法に従った音声処理システムの概略図である。

詳細な説明

図１は、テキスト音声合成システム１を示す。テキスト音声合成システム１は、プログラム５を実行するプロセッサ３を含む。テキスト音声合成システム１は、記憶装置７を更に含む。記憶装置７は、テキストを音声に変換するプログラム５により使用されるデータを記憶する。テキスト音声合成システム１は、入力モジュール１１及び出力モジュール１３を更に含む。入力モジュール１１は、テキスト入力１５に接続される。テキスト入力１５は、テキストを受信する。テキスト入力１５は、例えば、キーボードであっても良い。あるいは、テキスト入力１５は、外部記憶媒体又はネットワークから、テキストデータを受信するための手段であっても良い。

出力モジュール１３に接続されるのは、音声用出力１７である。音声出力１７は、テキスト入力１５への入力テキストから変換された音声信号を出力するために使用される。音声出力１７は、例えば、直接の音声出力（例えば、スピーカ）であっても良いし、又は、記憶媒体、ネットワークなどに送信され得るオーディオ・データ・ファイル用の出力であっても良い。

使用するときは、テキスト音声合成システム１は、テキスト入力１５を通してテキストを受信する。プロセッサ３上で実行されるプログラム５は、記憶装置７に記憶されたデータを使用して、テキストを音声データに変換する。音声は、出力モジュール１３を介して音声出力１７へ出力される。

これから図２を参照して簡略化されたプロセスが説明される。最初のステップＳ１０１において、テキストが入力される。テキストは、キーボード、タッチ・スクリーン、テキスト予測機能又は同種のものを介して入力されても良い。その後、テキストは、音響単位のシーケンスに変換される。これらの音響単位は、音素又は書記素であっても良い。該単位は、コンテキスト依存（例えば、選択された音素に加えて先行する音素及び後続する音素も考慮に入れるトライフォン）であっても良い。該テキストは、当該技術において周知の（本明細書では更に説明されない）技術を使用して、音響単位のシーケンスに変換される。

Ｓ１０５において、音響単位を音声パラメータに関連付ける確率分布が検索される。この実施形態において、確率分布は、平均及び分散により定義されるガウス分布であることがある。例えばポアソン分布、スチューデントｔ分布、ラプラス分布又はガンマ分布のような他の分布を使用することが可能であるが、それらのうちの幾つかは、平均及び分散とは異なる変数により定義される。

各々の音響単位が、音声ベクトル又は当該技術の専門用語を使用する「観測（observation）」に対して明確な一対一の対応を有することはできない。多くの音響単位は、類似する方法で発音され、また、周囲の音響単位によって、或いは、単語若しくは文におけるそれらの位置によって、影響を受け、又は、異なる話者により異なった風に発音される。したがって、各々の音響単位は、音声ベクトルに関連付けられる確率を有するのみであり、また、テキスト音声合成システムは、多くの確率を計算して、音響単位のシーケンスを与えられた複数の観測のうち、最も起こり得るシーケンスを選択する。

ガウス分布は図３に示される。図３は、音声ベクトルに関係する音響単位の確率分布であるものとして考えることができる。例えば、Ｘとして示された音声ベクトルは、図３に示される分布を有する音素又は他の音響単位に対応する確率Ｐ１を有する。

ガウス分布の形状及び位置は、その平均及び分散により定義される。これらのパラメータは、システムの訓練の間に決定される。

その後、ステップＳ１０７において、これらのパラメータが音響モデルにおいて使用される。この説明において、音響モデルは、隠れマルコフモデル（ＨＭＭ）である。しかしながら、他のモデルを使用することもできる。

音声システムのテキストは、音響単位（すなわち、音素、書記素、単語又はその部分）を音声パラメータに関連付ける多数の確率密度関数を記憶する。

ガウス分布が一般に使用されるように、これらは一般にガウシアン又はコンポーネントと呼ばれる。

隠れマルコフモデル又は他のタイプの音響モデルにおいて、特定の音響単位に関係するすべての可能性のある音声ベクトルの確率が考慮される必要があり、そして、その音響単位のシーケンスに最大の可能性をもって対応する音声ベクトルのシーケンスが考慮される。音響単位のシーケンスが考慮される場合に、特定の音響単位について最大の可能性をもつ音声ベクトルが最良の音声ベクトルにならないことがあり得る。

音声ベクトルのシーケンスが決定されると、ステップＳ１０９において、音声が出力される。

図４は、本発明の一実施形態に従ったテキスト音声合成システムのプロセスのフローチャートである。ステップＳ２０１において、図２を参照して説明された方法と同じ方法で、テキストが受信される。その後、ステップＳ２０３において、該テキストは、音素、書記素、コンテキスト依存の音素又は書記素、及び、単語又はその部分であり得る音響単位のシーケンスに変換される。

図４のシステムは、幾つかの異なる言語で音声を出力することができるいわゆる多言語テキスト音声合成システムである。ステップＳ２０５において、該テキストの言語が判定される。これは、ユーザが言語又はテキストに関する入力を提供することによってなされても良く、使用する優先言語に関するシステムのセットアップにおいて記憶されるデータによってなされても良く、あるいは、言語を判定するための何らかの自動的な方法が存在しても良い。

図４を参照して説明される方法において、各々のコンポーネントに対するガウス分布が平均及び分散により記述される。図４のシステムにおいて、選択された言語におけるガウス分布の平均は、言語非依存平均の加重和として表現される。したがって、次のようになる。

ここで、

は、選択された言語ｌにおけるコンポーネントｍの平均である。

は、平均Ｉに対する言語依存加重値である。μ_mは、コンポーネントｍに対する言語非依存平均である。

ステップＳ２０７において、システムは、アクセス可能な方法で記憶される言語非依存の平均及び分散を検索するであろう。

ステップＳ２０９において、システムは、それら平均について言語依存加重値を検索する。それら言語依存加重値がそれら言語非依存パラメータの前又は後に検索されても良いことは当業者により認識されるであろう。

したがって、ステップＳ２０９の後で、それら言語依存平均を得ること、すなわち、それら言語非依存平均を使用すること及びそれら加重値を適用すること、が可能である。その後、これらは、図２中のステップＳ１０７を参照して説明された方法と同じ方法でステップＳ２１１中の音響モデルにおいて使用される。その後、ステップＳ２１３において、音声が出力される。

好ましい実施形態において、それら言語非依存平均は、クラスター化され、各々のクラスターは、決定木を含み、それら木において使用される決定は、言語上の変動、音声上の変動及び韻律上の変動に基づく。韻律上のコンテキスト、音声上のコンテキスト及び言語上のコンテキストは、最終的な音声波形に影響を及ぼす。音声上のコンテキストは、典型的には、声道に影響を及ぼし、韻律上のコンテキスト（例えば音節）及び言語上のコンテキスト（例えば単語の品詞）は、例えば継続時間（リズム）および基本周波数（トーン）のような韻律に影響を及ぼす。

好ましい実施形態において、選択された言語におけるガウス分布の平均は、複数の言語非依存平均の加重和として表現される。ここで、該加重和は、各々のクラスターから１つずつの平均を使用し、該平均は、現在処理されている音響単位の韻律上のコンテキスト、言語上のコンテキスト及び音声上のコンテキストに基づいて選択される。

更なる好ましい実施形態において、該方法はまた、異なる言語に加えて異なる話者を扱うことができる。図５に、そのような方法が示される。不必要な重複を避けるために、同様の特徴を示すために同様の参照番号が使用される。

図５では、ステップＳ２０６において、テキスト音声合成システムは話者を選択する。話者は、予め記憶された複数の話者プロファイルから選択されることができる。選択された話者プロファイルは、毎回システムが使用される毎ではなく、システムの初期セットアップ中に決定されることができる。話者プロファイルの選択は、ステップＳ２１１で音声ベクトルが決定された後に実行されても良い。

システムが目的とする話者を知るならば、該システムはステップＳ２１２において話者依存パラメータを検索することができる。この実施形態において、話者依存パラメータは、ステップＳ２１１で得られる音声ベクトルに適用される線形変換であり、次のようになる。

ここで、

は、話者ｓのための回帰クラスｒ（ｍ）に関連する線形変換行列及びバイアス・ベクトルである。ｏ（ｔ）は、ステップＳ２１１において得られる出力ベクトルである。

は、話者ｓのための回帰クラスｒ（ｍ）に関する変換された音声ベクトルである。

図５では、それから、ステップＳ２１２において、ステップＳ２１１で決定された音声ベクトルを選択された声に変換するために、話者依存変換がそれらに適用される。

上記の説明において、話者依存変換は、音声ベクトルに適用される。しかしながら、それらは、同じくらい容易にモデル・パラメータに適用されることができる。

次に、図６を参照して、本発明の一実施形態に従ったシステムの訓練が説明される。

図６のシステムは、図１を参照して説明されたシステムに類似している。したがって、不必要な重複を避けるために、同様の特徴を示すために同様の参照番号が使用される。

図１を参照して説明された特徴に加えて、図６は、音声入力２３及び音声入力モジュール２１を更に含む。システムを訓練する場合、テキスト入力１５を介して入力されているテキストに一致する音声入力を有することが必要である。

隠れマルコフモデル（ＨＭＭ）に基づく音声処理システムにおいて、ＨＭＭはしばしば次のように表現される。

ここで、Ａは状態遷移確率分布であり、次のようである。

また、Ｂは状態出力確率分布であり、次のようである。

また、Πは初期状態確率分布であり、次のようである。

ここで、Ｎは、ＨＭＭにおける状態の数である。

テキスト音声合成システムにおいてＨＭＭがどのように使用されるかについては、当該技術では周知であり、ここでは説明されない。

この実施形態において、状態遷移確率分散Ａ及び初期状態確率分布は、当該技術において周知の手続きに従って決定される。したがって、この説明の残りは、状態出力確率分布に関係している。

一般に、一つの言語の一人の話者のためのテキスト音声合成システムにおいて、モデルセットＭにおける第ｍ番目のガウシアン・コンポーネントからの状態出力ベクトル又は音声ベクトルｏ（ｔ）は、次のようになる。

ここで、μ_mは、第ｍ番目のガウシアン・コンポーネントの平均であり、Σ_mは、第ｍ番目のガウシアン・コンポーネントの共分散である。

従来のテキスト音声合成システムを訓練する場合の目標は、与えられた観測シーケンスに対する尤度を最大化するモデル・パラメータ・セットＭを推定することである。従来のモデルにおいて、モデル・パラメータ・セットは、すべてのコンポーネントｍについて、μ_m及びΣ_mである。

いわゆる最尤（ＭＬ）基準に純粋に分析的に基づいて上記のモデルセットを得ることは可能でないので、従来、その問題は、バウム・ウェルチ・アルゴリズムと大抵呼ばれる期待値最大化（ＥＭ）アルゴリズムとして知られている反復アプローチを使用することによって対処される。ここで、次のような補助関数（“Ｑ”関数）が得られる。

ここで、γ_m（ｔ）は、観測ｏ（ｔ）を生成するコンポーネントｍの事後確率であり、現在のモデル・パラメータはＭ’、Ｍは新しいパラメータ・セットとする。各々の反復の後で、パラメータ・セットＭ’は、Ｑ（Ｍ，（Ｍ’））を最大化する新しいパラメータ・セットＭと取り替えられる。ｐ（ｏ（ｔ），ｍ｜Ｍ）は、例えばＧＭＭ、ＨＭＭなどのような生成モデルである。

本実施形態において、次式の状態出力ベクトルを有するＨＭＭが使用される。

ここで、ｍ∈｛１,…….,Ｍ｝、ｔ∈｛１,…….,Ｔ｝、ｓ∈｛１,…….,Ｓ｝、及び、ｌ∈｛１,…….,Ｌ｝は、それぞれ、コンポーネント、時間、話者及び言語のインデックスである。また、Ｍ、Ｔ、Ｓ及びＬは、それぞれ、コンポーネント、フレーム、話者及び言語の総数である。

後で説明される理由のために、この実施形態では、複数の共分散は、クラスター化され、複数の決定木に配置される。ここで、ｖ（ｍ）∈｛１,…….,Ｖ｝は、コンポーネントｍの共同分散行列が属する共分散決定木中の葉ノードを表し、Ｖは、分散決定木の葉ノードの総数である。

Ｒは、回帰クラスの総数であり、ｒ（ｍ）∈｛１,…….,Ｒ｝は、コンポーネントｍが属する回帰クラスを表す。

話者依存特徴変換は、次式を与える。

ここで、

は、話者ｓのための回帰クラスｒ（ｍ）に関連する線形変換行列及びバイアス・ベクトルである。

テキスト音声合成システムに関して上に説明されたように、平均は言語非依存の形で表現される。これは、次式を与える。

上記の式において、複数の言語非依存平均は、一緒にクラスター化され、補間重みλは、各々のクラスターに適用される。そうであるから、ｉ∈｛１,…….,Ｐ｝は、クラスターのためのインデックスであり、Ｐは、クラスターの総数である。

は、言語ｌのための第ｉ番目のクラスターの補間重みである。各々のクラスターは、決定木を含む。決定木の詳細は後で説明される。ｃ（ｍ）∈｛１,…….,Ｎ｝は、コンポーネントｍにおける第ｉ番目の平均ベクトルが属する平均決定木中の葉ノードを示す。また、Ｎは、すべての平均決定木中の葉ノードの総数である．
上記を使用すると、補助関数は、次のように表現することができる。

ここで、Ｃは、Ｍとは独立した定数である。

したがって、上記を使用し、式（２）及び（３）を上記に代入すると、補助関数は、モデル・パラメータが３つの互いに異なる部分に分割され得ることを示す。最初の部分は、規範的モデルのパラメータ（つまり、言語非依存平均｛μ_n｝_n及び言語非依存共分散｛Σ_k｝_k）である。上記のインデックスｎ及びｋは、後で説明される平均及び分散決定木の葉ノードを示す。第２の部分は、話者依存パラメータである。この特定の実施形態において、話者依存パラメータは、次のＣＭＬＬＲ制約付き最尤線形回帰変換である。

ここで、ｓは話者を示し、ｄはコンポーネント又はコンポーネントｍが属する話者回帰クラスを示す。第３のパラメータ・セットは、この実施形態における言語依存加重値である言語依存パラメータである。

ここで、ｌは言語を示し、ｉはクラスター・インデックスである。

補助関数が上記の方法で表現されれば、それは、話者及び言語非依存パラメータのＭＬ値、話者依存パラメータのＭＬ値、並びに、言語依存パラメータのＭＬ値を得るために、各々の変数に関して順に最大化される。

詳しくは、平均のＭＬ推定を決定するために、下記手続きが実行される。

最初に、式（４）の補助関数が、以下のようにμ_nで微分される。

導関数を０にセットして法線方向において式を最大化することによって、μ_nのＭＬ推定、すなわち、

について次の式が得られる。

μ_nのＭＬ推定はまた、μ_kに依存することに留意されるべきである（ここで、ｋはｎと等しくない）。インデックスｎは、平均ベクトルの判定木の葉ノードを表わすために用いられるのに対して、インデックスｋは、共分散決定木の葉ノードを表わす。したがって、収束するまですべてのμ_nにわたり繰り返すことによって最適化を実行することが必要である。

これは、次式を解くことによりすべてのμ_nを同時に最適化することによって実行することができる。

しかしながら、訓練データが小さいか又はＮが非常に大きい場合、式（７）の係数行列はフルランクを有することができない。この問題は、特異値分解又は他の良く知られた行列因数分解技術を用いることにより回避することができる。

その後、同じプロセスが、共分散のＭＬ推定を実行するために行われる。つまり、式（４）に示される補助関数がΣ_kで微分され、次式が与えられる。

言語依存加重値及び話者依存パラメータのためのＭＬ推定も、同じ方法で、つまり、ＭＬ推定が求められるパラメータに関して補助関数を微分し、そして、微分の値を０にセットすることで、得ることができる。

好ましい実施形態において、該プロセスは、例えば言語及び話者非依存パラメータ、話者依存パラメータ並びに言語依存パラメータの初期推定を用いて、反復する方法で、実行される。

その後、上に説明されたように、それらパラメータのうちの一つのＭＬ推定が、そのパラメータに関して補助関数を微分することによる初期推定を使用して、実行される。その後、言語依存パラメータは、オリジナルの言語依存パラメータ、オリジナルの言語話者及び非依存パラメータ並びに更新された話者パラメータを使用して推定される。

次に、言語及び話者非依存パラメータは、オリジナルの言語及び話者非依存パラメータ並びに最近計算された更新された言語依存パラメータ及び話者依存パラメータを用いるＭＬ式を使用して計算される。収束が達成されるまで、そのプロセスが繰り返される。

図７のフローチャートを参照して、この基本システムが説明される。ステップＳ３０１において、複数のオーディオ音声の入力が受信される。該複数の入力は、複数の異なる話者の発声及び複数の異なる言語に関係する。好ましくは、各々の異なる言語につき少なくとも二人ずつの話者が存在する。これを提供できないと、単一の言語の特徴に基づいて言語及び話者を分離することが困難になる。

次に、ステップＳ３０３において、言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータの初期推定がある。可能な初期推定は後で議論される。

次に、上述したように、上記のパラメータのより良好な推定を得るために、バウム・ウェルチ・アルゴリズムの補助関数を使用することによって、上記のパラメータの最尤計算が実行される。そして、これは、パラメータが収束するまで、ステップ３０７において繰り返される。

先に述べられた議論のように、複数の言語非依存の平均及び分散は、クラスター化される。このクラスタリング・プロセスがこれから説明される。

好ましい実施形態において、ガウシアンのクラスターは、各々のクラスターが決定木の形で提供されるように、配置される。さらに、各々の決定木は、構造を結合するそれ自身のパラメータを有する。

計算上の制約により、すべての木を同時に構築するのは難しい。したがって、木は、反復アプローチで構築される。複数の構造にわたって共有される平均は存在せず、かつ、各々の木は、順番に反復して再構築されることが、仮定される。

各々の二分決定木は、すべてのコンテキストを表現する単一のルートノードから始まる局所的最適化法で構築される。この実施形態において、コンテキストによって、次のベース（音声ベース、言語ベース、及び、韻律ベース）が使用される。各々のノードが作成されるとともに、コンテキストに関する次の最適な質問が選択される。いずれの質問が尤度の最大の増加をもたらすか及び訓練例において生成される終端ノードに基づいて、質問が選択される。

その後、訓練データに総尤度の最大の増加を提供するために、その最適の質問を用いて分割することができる終端ノードを発見するために、終端ノードのセットが検索される。この増加が閾値を越えるとすれば、該ノードは最適な質問を用いて分割され、２つの新しい終端ノードが作成される。更に分割しても、尤度分割に適用される閾値を越えないことにより、新しい終端ノードを形成することができない場合、そのプロセスは停止する。

このプロセスは例えば図８に示される。平均決定木中の第ｎ番目の終端ノードは、質問ｑにより２の新しい終端ノードｎ₊ ^q及びｎ_- ^qに分割される。この分割により達成される尤度の増加を計算するために、以下のように計算することができる。

ここで、Ｃは、μ_nとは独立した定数項である。μ_nの最大尤度は式（６）により与えられる。それゆえ、上記は、次のように書くことができる。

ここで、次の置換がなされる。

ｒ_nが式（４）の回帰クラスｒに関係しないことに留意することは重要である。

したがって、分割後の対数尤度は以下のように表現することができる。

したがって、ノードｎをｎ₊ ^q及びｎ_- ^qへ分割することにより得られる尤度は、次式により与えられる。

したがって、上記を使用して、各々のクラスターの決定木を構築することは可能である。ここで、木は、最初に木において最適な質問が尋ねられ、分割の尤度に従う階層の順に決定が配列されるように、配列される。その後、加重値が各々のクラスターに適用される。

分散のための決定木が、同様に、構築される。共分散決定木は、以下のように構築される：共分散決定木中のケース終端ノードが、質問ｑにより２の新しい終端ノードｋ₊ ^q及びｋ_- ^qに分割されるならば、クラスター分散行列及び分割による増加は、以下のように表現される。

ここで、Ｄは、｛Σ_k｝とは独立した定数である。

前に説明されたように、パラメータは反復プロセスにより推定される。

好ましい実施形態において、パラメータは以下のように初期化される。

訓練データは、言語を識別する情報及び話者を識別する情報を含んでいる。最初に、一つの言語からのすべてのデータが考慮され、そして、それらの言語セット間の話者変動が、一人の話者につき単一の変換を使用して推定される。

上で述べたように、各々のモデルセットは、構造を結合するそれ自身の決定木クラスターを有する。話者変換は、話者依存パラメータを初期化するために純粋に使用される。初めは言語依存パラメータを初期化するために、それらは言語識別情報に依存してちょうど１又は０のいずれかにセットされる。つまり、
λ_i ^(l)＝１ − 言語ｌのためのクラスターｉのためのモデルセット
λ_i ^(l)＝０ − それ以外
｛μ_n｝_n及びそれらの決定木を初期化することは、言語依存モデルセットを使用することによって実行される。好ましい実施形態において、｛Σ_k｝_k及びそれらの決定木を初期化するために、言語非依存モデルセットのうちの一つのセットが使用される。

この好ましい実施形態では、図７を参照して説明されたプロセスと同じプロセスに続く。しかしながら、パラメータが上述したように最大化されたならば、決定木が再構築される。その後、その手続きが再開し、下記プロセスに続く。

１．言語非依存パラメータを初期化する。つまり、この好ましい実施形態において、次式のようになる。

話者依存パラメータを次のように初期化する。

これは、この例において、話者依存制約付きＭＬＬＲ線形変換である。また、言語依存パラメータ加重値を次のように初期化する。

また、ｊ＝０にセットする。

５．ｊ＝ｊ＋１とする。収束するまで、２へ進む。

６．平均決定木及び共分散決定木を再構築する。

７．収束するまで、２へ進む。

図９に、そのプロセスが要約される。図８は、決定木の形をとるクラスター１〜Ｐを示す。この単純化された例では、ちょうどクラスター１に４つの終端ノードが存在し、クラスター２に３つの終端ノードが存在する。決定木は対称である必要がない、つまり、各々の決定木が厳密に同数の終端ノードを有する必要はないことに留意することは重要である。木における終端ノードの数及びブランチの数は、純粋に対数尤度分割によって決定される。対数尤度分割は、最初の決定において最大の分割を達成し、次いで、より大きな分割をもたらす質問の順に質問が尋ねられる。達成された分割が閾値未満ならば、終端ノードの分割は終了する。

各々の木は、木加重値を有する。図９において、木加重値はλ₁…λ_p…として表現されている。言語ｌ＝１におけるコンポーネント１（４０１）の平均（μ_l ^(l=1)）は、次式のように表現される。

同様に、言語Ｌにおけるコンポーネント１（４０１）について、（μ_l ^(l=L)）は、次のようになる。

これらは、両方とも図８のボックス４０１中に示される。

コンポーネントＭ（４０３）について、同じことが達成される。

この実施形態において、分散は、言語に関係なく、特定のコンポーネントについて一定にとどまる。

その後、これらのパラメータは、テキスト音声合成システムにおいて使用されるべき言語Ｌのための適応モデルセットを提供する。

言語Ｉのための適応モデルセットは、言語セットＩ内のコンポーネントのすべてに対する変動を含むであろう。該変動は、言語非依存である。それはまた、導出されたが、特定の言語に従って加重される言語非依存平均を含むであろう。言語セットは、４０５および４０７として示されている。

訓練するとき、データは、複数の話者から受信されるであろう。したがって、話者の影響を取り除く又は適用する何らかの手段を有することが必要である。一般に、線形話者変換が提供される（４０９，４１１）。その後、これは、結合された言語及び話者適応ＨＭＭセット４１３，４１５，４１７及び４１９をセットする。

上記は、テキスト音声合成システム及びテキスト音声合成システムの訓練を説明する。図１０を参照して説明される次の実施形態は、大量の訓練データを必要とせずに、新しい言語に容易に適応することができるテキスト音声合成システムである。

新しい言語に適応する場合、鍵は言語依存パラメータを得ることであるが、さらに、その言語の少なくとも二人の話者からのデータが要求されるであろうから、話者解析を実行することが必要である。

一人の話者からの利用可能な音声だけがある場合、言語変動及び話者変動を分離することは可能でないので、複数の話者が要求される。

推定処理は、図７〜９を参照して説明された推定処理に類似している。その後、図７を参照して説明されたように、そのプロセスが進み、反復する方法で、バウム・ウェルチ補助関数が、言語依存加重値及び話者パラメータについて最大化される。図１０のシェードの付いた部分が、更新されるパラメータを示す。

図１１は、新しい話者に適応する処理を示す。ターゲット話者は、訓練データに既に含まれている言語を話すであろう。したがって、予め推定された言語依存言語加重値を使用して、言語依存円錐モデルを構築することが可能である。

その後、これは、図１１を参照して示されるように、新しい話者のための話者依存変換が推定されることを可能にする。

話者変換が話者の既知の言語について推定されたならば、その後、話者音声が出力されることができ、そして、システムによりカバーされる任意の言語を出力するために使用されることができる。
以下、本特許出願の当初の特許請求の範囲に記載された各請求項１−２０に対応する発明を付記する。
[１]複数の言語で使用されるテキスト音声合成方法において、前記方法は、選択された言語のテキストを入力することと、入力された前記テキストを音響単位のシーケンスに分割することと、音響単位を音声ベクトルに関連付ける確率分布を表す複数のモデル・パラメータを有する音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換することと、前記音声ベクトルのシーケンスを、前記選択された言語の音声として出力することを含み、前記選択された言語における各々の確率分布の所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、使用される加重値は、言語依存であり、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換することは、前記選択された言語のための前記言語依存加重値を検索することを含むテキスト音声合成方法。
[２]前記所定のタイプのパラメータは、平均である［１］に記載のテキスト音声合成方法。
[３]前記確率分布は、ガウス分布、ポアソン分布、ガンマ分布、スチューデントｔ分布又はラプラス分布から選択される［１］に記載のテキスト音声合成方法。
[４]前記音声出力のための声を選択することと、前記声のための変換パラメータを得ることと、前記変換パラメータを使用して、前記選択された言語のための前記音声ベクトル及び／又はモデル・パラメータを、前記選択された声へ変換することを更に含む［１］ないし［３］のいずれか１項に記載のテキスト音声合成方法。
[５]前記音響単位は、音素、書記素、コンテキスト依存の音素若しくは書記素、トライフォン、又は音節である［１］ないし［４］のいずれか１項に記載のテキスト音声合成方法。
[６]前記音響モデルは、隠れマルコフモデル又は隠れセミマルコフモデルである［１］ないし［５］のいずれか一つに記載のテキスト音声合成方法。
[７]テキスト音声合成システムを訓練する方法において、前記テキスト音声合成システムは、音響単位のシーケンスを音声ベクトルのシーケンスに変換するために使用される音響モデルを含み、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす、言語及び話者独立パラメータ、言語依存パラメータ及び話者依存パラメータを含む複数のモデル・パラメータを有するものであり、前記方法は、言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現することと、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、それぞれが既知の言語の話者からの既知のテキストに対応する複数のオーディオ音声の入力を受信することと、ここで、少なくとも二つの入力は異なる言語を有する、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータの初期推定を得ることと、言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータのより良好な推定を得るために、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータに関して前記補助関数を最大化することと、前記言語及び話者非依存パラメータ、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化のステップを繰り返すことを含む方法。
[８]一つのパラメータ・グループは、前記言語及び話者非依存パラメータを含み、一つのパラメータ・グループは、前記言語依存パラメータを含み、一つのパラメータ・グループは、前記話者依存パラメータを含み、前記補助関数を最大化することは、繰り返す方法で、各々のパラメータ・グループに関して前記関数を最大化することを含む［７］に記載の方法。
[９]一つの言語のための各々の確率分布における所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、前記言語依存パラメータは、言語依存である加重値である［７］または［８］に記載の方法。
[１０]前記所定のタイプのパラメータは、確率分布の平均である［９］に記載の方法。
[１１]前記平均は、クラスター化され、言語依存加重値は、各々の言語に対する各々のクラスターに適用される［１０］に記載の方法。
[１２]各々のクラスターは、決定木であり、前記木により表現される決定は、言語変動、音声変動又は韻律変動に関係するものである［１１］に記載の方法。
[１３]前記決定木の構築は、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに話者依存パラメータに関して前記補助関数を最大化するサイクルの後に実行される［１２］に記載の方法。
[１４]前記話者及び言語非依存パラメータは、前記確率分布の分散を含み、前記分散は、クラスター化され、決定木は、各々のクラスターごとに形成される［７］ないし［１３］のいずれか一つに記載の方法。
[１５]前記話者依存パラメータは、音声ベクトルに適用される変換パラメータ及び／又は話者非依存モデル・パラメータを含む［７］ないし［１４］のいずれか一つに記載の方法。
[１６]多言語テキスト音声合成システムを新しい言語で動作するように適応させる方法において、前記多言語テキスト音声合成システムは、音響単位のシーケンスを音声ベクトルのシーケンスへ変換するために使用される音響モデルと、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす言語及び話者非依存パラメータ、言語依存パラメータ並びに話者非依存パラメータ並びに話者依存パラメータを含む複数のモデル・パラメータを有するものであり、前記方法は、言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現することと、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、それぞれが既知のテキストに対応する複数のオーディオ音声の入力を、前記新しい言語で、少なくとも二人の話者から受信することと、前記新しい言語の前記話者のために使用される前記話者依存パラメータの初期推定を得ることと、前記新しい言語のための前記言語依存パラメータの初期推定を得ることと、すべての話者及び言語のための前記言語依存パラメータ及び話者依存パラメータのより良好な推定を得るために、前記言語依存パラメータ及び話者依存パラメータに関して前記補助関数を最大化することと、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化のステップを繰り返すことを含む方法。
[１７]［１］ないし［１７］のいずれか一つに記載の方法を実行するようにコンピュータを制御するためのコンピュータ読み取り可能な命令を搬送する搬送媒体。
[１８]複数の言語で使用されるテキスト音声合成処理システムにおいて、前記システムは、入力されたテキストを受理するように構成されるテキスト入力と、プロセッサとを含み、前記プロセッサは、入力された前記テキストを音響単位のシーケンスへ分割し、音響単位を音声ベクトルに関連付ける確率分布を表わす複数のモデル・パラメータを有する音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換し、前記音声ベクトルのシーケンスを、前記選択された言語の音声として出力するように構成され、前記選択された言語における各々の確率分布の所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、使用される加重値は、言語依存であり、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換することは、前記選択された言語のための前記言語依存加重値を検索することを含むテキスト音声合成方法。
[１９]訓練可能なテキスト音声合成システムにおいて、前記システムは、音響単位のシーケンスを音声ベクトルのシーケンスへ変換する音響モデルを動かすように構成されるプロセッサを含み、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす、言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータを含む複数のモデル・パラメータを有するものであり、前記プロセッサは、言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現し、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、それぞれが既知の言語の話者からの既知のテキストに対応する複数のオーディオ音声の入力を受信し、ここで、少なくとも二つの入力は異なる言語を有する、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータの初期推定を取得し、言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータのより良好な推定を得るために、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータに関して前記補助関数を最大化し、前記言語及び話者非依存パラメータ、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化を繰り返すシステム。
[２０]新しい言語に適用される多言語テキスト音声合成システムにおいて、前記多言語テキスト音声合成システムは、音響単位のシーケンスを音声ベクトルのシーケンスへ変換するために使用される音響モデルを実行するように構成されるプロセッサを含み、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす言語及び話者非依存パラメータ、言語依存パラメータ並びに話者非依存パラメータ並びに話者依存パラメータを含む複数のモデル・パラメータを有するものであり、前記プロセッサは、言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現し、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、それぞれが既知のテキストに対応する複数のオーディオ音声の入力を、前記新しい言語で、少なくとも二人の話者から受信し、前記新しい言語の前記話者のために使用される前記話者依存パラメータの初期推定を取得し、前記新しい言語のための前記言語依存パラメータの初期推定を取得し、すべての話者及び言語のための前記言語依存パラメータ及び話者依存パラメータのより良好な推定を得るために、前記言語依存パラメータ及び話者依存パラメータに関して前記補助関数を最大化し、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化のステップを繰り返すように更に構成される多言語テキスト音声合成システム。

Claims

複数の言語で使用されるテキスト音声合成方法において、
前記方法は、
選択された言語のテキストを入力することと、
入力された前記テキストを音響単位のシーケンスに分割することと、
音響単位を音声ベクトルに関連付ける確率分布を表す複数のモデル・パラメータを有する音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換することと、
前記音声ベクトルのシーケンスを、前記選択された言語の音声として出力することを含み、
前記選択された言語における各々の確率分布の所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、使用される加重値は、言語依存である加重値であり、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換することは、前記選択された言語のための前記言語依存である加重値を検索することを含むテキスト音声合成方法。
前記音声として出力するための声を選択することと、
前記声のための変換パラメータを得ることと、
前記変換パラメータを使用して、前記選択された言語のための前記音声ベクトル及び／又はモデル・パラメータを、前記選択された声へ変換することを更に含む請求項１に記載のテキスト音声合成方法。
テキスト音声合成システムを訓練する方法において、前記テキスト音声合成システムは、音響単位のシーケンスを音声ベクトルのシーケンスに変換するために使用される音響モデルを含み、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす、言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータを含む複数のモデル・パラメータを有するものであり、
前記方法は、
言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現することと、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、
それぞれが既知の言語の話者からの既知のテキストに対応する複数のオーディオ音声の入力を受信することと、ここで、少なくとも二つの入力は異なる言語を有する、
前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータの初期推定を得ることと、
言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータのより良好な推定を得るために、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータに関して前記補助関数を最大化することと、
前記言語及び話者非依存パラメータ、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化のステップを繰り返すことを含み、
一つの言語のための各々の確率分布における所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、前記言語依存パラメータは、言語依存である加重値である方法。
前記所定のタイプのパラメータは、確率分布の平均である請求項３に記載の方法。
前記平均は、クラスター化され、言語依存加重値は、各々の言語に対する各々のクラスターに適用される請求項４に記載の方法。
各々のクラスターは、決定木であり、前記木により表現される決定は、言語変動、音声変動又は韻律変動に関係するものである請求項５に記載の方法。
多言語テキスト音声合成システムを新しい言語で動作するように適応させる方法において、
前記多言語テキスト音声合成システムは、
音響単位のシーケンスを音声ベクトルのシーケンスへ変換するために使用される音響モデルを含み、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす言語及び話者非依存パラメータ、言語依存パラメータ並びに話者非依存パラメータ並びに話者依存パラメータを含む複数のモデル・パラメータを有するものであり、
前記方法は、
言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現することと、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、
それぞれが既知のテキストに対応する複数のオーディオ音声の入力を、前記新しい言語で、少なくとも二人の話者から受信することと、
前記新しい言語の前記話者のために使用される前記話者依存パラメータの初期推定を得ることと、
前記新しい言語のための前記言語依存パラメータの初期推定を得ることと、
すべての話者及び言語のための前記言語依存パラメータ及び話者依存パラメータのより良好な推定を得るために、前記言語依存パラメータ及び話者依存パラメータに関して前記補助関数を最大化することと、
前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化のステップを繰り返すことを含み、
一つの言語のための各々の確率分布における所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、前記言語依存パラメータは、言語依存である加重値である方法。
請求項１ないし７のいずれか１項の方法を実行するようにコンピュータを制御するためのプログラム。
複数の言語で使用されるテキスト音声合成処理システムにおいて、
前記システムは、
入力されたテキストを受理するように構成されるテキスト入力と、
プロセッサとを含み、
前記プロセッサは、
入力された前記テキストを音響単位のシーケンスへ分割し、
音響単位を音声ベクトルに関連付ける確率分布を表わす複数のモデル・パラメータを有する音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換し、
前記音声ベクトルのシーケンスを、選択された言語の音声として出力するように構成され、
前記選択された言語における各々の確率分布の所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、使用される加重値は、言語依存である加重値であり、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換することは、前記選択された言語のための前記言語依存である加重値を検索することを含むテキスト音声合成処理システム。
訓練可能なテキスト音声合成システムにおいて、前記システムは、音響単位のシーケンスを音声ベクトルのシーケンスへ変換する音響モデルを動かすように構成されるプロセッサを含み、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす、言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータを含む複数のモデル・パラメータを有するものであり、前記プロセッサは、
言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現し、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、
それぞれが既知の言語の話者からの既知のテキストに対応する複数のオーディオ音声の入力を受信し、ここで、少なくとも二つの入力は異なる言語を有する、
前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータの初期推定を取得し、
言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータのより良好な推定を得るために、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータに関して前記補助関数を最大化し、
前記言語及び話者非依存パラメータ、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化を繰り返すように構成され、
一つの言語のための各々の確率分布における所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、前記言語依存パラメータは、言語依存である加重値であるシステム。
新しい言語に適用される多言語テキスト音声合成システムにおいて、
前記多言語テキスト音声合成システムは、
音響単位のシーケンスを音声ベクトルのシーケンスへ変換するために使用される音響モデルを実行するように構成されるプロセッサを含み、
ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす言語及び話者非依存パラメータ、言語依存パラメータ並びに話者非依存パラメータ並びに話者依存パラメータを含む複数のモデル・パラメータを有するものであり、
前記プロセッサは、
言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現し、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、
それぞれが既知のテキストに対応する複数のオーディオ音声の入力を、前記新しい言語で、少なくとも二人の話者から受信し、
前記新しい言語の前記話者のために使用される前記話者依存パラメータの初期推定を取得し、
前記新しい言語のための前記言語依存パラメータの初期推定を取得し、
すべての話者及び言語のための前記言語依存パラメータ及び話者依存パラメータのより良好な推定を得るために、前記言語依存パラメータ及び話者依存パラメータに関して前記補助関数を最大化し、
前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化のステップを繰り返すように更に構成され、
一つの言語のための各々の確率分布における所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、前記言語依存パラメータは、言語依存である加重値である多言語テキスト音声合成システム。