JP5398909B2 - テキスト音声合成方法及びシステム - Google Patents

テキスト音声合成方法及びシステム Download PDF

Info

Publication number
JP5398909B2
JP5398909B2 JP2012514523A JP2012514523A JP5398909B2 JP 5398909 B2 JP5398909 B2 JP 5398909B2 JP 2012514523 A JP2012514523 A JP 2012514523A JP 2012514523 A JP2012514523 A JP 2012514523A JP 5398909 B2 JP5398909 B2 JP 5398909B2
Authority
JP
Japan
Prior art keywords
language
parameters
speaker
dependent
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012514523A
Other languages
English (en)
Other versions
JP2012529664A (ja
Inventor
チュン、ビュン−ハ
クルヌトゥロビク、サシャ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2012529664A publication Critical patent/JP2012529664A/ja
Application granted granted Critical
Publication of JP5398909B2 publication Critical patent/JP5398909B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Description

本発明は、テキストファイルの受信に応じてオーディオ音声又はオーディオ音声ファイルが出力されるテキスト音声合成システムに関する。より具体的には、本発明は、複数の異なる言語で音声又はオーディオ音声ファイルが出力され得る多言語テキスト音声合成システムに関係する。
テキスト音声合成システムは、例えば音声翻訳システム、衛星ナビゲーション、自動電話帳システムなどのような多種多様のアプリケーションでにおいて使用される。
言語ごとに必要な訓練データの量が相当に多い点でそのような多言語システムを訓練することについて相当な困難がある。さらに、そのようなシステムに必要な処理パワーの量は相当に多い。
最近、統計的パラメトリック多言語合成技術が、文献「J. Latorre, K. Iwano and S. Furui “New approach to the polyglot speech generation by means of an HMM speech based adaptable synthesizer” Speech Communication vol. 48, no. 10, pp1227 to 1242, 2006」によって提案された。このシステムは、十分な人数の話者からの音声データを混合することにって作成される平均声が、いかなる言語に対しても同一であると仮定する。これは、話者の音声特性を定義する最も重要な要因が話者の声道の大きさであることから、正当化される。いずれの言語の話者についても、平均すると声道の大きさはほとんど同じである。したがって、十分な人数の話者が考慮されるならば、それら話者の平均声がいずれの言語に対しても大体同じになければならないと仮定することができる。この仮説によれば、単一の多言語平均声への全言語の複数話者の混合音声データの考慮として、すべての言語の平均声を混合することによって、人工的な多言語話者を作成することができるはずである。
上記のシステムは、隠れマルコフモデルのテキスト音声合成を使用する。
単一の言語体系において、訓練は、例えば文献「M.J.F. Gales, "Maximum likelihood linear transformations for HMM-based speech recognition" in Computer Speech and Language, vol. 12, no. 2, pp.75-98, 1998)」で説明されるいわゆる話者適応訓練を用いて複数の話者からのデータを使用して達成される。
本発明は、上記の問題を解決しようとするものであり、データのすべてを一緒に考慮することによって訓練を行うことができるような構造を持つシステムを提供する。
したがって、第1の態様において、本発明は、テキスト音声合成システムを訓練する方法において、前記テキスト音声合成システムは、音響単位のシーケンスを音声ベクトルのシーケンスに変換するために使用される音響モデルを含み、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす、言語及び話者独立パラメータ、言語依存パラメータ及び話者依存パラメータを含む複数のモデル・パラメータを有するものであり、前記方法は、言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現することと、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、それぞれが既知の言語の話者からの既知のテキストに対応する複数のオーディオ音声の入力を受信することと、ここで、少なくとも二つの入力は異なる言語を有する、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータの初期推定を得ることと、言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータのより良好な推定を得るために、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータに関して前記補助関数を最大化すると、前記言語及び話者非依存パラメータ、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化のステップを繰り返す方法を提供する。
一つの実施形態において、一つのパラメータ・グループは、前記言語及び話者非依存パラメータを含み、一つのパラメータ・グループは、前記言語依存パラメータを含み、一つのパラメータ・グループは、前記話者依存パラメータを含み、前記補助関数を最大化することは、繰り返す方法で、各々のパラメータ・グループに関して前記関数を最大化することを含む。
一つの言語のための各々の確率分布における所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、前記言語依存パラメータは、言語依存である加重値であっても良い。好ましい実施形態において、前記所定のタイプのパラメータは、確率分布の平均である。
一つの好ましい実施形態において、前記平均は、クラスター化され、言語依存加重値は、各々の言語に対する各々のクラスターに適用される。更に好ましくは、各々のクラスターは、決定木であり、前記木により表現される決定は、言語変動、音声変動又は韻律変動に関係するものである。
前記決定木の構築は、好ましくは、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに話者依存パラメータを最大化するサイクルの後に実行される。
前記話者及び言語非依存パラメータはまた、前記確率分布の分散を含むことができ、前記分散は、好ましくは、クラスター化され、決定木は、各々のクラスターごとに形成される。
前記話者依存パラメータは、好ましくは、音声ベクトルに適用される変換パラメータ又は話者非依存モデル・パラメータを含む。
第2の態様において、本発明は、多言語テキスト音声合成システムを新しい言語で動作するように適応させる方法において、前記多言語テキスト音声合成システムは、音響単位のシーケンスを音声ベクトルのシーケンスへ変換するために使用される音響モデルと、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす言語及び話者非依存パラメータ、言語依存パラメータ並びに話者非依存パラメータ並びに話者依存パラメータを含む複数のモデル・パラメータを有するものであり、前記方法は、言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現することと、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、それぞれが既知のテキストに対応する複数のオーディオ音声の入力を、前記新しい言語で、少なくとも二人の話者から受信することと、前記新しい言語の前記話者のために使用される前記話者依存パラメータの初期推定を得ることと、前記新しい言語のための前記言語依存パラメータの初期推定を得ることと、すべての話者及び言語のための前記言語依存パラメータ及び話者依存パラメータのより良好な推定を得るために、前記言語依存パラメータ及び話者依存パラメータに関して前記補助関数を最大化することと、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化のステップを繰り返すことを含む方法を提供する。
上記の適応方法は、システムが、新しい言語を、その言語に関するわずかな訓練データと連携させることを可能にする。
第3の態様において、本発明は、複数の言語で使用されるテキスト音声合成方法において、前記方法は、選択された言語のテキストを入力することと、入力された前記テキストを音響単位のシーケンスに分割することと、音響単位を音声ベクトルに関連付ける確率分布を表す複数のモデル・パラメータを有する音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換することと、前記音声ベクトルのシーケンスを、前記選択された言語の音声として出力することを含み、前記選択された言語における各々の確率分布の所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、使用される加重値は、言語依存であり、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換することは、前記選択された言語のための前記言語依存加重値を検索することを含むテキスト音声合成方法を提供する。
上記方法は、前記音声出力のための声を選択することと、前記声のための変換パラメータを得ることと、前記変換パラメータを使用して、前記選択された言語のための前記音声ベクトルを、前記選択された声へ変換することを更に含んでも良い。
好ましい実施形態において、前記所定のタイプのパラメータは、平均である。
前記確率分布は、ガウス分布、ポアソン分布、ガンマ分布、スチューデントt分布又はラプラス分布から選択されても良い。
前記音響単位は、音素、書記素、コンテキスト依存の音素若しくは書記素、トライフォン、又は音節である。
前記音響モデルは、例えば、隠れマルコフモデル又は隠れセミマルコフモデルである。
第4の態様において、本発明は、複数の言語で使用されるテキスト音声合成処理システムにおいて、前記システムは、入力されたテキストを受理するように構成されるテキスト入力と、プロセッサとを含み、前記プロセッサは、入力された前記テキストを音響単位のシーケンスへ分割し、音響単位を音声ベクトルに関連付ける確率分布を表わす複数のモデル・パラメータを有する音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換し、前記音声ベクトルのシーケンスを、前記選択された言語の音声として出力するように構成され、前記選択された言語における各々の確率分布の所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、使用される加重値は、言語依存であり、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換することは、前記選択された言語のための前記言語依存加重値を検索することを含むテキスト音声合成方法を提供する。
第5の態様において、本発明は、訓練可能なテキスト音声合成システムにおいて、前記システムは、音響単位のシーケンスを音声ベクトルのシーケンスへ変換する音響モデルを動かすように構成されるプロセッサを含み、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす、言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータを含む複数のモデル・パラメータを有するものであり、前記プロセッサは、言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現し、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、それぞれが既知の言語の話者からの既知のテキストに対応する複数のオーディオ音声の入力を受信し、ここで、少なくとも二つの入力は異なる言語を有する、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータの初期推定を取得し、言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータのより良好な推定を得るために、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータに関して前記補助関数を最大化し、前記言語及び話者非依存パラメータ、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化を繰り返すシステムを提供する。
第6の態様において、本発明は、新しい言語に適用される多言語テキスト音声合成システムにおいて、前記多言語テキスト音声合成システムは、音響単位のシーケンスを音声ベクトルのシーケンスへ変換するために使用される音響モデルを実行するように構成されるプロセッサを含み、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす言語及び話者非依存パラメータ、言語依存パラメータ並びに話者非依存パラメータ並びに話者依存パラメータを含む複数のモデル・パラメータを有するものであり、前記プロセッサは、言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現し、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、それぞれが既知のテキストに対応する複数のオーディオ音声の入力を、前記新しい言語で、少なくとも二人の話者から受信し、前記新しい言語の前記話者のために使用される前記話者依存パラメータの初期推定を取得し、前記新しい言語のための前記言語依存パラメータの初期推定を取得し、すべての話者及び言語のための前記言語依存パラメータ及び話者依存パラメータのより良好な推定を得るために、前記言語依存パラメータ及び話者依存パラメータに関して前記補助関数を最大化し、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化のステップを繰り返すように更に構成される多言語テキスト音声合成システムを提供する。
本発明は、ハードウェアでも又は汎用コンピュータ中のソフトウェアでも実施することができる。さらに、本発明は、ハードウェアとソフトウェアとの組み合わせで実施することができる。本発明はまた、単一の処理装置、又は複数の処理装置からなる分散ネットワークにより実施することができる。
ソフトウェアにより本発明を実施することができるので、本発明は任意の適切なキャリア媒体上の汎用コンピュータに提供されるコンピュータコードを含む。キャリア媒体は、フロッピー(登録商標)ディスク、例えばCD ROM、磁気デバイス若しくはプログラマブル・メモリ・デバイスのような任意の記憶媒体、又は、例えば任意の信号(例えば、電気的信号、光学的信号若しくはマイクロ波信号)のような任意の一時的な媒体を含むことができる。
これから以下の制限されない実施形態を参照して本発明が説明される。それら実施形態において、各図は次の通りである。
図1は、テキスト音声合成システムの概略図である。 図2は、既知の音声処理システムにより実行されるステップを示すフローチャートである。 図3は、ガウス確率関数の概略図である。 図4は、本発明の一実施形態に従った音声処理方法のフローチャートである。 図5は、本発明の更なる実施形態に従った音声処理方法のフローチャートである。 図6は、訓練可能なテキスト音声合成システムの概略図である。 図7は、本発明の一実施形態に従った音声処理システムを訓練する方法を示すフローチャートである。 図8は、本発明により使用される決定木の概略図である。 図9は、本発明の一実施形態に従った言語変動及び話者変動の両方について訓練されている音声処理方法の概略図である。 図10は、本発明の一実施形態に従っったシステムの新しい言語への適応を示す概要図である。 図11は、新しい話者に適応する本発明の方法に従った音声処理システムの概略図である。
詳細な説明
図1は、テキスト音声合成システム1を示す。テキスト音声合成システム1は、プログラム5を実行するプロセッサ3を含む。テキスト音声合成システム1は、記憶装置7を更に含む。記憶装置7は、テキストを音声に変換するプログラム5により使用されるデータを記憶する。テキスト音声合成システム1は、入力モジュール11及び出力モジュール13を更に含む。入力モジュール11は、テキスト入力15に接続される。テキスト入力15は、テキストを受信する。テキスト入力15は、例えば、キーボードであっても良い。あるいは、テキスト入力15は、外部記憶媒体又はネットワークから、テキストデータを受信するための手段であっても良い。
出力モジュール13に接続されるのは、音声用出力17である。音声出力17は、テキスト入力15への入力テキストから変換された音声信号を出力するために使用される。音声出力17は、例えば、直接の音声出力(例えば、スピーカ)であっても良いし、又は、記憶媒体、ネットワークなどに送信され得るオーディオ・データ・ファイル用の出力であっても良い。
使用するときは、テキスト音声合成システム1は、テキスト入力15を通してテキストを受信する。プロセッサ3上で実行されるプログラム5は、記憶装置7に記憶されたデータを使用して、テキストを音声データに変換する。音声は、出力モジュール13を介して音声出力17へ出力される。
これから図2を参照して簡略化されたプロセスが説明される。最初のステップS101において、テキストが入力される。テキストは、キーボード、タッチ・スクリーン、テキスト予測機能又は同種のものを介して入力されても良い。その後、テキストは、音響単位のシーケンスに変換される。これらの音響単位は、音素又は書記素であっても良い。該単位は、コンテキスト依存(例えば、選択された音素に加えて先行する音素及び後続する音素も考慮に入れるトライフォン)であっても良い。該テキストは、当該技術において周知の(本明細書では更に説明されない)技術を使用して、音響単位のシーケンスに変換される。
S105において、音響単位を音声パラメータに関連付ける確率分布が検索される。この実施形態において、確率分布は、平均及び分散により定義されるガウス分布であることがある。例えばポアソン分布、スチューデントt分布、ラプラス分布又はガンマ分布のような他の分布を使用することが可能であるが、それらのうちの幾つかは、平均及び分散とは異なる変数により定義される。
各々の音響単位が、音声ベクトル又は当該技術の専門用語を使用する「観測(observation)」に対して明確な一対一の対応を有することはできない。多くの音響単位は、類似する方法で発音され、また、周囲の音響単位によって、或いは、単語若しくは文におけるそれらの位置によって、影響を受け、又は、異なる話者により異なった風に発音される。したがって、各々の音響単位は、音声ベクトルに関連付けられる確率を有するのみであり、また、テキスト音声合成システムは、多くの確率を計算して、音響単位のシーケンスを与えられた複数の観測のうち、最も起こり得るシーケンスを選択する。
ガウス分布は図3に示される。図3は、音声ベクトルに関係する音響単位の確率分布であるものとして考えることができる。例えば、Xとして示された音声ベクトルは、図3に示される分布を有する音素又は他の音響単位に対応する確率P1を有する。
ガウス分布の形状及び位置は、その平均及び分散により定義される。これらのパラメータは、システムの訓練の間に決定される。
その後、ステップS107において、これらのパラメータが音響モデルにおいて使用される。この説明において、音響モデルは、隠れマルコフモデル(HMM)である。しかしながら、他のモデルを使用することもできる。
音声システムのテキストは、音響単位(すなわち、音素、書記素、単語又はその部分)を音声パラメータに関連付ける多数の確率密度関数を記憶する。
ガウス分布が一般に使用されるように、これらは一般にガウシアン又はコンポーネントと呼ばれる。
隠れマルコフモデル又は他のタイプの音響モデルにおいて、特定の音響単位に関係するすべての可能性のある音声ベクトルの確率が考慮される必要があり、そして、その音響単位のシーケンスに最大の可能性をもって対応する音声ベクトルのシーケンスが考慮される。音響単位のシーケンスが考慮される場合に、特定の音響単位について最大の可能性をもつ音声ベクトルが最良の音声ベクトルにならないことがあり得る。
音声ベクトルのシーケンスが決定されると、ステップS109において、音声が出力される。
図4は、本発明の一実施形態に従ったテキスト音声合成システムのプロセスのフローチャートである。ステップS201において、図2を参照して説明された方法と同じ方法で、テキストが受信される。その後、ステップS203において、該テキストは、音素、書記素、コンテキスト依存の音素又は書記素、及び、単語又はその部分であり得る音響単位のシーケンスに変換される。
図4のシステムは、幾つかの異なる言語で音声を出力することができるいわゆる多言語テキスト音声合成システムである。ステップS205において、該テキストの言語が判定される。これは、ユーザが言語又はテキストに関する入力を提供することによってなされても良く、使用する優先言語に関するシステムのセットアップにおいて記憶されるデータによってなされても良く、あるいは、言語を判定するための何らかの自動的な方法が存在しても良い。
図4を参照して説明される方法において、各々のコンポーネントに対するガウス分布が平均及び分散により記述される。図4のシステムにおいて、選択された言語におけるガウス分布の平均は、言語非依存平均の加重和として表現される。したがって、次のようになる。
Figure 0005398909
ここで、
Figure 0005398909
は、選択された言語lにおけるコンポーネントmの平均である。
Figure 0005398909
は、平均Iに対する言語依存加重値である。μmは、コンポーネントmに対する言語非依存平均である。
ステップS207において、システムは、アクセス可能な方法で記憶される言語非依存の平均及び分散を検索するであろう。
ステップS209において、システムは、それら平均について言語依存加重値を検索する。それら言語依存加重値がそれら言語非依存パラメータの前又は後に検索されても良いことは当業者により認識されるであろう。
したがって、ステップS209の後で、それら言語依存平均を得ること、すなわち、それら言語非依存平均を使用すること及びそれら加重値を適用すること、が可能である。その後、これらは、図2中のステップS107を参照して説明された方法と同じ方法でステップS211中の音響モデルにおいて使用される。その後、ステップS213において、音声が出力される。
好ましい実施形態において、それら言語非依存平均は、クラスター化され、各々のクラスターは、決定木を含み、それら木において使用される決定は、言語上の変動、音声上の変動及び韻律上の変動に基づく。韻律上のコンテキスト、音声上のコンテキスト及び言語上のコンテキストは、最終的な音声波形に影響を及ぼす。音声上のコンテキストは、典型的には、声道に影響を及ぼし、韻律上のコンテキスト(例えば音節)及び言語上のコンテキスト(例えば単語の品詞)は、例えば継続時間(リズム)および基本周波数(トーン)のような韻律に影響を及ぼす。
好ましい実施形態において、選択された言語におけるガウス分布の平均は、複数の言語非依存平均の加重和として表現される。ここで、該加重和は、各々のクラスターから1つずつの平均を使用し、該平均は、現在処理されている音響単位の韻律上のコンテキスト、言語上のコンテキスト及び音声上のコンテキストに基づいて選択される。
更なる好ましい実施形態において、該方法はまた、異なる言語に加えて異なる話者を扱うことができる。図5に、そのような方法が示される。不必要な重複を避けるために、同様の特徴を示すために同様の参照番号が使用される。
図5では、ステップS206において、テキスト音声合成システムは話者を選択する。話者は、予め記憶された複数の話者プロファイルから選択されることができる。選択された話者プロファイルは、毎回システムが使用される毎ではなく、システムの初期セットアップ中に決定されることができる。話者プロファイルの選択は、ステップS211で音声ベクトルが決定された後に実行されても良い。
システムが目的とする話者を知るならば、該システムはステップS212において話者依存パラメータを検索することができる。この実施形態において、話者依存パラメータは、ステップS211で得られる音声ベクトルに適用される線形変換であり、次のようになる。
Figure 0005398909
ここで、
Figure 0005398909
は、話者sのための回帰クラスr(m)に関連する線形変換行列及びバイアス・ベクトルである。o(t)は、ステップS211において得られる出力ベクトルである。
Figure 0005398909
は、話者sのための回帰クラスr(m)に関する変換された音声ベクトルである。
図5では、それから、ステップS212において、ステップS211で決定された音声ベクトルを選択された声に変換するために、話者依存変換がそれらに適用される。
上記の説明において、話者依存変換は、音声ベクトルに適用される。しかしながら、それらは、同じくらい容易にモデル・パラメータに適用されることができる。
次に、図6を参照して、本発明の一実施形態に従ったシステムの訓練が説明される。
図6のシステムは、図1を参照して説明されたシステムに類似している。したがって、不必要な重複を避けるために、同様の特徴を示すために同様の参照番号が使用される。
図1を参照して説明された特徴に加えて、図6は、音声入力23及び音声入力モジュール21を更に含む。システムを訓練する場合、テキスト入力15を介して入力されているテキストに一致する音声入力を有することが必要である。
隠れマルコフモデル(HMM)に基づく音声処理システムにおいて、HMMはしばしば次のように表現される。
Figure 0005398909
ここで、Aは状態遷移確率分布であり、次のようである。
Figure 0005398909
また、Bは状態出力確率分布であり、次のようである。
Figure 0005398909
また、Πは初期状態確率分布であり、次のようである。
Figure 0005398909
ここで、Nは、HMMにおける状態の数である。
テキスト音声合成システムにおいてHMMがどのように使用されるかについては、当該技術では周知であり、ここでは説明されない。
この実施形態において、状態遷移確率分散A及び初期状態確率分布は、当該技術において周知の手続きに従って決定される。したがって、この説明の残りは、状態出力確率分布に関係している。
一般に、一つの言語の一人の話者のためのテキスト音声合成システムにおいて、モデルセットMにおける第m番目のガウシアン・コンポーネントからの状態出力ベクトル又は音声ベクトルo(t)は、次のようになる。
Figure 0005398909
ここで、μmは、第m番目のガウシアン・コンポーネントの平均であり、Σmは、第m番目のガウシアン・コンポーネントの共分散である。
従来のテキスト音声合成システムを訓練する場合の目標は、与えられた観測シーケンスに対する尤度を最大化するモデル・パラメータ・セットMを推定することである。従来のモデルにおいて、モデル・パラメータ・セットは、すべてのコンポーネントmについて、μm及びΣmである。
いわゆる最尤(ML)基準に純粋に分析的に基づいて上記のモデルセットを得ることは可能でないので、従来、その問題は、バウム・ウェルチ・アルゴリズムと大抵呼ばれる期待値最大化(EM)アルゴリズムとして知られている反復アプローチを使用することによって対処される。ここで、次のような補助関数(“Q”関数)が得られる。
Figure 0005398909
ここで、γm(t)は、観測o(t)を生成するコンポーネントmの事後確率であり、現在のモデル・パラメータはM’、Mは新しいパラメータ・セットとする。各々の反復の後で、パラメータ・セットM’は、Q(M,(M’))を最大化する新しいパラメータ・セットMと取り替えられる。p(o(t),m|M)は、例えばGMM、HMMなどのような生成モデルである。
本実施形態において、次式の状態出力ベクトルを有するHMMが使用される。
Figure 0005398909
ここで、m∈{1,…….,M}、t∈{1,…….,T}、s∈{1,…….,S}、及び、l∈{1,…….,L}は、それぞれ、コンポーネント、時間、話者及び言語のインデックスである。また、M、T、S及びLは、それぞれ、コンポーネント、フレーム、話者及び言語の総数である。
後で説明される理由のために、この実施形態では、複数の共分散は、クラスター化され、複数の決定木に配置される。ここで、v(m)∈{1,…….,V}は、コンポーネントmの共同分散行列が属する共分散決定木中の葉ノードを表し、Vは、分散決定木の葉ノードの総数である。
Rは、回帰クラスの総数であり、r(m)∈{1,…….,R}は、コンポーネントmが属する回帰クラスを表す。
話者依存特徴変換は、次式を与える。
Figure 0005398909
ここで、
Figure 0005398909
は、話者sのための回帰クラスr(m)に関連する線形変換行列及びバイアス・ベクトルである。
テキスト音声合成システムに関して上に説明されたように、平均は言語非依存の形で表現される。これは、次式を与える。
Figure 0005398909
上記の式において、複数の言語非依存平均は、一緒にクラスター化され、補間重みλは、各々のクラスターに適用される。そうであるから、i∈{1,…….,P}は、クラスターのためのインデックスであり、Pは、クラスターの総数である。
Figure 0005398909
は、言語lのための第i番目のクラスターの補間重みである。各々のクラスターは、決定木を含む。決定木の詳細は後で説明される。c(m)∈{1,…….,N}は、コンポーネントmにおける第i番目の平均ベクトルが属する平均決定木中の葉ノードを示す。また、Nは、すべての平均決定木中の葉ノードの総数である.
上記を使用すると、補助関数は、次のように表現することができる。
Figure 0005398909
ここで、Cは、Mとは独立した定数である。
したがって、上記を使用し、式(2)及び(3)を上記に代入すると、補助関数は、モデル・パラメータが3つの互いに異なる部分に分割され得ることを示す。最初の部分は、規範的モデルのパラメータ(つまり、言語非依存平均{μnn及び言語非依存共分散{Σkk)である。上記のインデックスn及びkは、後で説明される平均及び分散決定木の葉ノードを示す。第2の部分は、話者依存パラメータである。この特定の実施形態において、話者依存パラメータは、次のCMLLR制約付き最尤線形回帰変換である。
Figure 0005398909
ここで、sは話者を示し、dはコンポーネント又はコンポーネントmが属する話者回帰クラスを示す。第3のパラメータ・セットは、この実施形態における言語依存加重値である言語依存パラメータである。
Figure 0005398909
ここで、lは言語を示し、iはクラスター・インデックスである。
補助関数が上記の方法で表現されれば、それは、話者及び言語非依存パラメータのML値、話者依存パラメータのML値、並びに、言語依存パラメータのML値を得るために、各々の変数に関して順に最大化される。
詳しくは、平均のML推定を決定するために、下記手続きが実行される。
最初に、式(4)の補助関数が、以下のようにμnで微分される。
Figure 0005398909
導関数を0にセットして法線方向において式を最大化することによって、μnのML推定、すなわち、
Figure 0005398909
について次の式が得られる。
Figure 0005398909
μnのML推定はまた、μkに依存することに留意されるべきである(ここで、kはnと等しくない)。インデックスnは、平均ベクトルの判定木の葉ノードを表わすために用いられるのに対して、インデックスkは、共分散決定木の葉ノードを表わす。したがって、収束するまですべてのμnにわたり繰り返すことによって最適化を実行することが必要である。
これは、次式を解くことによりすべてのμnを同時に最適化することによって実行することができる。
Figure 0005398909
しかしながら、訓練データが小さいか又はNが非常に大きい場合、式(7)の係数行列はフルランクを有することができない。この問題は、特異値分解又は他の良く知られた行列因数分解技術を用いることにより回避することができる。
その後、同じプロセスが、共分散のML推定を実行するために行われる。つまり、式(4)に示される補助関数がΣkで微分され、次式が与えられる。
Figure 0005398909
言語依存加重値及び話者依存パラメータのためのML推定も、同じ方法で、つまり、ML推定が求められるパラメータに関して補助関数を微分し、そして、微分の値を0にセットすることで、得ることができる。
好ましい実施形態において、該プロセスは、例えば言語及び話者非依存パラメータ、話者依存パラメータ並びに言語依存パラメータの初期推定を用いて、反復する方法で、実行される。
その後、上に説明されたように、それらパラメータのうちの一つのML推定が、そのパラメータに関して補助関数を微分することによる初期推定を使用して、実行される。その後、言語依存パラメータは、オリジナルの言語依存パラメータ、オリジナルの言語話者及び非依存パラメータ並びに更新された話者パラメータを使用して推定される。
次に、言語及び話者非依存パラメータは、オリジナルの言語及び話者非依存パラメータ並びに最近計算された更新された言語依存パラメータ及び話者依存パラメータを用いるML式を使用して計算される。収束が達成されるまで、そのプロセスが繰り返される。
図7のフローチャートを参照して、この基本システムが説明される。ステップS301において、複数のオーディオ音声の入力が受信される。該複数の入力は、複数の異なる話者の発声及び複数の異なる言語に関係する。好ましくは、各々の異なる言語につき少なくとも二人ずつの話者が存在する。これを提供できないと、単一の言語の特徴に基づいて言語及び話者を分離することが困難になる。
次に、ステップS303において、言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータの初期推定がある。可能な初期推定は後で議論される。
次に、上述したように、上記のパラメータのより良好な推定を得るために、バウム・ウェルチ・アルゴリズムの補助関数を使用することによって、上記のパラメータの最尤計算が実行される。そして、これは、パラメータが収束するまで、ステップ307において繰り返される。
先に述べられた議論のように、複数の言語非依存の平均及び分散は、クラスター化される。このクラスタリング・プロセスがこれから説明される。
好ましい実施形態において、ガウシアンのクラスターは、各々のクラスターが決定木の形で提供されるように、配置される。さらに、各々の決定木は、構造を結合するそれ自身のパラメータを有する。
計算上の制約により、すべての木を同時に構築するのは難しい。したがって、木は、反復アプローチで構築される。複数の構造にわたって共有される平均は存在せず、かつ、各々の木は、順番に反復して再構築されることが、仮定される。
各々の二分決定木は、すべてのコンテキストを表現する単一のルートノードから始まる局所的最適化法で構築される。この実施形態において、コンテキストによって、次のベース(音声ベース、言語ベース、及び、韻律ベース)が使用される。各々のノードが作成されるとともに、コンテキストに関する次の最適な質問が選択される。いずれの質問が尤度の最大の増加をもたらすか及び訓練例において生成される終端ノードに基づいて、質問が選択される。
その後、訓練データに総尤度の最大の増加を提供するために、その最適の質問を用いて分割することができる終端ノードを発見するために、終端ノードのセットが検索される。この増加が閾値を越えるとすれば、該ノードは最適な質問を用いて分割され、2つの新しい終端ノードが作成される。更に分割しても、尤度分割に適用される閾値を越えないことにより、新しい終端ノードを形成することができない場合、そのプロセスは停止する。
このプロセスは例えば図8に示される。平均決定木中の第n番目の終端ノードは、質問qにより2の新しい終端ノードn+ q及びn- qに分割される。この分割により達成される尤度の増加を計算するために、以下のように計算することができる。
Figure 0005398909
ここで、Cは、μnとは独立した定数項である。μnの最大尤度は式(6)により与えられる。それゆえ、上記は、次のように書くことができる。
Figure 0005398909
ここで、次の置換がなされる。
Figure 0005398909
nが式(4)の回帰クラスrに関係しないことに留意することは重要である。
したがって、分割後の対数尤度は以下のように表現することができる。
Figure 0005398909
したがって、ノードnをn+ q及びn- qへ分割することにより得られる尤度は、次式により与えられる。
Figure 0005398909
したがって、上記を使用して、各々のクラスターの決定木を構築することは可能である。ここで、木は、最初に木において最適な質問が尋ねられ、分割の尤度に従う階層の順に決定が配列されるように、配列される。その後、加重値が各々のクラスターに適用される。
分散のための決定木が、同様に、構築される。共分散決定木は、以下のように構築される:共分散決定木中のケース終端ノードが、質問qにより2の新しい終端ノードk+ q及びk- qに分割されるならば、クラスター分散行列及び分割による増加は、以下のように表現される。
Figure 0005398909
Figure 0005398909
Figure 0005398909
ここで、Dは、{Σk}とは独立した定数である。
前に説明されたように、パラメータは反復プロセスにより推定される。
好ましい実施形態において、パラメータは以下のように初期化される。
訓練データは、言語を識別する情報及び話者を識別する情報を含んでいる。最初に、一つの言語からのすべてのデータが考慮され、そして、それらの言語セット間の話者変動が、一人の話者につき単一の変換を使用して推定される。
上で述べたように、各々のモデルセットは、構造を結合するそれ自身の決定木クラスターを有する。話者変換は、話者依存パラメータを初期化するために純粋に使用される。初めは言語依存パラメータを初期化するために、それらは言語識別情報に依存してちょうど1又は0のいずれかにセットされる。つまり、
λi (l)=1 − 言語lのためのクラスターiのためのモデルセット
λi (l)=0 − それ以外
{μnn及びそれらの決定木を初期化することは、言語依存モデルセットを使用することによって実行される。好ましい実施形態において、{Σkk及びそれらの決定木を初期化するために、言語非依存モデルセットのうちの一つのセットが使用される。
この好ましい実施形態では、図7を参照して説明されたプロセスと同じプロセスに続く。しかしながら、パラメータが上述したように最大化されたならば、決定木が再構築される。その後、その手続きが再開し、下記プロセスに続く。
1.言語非依存パラメータを初期化する。つまり、この好ましい実施形態において、次式のようになる。
Figure 0005398909
話者依存パラメータを次のように初期化する。
Figure 0005398909
これは、この例において、話者依存制約付きMLLR線形変換である。また、言語依存パラメータ加重値を次のように初期化する。
Figure 0005398909
また、j=0にセットする。
Figure 0005398909
5.j=j+1とする。収束するまで、2へ進む。
6.平均決定木及び共分散決定木を再構築する。
7.収束するまで、2へ進む。
図9に、そのプロセスが要約される。図8は、決定木の形をとるクラスター1〜Pを示す。この単純化された例では、ちょうどクラスター1に4つの終端ノードが存在し、クラスター2に3つの終端ノードが存在する。決定木は対称である必要がない、つまり、各々の決定木が厳密に同数の終端ノードを有する必要はないことに留意することは重要である。木における終端ノードの数及びブランチの数は、純粋に対数尤度分割によって決定される。対数尤度分割は、最初の決定において最大の分割を達成し、次いで、より大きな分割をもたらす質問の順に質問が尋ねられる。達成された分割が閾値未満ならば、終端ノードの分割は終了する。
各々の木は、木加重値を有する。図9において、木加重値はλ1…λp…として表現されている。言語l=1におけるコンポーネント1(401)の平均(μl (l=1))は、次式のように表現される。
Figure 0005398909
同様に、言語Lにおけるコンポーネント1(401)について、(μl (l=L))は、次のようになる。
Figure 0005398909
これらは、両方とも図8のボックス401中に示される。
コンポーネントM(403)について、同じことが達成される。
Figure 0005398909
この実施形態において、分散は、言語に関係なく、特定のコンポーネントについて一定にとどまる。
その後、これらのパラメータは、テキスト音声合成システムにおいて使用されるべき言語Lのための適応モデルセットを提供する。
言語Iのための適応モデルセットは、言語セットI内のコンポーネントのすべてに対する変動を含むであろう。該変動は、言語非依存である。それはまた、導出されたが、特定の言語に従って加重される言語非依存平均を含むであろう。言語セットは、405および407として示されている。
訓練するとき、データは、複数の話者から受信されるであろう。したがって、話者の影響を取り除く又は適用する何らかの手段を有することが必要である。一般に、線形話者変換が提供される(409,411)。その後、これは、結合された言語及び話者適応HMMセット413,415,417及び419をセットする。
上記は、テキスト音声合成システム及びテキスト音声合成システムの訓練を説明する。図10を参照して説明される次の実施形態は、大量の訓練データを必要とせずに、新しい言語に容易に適応することができるテキスト音声合成システムである。
新しい言語に適応する場合、鍵は言語依存パラメータを得ることであるが、さらに、その言語の少なくとも二人の話者からのデータが要求されるであろうから、話者解析を実行することが必要である。
一人の話者からの利用可能な音声だけがある場合、言語変動及び話者変動を分離することは可能でないので、複数の話者が要求される。
推定処理は、図7〜9を参照して説明された推定処理に類似している。その後、図7を参照して説明されたように、そのプロセスが進み、反復する方法で、バウム・ウェルチ補助関数が、言語依存加重値及び話者パラメータについて最大化される。図10のシェードの付いた部分が、更新されるパラメータを示す。
図11は、新しい話者に適応する処理を示す。ターゲット話者は、訓練データに既に含まれている言語を話すであろう。したがって、予め推定された言語依存言語加重値を使用して、言語依存円錐モデルを構築することが可能である。
その後、これは、図11を参照して示されるように、新しい話者のための話者依存変換が推定されることを可能にする。
話者変換が話者の既知の言語について推定されたならば、その後、話者音声が出力されることができ、そして、システムによりカバーされる任意の言語を出力するために使用されることができる
以下、本特許出願の当初の特許請求の範囲に記載された各請求項1−20に対応する発明を付記する。
[1]複数の言語で使用されるテキスト音声合成方法において、前記方法は、選択された言語のテキストを入力することと、入力された前記テキストを音響単位のシーケンスに分割することと、音響単位を音声ベクトルに関連付ける確率分布を表す複数のモデル・パラメータを有する音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換することと、前記音声ベクトルのシーケンスを、前記選択された言語の音声として出力することを含み、前記選択された言語における各々の確率分布の所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、使用される加重値は、言語依存であり、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換することは、前記選択された言語のための前記言語依存加重値を検索することを含むテキスト音声合成方法。
[2]前記所定のタイプのパラメータは、平均である[1]に記載のテキスト音声合成方法。
[3]前記確率分布は、ガウス分布、ポアソン分布、ガンマ分布、スチューデントt分布又はラプラス分布から選択される[1]に記載のテキスト音声合成方法。
[4]前記音声出力のための声を選択することと、前記声のための変換パラメータを得ることと、前記変換パラメータを使用して、前記選択された言語のための前記音声ベクトル及び/又はモデル・パラメータを、前記選択された声へ変換することを更に含む[1]ないし[3]のいずれか1項に記載のテキスト音声合成方法。
[5]前記音響単位は、音素、書記素、コンテキスト依存の音素若しくは書記素、トライフォン、又は音節である[1]ないし[4]のいずれか1項に記載のテキスト音声合成方法。
[6]前記音響モデルは、隠れマルコフモデル又は隠れセミマルコフモデルである[1]ないし[5]のいずれか一つに記載のテキスト音声合成方法。
[7]テキスト音声合成システムを訓練する方法において、前記テキスト音声合成システムは、音響単位のシーケンスを音声ベクトルのシーケンスに変換するために使用される音響モデルを含み、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす、言語及び話者独立パラメータ、言語依存パラメータ及び話者依存パラメータを含む複数のモデル・パラメータを有するものであり、前記方法は、言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現することと、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、それぞれが既知の言語の話者からの既知のテキストに対応する複数のオーディオ音声の入力を受信することと、ここで、少なくとも二つの入力は異なる言語を有する、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータの初期推定を得ることと、言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータのより良好な推定を得るために、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータに関して前記補助関数を最大化することと、前記言語及び話者非依存パラメータ、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化のステップを繰り返すことを含む方法。
[8]一つのパラメータ・グループは、前記言語及び話者非依存パラメータを含み、一つのパラメータ・グループは、前記言語依存パラメータを含み、一つのパラメータ・グループは、前記話者依存パラメータを含み、前記補助関数を最大化することは、繰り返す方法で、各々のパラメータ・グループに関して前記関数を最大化することを含む[7]に記載の方法。
[9]一つの言語のための各々の確率分布における所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、前記言語依存パラメータは、言語依存である加重値である[7]または[8]に記載の方法。
[10]前記所定のタイプのパラメータは、確率分布の平均である[9]に記載の方法。
[11]前記平均は、クラスター化され、言語依存加重値は、各々の言語に対する各々のクラスターに適用される[10]に記載の方法。
[12]各々のクラスターは、決定木であり、前記木により表現される決定は、言語変動、音声変動又は韻律変動に関係するものである[11]に記載の方法。
[13]前記決定木の構築は、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに話者依存パラメータに関して前記補助関数を最大化するサイクルの後に実行される[12]に記載の方法。
[14]前記話者及び言語非依存パラメータは、前記確率分布の分散を含み、前記分散は、クラスター化され、決定木は、各々のクラスターごとに形成される[7]ないし[13]のいずれか一つに記載の方法。
[15]前記話者依存パラメータは、音声ベクトルに適用される変換パラメータ及び/又は話者非依存モデル・パラメータを含む[7]ないし[14]のいずれか一つに記載の方法。
[16]多言語テキスト音声合成システムを新しい言語で動作するように適応させる方法において、前記多言語テキスト音声合成システムは、音響単位のシーケンスを音声ベクトルのシーケンスへ変換するために使用される音響モデルと、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす言語及び話者非依存パラメータ、言語依存パラメータ並びに話者非依存パラメータ並びに話者依存パラメータを含む複数のモデル・パラメータを有するものであり、前記方法は、言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現することと、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、それぞれが既知のテキストに対応する複数のオーディオ音声の入力を、前記新しい言語で、少なくとも二人の話者から受信することと、前記新しい言語の前記話者のために使用される前記話者依存パラメータの初期推定を得ることと、前記新しい言語のための前記言語依存パラメータの初期推定を得ることと、すべての話者及び言語のための前記言語依存パラメータ及び話者依存パラメータのより良好な推定を得るために、前記言語依存パラメータ及び話者依存パラメータに関して前記補助関数を最大化することと、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化のステップを繰り返すことを含む方法。
[17][1]ないし[17]のいずれか一つに記載の方法を実行するようにコンピュータを制御するためのコンピュータ読み取り可能な命令を搬送する搬送媒体。
[18]複数の言語で使用されるテキスト音声合成処理システムにおいて、前記システムは、入力されたテキストを受理するように構成されるテキスト入力と、プロセッサとを含み、前記プロセッサは、入力された前記テキストを音響単位のシーケンスへ分割し、音響単位を音声ベクトルに関連付ける確率分布を表わす複数のモデル・パラメータを有する音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換し、前記音声ベクトルのシーケンスを、前記選択された言語の音声として出力するように構成され、前記選択された言語における各々の確率分布の所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、使用される加重値は、言語依存であり、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換することは、前記選択された言語のための前記言語依存加重値を検索することを含むテキスト音声合成方法。
[19]訓練可能なテキスト音声合成システムにおいて、前記システムは、音響単位のシーケンスを音声ベクトルのシーケンスへ変換する音響モデルを動かすように構成されるプロセッサを含み、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす、言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータを含む複数のモデル・パラメータを有するものであり、前記プロセッサは、言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現し、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、それぞれが既知の言語の話者からの既知のテキストに対応する複数のオーディオ音声の入力を受信し、ここで、少なくとも二つの入力は異なる言語を有する、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータの初期推定を取得し、言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータのより良好な推定を得るために、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータに関して前記補助関数を最大化し、前記言語及び話者非依存パラメータ、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化を繰り返すシステム。
[20]新しい言語に適用される多言語テキスト音声合成システムにおいて、前記多言語テキスト音声合成システムは、音響単位のシーケンスを音声ベクトルのシーケンスへ変換するために使用される音響モデルを実行するように構成されるプロセッサを含み、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす言語及び話者非依存パラメータ、言語依存パラメータ並びに話者非依存パラメータ並びに話者依存パラメータを含む複数のモデル・パラメータを有するものであり、前記プロセッサは、言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現し、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、それぞれが既知のテキストに対応する複数のオーディオ音声の入力を、前記新しい言語で、少なくとも二人の話者から受信し、前記新しい言語の前記話者のために使用される前記話者依存パラメータの初期推定を取得し、前記新しい言語のための前記言語依存パラメータの初期推定を取得し、すべての話者及び言語のための前記言語依存パラメータ及び話者依存パラメータのより良好な推定を得るために、前記言語依存パラメータ及び話者依存パラメータに関して前記補助関数を最大化し、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化のステップを繰り返すように更に構成される多言語テキスト音声合成システム。

Claims (11)

  1. 複数の言語で使用されるテキスト音声合成方法において、
    前記方法は、
    選択された言語のテキストを入力することと、
    入力された前記テキストを音響単位のシーケンスに分割することと、
    音響単位を音声ベクトルに関連付ける確率分布を表す複数のモデル・パラメータを有する音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換することと、
    前記音声ベクトルのシーケンスを、前記選択された言語の音声として出力することを含み、
    前記選択された言語における各々の確率分布の所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、使用される加重値は、言語依存である加重値であり、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換することは、前記選択された言語のための前記言語依存である加重値を検索することを含むテキスト音声合成方法。
  2. 前記音声として出力するための声を選択することと、
    前記声のための変換パラメータを得ることと、
    前記変換パラメータを使用して、前記選択された言語のための前記音声ベクトル及び/又はモデル・パラメータを、前記選択された声へ変換することを更に含む請求項1に記載のテキスト音声合成方法。
  3. テキスト音声合成システムを訓練する方法において、前記テキスト音声合成システムは、音響単位のシーケンスを音声ベクトルのシーケンスに変換するために使用される音響モデルを含み、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす、言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータを含む複数のモデル・パラメータを有するものであり、
    前記方法は、
    言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現することと、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、
    それぞれが既知の言語の話者からの既知のテキストに対応する複数のオーディオ音声の入力を受信することと、ここで、少なくとも二つの入力は異なる言語を有する、
    前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータの初期推定を得ることと、
    言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータのより良好な推定を得るために、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータに関して前記補助関数を最大化することと、
    前記言語及び話者非依存パラメータ、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化のステップを繰り返すことを含み、
    一つの言語のための各々の確率分布における所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、前記言語依存パラメータは、言語依存である加重値である方法。
  4. 前記所定のタイプのパラメータは、確率分布の平均である請求項に記載の方法。
  5. 前記平均は、クラスター化され、言語依存加重値は、各々の言語に対する各々のクラスターに適用される請求項に記載の方法。
  6. 各々のクラスターは、決定木であり、前記木により表現される決定は、言語変動、音声変動又は韻律変動に関係するものである請求項に記載の方法。
  7. 多言語テキスト音声合成システムを新しい言語で動作するように適応させる方法において、
    前記多言語テキスト音声合成システムは、
    音響単位のシーケンスを音声ベクトルのシーケンスへ変換するために使用される音響モデルを含み、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす言語及び話者非依存パラメータ、言語依存パラメータ並びに話者非依存パラメータ並びに話者依存パラメータを含む複数のモデル・パラメータを有するものであり、
    前記方法は、
    言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現することと、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、
    それぞれが既知のテキストに対応する複数のオーディオ音声の入力を、前記新しい言語で、少なくとも二人の話者から受信することと、
    前記新しい言語の前記話者のために使用される前記話者依存パラメータの初期推定を得ることと、
    前記新しい言語のための前記言語依存パラメータの初期推定を得ることと、
    すべての話者及び言語のための前記言語依存パラメータ及び話者依存パラメータのより良好な推定を得るために、前記言語依存パラメータ及び話者依存パラメータに関して前記補助関数を最大化することと、
    前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化のステップを繰り返すことを含み、
    一つの言語のための各々の確率分布における所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、前記言語依存パラメータは、言語依存である加重値である方法。
  8. 請求項1ないしのいずれか1項の方法を実行するようにコンピュータを制御するためのプログラム。
  9. 複数の言語で使用されるテキスト音声合成処理システムにおいて、
    前記システムは、
    入力されたテキストを受理するように構成されるテキスト入力と、
    プロセッサとを含み、
    前記プロセッサは、
    入力された前記テキストを音響単位のシーケンスへ分割し、
    音響単位を音声ベクトルに関連付ける確率分布を表わす複数のモデル・パラメータを有する音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換し、
    前記音声ベクトルのシーケンスを、選択された言語の音声として出力するように構成され、
    前記選択された言語における各々の確率分布の所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、使用される加重値は、言語依存である加重値であり、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換することは、前記選択された言語のための前記言語依存である加重値を検索することを含むテキスト音声合成処理システム。
  10. 訓練可能なテキスト音声合成システムにおいて、前記システムは、音響単位のシーケンスを音声ベクトルのシーケンスへ変換する音響モデルを動かすように構成されるプロセッサを含み、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす、言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータを含む複数のモデル・パラメータを有するものであり、前記プロセッサは、
    言語及び話者非依存パラメータ、言語依存パラメータ及び話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現し、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、
    それぞれが既知の言語の話者からの既知のテキストに対応する複数のオーディオ音声の入力を受信し、ここで、少なくとも二つの入力は異なる言語を有する、
    前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータの初期推定を取得し、
    言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータのより良好な推定を得るために、前記言語及び話者非依存パラメータ、前記言語依存パラメータ並びに前記話者依存パラメータに関して前記補助関数を最大化し、
    前記言語及び話者非依存パラメータ、前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化を繰り返すように構成され、
    一つの言語のための各々の確率分布における所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、前記言語依存パラメータは、言語依存である加重値であるシステム。
  11. 新しい言語に適用される多言語テキスト音声合成システムにおいて、
    前記多言語テキスト音声合成システムは、
    音響単位のシーケンスを音声ベクトルのシーケンスへ変換するために使用される音響モデルを実行するように構成されるプロセッサを含み、
    ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を表わす言語及び話者非依存パラメータ、言語依存パラメータ並びに話者非依存パラメータ並びに話者依存パラメータを含む複数のモデル・パラメータを有するものであり、
    前記プロセッサは、
    言語及び話者非依存パラメータ、言語依存パラメータ並びに話者依存パラメータに関する期待値最大化アルゴリズムの補助関数を表現し、ここで、前記補助関数は、異なる言語及び異なる話者からのデータの和を含むものである、
    それぞれが既知のテキストに対応する複数のオーディオ音声の入力を、前記新しい言語で、少なくとも二人の話者から受信し、
    前記新しい言語の前記話者のために使用される前記話者依存パラメータの初期推定を取得し、
    前記新しい言語のための前記言語依存パラメータの初期推定を取得し、
    すべての話者及び言語のための前記言語依存パラメータ及び話者依存パラメータのより良好な推定を得るために、前記言語依存パラメータ及び話者依存パラメータに関して前記補助関数を最大化し、
    前記言語依存パラメータ及び話者依存パラメータが収束するまで、前記最大化のステップを繰り返すように更に構成され、
    一つの言語のための各々の確率分布における所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、前記言語依存パラメータは、言語依存である加重値である多言語テキスト音声合成システム。
JP2012514523A 2009-06-10 2009-06-10 テキスト音声合成方法及びシステム Active JP5398909B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/GB2009/001464 WO2010142928A1 (en) 2009-06-10 2009-06-10 A text to speech method and system

Publications (2)

Publication Number Publication Date
JP2012529664A JP2012529664A (ja) 2012-11-22
JP5398909B2 true JP5398909B2 (ja) 2014-01-29

Family

ID=41278515

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012514523A Active JP5398909B2 (ja) 2009-06-10 2009-06-10 テキスト音声合成方法及びシステム

Country Status (4)

Country Link
US (1) US8825485B2 (ja)
JP (1) JP5398909B2 (ja)
GB (1) GB2484615B (ja)
WO (1) WO2010142928A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10347237B2 (en) 2014-07-14 2019-07-09 Kabushiki Kaisha Toshiba Speech synthesis dictionary creation device, speech synthesizer, speech synthesis dictionary creation method, and computer program product

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
US20130030789A1 (en) * 2011-07-29 2013-01-31 Reginald Dalce Universal Language Translator
US8478278B1 (en) 2011-08-12 2013-07-02 Amazon Technologies, Inc. Location based call routing to subject matter specialist
GB2501062B (en) * 2012-03-14 2014-08-13 Toshiba Res Europ Ltd A text to speech method and system
GB2501067B (en) * 2012-03-30 2014-12-03 Toshiba Kk A text to speech system
JP5706368B2 (ja) * 2012-05-17 2015-04-22 日本電信電話株式会社 音声変換関数学習装置、音声変換装置、音声変換関数学習方法、音声変換方法、およびプログラム
GB2505400B (en) * 2012-07-18 2015-01-07 Toshiba Res Europ Ltd A speech processing system
GB2508411B (en) * 2012-11-30 2015-10-28 Toshiba Res Europ Ltd Speech synthesis
GB2508417B (en) * 2012-11-30 2017-02-08 Toshiba Res Europe Ltd A speech processing system
GB2510200B (en) 2013-01-29 2017-05-10 Toshiba Res Europe Ltd A computer generated head
JP6091938B2 (ja) * 2013-03-07 2017-03-08 株式会社東芝 音声合成辞書編集装置、音声合成辞書編集方法及び音声合成辞書編集プログラム
GB2516965B (en) 2013-08-08 2018-01-31 Toshiba Res Europe Limited Synthetic audiovisual storyteller
GB2517503B (en) 2013-08-23 2016-12-28 Toshiba Res Europe Ltd A speech processing system and method
JP7178028B2 (ja) * 2018-01-11 2022-11-25 ネオサピエンス株式会社 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム
GB201804073D0 (en) * 2018-03-14 2018-04-25 Papercup Tech Limited A speech processing system and a method of processing a speech signal
CN111798832A (zh) * 2019-04-03 2020-10-20 北京京东尚科信息技术有限公司 语音合成方法、装置和计算机可读存储介质
CN113488020B (zh) * 2021-07-02 2024-04-12 科大讯飞股份有限公司 语音合成方法和相关设备、装置、介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2296846A (en) * 1995-01-07 1996-07-10 Ibm Synthesising speech from text
US7496498B2 (en) 2003-03-24 2009-02-24 Microsoft Corporation Front-end architecture for a multi-lingual text-to-speech system
US8244534B2 (en) * 2007-08-20 2012-08-14 Microsoft Corporation HMM-based bilingual (Mandarin-English) TTS techniques
US8583418B2 (en) * 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10347237B2 (en) 2014-07-14 2019-07-09 Kabushiki Kaisha Toshiba Speech synthesis dictionary creation device, speech synthesizer, speech synthesis dictionary creation method, and computer program product

Also Published As

Publication number Publication date
GB2484615B (en) 2013-05-08
US20120278081A1 (en) 2012-11-01
US8825485B2 (en) 2014-09-02
WO2010142928A1 (en) 2010-12-16
GB201200335D0 (en) 2012-02-22
JP2012529664A (ja) 2012-11-22
GB2484615A (en) 2012-04-18

Similar Documents

Publication Publication Date Title
JP5398909B2 (ja) テキスト音声合成方法及びシステム
JP6246777B2 (ja) 音声合成方法、装置及びプログラム
JP5768093B2 (ja) 音声処理システム
EP2846327B1 (en) Acoustic model training method and system
JP6092293B2 (ja) テキスト読み上げシステム
JP2871561B2 (ja) 不特定話者モデル生成装置及び音声認識装置
JP5242724B2 (ja) 音声プロセッサ、音声処理方法および音声プロセッサの学習方法
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
US7603278B2 (en) Segment set creating method and apparatus
US8301445B2 (en) Speech recognition based on a multilingual acoustic model
US6006186A (en) Method and apparatus for a parameter sharing speech recognition system
KR100932538B1 (ko) 음성 합성 방법 및 장치
Zen et al. An introduction of trajectory model into HMM-based speech synthesis
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
JP2009237336A (ja) 音声認識装置及び音声認識プログラム
JP2018146821A (ja) 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
WO2023157066A1 (ja) 音声合成学習方法、音声合成方法、音声合成学習装置、音声合成装置及びプログラム
Nakamura STATISTICAL APPROACH TO SPEECH AND SINGING VOICE SYNTHESIS

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130212

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130709

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130909

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131001

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131022

R151 Written notification of patent or utility model registration

Ref document number: 5398909

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350