JP5768093B2

JP5768093B2 - 音声処理システム

Info

Publication number: JP5768093B2
Application number: JP2013149244A
Authority: JP
Inventors: 政巳赤嶺; ランジョウ・チェン; マーク・ジョン・フランクルズ・ゲールズ; キャサリン・メリー・ニル
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-07-18
Filing date: 2013-07-18
Publication date: 2015-08-26
Anticipated expiration: 2033-07-18
Also published as: JP2015180966A; CN103578462A; GB2505400A; JP2014056235A; GB2505400B; GB201212783D0; US20140025382A1

Description

（関連出願への相互参照）
この出願は、２０１２年７月１８日付け提出の英国特許出願第１２１２７８３．３号に基づくものであり、また、その優先権の利益を主張する。そして、その内容の全体が参照によって本明細書に組み込まれる。

（技術分野）
本明細書で一般に説明される実施形態は、音声処理システム及び方法に関係する。

音声処理システムは、一般に、二つの主なグループすなわちテキスト音声合成システムと音声認識システムに分類される。

テキスト音声合成システムは、テキストファイルの受理に応じてオーディオ音声又はオーディオ音声ファイルが出力されるシステムである。テキスト音声合成システムは、多種多様のアプリケーション（例えば、電子ゲーム、電子ブック・リーダー、電子メール・リーダー、衛星ナビゲーション、自動電話システム、自動警報システムなど）で使用される。

そのようなシステムはいくつかのレベルの表現（expression）で音声を出力できる必要がある。しかし、これを達成する現行方法は、人間のオペレーターによる感情の管理（supervision）又はタグ付けを要求する。

これから添付の図面を参照して限定されない実施形態に従うシステム及び方法が説明される。それら添付の図面において各図は次の通りである。
図１は、テキスト音声合成システムの概略図である。図２は、周知の音声処理システムにより実行されるステップを示すフローチャートである。図３は、ガウス確率関数の概略図である。図４は、一実施形態に従った合成方法の概略図である。図５は、一実施形態に従った訓練方法の概略図である。図６は、複数のレベルの情報から表現特徴ベクトル（expressive feature vector）を抽出するための並列システムを示す概略図である。図７は、複数のレベルの情報から表現特徴ベクトルを抽出するための階層システム（hierarchical system）を示す概略図である。図８は、ＣＡＴ法で用いられる総和の概略図である。図９は、合成ベクトル（synthesis vector）を抽出するためのＣＡＴベースのシステムの概略図である。図１０は、一実施形態に従った合成方法の概略図である。図１１は、一実施形態に従った方法で用いるための変換ブロック及び入力ベクトルの概略図である。図１２は、ＣＡＴベースのシステムを訓練するための訓練プロセスを示すフローチャートである。図１３は、ＣＡＴベースの方法のためのパラメータをクラスター化するために決定木がどのように構築されるかを示すための図である。

詳細な説明

一実施態様において、テキスト音声合成方法が提供される。この方法は、入力テキストを受信することと、上記入力テキストを、音響単位のシーケンスに分割することと、音響モデルを使用して、上記音響単位のシーケンスを、音声ベクトルのシーケンスに変換することと、ここで、上記モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを含む、上記音声ベクトルのシーケンスを音声として出力すること、を含み、上記方法は、第１の空間において構成される表現言語特徴ベクトルを生成するために上記入力テキストから表現特徴を抽出することと、上記表現言語特徴ベクトルを、第２の空間において構成される表現合成特徴ベクトルにマッピングすることによって、上記モデル・パラメータのうちの少なくとも一部を決定することを更に含む。

一実施態様において、上記表現言語特徴ベクトルを表現合成特徴ベクトルにマッピングすることは、機械学習アルゴリズム（例えば、ニューラル・ネットワーク）を使用することを含む。

上記第２の空間は、多次元連続空間であっても良い。これは、出力される音声における表現の滑らかな変化を可能にする。

一実施態様において、上記入力テキストから上記表現特徴を抽出することは、複数の抽出プロセスを含み、上記複数の抽出プロセスは、上記テキストの異なる複数の情報レベルにおいて実行される。例えば、上記異なる複数の情報レベルは、単語ベースの言語特徴を生成するための単語ベースの言語特徴抽出レベル、フルコンテキストフォンベースの言語特徴を生成するためのフルコンテキストフォンベースの言語特徴抽出レベル、品詞（ＰＯＳ）ベースの特徴を生成するためのＰＯＳベースの言語特徴抽出レベル及びナレーションスタイル情報を生成するためのナレーションスタイルベースの言語特徴抽出レベルから選択される。

一実施態様において、複数の情報レベルから表現特徴が抽出され、上記複数の抽出プロセスのそれぞれが、特徴ベクトルを生成し、上記方法は、上記第２の空間にマッピングするための言語特徴ベクトルを生成するために、上記異なる複数の情報レベルから生成される複数の上記言語特徴ベクトルを連結することを更に含む。

更なる実施態様において、複数の情報レベルから表現特徴が抽出され、上記表現言語特徴ベクトルを表現合成特徴ベクトルにマッピングすることは、上記異なる複数の情報レベルのそれぞれに対応する複数の階層的なステージを含む。

一実施態様において、第１の空間から第２の空間にマッピングすることは、フルコンテキスト情報を使用する。更なる実施態様において、上記音響モデルは、上記入力テキストからフルコンテキスト情報を受信し、この情報は、上記音響モデルにおける上記表現合成特徴ベクトルから得られる上記モデル・パラメータと結合される。更なる実施態様において、フルコンテキスト情報は、マッピング・ステップでも使用され、また、マッピング・ステップから独立した音響モデルへの入力としても受信される。

幾つかの実施形態において、上記音響モデルの上記モデル・パラメータは、同一のタイプの複数のモデル・パラメータの重み付き加算として表され、各重みは、上記第２の空間において表される。例えば、上記モデル・パラメータは、複数のガウス分布の平均の重み付き加算として表される。更なる実施態様において、上記複数のパラメータがクラスター化され、上記合成特徴ベクトルが、それぞれのクラスターごとの重みを含む。

それぞれのクラスターは、少なくとも一つの決定木を含んでも良い。該決定木は、言語上の変動、音声上の変動又は韻律上の変動のうちの少なくとも一つに関連する質問に基づく。また、上記クラスターの上記決定木の間に、構造における相違が存在し得る。

いくつかの実施態様において、テキスト音声合成システムを訓練する方法が提供される。この方法は、訓練データを受信することと、ここで、上記訓練データは、テキストのデータと該テキストのデータに対応する音声データを含む、第１の空間において構成される表現言語特徴ベクトルを生成するために、入力した上記テキストから表現特徴を抽出することと、上記音声データから表現特徴を抽出し、第２の空間において構成される表現特徴合成ベクトルを生成することと、機械学習アルゴリズムを訓練することを含み、上記機械学習アルゴリズムの訓練の入力は、表現言語特徴ベクトルであり、上記訓練の出力は、上記訓練の入力に対応する表現特徴合成ベクトルである。

一実施態様において、機械学習アルゴリズムは、ニューラル・ネットワークである。

上記方法は、上記表現合成特徴を音声合成装置に出力することを更に含んでも良い。上記音声合成装置は、音響モデルを含み、上記モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを有する。そのようなアレンジにおいて、上記音響モデルのパラメータ及び上記機械学習アルゴリズム（例えばニューラル・ネットワークなど）が一緒に訓練される。例えば、上記音響モデルの上記モデル・パラメータは、同一のタイプの複数のモデル・パラメータの重み付き加算として表されても良く、各重みは、上記第２の空間において表される。そのようなアレンジにおいて、上記第２の空間において表される各重み及び上記ニューラル・ネットが一緒に訓練されても良い。

幾つかの実施形態において、テキスト音声合成装置が提供される。この装置は、入力テキストを受信するための受信部と、プロセッサと、音声出力とを含み、上記プロセッサは、上記入力テキストを、音響単位のシーケンスに分割し、音響モデルを使用して、上記音響単位のシーケンスを、音声ベクトルのシーケンスに変換するように構成され、ここで、上記モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを含む、上記音声出力は、上記音声ベクトルのシーケンスを音声として出力するように構成され、上記プロセッサは、第１の空間において構成される表現言語特徴ベクトルを生成するために上記入力テキストから表現特徴を抽出することと、上記表現言語特徴ベクトルを、第２の空間において構成される表現合成特徴ベクトルにマッピングすることによって、上記モデル・パラメータのうちの少なくとも一部を決定するように更に構成される。

実施形態に従う幾つかの方法はソフトウェアにより実施することができるので、幾つかの実施形態は任意の適したキャリア媒体上の汎用コンピュータに提供されるコンピュータコードを含む。キャリア媒体は、例えばフロッピー（登録商標）ディスク、ＣＤＲＯＭ、磁気デバイス若しくはプログラマブル・メモリ・デバイスのような任意の記憶媒体、又は、例えば任意の信号（例えば、電気的信号、光学的信号若しくはマイクロ波信号）のような任意の一時的な媒体を含むことができる。

はじめに、実施態様に従ったシステム（それはテキスト音声合成システムに関係する）が説明される。

図１は、テキスト音声合成システム１を示す。テキスト音声合成システム１は、プログラム５を実行するプロセッサ３を含む。テキスト音声合成システム１は、記憶装置７を更に含む。記憶装置７は、テキストを音声に変換するプログラム５により使用されるデータを記憶する。テキスト音声合成システム１は、入力モジュール１１及び出力モジュール１３を更に含む。入力モジュール１１は、テキスト入力１５に接続される。テキスト入力１５は、テキストを受ける。テキスト入力１５は、例えば、キーボードであっても良い。あるいは、テキスト入力１５は、外部記憶媒体又はネットワークから、テキスト・データを受信するための手段であっても良い。

出力モジュール１３に接続されるのは、音声用出力１７である。音声出力（オーディオ出力）１７は、テキスト入力１５へ入力されるテキストから変換された音声信号を出力するために使用される。音声出力１７は、例えば、直接の音声出力（例えば、スピーカ）であっても良いし、又は、記憶媒体、ネットワークなどに送信され得るオーディオ・データ・ファイル用の出力であっても良い。

使用するときは、テキスト音声合成システム１は、テキスト入力１５を通してテキストを受け取る。プロセッサ３上で実行されるプログラム５は、記憶装置７に記憶されたデータを使用して、テキストを音声データに変換する。音声は、出力モジュール１３を介して音声出力１７へ出力される。

これから図２を参照して単純化したプロセスが説明される。最初のステップＳ１０１において、テキストが入力される。テキストは、キーボード、タッチ・スクリーン、テキスト予測機能又は同様のものを介して入力されても良い。その後、テキストは、音響単位のシーケンスに変換される。これらの音響単位は、音素又は書記素であっても良い。該単位は、コンテキスト依存（例えば、選択された音素に加えて先行する音素及び後続する音素も考慮に入れるトライフォン）であっても良い。該テキストは、当該技術において周知の（本明細書では更に説明されない）技術を使用して、音響単位のシーケンスに変換される。

Ｓ１０５において、音響単位を音声パラメータに関連付ける確率分布が検索される。この実施形態において、確率分布は、平均及び分散により定義されるガウス分布であることがある。例えばポアソン分布、スチューデントｔ分布、ラプラス分布又はガンマ分布のような他の分布を使用することが可能であるが、それらのうちの幾つかは、平均及び分散とは異なる変数により定義される。

各々の音響単位が、音声ベクトル又は当該技術の専門用語を使用する「観測（observation）」に対して明確な一対一の対応を有することはとても有り得ない。多くの音響単位は、類似する方法で発音され、また、周囲の音響単位によって、或いは、単語若しくは文におけるそれらの位置によって、影響を受け、又は、異なる話者（speakers）若しくは表現（expressions）により異なった風に発音される。したがって、各々の音響単位は、音声ベクトルに関連付けられる確率を有するのみであり、また、テキスト音声合成システムは、多くの確率を計算して、音響単位のシーケンスを与えられた複数の観測のうち、最も起こり得るシーケンスを選択する。

ガウス分布は図３に示される。図３は、音声ベクトルに関係する音響単位の確率分布であるものとして考えることができる。例えば、Ｘとして示された音声ベクトルは、図３に示される分布を有する音素又は他の音響単位に対応する確率Ｐ１を有する。

ガウス分布の形状及び位置は、その平均及び分散により定義される。これらのパラメータは、システムの訓練の間に決定される。

その後、ステップＳ１０７において、これらのパラメータが音響モデルにおいて使用される。この説明において、音響モデルは、隠れマルコフモデル（ＨＭＭ）である。しかしながら、他のモデルを使用することもできる。

音声システムのテキストは、音響単位（すなわち、音素、書記素、単語又はその部分）を音声パラメータに関連付ける多数の確率密度関数を記憶する。ガウス分布が一般に使用されるように、これらは一般にガウシアン又はコンポーネントと呼ばれる。

隠れマルコフモデル又は他のタイプの音響モデルにおいて、特定の音響単位に関係するすべての可能性のある音声ベクトルの確率が考慮される必要がある。そして、その音響単位のシーケンスに最大の可能性をもって対応する音声ベクトルのシーケンスが考慮される。これは、二つの単位が互いに影響を及ぼす方法（way）を考慮に入れる、シーケンスのすべての音響単位にわたる、大域的最適化（global optimization）を意味する。その結果、複数の音響単位からなるシーケンスが考慮される場合に、特定の音響単位に対する最有望な音声ベクトルが最良の音声ベクトルにならないことがあり得る。

音声ベクトルのシーケンスが決定されると、ステップＳ１０９において、音声が出力される。

図４は、実施態様に従ったテキスト音声合成システムの概略図である。

テキスト入力２０１において、テキストが入力される。次に、セクション２０３において、該入力テキストから表現特徴（expressive features）が抽出される。例えば、人間のテキストの朗読者は、そのテキスト自体から、そのテキストが、心配な声、幸せな声などで朗読されるべきかどうか分かるであろう。このシステムはまた、そのテキストがどのように出力されるべきかについて指示するために人間のインタラクションを要求することなく、そのテキスト自体から、この情報を導く。

この情報が自動的に収集される方法は、後で更に詳細に説明される。また一方、その出力は第１の、多次元空間（multi-dimensional space）における数値をもつ特徴ベクトルである。これは、その後、第２の、連続多次元表現合成空間（continuous multi-dimension expressive synthesis space）２０５にマッピングされる。第２の連続多次元空間における値は、シンセサイザー（合成装置）２０７において音響モデルを修正するために直接用いることができる。シンセサイザー２０７はまた、入力として上記テキストも受信する。

実施態様に従う方法において、該テキストを多次元連続空間における点にマッピングするためのプロセスとして、表現ＴＴＳ（expressive TTS）が考えられる。この多次元連続空間において、それぞれの点は、合成プロセスに直接関連している特定の表現情報を表す。

多次元連続空間は、無数の点を含む；したがって、提案方法は、潜在的に無数の異なるタイプの感情に対応することができ、非常により豊かな表現の情報（expressive information）をもつ音声を合成することができる。

まず、実施態様に従った方法及びシステムの訓練が説明される。

図５を参照して訓練が説明される。訓練データ２５１は、テキストとテキスト入力に対応する音声（speech）とにより提供される。

訓練データ２５１におけるそれぞれの発話（utterance）が固有の表現情報を含むと仮定する。この固有の表現情報は、音声データから判定することが可能であり、また、同様に、音声のトランスクリプション（すなわち、テキストのデータ）から読み取ることも可能である。訓練データでは、スピーチ文（speech sentences）とテキスト文（text sentences）が図５で示すように同時に起こる。

訓練データ中のそれぞれのテキスト文を、表現言語特徴ベクトル（expressive linguistic feature vector）と呼ばれるベクトルに変換する「表現言語特徴抽出（expressive linguistic feature extraction）」ブロック２５３が、提供される。

表現言語特徴抽出ブロック２５３によって任意のテキスト文を言語特徴として変換することができ、そして、すべての有り得る表現言語特徴が、表現言語空間（expressive linguistic space）と呼ばれる第１の空間２５５を構成する。訓練文（training sentence）のそれぞれのトランスクリプションは、この表現言語空間における点と考えることができる。表現言語特徴ベクトルは、テキスト文における感情の情報をキャッチするはずである。

訓練の間、テキストから表現言語特徴を抽出するだけでなく、それぞれのスピーチ文を、表現合成特徴ベクトル（expressive synthesis feature vector）と呼ばれるベクトルに変換する「表現合成特徴抽出（expressive synthesis feature extraction）」ブロック２５７が、提供される。

「表現合成特徴抽出」ブロック２５７によって任意のスピーチ文を表現合成特徴として変換することができ、そして、すべての有り得る表現合成特徴が、表現合成空間（expressive synthesis space）２５９を構成する。表現合成特徴に要求されることは、それが、オリジナルのスピーチ文の固有の表現情報をキャッチするということである；一方、この表現情報は、合成プロセスにおいて再生することができる。

訓練データのトランスクリプションからの言語特徴及び訓練スピーチ文からの合成特徴を所与として、実施態様に従った方法及びシステムは、言語特徴空間２５５における言語特徴ベクトルを合成特徴空間２５９における合成特徴ベクトルに変換するための変換２６１を訓練する。

合成ステージでは、「表現言語特徴抽出」ブロック２５３が、合成されるべきテキストを、言語特徴空間２５５中の言語特徴ベクトルに変換し、そして、変換ブロック２６１により、言語特徴が、表現合成空間２５９中の合成特徴にマッピングされる。この合成特徴ベクトルは、オリジナルのテキストのデータにおける感情の情報を含み、また、直接、表現に富む音声（expressive speech）を合成するために、シンセサイザー２０７（図４）により用ることができる。

一実施態様において、機械学習方法（例えば、ニューラル・ネットワーク（ＮＮ））は、変換ブロック２６１を提供し、そして、表現言語空間２５５から表現合成空間２５９への変換を訓練するために用いられる。訓練データ２５１中のそれぞれの文ごとに、合成特徴空間２５９中の表現合成特徴ベクトルを生成するために、音声データが用いられ、また、言語特徴空間２５５中の表現言語特徴を生成するために、音声データのトランスクリプションが用いられる。言語特徴空間から合成特徴空間へのマッピングを学習するために、ＮＮの入力である訓練データの言語特徴と目標出力である訓練データの合成特徴とを使用して、ＮＮのパラメータを更新することができる。

「言語特徴抽出」ブロック２５３は、テキスト・データを言語特徴ベクトルに変換する。この特徴ベクトルは、区別となる情報を含まなければならない。すなわち、２つのテキスト・データが異なる感情を含むならば、それらの言語特徴は、言語特徴空間において区別できなければならない。

一実施態様において、言語特徴を生成するためにバッグオブワーズ（Bag-of-word）（BoW）技術が用いられる。ＢｏＷ方法は、テキスト・データを単語頻度のベクトルとして表す。ベクトルの次元は語彙のサイズと等しく、それぞれの要素は語彙中の特定の単語の頻度を含む。様々な十分に開発されたＢｏＷ技術、例えば、潜在的意味解析（ＬＳＡ）、確率的潜在的意味解析（ｐＬＳＡ）、潜在的ディリクレ配分法（ＬＤＡ）などが、適用可能である。これらの技術によって、その次元が語彙サイズに等しいオリジナルの単語頻度ベクトルは、非常に低い次元に圧縮（compacted）することができる。

更なる実施態様では、より正確にテキスト・データ中の感情の情報をモデル化するために、テキスト・データからの異なるレベルの知識が言語特徴の生成に使用される。

一実施態様では、単語レベル情報だけでなく、より低いレベルの情報（例えば、フルコンテキスト・フォン・シーケンス（full context phone sequence）など）及びより高いレベルの情報（例えば、品詞（ＰＯＳ）、ナレーションスタイルなど）も、言語特徴の生成に用いられる。

一実施態様において、異なるレベルからの情報を一緒に結合するために、図６に示すような並列構造が使用される。並列構造では、異なるレベルの特徴が別々に抽出され、そして、該異なるレベルの特徴が変換ブロックのための入力である一つの大きいベクトルに連結される。

図６は、一実施態様に従ったシステムにおいて使用され得る言語特徴を抽出するための並列構造を示す。ステップＳ３０１において、テキスト・データが単語頻度ベクトルに変換される。次に、ステップＳ３０５において、単語頻度ベクトルを単語レベルの特徴ベクトルに変換するために、単位として単語をつかうＬＤＡモデル３０３が使用される。ステップＳ３０５において、推論プロセスを通じて、変分事後ディリクレ・パラメータ（variantial posterior dirichlet parameters）が推定される。

同時に、ステップＳ３０７において、テキスト・データは、フルコンテキスト・フォン（full context phones）のシーケンスとして変換される。Ｓ３１１において、このフルコンテキスト・フォン・シーケンスは、単位としてフルコンテキスト・フォンをつかうＬＤＡモデル３０９を使用して、フルコンテキスト・フォン・レベルの特徴ベクトルに変換される。

その後、Ｓ３１３において、言語特徴ベクトルを生成するために、単語レベルの特徴ベクトル及びフルコンテキスト・フォン・レベルの特徴ベクトルが、言語特徴として連結される。

図６は、言語特徴を抽出する方法の一例を表すのに用いられる。更なる実施態様では、ハイレベル知識（例えばＰＯＳなど）、ナレーションスタイル及びテキスト・データからの他の有益な情報を、言語特徴に統合することができる。

さらに、ＬＤＡ以外のＢｏＷ方法も言語特徴を抽出するために同様に用いることができる。

異なるレベルの情報から判定された言語特徴はまた階層構造を使用して同様に結合することができる。そのような階層構造の一つの実施態様において、異なるレベルの知識による言語特徴は、図７に示すように、カスケードのＮＮをもつシステムに組み込まれる。

図７において、言語特徴１と言語特徴２は、異なるレベルの知識から判定される言語特徴（例えば、単語レベルの特徴、フルコンテキスト・フォン・レベルの特徴など）を表す。

ＮＮ１の入力３５１として特徴１が使用される。そして、出力３５７において音響特性を生成するために、ＮＮ１の出力３５３が、ＮＮ２の入力３５５である特徴２と結合される。

図５に戻って、音声データの表現情報を表すために、表現合成特徴抽出ブロック２５７が用いられる。表現合成特徴空間２５９中のそれぞれの点は、音声における固有の表現の情報を表す。

一実施態様に従った方法及びシステムにおいて、表現合成特徴は、次の二つの必要条件を満たす：
必要条件１−音声データを所与として、関連する合成特徴は、この音声データの表現情報をキャッチする。
必要条件２−表現合成特徴に記録される表現情報は、同一の表現力（expressiveness）をもつ音声を生成するために、合成ステージで使用される。すなわち、合成特徴は、合成パラメータを決定する。

それら合成パラメータに関係する基底（basis）を構築することができる。そして、それぞれの特定の度合い（degree）の表現力ごとの合成パラメータは、この基底の上に投影することができる。これは、この投影におけるそれらの座標に関して、表現合成パラメータの表現を定義する。

一実施態様において、クラスター適応可能な訓練（cluster adaptive training）（ＣＡＴ）が使用される。ここでは、クラスターＨＭＭモデル（cluster HMM models）が基底として定義され、表現力依存のＨＭＭパラメータ（expressiveness dependent HMM parameters）が、この基底の上に投影される（アペンディックスを参照下さい）。

これは、表現力依存のＨＭＭパラメータを複数のクラスター・モデルの線形補間として表現することを可能にし、各クラスターＨＭＭモデルごとの補間重み（interpolation weights）が、表現力情報を表現するために使用される。

図８に示すように、ＣＡＴモデルは、バイアス・クラスターＨＭＭモデル及びＰ−１個のノンバイアス・クラスターＨＭＭモデル（non-bias cluster HMM model）を含む。特定のガウス分布について、分散及び事前（prior）はすべてのクラスターにわたって同一であるものと仮定され、一方、平均パラメータは、すべてのクラスター平均の線形補間により決定される。

観測ベクトルを所与として、コンポーネントｍの確率密度関数は、次のように表現できる。

ここで、Ｍ^(m)＝［μ^(m,1) μ^(m,2) μ^(m,P)］は、異なるクラスター・モデルからのコンポーネントｍの平均ベクトルの行列であり、Σ ^(m)は、すべてのクラスターにより共有されるコンポーネントｍの分散である。

Λ^(e)＝［1 λ^(e,2) λ^(e,P)］は、感情eのためのＣＡＴ重みベクトルである。クラスター１は、バイアス・モデルであり、バイアス・モデルのためのＣＡＴ重みは１として固定される。

表現音声合成（expressive speech synthesis）をするのにＣＡＴモデルが使用される場合に、感情依存情報（emotion dependent information）がＣＡＴ重みに記録される。訓練プロセスにおいて、感情依存のＣＡＴ重みは、感情依存の訓練データを使用して、最尤基準によって訓練される。合成ステージでは、感情依存のＣＡＴ重みは、特定の感情をもつ音声を合成するために使用される。

ＣＡＴ重みは、提案方法における表現合成特徴ベクトルとして使用するのに適している。それは、合成特徴に対する上記の二つの必要条件を満足する。すなわち、それは、音声データの感情の情報を含み、同一の感情をもつ音声を合成するために、特定の感情のためのＣＡＴ重みを使用することができる。すべての有り得るＣＡＴ重みを含むＣＡＴ重み空間は、提案方法における合成特徴空間として使用することができる。ＣＡＴの規範的なモデル（canonical models）（すなわち、バイアスＨＭＭモデルと各クラスターＨＭＭモデル）を所与として、それぞれの訓練文は、このスピーチ文の尤度を最大にすることによって、ＣＡＴ重み空間における点として表現することができる。ＣＡＴ重み空間の概念は図９に示される。

ＣＡＴ重み空間では、それぞれの訓練文は、この文のための固有の感情の情報を含む点として表現することができる。訓練データ中にＮ個の文があるならば、ＣＡＴ重み空間では、訓練データを表現するためにＮ個の点が使用され得る。さらにまた、ＣＡＴ空間において互いに隣接する訓練文は類似する感情の情報を含むと仮定することができる。

したがって、訓練データはグループに分類することができ、そして、グループ依存のＣＡＴ重みは、このグループにおけるすべての訓練文を使用して推定することができる。Ｎ個の訓練文がＭ固のグループに分類されるならば（Ｍ<<Ｎ）、訓練データは、ＣＡＴ重み空間におけるＭ個の点として表現することができる。

一実施態様において、言語特徴を合成特徴にマッピングする変換として使用されるＮＮ及び表現合成特徴空間を構成するために使用されるＣＡＴモデルを、一緒に訓練することができる。統合訓練プロセスは次のように説明することができる。

（１）初期規範的モデルＭ０及びすべての訓練文のためのＣＡＴ重みからなる初期ＣＡＴ重みΛ₀を生成するために、ＣＡＴモデル訓練を初期化し、また、繰り返し番号ｉ＝０にセットする。
（２）訓練文の表現言語特徴及び訓練文のＣＡＴ重みセットΛ_iが所与として、繰り返しｉのためのＮＮ（すなわち、ＮＮ_i）は、最小二乗誤差基準を使用して訓練される。
（３）入力として訓練文の表現言語特徴を使用して、ＮＮ_iは、訓練文の出力ＣＡＴ重みセットＯ_iを生成する。
（４）Λ_i+1＝Ｏ_i．訓練データの尤度を最大にするように、所与のΛ_i+1がＣＡＴ規範的モデルＭ_i+1を再訓練する。
（５）ｉ＝ｉ＋１．アルゴリズムが収束したならば、６へ進む。そうでなければ、２に進む。
（６）終了
上記のプロセスによってＮＮ及びＣＡＴモデルが一緒に更新され、それは合成ステージにおけるパフォーマンスを向上させることができる。

この統合訓練プロセスは、ＮＮ及びＣＡＴモデルに制限されない。一般に、ＮＮ以外の、言語特徴空間から合成特徴空間への変換、及び、ＣＡＴ以外の、合成特徴空間を構成する方法は、同一のフレームワークにおける統合訓練を使用してアップデートすることができる。

上記は、システムのための訓練を説明した。これから図１０を参照してテキスト音声合成が説明される。

図１０に示される合成システムは、訓練に関して説明されたような、表現言語空間４０３における表現特徴ベクトルを抽出する表現言語特徴抽出ブロック４０１を含む。合成ステージにおいてこのベクトルを抽出する方法は、訓練ステージで説明されたプロセスと同一である。

そして、表現特徴ベクトルは、変換ブロック４０５によって、表現合成空間４０７における表現合成ベクトルにマッピングされる。変換ブロック４０５は、先に述べたように訓練された。

そして、判定された表現合成ベクトルが、シンセサイザー４０９である出力音声（output speech）の統合において直接使用される。先に述べたように、一実施態様では、変換ブロック４０５は、表現言語特徴ベクトルを、表現合成特徴空間４０７中のＣＡＴ重みに直接マッピングする。

一実施態様において、合成すべきテキストはまた、直接、シンセサイザー４０９に送信される。このアレンジにおいて、シンセサイザー４０９は、コンテキスト依存情報を判定するために、合成すべきテキストを受信する。他の実施態様では、表現言語空間から表現合成特徴空間へのマッピングは、コンテキスト依存情報を使用しても良い。これは、シンセサイザーにより直接受信される情報に加えても良いし又はシンセサイザーにより直接受信される情報の代わりであっても良い。

一実施態様に従った方法において、特別な訓練データを準備する必要はなく、訓練データの評価を人間のインタラクションに要求する必要はない。さらに、合成すべきテキストは、直接、言語特徴ベクトルに変換される。この言語特徴ベクトルは、単一の感情ＩＤより非常に多くの感情の情報を含む。変換ブロックは、言語特徴ベクトルを、同一の感情をもつ表現合成特徴に変換する。さらに、この合成特徴は、オリジナルのテキスト・データ中と同一の感情をもつ音声を合成するために使用することができる。

表現合成特徴空間において、それぞれの訓練文が固有の合成特徴ベクトルに関係するならば、それぞれの文における固有の感情の情報が、変換（例えばＮＮ）により学習される。それは、合成のための非常に豊富な感情資源をユーザに提供することができる。

合成特徴空間における訓練文は、グループに分類することができ、また、一つのグループにおけるすべての訓練文は、感情の情報を共有する。この方法によって、学習する必要があるパターンの数が削減されるので、変換の訓練が改善される。したがって、推定される変換は、よりロバストであることができる。文ベースの合成特徴又はグループ・ベースの合成特徴を選択すること、訓練データのためのグループの数を調整することは、実施態様に従った方法においてより簡単に合成パフォーマンスのための表現力とロバスト性との間のバランスを取り得る。

上記の方法において、硬判定感情認識（hard decision emotion recognition）を避けることができ、そして、これはエラーを低減するであろう。ＮＮの有り得る出力は、無数にある。それは、提案方法が、潜在的に、合成のための異なる感情に関係する無数の異なる合成特徴を生成することができることを意味する。さらに、上記の方法は、簡単に表現力とロバスト性との間のバランスを取ることができる。

上記の合成プロセスにおいて、テキスト・データの感情の情報は、既知であるか又は人間若しくは他のソースにより明確に認識される必要はない。訓練は、完全に自動である。上記の方法は、人間が訓練データに感情のタグ付けをする必要なしに、表現合成システムを構築することを目指す。合成プロセスの間、入力テキストに起因する感情を分類する必要はない。提案方法は、表現合成システムの訓練のコストを潜在的に低減することができる。一方、合成プロセスにおいて、より表現に富む音声（more expressive speech）を生成する。

上記の実施態様では、空間におけるあらゆる点が表現音声合成システムのためのパラメータを定義するように、多次元連続表現音声合成空間が定義される。また、テキスト特徴を表現空間中の点にマッピングし、そして、表現音声合成プロセスのためのパラメータを定義することができるプロセスが、訓練される。

合成方法を説明するために、表現合成のための実験的なシステムが、４．８ｋの訓練文に基づいて訓練された。一つのバイアス・モデル及び４つのクラスター・モデルをもつＣＡＴモデルが訓練された。個々のＣＡＴ重みは、訓練音声における各文ごとに訓練された。一方、訓練データは２０のグループに分類され、グループ・ベースのＣＡＴ重みが同様に訓練された。文ベースのＣＡＴ重みとグループ・ベースのＣＡＴ重みの両方が、同一のＣＡＴ重み空間（すなわち、提案方法の音響空間）中の点として表現された。

訓練文のトランスクリプションのそれぞれの文が、２０次元のＬＤＡの変分事後特徴ベクトル（variational posterior feature vector）として表現され、また、それは、言語特徴を生成するために使用された。また、訓練文のナレーションスタイルが、言語特徴を生成するために使用された。それは、その文が、ダイレクト・スピーチ（direct speech）、ナレーション・スピーチ（narration speech）又はキャリア・スピーチ（carrier speech）であったことを示す１次元の値であった。この実験で使用される言語特徴はまた、以前の文（previous sentence）及びすぐ前（last sentence）の文からの言語情報を含んだ。この実験では、言語特徴は、並列構造を使用して生成された。

言語空間から音響空間への非線形変換は、多層パーセプトロン（ＭＬＰ）ニューラル・ネットワークによって訓練された。２セットのＮＮが訓練され、一つは、言語特徴を文ベースのＣＡＴ重みにマッピングし、他は、言語特徴をグループ・ベースのＣＡＴ重みにマッピングしていた。

この実験で使われる言語特徴及び音響特性の構造は、図１１に示される。

合成された音声の表現力は、クラウドフラワー（CrowdFlower）を介してリスニング試験によって評価された。参照として人間により読まれるオリジナルの表現音声データを使用して、リスナーは、スピーチ文の２つの合成バージョンのうちのいずれが、該参照に対してより類似しているように聞こえたかについて選択するように、質問された。

５つの異なるシステムが実験で比較された。
（１）sup_sent：管理された訓練（supervised training）により生成される文ベースのＣＡＴ重み
（２）sup_grp：管理された訓練により生成されるグループ・ベースのＣＡＴ重み
（３）nn_sent：提案方法により生成される文ベースのＣＡＴ重み
（４）nn_grp：提案方法により生成されるグループ・ベースのＣＡＴ重み
（５）rand：訓練文からランダムに選択されるＣＡＴ重み
表１に表現力テストの結果が示される。

実験の結果は、提案方法に基づき、文ベースのＣＡＴ重みとグループ・ベースのＣＡＴ重みの両方が、有意に、ランダムなＣＡＴ重みよりパフォーマンスが優れていることを示した。それは、提案方法が、文における正しい感情の情報をある程度キャッチしたことを意味する。一方、グループ・ベースのＣＡＴ重みについては、管理され訓練されたＣＡＴ重みと、提案方法により生成されるＣＡＴ重みとの相違は、有意ではなかった（ｐ＞０．０２５）。これは、グループ・ベースのＣＡＴ重みの場合、提案方法のパフォーマンスがそれらの上限（すなわち、管理された訓練）に近いことを意味する。

［アペンディックス］
幾つかの実施形態において、表現合成特徴空間は、音声の合成において使用されるべきコンポーネントに対する重みを含む。

幾つかの実施形態においては、それぞれであろう複数の異なる状態が、ガウス分布を用いてモデル化されるであろう。例えば、一つの実施形態では、テキスト音声合成システムは、複数のストリームを含む。それらのようなストリームは、一つ又は複数のスペクトル・パラメータ（Spectrum）、基本周波数の対数（Log F₀）、Log F₀の一次微分（Delta Log F₀）、Log F₀の二次微分（Delta-Delta Log F₀）、バンド非周期性パラメータ（Band aperiodicity parameters）（BAP）、継続期間（duration）などから選択されても良い。ストリームはまた、クラス（例えば、無音（silence）（sil）、短いポーズ（short pause）（pau）及び音声（speech）（spe）など）に更に分けられても良い。一つの実施形態では、ストリーム及びクラスのそれぞれからのデータは、ＨＭＭを使用してモデル化される。ＨＭＭは、異なる数の状態を含んでも良い。例えば、一つの実施形態において、上記のストリーム及びクラスのうちの一部からのデータをモデル化するために、５状態ＨＭＭ（5 state HMMs）が用いられても良い。ガウシアン・コンポーネントは、各ＨＭＭ状態ごとに決定される。

特定の表現特性（expressive characteristic）をもつガウス分布の平均は、複数のガウス分布の表現特性非依存平均の重み付き加算（a weighted sum of expressive characteristic independent means of the Gaussians）として表現される。したがって、次のようになる。

ここで、μ^(s) _ｍは、表現特性ｓにおけるコンポーネントｍのための平均であり、ｉ∈｛１，．．．．．．．．，Ｐ｝は、クラスターのインデックスであり、Ｐは、クラスターの総数であり、λ^(s) _ｉ,q(m)は、表現特性ｓ及び回帰クラスｑ（ｍ）のための第ｉ番目のクラスターの表現特性依存補間重み（expressive characteristic dependent interpolation weight）であり、μ_c(m,i)は、クラスターｉにおけるコンポーネントｍのための平均である。一実施形態において、複数のクラスターのうちの一つ（通常、クラスターｉ＝１）に対して、すべての重みが常に１．０にセットされる。このクラスターは、“バイアス・クラスター”と呼ばれる。それぞれのクラスターは、少なくとも一つの決定木を含む。決定木は、クラスター中の各コンポーネントごとに存在する。表現を単純化するために、ｃ（ｍ，ｉ）∈｛１，．．．．．．．．，Ｎ｝は、クラスターｉのための平均ベクトル決定木におけるコンポーネントｍのための総合リーフノード・インデックスを示す。Ｎは、すべてのクラスターの決定木にわたるリーフノードの総数である。決定木の詳細は、後で説明される。

ＣＡＴを使用する一実施態様において、表現合成空間は、表現特性重みの空間であり、表現言語空間は、表現合成空間にマッピングする。

複数の表現特性非依存平均は、クラスター化される。一つの実施形態では、それぞれのクラスターは、少なくとも一つの決定木を含み、木において使用される決定は、言語上の変動、音声上の変動又は韻律上の変動に基づく。一つの実施形態では、決定木は、クラスターのメンバーである各コンポーネントごとに存在する。韻律上のコンテキスト、音声上のコンテキスト及び言語上のコンテキストは、最終的な音声波形に影響を及ぼす。音声上のコンテキストは、典型的には、声道に影響を及ぼし、韻律上のコンテキスト（例えば音節）及び言語上のコンテキスト（例えば単語の品詞）は、例えば継続時間（リズム）および基本周波数（トーン）のような韻律に影響を及ぼす。それぞれのクラスターは、１又は複数のサブクラスターを含んでも良い。それぞれのサブクラスターは、それら決定木のうちの少なくとも一つを含む。

一つの実施形態に従って以下の構成が使用されても良い。このデータをモデル化するために、この実施形態では、５状態ＨＭＭが使用される。この例に関して、データは、無音、短いポーズ、音声の三つのクラスに分けられる。この特定の実施形態において、サブクラスターごとの決定木及び重みの割り当ては、次のとおりである。

この特定の実施形態では、クラスターごとに次のストリームが使用される。
Spectrum：１つのストリーム、５つの状態、状態ごとに１つの木×３クラス
LogF0：３つのストリーム、ストリームごとに５つの状態、状態及びストリームごとに、１つの木×３クラス
BAP：１つのストリーム、５つの状態、状態ごとに１つの木×３クラス
継続期間：１つのストリーム、５つの状態、１つの木×３クラス（各木は、すべての状態にわたって共有される）
合計：３×２６＝７８の決定木
上記に関して、次の重みが、声特性（voice characteristic）（例えば話者又は表現）ごとに、各々のストリームに適用される。
Spectrum：１つのストリーム、５つの状態、ストリームごとに１つの重み×３クラス
LogF0：３つのストリーム、ストリームごとに５つの状態、ストリームごとに１つの重み×３クラス
BAP：１つのストリーム、５つの状態、ストリームごとに１つの重み×３クラス
継続時間：１つのストリーム、５つの状態、状態及びストリームごとに１つの重み×３クラス
合計：３×１０＝３０の重み
この例で示されるように、異なる決定木（spectrum）に同一の重みを割り当てること、あるいは、同一の決定木（継続時間）に２以上の重みを割り当てること、又は、任意の他の組み合せが、可能である。本明細書で使用されるように、同一の重みが適用されるべき決定木は、サブクラスターを形成するために考慮される。

次に、表現特性重みを導き出す方法が説明される。隠れマルコフモデル（ＨＭＭ）に基づく音声処理システムにおいて、ＨＭＭはしばしば次のように表現される。

ここで、Ａは状態遷移確率分布であり、次のようである。

また、Ｂは状態出力確率分布であり、次のようである。

また、Πは初期状態確率分布であり、次のようである。

ここで、Ｎは、ＨＭＭにおける状態の数である。

テキスト音声合成システムにおいてＨＭＭがどのように使用されるかについては、当該技術では周知であり、ここでは説明されない。

現在の実施形態において、状態遷移確率分散Ａ及び初期状態確率分布は、当該技術において周知の手続きに従って決定される。したがって、この説明の残りは、状態出力確率分布に関係している。

一般に、表現テキスト音声合成システムにおいて、モデルセットＭにおける表現特性ｓのための第ｍ番目のガウシアン・コンポーネントからの状態出力ベクトル又は音声ベクトルｏ（ｔ）は、次のようになる。

ここで、μ^(s) _ｍとΣ^(s) _ｍは、表現特性ｓのための第ｍ番目のガウシアン・コンポーネントの平均と共分散である。

従来のテキスト音声合成システムを訓練する場合の目標は、与えられた観測シーケンスに対する尤度を最大化するモデル・パラメータ・セットＭを推定することである。従来のモデルでは、単一の話者又は表現が存在し、したがって、モデル・パラメータ・セットは、すべてのコンポーネントｍについて、μ^(s) _ｍ＝μ_ｍ及びΣ^(s) _ｍ＝Σ_ｍである。

いわゆる最尤（ＭＬ）基準に純粋に分析的に基づいて上記のモデルセットを得ることは可能でないので、従来、その問題は、バウム・ウェルチ・アルゴリズムと大抵呼ばれる期待値最大化（ＥＭ）アルゴリズムとして知られている反復アプローチを使用することによって対処される。ここで、次のような補助関数（“Ｑ”関数）が得られる。

ここで、γ_m（ｔ）は、観測ｏ（ｔ）を生成するコンポーネントｍの事後確率であり、現在のモデル・パラメータはＭ’、Ｍは新たなパラメータ・セットとする。各々の反復の後で、パラメータ・セットＭ’は、Ｑ（Ｍ，Ｍ’）を最大化する新たなパラメータ・セットＭと置き換えられる。ｐ（ｏ（ｔ），ｍ｜Ｍ）は、例えばＧＭＭ、ＨＭＭなどのような生成モデルである。

現在の実施形態において、次式の状態出力ベクトルを有するＨＭＭが使用される。

ここで、ｍ∈｛１,.......,ＭＮ｝、ｔ∈｛１,.......,Ｔ｝、及び、ｓ∈｛１,.......,Ｓ｝は、それぞれ、コンポーネント、時間及び表現のインデックスである。また、Ｍ、Ｔ及びＳは、それぞれ、コンポーネント、フレーム及び表現の総数である。

の正確な形は、適用される表現依存変換のタイプに依存する。

ＣＡＴのフレームワークにおいて、コンポーネントｍ及び表現ｓのための平均ベクトル

は、式（１）として書くことができる。

共分散

は、表現ｓに対して非依存である。

すなわち、

である。ここで、ｖ（ｍ）は、共分散決定木のリーフノードを表す。

後で説明される理由のために、この実施形態では、複数の共分散は、クラスター化され、複数の決定木に配置される。ここで、ｖ（ｍ）∈｛１,．．．．．．．,Ｖ｝は、コンポーネントｍの共分散行列が属する共分散決定木中のリーフノードを表し、Ｖは、分散決定木のリーフノードの総数である。

上記を使用すると、補助関数は、次のように表現することができる。

ここで、Ｃは、Ｍとは独立した定数である。

ＣＡＴのパラメータ推定は、三つの部分に分割することができる。

最初の部分は、クラスター・モデルのためのガウス分布のパラメータ（つまり、表現非依存平均｛μ_n｝及び表現非依存共分散｛Σ_k｝）である。上記のインデックスｎ及びｋは、後で説明される平均及び分散決定木のリーフノードを示す。

第２の部分は、次の表現依存重みである。

ここで、ｓは表現を示し、ｉは、クラスター・インデックス・パラメータを示し、ｑ（ｍ）は、コンポーネントｍのための回帰クラス・インデックスを示す。

第３の部分は、クラスター依存決定木である。

補助関数が上記の方法で表現されれば、それは、表現依存及び非依存パラメータのＭＬ値を得るために、各々の変数に関して順に最大化される。

詳しくは、平均のＭＬ推定を決定するために、下記手続きが実行される。

最初に、式（４）の補助関数が、以下のようにμ_nで微分される。

ここで、

である。

Ｇ^(m) _ij及びｋ^(m) _iは、蓄積された統計データ（accumulated statistics）である。

導関数を０にセットして法線方向において式を最大化することによって、μ_nのＭＬ推定、すなわち、

について次の式が得られる。

μ_nのＭＬ推定はまた、μ_kに依存することに留意されるべきである（ここで、ｋはｎと等しくない）。インデックスｎは、平均ベクトルの判定木のリーフノードを表わすために用いられるのに対して、インデックスｋは、共分散決定木のリーフノードを表わす。したがって、収束するまですべてのμ_nにわたり繰り返すことによって最適化を実行することが必要である。

これは、次式を解くことによりすべてのμ_nを同時に最適化することによって実行することができる。

しかしながら、訓練データが小さいか又はＮが非常に大きい場合、式（１１）の係数行列はフルランクを有することができない。この問題は、特異値分解又は他の良く知られた行列因数分解技術を用いることにより回避することができる。

その後、同じプロセスが、共分散のＭＬ推定を実行するために行われる。つまり、式（６）に示される補助関数がΣ_kで微分され、次式が与えられる。

である。

表現依存重みのためのＭＬ推定も、同じ方法で、つまり、ＭＬ推定が求められるパラメータに関して補助関数を微分し、そして、微分の値を０にセットすることで、得ることができる。

表現依存重みのために、これは次を与える。

式（１４）は、バイアス・クラスターをもたないＣＡＴ重み推定であり、バイアス・クラスターをもつＣＡＴ重み推定は次のように書き直すことができる。

ここで、μ_c(m,1)は、バイアス・クラスター・モデルのためのコンポーネントｍの平均ベクトルであり、Ｍ１は、コンポーネントｍのためのノンバイアス平均ベクトルの行列である。

パラメータ推定の第３の部分は、決定木の形成である。クラスター依存の決定木は、一つのクラスターごとに形成される。クラスターの決定木が形成されるとき、ツリー構造、ガウス平均ベクトル及び共分散マトリックスを含む他のクラスターのパラメータは固定される。

各々の二分決定木は、すべてのコンテキストを表現する単一のルート・ノードから始まる局所的最適化法で構築される。この実施形態において、コンテキストによって、次のベース（音声ベース、言語ベース、及び、韻律ベース）が使用される。各々のノードが作成されるとともに、コンテキストに関する次の最適な質問が選択される。いずれの質問が尤度の最大の増加をもたらすか及び訓練例において生成される終端ノードに基づいて、質問が選択される。

その後、訓練データに総尤度の最大の増加を提供するために、その最適の質問を用いて分割することができる終端ノードを発見するために、終端ノードのセットが検索される。この増加が閾値を越えるとすれば、該ノードは最適な質問を用いて分割され、２つの新たな終端ノードが作成される。更に分割しても、尤度分割に適用される閾値を越えないことにより、新たな終端ノードを形成することができない場合、そのプロセスは停止する。

このプロセスは例えば図１３に示される。平均決定木中の第ｎ番目の終端ノードは、質問ｑにより２の新たな終端ノードｎ₊ ^q及びｎ_- ^qに分割される。この分割により達成される尤度の増加は、以下のように計算することができる。

ここで、Ｓ（ｎ）は、ノードｎに関連するコンポーネントのセットを示す。μ_nに関して不変である項は含まれない点に留意されるべきである。

μ_nの最大尤度は式（１０）により与えられる。それゆえ、上記は、次のように書くことができる。

したがって、ノードｎをｎ₊ ^q及びｎ_- ^qへ分割することにより得られる尤度は、次式により与えられる。

したがって、上記を使用して、各々のクラスターの決定木を構築することは可能である。ここで、木は、最初に木において最適な質問が尋ねられ、分割の尤度に従う階層の順に決定が配列されるように、配列される。その後、重みが各々のクラスターに適用される。

更なる実施態様において、決定木はまた、分散のために構築され得る。共分散決定木は、以下のように構築される：共分散決定木中のケース終端ノードが、質問ｑにより２の新たな終端ノードｋ₊ ^q及びｋ_- ^qに分割されるならば、クラスター分散行列及び分割による増加は、以下のように表現される。

ここで、Ｄは、｛Σ_k｝とは独立した定数である。

したがって、尤度の増加は、次のようになる。

一実施態様において、本プロセスは反復的な方法で実行される。図１２のフローチャートを参照して、この基本的なシステムが説明される。

ステップＳ１３０１において、オーディオ音声（audio speech）の複数の入力が受信される。この実例となる例では、４つの表現が使用される。

次に、ステップＳ１３０３において、表現非依存の音響モデルは、様々な表現をもつ訓練データを使用して訓練される。

クラスター適応可能なモデルは、以下のように初期化され訓練される。

ステップＳ１３０５において、クラスターＰの数はＶ＋１にセットされる。ここで、Ｖは、データ（４）が利用できる異なる表現の数である。

ステップＳ１３０７において、１つのクラスター（クラスター１）が、バイアス・クラスターとして決定される。バイアス・クラスターのための決定木及び関連するクラスター平均ベクトルは、ステップＳ１３０３において表現非依存のモデルを作成した声を使用して初期化される。また。共分散マトリックス、多空間確率分布（ＭＳＤ）のための空間重み及び構造を共有しているそれらのパラメータは、表現非依存のモデルのそれらに初期化される。

ステップＳ１３０９において、クラスター２，…，Ｐ（例えば、クラスター２，３，４，５はそれぞれ表現Ａ，Ｂ，Ｃ，Ｄのためのものである）のそれぞれに特定の表現タグ（expression tag）が割り当てられる。

ステップＳ１３１１において、ＣＡＴ補間重みのセットは、割り当てられた表現タグに従って、以下のように単に１又は０にセットされる。

この具体例では、ストリームごと表現ごとに大域的な重み（global weights）が存在する。表現／ストリームの組み合せごとに、３セットの重みがセットされる：無音、音声及びポーズについて。

ステップＳ１３１３において、各々のクラスター２,…,（Ｐ−１）について順番に、以下のようにクラスターが初期化される。関連する声（voice）のための音声データ（例えば、クラスター２のための音声Ｂ）は、ステップＳ１３０３で訓練された表現非依存モデルを使用して、調整（aligned）される。これらの調整を所与として、統計値が計算され、そして、クラスターのための決定木及び平均値が推定される。所与のコンテキストのための平均値は、ステップＳ１３１１でセットされた重みを使用して、クラスター平均の重み付き加算として、計算される。すなわち、実際には、これは、所与のコンテキストに関する平均値（そのコンテキストに関するバイアス・クラスターの平均の重み付き加算（いずれの場合も重み１）である）を、そして、クラスター２におけるそのコンテキストに関する声Ａのモデルの平均をもたらす。

クラスターが上記のように初期化されたならば、その後、ＣＡＴモデルは、以下のように、更新され／訓練される。

ステップＳ１３１９において、ＣＡＴ重みが固定された状態で、クラスター１からＰまで、１クラスターずつ、決定木が構成される。ステップＳ１３２１において、新たな平均及び分散がＣＡＴモデルで推定される。次に、ステップＳ１３２３において、各クラスターごとに、新たなＣＡＴ重みが推定される。一つの実施形態では、該プロセスは、収束するまでＳ１３２１へループバックする。パラメータ及び重みは、上記パラメータのより良い推定を得るために、バウム・ウェルチ・アルゴリズムの補助関数を用いて実行される最尤計算を使用して、推定される。

前述のとおり、パラメータは反復的なプロセスによって推定される。

更なる実施態様では、ステップＳ１３２３において、それぞれの繰り返しの間で決定木が再構成されるように、該プロセスは収束するまでステップＳ１３１９へループバックする。

さらに、多次元連続空間における発話レベルの点に基づく感情表現（expressive representation）を使用してＣＡＴシステムを最適化することが可能である。ここでは、上記のプロセスは、繰り返されることができる。しかし、ステップＳ１３２３は、それぞれの表現ラベルよりはむしろ、それぞれの音声発話（speech utterance）のための点を計算することによって、置き換えられる。また、モデル・パラメータ、空間における点（重み）及び決定木を更新することを繰り返すことが可能である。

図１３は、決定木の形をとるクラスター１〜Ｐを示す。この単純化された例では、ちょうどクラスター１に４つの終端ノードが存在し、クラスターＰに３つの終端ノードが存在する。決定木は対称である必要がない、つまり、各々の決定木が異なる数の終端ノードを有することができることに留意することは重要である。木における終端ノードの数及びブランチの数は、純粋に対数尤度分割によって決定される。対数尤度分割は、最初の決定において最大の分割を達成し、次いで、より大きな分割をもたらす質問の順に質問が尋ねられる。達成された分割が閾値未満ならば、終端ノードの分割は終了する。

特定の実施形態が説明されたが、これらの実施形態はただ例として示されたものであり、本発明の範囲を制限することが意図されるものではない。実際に、本明細書で説明された新規な方法及び装置は、種々の他の形で実施されても良い；更に、本明細書で説明された方法及び装置の形における様々な省略、置き換え及び変更は、本発明の精神を逸脱せずになされ得る。添付の特許請求の範囲及びそれらの均等物は、本発明の範囲及び精神に含まれるであろうそのような修正の形をカバーすることが意図される。

Claims

テキスト音声合成方法において、前記方法は、
入力テキストを受信することと、
前記入力テキストを、音響単位のシーケンスに分割することと、
音響モデルを使用して、前記音響単位のシーケンスを、音声ベクトルのシーケンスに変換することと、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを有する、
前記音声ベクトルのシーケンスを音声として出力すること、
を含み、
前記方法は、
第１の空間において構成される表現言語特徴ベクトルを生成するために前記入力テキストから表現特徴を抽出することと、前記表現言語特徴ベクトルを、第２の空間において構成される表現合成特徴ベクトルにマッピングすることによって、
前記モデル・パラメータのうちの少なくとも一部を決定することを更に含む、
方法。
前記表現言語特徴ベクトルを表現合成特徴ベクトルにマッピングすることは、機械学習アルゴリズムを使用することを含む、請求項１に記載の方法。
前記第２の空間は多次元連続空間である、請求項１に記載の方法。
前記入力テキストから前記表現特徴を抽出することは、複数の抽出プロセスを含み、
前記複数の抽出プロセスは、前記テキストの異なる複数の情報レベルにおいて実行される、請求項１に記載の方法。
前記異なる複数の情報レベルは、単語ベースの言語特徴ベクトルを生成するための単語ベースの言語特徴抽出レベル、フルコンテキストフォンベースの言語特徴を生成するためのフルコンテキストフォンベースの言語特徴抽出レベル、品詞（ＰＯＳ）ベースの特徴を生成するためのＰＯＳベースの言語特徴抽出レベル及びナレーションスタイル情報を生成するためのナレーションスタイルベースの言語特徴抽出レベルから選択される、請求項４に記載の方法。
前記複数の抽出プロセスのそれぞれが、特徴ベクトルを生成し、
前記方法は、前記第２の空間にマッピングするための言語特徴ベクトルを生成するために、前記異なる複数の情報レベルから生成される複数の前記言語特徴ベクトルを連結することを更に含む、請求項４に記載の方法。
前記表現言語特徴ベクトルを表現合成特徴ベクトルにマッピングすることは、前記異なる複数の情報レベルのそれぞれに対応する複数の階層的なステージを含む、請求項４に記載の方法。
前記マッピングはフルコンテキスト情報を使用する、請求項１に記載の方法。
前記音響モデルは、前記入力テキストからフルコンテキスト情報を受信し、この情報は、前記音響モデルにおける前記表現合成特徴ベクトルから得られる前記モデル・パラメータと結合される、請求項１に記載の方法。
前記音響モデルの前記モデル・パラメータは、同一のタイプの複数のモデル・パラメータの重み付き加算として表され、各重みは、前記第２の空間において表される、請求項１に記載の方法。
前記同一のタイプの複数のモデル・パラメータの重み付き加算として表される前記モデル・パラメータは、ガウス分布の平均である、請求項１０に記載の方法。
前記同一のタイプの複数のパラメータがクラスター化され、前記表現合成特徴ベクトルが、それぞれのクラスターごとの重みを含む、請求項１０に記載の方法。
それぞれのクラスターは、少なくとも一つの決定木を含み、前記決定木は、言語上の変動、音声上の変動又は韻律上の変動のうちの少なくとも一つに関連する質問に基づく、請求項１２に記載の方法。
前記クラスターの前記決定木の間に、構造における相違が存在する、請求項１３に記載の方法。
テキスト音声合成システムを訓練する方法において、前記方法は、
訓練データを受信することと、ここで、前記訓練データは、テキストのデータと該テキストのデータに対応する音声データを含む、
第１の空間において構成される表現言語特徴ベクトルを生成するために、入力した前記テキストから表現特徴を抽出することと、
前記音声データから表現特徴を抽出し、第２の空間において構成される表現合成特徴ベクトルを生成することと、
機械学習アルゴリズムを訓練することを含み、
前記機械学習アルゴリズムの訓練の入力は、表現言語特徴ベクトルであり、前記訓練の出力は、前記訓練の入力に対応する表現合成特徴ベクトルである、
方法。
前記方法は、前記表現合成特徴ベクトルを音声合成装置に出力することを更に含み、
前記音声合成装置は、音響モデルを含み、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを有する、請求項１５に記載の方法。
前記音響モデルのパラメータ及び前記機械学習アルゴリズムが一緒に訓練される、請求項１６に記載の方法。
前記音響モデルの前記モデル・パラメータは、同一のタイプの複数のモデル・パラメータの重み付き加算として表され、各重みは、前記第２の空間において表され、前記第２の空間において表される各重み及び前記機械学習アルゴリズムが一緒に訓練される、請求項１６に記載の方法。
テキスト音声合成装置において、前記装置は、
入力テキストを受信するための受信部と、
プロセッサと、
音声出力とを含み、
前記プロセッサは、
前記入力テキストを、音響単位のシーケンスに分割し、
音響モデルを使用して、前記音響単位のシーケンスを、音声ベクトルのシーケンスに変換するように構成され、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを含む、
前記音声出力は、前記音声ベクトルのシーケンスを音声として出力するように構成され、
前記プロセッサは、
第１の空間において構成される表現言語特徴ベクトルを生成するために前記入力テキストから表現特徴を抽出することと、前記表現言語特徴ベクトルを、第２の空間において構成される表現合成特徴ベクトルにマッピングすることによって、
前記モデル・パラメータのうちの少なくとも一部を決定するように更に構成される、
装置。
コンピュータをテキスト音声合成装置として機能させるためのプログラムであって、
前記プログラムは、
前記コンピュータに、入力テキストを受信させ、
前記コンピュータに、前記入力テキストを、音響単位のシーケンスに分割させ、
前記コンピュータに、音響モデルを使用して、前記音響単位のシーケンスを、音声ベクトルのシーケンスに変換させ、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを有する、
前記コンピュータに、前記音声ベクトルのシーケンスを音声として出力させるように構成され、
前記プログラムは、
前記コンピュータに、第１の空間において構成される表現言語特徴ベクトルを生成するために前記入力テキストから表現特徴を抽出することと、前記表現言語特徴ベクトルを、第２の空間において構成される表現合成特徴ベクトルにマッピングすることによって、前記モデル・パラメータのうちの少なくとも一部を決定させるように更に構成される、プログラム。