JP2015057651A

JP2015057651A - 音声処理システム及び方法

Info

Publication number: JP2015057651A
Application number: JP2014169878A
Authority: JP
Inventors: ランジョウチェン; Langzhou Chen
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-08-23
Filing date: 2014-08-22
Publication date: 2015-03-26
Also published as: CN104424943A; US10140972B2; EP2860725A1; GB2517503A; GB201315139D0; US20150058019A1; CN104424943B; GB2517503B; EP2846327B1; EP2846327A1; EP3282444A1; CN108364639A

Abstract

【課題】テキスト音声合成システムのための音響モデルを学習する方法を提供する。
【解決手段】第１の音声ファクターの異なる値に対応するデータを含んだ音声データを受信することと、音声データの所与のアイテムについて第１の音声ファクターが未知であるように、ラベル付けせず、第１の音声ファクターの値に従って、第１のクラスター・セットにクラスタリングすることと、音響モデルが、第１の音声ファクターの異なる値の音声を表すように、第１のパラメータ・セットを推定することを含み、クラスタリング及び第１のパラメータの推定が、共通の最尤基準に従って一緒に実行される。
【選択図】図１

Description

（関連出願の相互参照）
この出願は、２０１３年８月２３日付け提出の英国特許出願第１３１５１３９．４号に基づくものであり、また、その優先権の利益を主張する。そして、その内容の全体が参照によって本明細書に組み込まれる。
（技術分野）
本明細書で一般に説明される本発明の実施形態は、テキスト音声合成システム及び方法に関係する。

テキスト音声合成システム（text-to-speech system）は、テキストファイルの受理に応じてオーディオ音声（audio speech）又はオーディオ音声ファイルが出力されるシステムである。

テキスト音声合成システムは、多種多様のアプリケーション（例えば、電子ゲーム、電子ブック・リーダー、電子メール・リーダー、衛星ナビゲーション、自動電話システム、自動警報システムなど）で使用される。

より人間らしい声（voice）のようにシステムに音を出させる要求が継続して存在する。

これから添付の図面を参照して、限定されない実施形態に従うシステム及び方法が説明される。添付の図面において各図は次の通りである。

図１は、一実施形態に従った音響モデルを学習（training）するためのフレームワークである。図２は、一実施形態に従った音声処理システムを学習する方法を例示するフローチャートである。図３は、図２に関連して説明されるステップを示すフローチャートである。図４は、図２に関連して説明される他のステップを示すフローチャートである。図５は、一実施形態に従った音声処理システムを学習する方法を例示するフローチャートである。図６は、一実施形態に従った音声処理システムを学習する方法を例示するフローチャートである。図７は、一実施形態に従った音声処理システムを学習する方法を例示するフローチャートである。図８は、図７に関連して説明されるステップを示すフローチャートである。図９は、一実施形態に従った音声処理方法のフローチャートである。図１０は、声特性（voice characteristics）がどのように選択され得るかについて示すシステムの概略図である。図１１は、図１０のシステムに対するバリエーションである。図１２は、一実施形態に従ったシステムの適応（adapting）を示すフローチャートである。図１３は、更なる実施形態に従ったシステムの適応を示すフローチャートである。図１４は、システムを適応させるのに適した異なるタイプのデータの一群（collection）を示す概略図である。図１５は、どのようにして異なる話者の間で表現を移植（transplanted）することができるかについて示すプロットである。図１６は、表現音声（expressive speech）の移植を示す音響空間のプロットである。図１７は、適応データを用いる表現移植（expression transplantation）の方法を示す概略図である。図１８は、表現合成ベクトル（expressive synthesis vector）を抽出するためのシステムの概略図である。図１９は、異なるレベルの知識情報を用いて表現特徴（expressive features）を抽出するためのシステムの概略図である。図２０は、異なるレベルの知識をモデリングするためにニューラル・ネットのカスケーディングを用いて表現特徴を抽出するためのシステムの概略図である。図２１は、システム中の表現抽出部（expression deriving section）の概略図である。図２２は、テキスト音声合成システムの概略図である。図２３は、音声処理システムにより実行されるステップを示すフローチャートである。図２４は、ガウス確率関数の概略図である。図２５は、学習可能なテキスト音声合成システムの概略図である。図２６は、ある実施形態により用いられる決定木の概略図である。

詳細な説明

一実施形態において、テキスト音声合成システムのための音響モデルを学習する方法が提供され、該方法は、音声データを受信することと、ここで、上記音声データは、第１の音声ファクターの異なる値に対応するデータを含み、更に、上記音声データは、音声データの所与のアイテムについて上記第１の音声ファクターが未知であるように、ラベル付けされておらず、上記第１の音声ファクターの上記値に従って、上記音声データを、第１のクラスター・セットにクラスタリングすることと、上記音響モデルが、上記第１の音声ファクターの上記異なる値の音声を（ひととおり）表すことができるように、第１のパラメータ・セットを推定することを含み、上記クラスタリング及び上記第１のパラメータの推定が、共通の最尤基準に従って一緒に実行される。第１の音声ファクターは、話者、表現、ノイズ、キャラクター・ボイス（character voice）（例えば、「王」「オオカミ」などのような）、又は、他の任意の音声ファクターを含んでも良い。表現は、話者に共通（independent）の音声属性（attribute of speech）を含む。表現の例は、感情（例えば、喜び、悲しみ、などのような）、強調、及び、発話形式（speaking style）を含む。表現はまた、上記のうちの２以上の組み合せに対応し得る。ニュートラルな音声は、表現のない音声（例えば、感情又は強調のない音声）である。ラベル付けされていない音声データは、そのデータについて、例えば、第１の音声ファクターが表現である場合に、どの表現が該音声データの所与の部分に対応するかが既知でないような、データである。

一実施形態において、上記第１のクラスター・セットは、少なくとも一つのサブクラスターを含む。上記第１のパラメータ・セットは、適用されるべき重みであり、サブクラスターごとに一つの重みが存在し、上記重みは、上記第１の音声ファクターに依存しても良い。重みは、クラスター適応学習（cluster adaptive training）（ＣＡＴ）重みであっても良い。それぞれのクラスターが、少なくとも一つの決定木を含んでも良い。該決定木は、言語上の相違、音声上の相違又は韻律上の相違のうちの少なくとも一つに関連する質問に基づく。上記クラスターの決定木の間及び上記サブクラスターにおける木の間で構造の相違が存在し得る。

一実施形態において、上記第１のパラメータ・セットは、上記第１の音声ファクターに依存する制約付き尤度線形回帰変換である。

一実施形態において、上記第１の音声ファクターは、話者であり、上記音声データは、ニュートラルな音声で話す１人又は複数人の話者からの音声データを更に含む。

一実施形態において、音声データは、第２の音声ファクターの異なる値に対応するデータを更に含む。第２の音声ファクターは、話者、表現、ノイズ、アクセント（訛り）（accent）、又は、他の任意の音声ファクターを含んでも良い。第２の音声ファクターの値は、未知であっても良い。

一実施形態において、上記方法は、受信された上記音声データに対応するテキストデータを受信することと、第１の空間において構築される表現言語特徴ベクトルを形成するために、入力された上記テキストから表現特徴を抽出することと、上記音声データから表現特徴を抽出し、第２の空間において構築される表現特徴合成ベクトルを形成することと、機械学習アルゴリズムを学習することを更に含み、上記機械学習アルゴリズムの学習の入力は、表現言語特徴ベクトルであり、上記機械学習アルゴリズムの学習の出力は、上記音声データ及び上記テキストデータに対応する表現特徴合成ベクトルである。テキストデータを含むテキストの発話に音声データが対応するように、テキストデータが音声データに対応する。

一実施形態において、第２の空間は、第１の話者の音響空間である。また、上記方法は、表現合成特徴ベクトルを第２の話者の音響空間に変換するように構成される。これは、音声は第２の話者の声で合成されるが、表現予測（expression prediction）は第１の話者のそれに対応することを意味する。

一実施形態において、上記方法は、上記第２の音声ファクターの値に従って、上記音声データを、第２のクラスター・セットにクラスタリングすることと、上記音響モデルが、上記第２の音声ファクターの上記異なる値の音声を（）表すことができるように、第２のパラメータ・セットを推定することを更に含み、上記クラスタリング及び上記第２のパラメータの推定が、上記第２のパラメータの推定及び上記第２のクラスター・セットへのクラスタリングの両方に共通である単一の最尤基準に従って一緒に実行される。

上記第２のクラスター・セットが、少なくとも一つのサブクラスターを含んでも良い。上記第２のパラメータ・セットは、適用されるべき重みであり、サブクラスターごとに一つの重みが存在しても良い。上記重みは、上記第２の音声ファクターに依存しても良い。重みは、クラスター適応学習（ＣＡＴ）重みであっても良い。

上記第２のパラメータ・セットは、上記第２の音声ファクターに依存する制約付き尤度線形回帰変換であっても良い。

一実施形態において、音響モデルを学習することは、ニュートラルな音声で話す話者から受信した音声データを用いて、第１の音響サブモデルを学習することと、第２の音声ファクターの異なる値に対応する音声データを用いて、第２の音響サブモデルを学習することを更に含む。

一実施形態において、音響モデルは、音響ユニットを音声ベクトルのシーケンスに関連付ける確率分布関数を含む。確率分布は、ガウス分布、ポアソン分布、ガンマ分布、スチューデントｔ分布又はラプラス分布から選択されても良い。

一実施形態において、音声ファクターの対象となる値を有する音声を出力するように構成されたテキスト音声合成方法が提供され、該方法は、上記音声ファクターの対象となる値を有する適応データを入力することと、上記音声ファクターの対象となる値に音響モデルを適応させることと、テキストを入力することと、入力された上記テキストを音響単位のシーケンスに分割することと、上記音響モデルを使用して、上記音響単位のシーケンスを音声ベクトルのシーケンスに変換することと、上記音声ファクターの対象となる値によるオーディオとして上記音声ベクトルのシーケンスを出力することを含み、上記音響モデルは、上記音声ファクターに関係する音声ファクター・パラメータ・セット及び上記音声ファクターに関係する音声ファクター・クラスター・セットを含み、所与の１又は複数のクラスター及び所与の１又は複数のパラメータについて、それらが関係する上記音声ファクターが未知であるように、上記音声ファクターに関係する上記音声ファクター・パラメータ・セット及び上記音声ファクター・クラスター・セットが、ラベル付けされていない。第１のクラスター・セット及び第１のパラメータ・セットは、音響モデルの適応の前にラベル付けされていない。適応データ（adaptation data）は、オーディオを含んでも良い。一実施形態において、上記音声ファクターは、表現であり、上記音響モデルは、話者に関係するパラメータ・セット及び話者に関係するクラスター・セットを含み、上記表現パラメータ・セットと、上記話者パラメータ・セットと、上記表現クラスター・セットと、上記話者クラスター・セットとが、オーバーラップしない。更なる実施形態において、上記方法は、第２の話者の音声とともに第１の話者の音声から得られる表現パラメータを使用することによって、第１の話者から第２の話者に表現を移植するように構成される。

一実施形態において、音声ファクターの対象となる値を有する音声を出力するように構成されたテキスト音声合成方法が提供され、該方法は、上記音声ファクターの対象となる値を有するオーディオ・データを入力することと、上記音声ファクターの対象となる値に音響モデルを適応させることと、テキストを入力することと、入力された上記テキストを音響単位のシーケンスに分割することと、上記音響モデルを使用して、上記音響単位のシーケンスを音声ベクトルのシーケンスに変換することと、上記音声ファクターの対象となる値によるオーディオとして上記音声ベクトルのシーケンスを出力することを含み、上記音響モデルは、上記音声ファクターに関係する音声ファクター・パラメータ・セット及び上記音声ファクターに関係する音声ファクター・クラスター・セットを含み、上記音響モデルは、音声データを受信することと、ここで、上記音声データは、音声ファクターの異なる値に対応するデータを含み、更に、上記音声データは、音声データの所与のアイテムについて上記音声ファクターが未知であるように、ラベル付けされておらず、上記音声ファクターの上記値に従って、上記音声データを、第１のクラスター・セットにクラスタリングすることと、上記音響モデルが、上記音声ファクターの上記異なる値の音声を（ひととおり）表すことができるように、第１のパラメータ・セットを推定することを含み、上記クラスタリング及び上記第１のパラメータの推定が、共通の最尤基準に従って一緒に実行される方法を使用して学習された。

第１のクラスター・セット及び第１のパラメータ・セットは、音響モデルの適応の前にラベル付けされない。適応データは、オーディオを含んでも良い。一実施形態において、上記音声ファクターは、表現であり、上記音響モデルは、話者に関係するパラメータ・セット及び話者に関係するクラスター・セットを含み、上記表現パラメータ・セットと、上記話者パラメータ・セットと、上記表現クラスター・セットと、上記話者クラスター・セットとが、オーバーラップしない。更なる実施形態において、上記方法は、第２の話者の音声とともに第１の話者の音声から得られる表現パラメータを使用することによって、第１の話者から第２の話者に表現を移植するように構成される。これは、適応データは、表現をもって話す第１の話者からのデータを含み得ることを意味する。これから、同じ表現で話す異なる話者の声が合成される。

一実施形態において、テキスト音声合成方法が提供され、上記方法は、入力テキストを受信することと、上記入力テキストを音響単位のシーケンスに分割することと、音響モデルを使用して、上記音響単位のシーケンスを音響ベクトルのシーケンスに変換することと、ここで、上記音響モデルは、話者の声に関係する第１のパラメータ・セット及び表現に関係する第２のパラメータ・セットを含み、上記第１及び第２のパラメータ・セットが、オーバーラップせず、上記音声ベクトルをのシーケンスをオーディオとして出力することを含み、上記方法は、第１の空間において構築される表現言語特徴ベクトルを形成するために、上記入力テキストから表現特徴を抽出し、上記表現言語特徴ベクトルを、第２の空間において構築される表現合成特徴ベクトルにマッピングすることによって、表現に関係する上記パラメータのうちの少なくとも一部を判定することを更に含む。所与の第２のパラメータについて、それが対応する表現が未知であり、また、所与の第１のパラメータについて、それが対応する話者の声が未知であるように、第１及び第２のパラメータが、ラベル付けされていなくても良い。第１及び第２のパラメータ・セットの一方又は両方が、ラベル付けされていなくても良い。一実施形態において、上記第２の空間は、第１の話者の上記音響空間であり、上記方法は、上記表現合成特徴ベクトルを第２の話者の上記音響空間に移植するように構成される。

一実施形態において、第１のクラスター・セット及び第１のパラメータ・セットが共通の最尤基準により推定されるように、音響モデルが学習される。他の実施形態において、第２のクラスター・セット及び第２のパラメータ・セットが共通の最尤基準により推定されるように、音響モデルが学習される。

一実施形態において、テキスト音声合成システムのための音響モデルを学習するためのシステムが提供され、上記システムは、第１の音声ファクターの異なる値に対応する音声データを受信するための入力と、ここで、所定のデータ・アイテムについて、上記第１の音声ファクターの値が未知であるように、上記音声データは、ラベル付けされていない、上記第１の音声ファクターの上記の値に従って上記音声データを第１のクラスター・セットにクラスタリングし、上記音響モデルが、上記第１の音声ファクターの上記異なる値の音声を（ひととおり）表すことができるように、第１のパラメータ・セットを推定する、ように構成されたプロセッサとを含み、上記クラスタリング及び上記第１のパラメータの推定は、記第１のパラメータの推定及び上記第１のクラスター・セットへの上記クラスタリングの両方に共通の単一の最尤基準に従って、一緒に実行される。

一実施形態において、音声ファクターの対象となる値を有する音声を出力するように構成されるシステムが提供され、上記システムは、上記音声ファクターの対象となる値を有する適応データを受信するための入力と、テキストを受信するための入力と、上記音声ファクターの対象となる値に音響モデルを適応させ、上記入力テキストを音響単位のシーケンスに分割し、上記音響モデルを使用して、上記音響単位のシーケンスを音声ベクトルのシーケンスに変換し、上記音声ファクターの対象となる値によるオーディオとして上記音声ベクトルのシーケンスを出力する、ように構成されたプロセッサとを含み、上記音響モデルは、上記音声ファクターに関係する第１のパラメータ・セット及び上記音声ファクターに関係する第１のクラスター・セットを含み、所与の１又は複数のクラスター及び所与の１又は複数のパラメータについて、上記第１の音声ファクターの上記値が未知であるように、上記音声ファクターに関係する上記第１のパラメータ・セット及び上記第１のクラスター・セットが、ラベル付けされていない。

一実施形態において、テキスト音声合成システムが提供され、上記システムは、入力テキストを受信するための入力と、上記入力テキストを音響単位のシーケンスに分割し、音響モデルを使用して、上記音響単位のシーケンスを音声ベクトルのシーケンスへ変換し、ここで、上記音響モデルは、話者の声に関係する第１のパラメータ・セット及び表現に関係する第２のパラメータ・セットを含み、上記第１及び第２のパラメータ・セット並びに上記第１及び第２のクラスター・セットは、オーバーラップせず、上記音声ベクトルのシーケンスをオーディオとして出力し、第１の空間において構築される表現言語特徴ベクトルを形成するために、上記入力テキストから表現特徴を抽出し、上記表現言語特徴ベクトルを、第２の空間において構築される表現合成特徴ベクトルにマッピングすることによって、表現に関係する上記パラメータのうちの少なくとも一部を判定する、ように構成されたプロセッサと、を含む。所与の第２のパラメータについて、それが対応する表現が未知であり、また、所与の第１のパラメータについて、それが対応する話者の声が未知であるように、第１及び第２のパラメータが、ラベル付けされていなくても良い。第１及び第２のパラメータ・セットの一方又は両方が、ラベル付けされていなくても良い。一実施形態において、上記第２の空間は、第１の話者の上記音響空間であり、上記方法は、上記表現合成特徴ベクトルを第２の話者の上記音響空間に移植するように構成される。

一実施形態において、表現若しくは話者又は表現及び話者の情報がラベル付けされていない学習データに基づいて表現及び話者を同時にモデリングするための音声合成学習方法が提供される。一実施形態において、表現及び話者情報がともに混合されるラベル付けされていないデータから、独立した表現及び話者情報（independent expression and speaker information）が抽出される。一実施形態において、表現クラスタリング・プロセス及びパラメータ推定が単一のプロセスとして統合される。表現クラスタリング・プロセス及びパラメータ推定プロセスが、共通の最尤（ＭＬ）基準で同時に実行されても良い。該方法の出力は、それぞれの表現クラスターごとで話者に共通の表現ＣＡＴ重みベクトル（speaker independent expression CAT weight vectors for each expression cluster）及びそれぞれの話者ごとで表現に共通の話者ＣＡＴ重みベクトル（expression independent speaker CAT weight vectors for each speaker）を含んでも良い。該方法の出力は、それぞれの表現クラスターごとで話者に共通のＣＡＴ重みベクトル（speaker independent CAT weight vectors for each expression cluster）及びそれぞれの話者ごとで表現に共通の話者制約付き最尤線形回帰（ＣＭＬＬＲ）変形（expression independent speaker CMLLR transforms for each speaker）を含んでも良い。該方法の出力は、それぞれの表現クラスターごとで話者に共通の表現ＣＭＬＬＲ変換（speaker independent expression CMLLR transforms for each expression cluster）及びそれぞれの話者ごとで表現に共通のＣＡＴ重みベクトル（expression independent CAT weight vectors for each speaker）を含んでも良い。該方法の出力は、それぞれの表現クラスターごとで話者に共通の表現ＣＭＬＬＲ変換（speaker independent expression CMLLR transforms for each expression cluster）及びそれぞれの話者ごとで表現に共通の話者ＣＭＬＬＲ変換（expression independent speaker CMLLR transforms for each speaker）を含んでも良い。

一実施形態において、テキスト音声合成システムが提供され、上記システムは、入力テキストを受信するための入力と、上記入力テキストを音響単位のシーケンスに分割し、音響モデルを使用して、上記音響単位のシーケンスを音声ベクトルのシーケンスへ変換し、ここで、上記音響モデルは、話者の声に関係する第１のパラメータ・セット及び第１のクラスター・セット並びに、表現に関係する第２のパラメータ・セット及び第２のクラスター・セットを含み、上記第１及び第２のパラメータ・セット並びに上記第１及び第２のクラスター・セットは、オーバーラップせず、上記音声ベクトルのシーケンスをオーディオとして出力し、第１の空間において構築される表現言語特徴ベクトルを形成するために、上記入力テキストから表現特徴を抽出し、上記表現言語特徴ベクトルを、第２の空間において構築される表現合成特徴ベクトルにマッピングすることによって、表現に関係する上記パラメータのうちの少なくとも一部を判定する、ように構成されたプロセッサと、を含む。

実施形態に従う方法は、ハードウェアでも汎用コンピュータ中のソフトウェアでも実施することができる。本発明の実施形態に従う更なる各方法は、ハードとソフトとの組み合せで実施することができる。実施形態に従う各方法はまた、単一の処理装置、又は複数の処理装置からなる分散ネットワークにより実施することができる。

実施形態に従う幾つかの方法はソフトウェアにより実施することができるので、幾つかの実施形態は任意の適したキャリア媒体上の汎用コンピュータに提供されるコンピュータコードを含む。キャリア媒体は、例えばフロッピー（登録商標）ディスク、ＣＤＲＯＭ、磁気デバイス若しくはプログラマブル・メモリ・デバイスのような任意の記憶媒体、又は、例えば任意の信号（例えば、電気的信号、光学的信号若しくはマイクロ波信号）のような任意の一時的な媒体を含むことができる。

テキスト音声合成システムの音響モデルを学習するためのクラスター適応学習（Cluster Adaptive Training）（ＣＡＴ）法及び制約付き最尤線形回帰（Constrained Maximum Likelihood Linear Regression）（ＣＭＬＬＲ）法の詳細は、アペンディックスで説明される。ＣＡＴ法及びＣＭＬＬＲ法を使用する話者表現分解（Speaker and expression factorization）（ＳＥＦ）もまた、そこで説明される。例えば話者と表現のような音声データのファクターをモデリングするために、これらの方法を使用することができる。

図１は、一実施形態に従った学習フレームワークを示す。この実施形態では、ラベル付けされていない（unlabelled）データの表現及び／又は話者クラスタリングが単一のプロセスにおいてＳＥＦと統合される。

ＳＥＦは、異なる話者及び表現のための学習データにマニュアルでラベル付けをすることによって実行することができる。しかしながら、あいにく、幾つかの複雑で高度な多様性のある学習データ（例えばオーディオブックのデータなどのような）について、そのデータに対してマニュアルで表現ラベル又は話者ラベルを付け加えることは高くつき（expensive）、また、そのデータの高度な多様性に起因するプアなアノテーション間の呼応（poor inter-annotation agreement）がしばしば存在する。例えば、電子ブックの音声合成（synthesizing）は、様々の話者の声（voices）により物語を表情豊かに（expressively）読むことをＴＴＳシステムに要求するかもしれない。表現学習データが常にすべての話者について利用可能であるとは限らないので、話者と表現のすべての組み合せを直接モデリングすることは大抵非実用的である。これらの場合に、話者又は表現に従って学習データをラベル付け又はクラスタリングすることを、モデルの学習の一部として実行する必要がある。

図１の実施形態において、学習データは、表現情報（expression information）ではなく、話者情報（speaker information）によりラベル付けされている（labelled）。この実施形態では、表現クラスタリング（expression clustering）及び表現依存パラメータ推定（expression dependent parameter estimation）が、最尤基準（maximum likelihood criteria）に従って同時に行われる。すなわち、次のようである。

ここで、Ｅ＝｛ｅ_１，ｅ_２，．．．，ｅ_ｋ｝は、表現依存クラスター（expression dependent clusters）である。Λ^ｅ（Ｅ）＝｛λ^ｅ _１，λ^ｅ _２，．．．，λ^ｅ _ｋ｝は、表現依存パラメータ（expression dependent parameters）であり、表現依存クラスターにそれら自身依存する。Λ^ｓ＝｛λ^ｓ _１，λ^ｓ _２，．．．，λ^ｓ _ｌ｝は、話者依存パラメータ（speaker dependent parameters）である。Ｕ＝｛ｕ_１，ｕ_２，．．．，ｕ_ｎ｝は、学習発話（training utterances）である。Ｈは、学習データのトランスクリプト（transcripts）である。そして、Ｍは、これまでのように、クラスター平均行列（cluster mean matrices）である。

図１のフレームワークにおいて、学習発話Ｕ＝｛ｕ_１，ｕ_２，．．．，ｕ_ｎ｝及び話者パラメータΛ^ｓ＝｛λ^ｓ _１，λ^ｓ _２，．．．，λ^ｓ _ｌ｝が、単一の教師無しＳＥＦプロセス（unsupervised SEF process）（２７）へ入力（２５）される。このプロセスは、Ｕの尤度を最大化するように、表現クラスター
及び表現依存パラメータΛ^ｅ（Ｅ）＝｛λ^ｅ _１，λ^ｅ _２，．．．，λ^ｅ _ｋ｝を同時に生成する。そして、表現依存パラメータが出力される（２９）。

このアプローチにおいて、全過程（表現クラスタリングと表現依存パラメータの決定との両方）が最尤基準を使用して実行される。これは、学習基準に一貫性（consistency）が存在することを保証する。さらに、複数話者データ（multi-speaker data）を扱う場合には、表現クラスタリングの結果は話者ファクター（speaker factors）に影響されない。話者情報が表現クラスタリング・プロセスから明確に分離されるので、これは、話者クラスターと表現クラスターとの効果的な分解（factorization）を保証する。このアプローチは、最尤基準に基づく他の分解方法とともに使用することができる。潜在的変数モデル（latent variable models）のための他の最大尤推定ベースの基準（maximum likelihood based criterion）と同様に、補助関数（auxiliary function）が最大化される。しかしながら、異なる方法の分解に対して、補助関数は異なる。

以下、本実施形態に従ったＣＡＴベースの分解法及びＣＭＬＬＲベースの分解法が説明される。しかしながら、本実施形態のアプローチにおいて、任意の最尤ベースの分解法（maximum-likelihood based factorization method）を使用することができる。

一実施形態において、ＣＡＴベースの分解（CAT based factorization）は、アペンディックスにおいて説明されるように、教師無し話者表現分解（unsupervised speaker and expression factorization）のために使用される。この実施形態において、学習発話Ｅ＝｛ｅ_１，ｅ_２，…，ｅ_ｋ｝の特定のパーティションについて、補助関数（詳細に関してはアペンディックスを参照）は、次のように表すことができる。

ここで、十分統計量（sufficient statistics）は、次のようである。
ここで、γ_t ^(m)は、時刻ｔにおけるコンポーネントｍの占有確率（occupancy probability）であり、μ^(m,1)は、バイアス・クラスターからのコンポーネントｍの平均ベクトルである。

教師無しＳＥＦにおいて、学習データのパーティション
及びこのパーティションに関連する表現依存ＣＡＴ重みベクトル
は、補助関数が最大化されるように見出される。

一実施形態において、これはｋ型アルゴリズム（k-style algorithm）を使用して行われる。クラスター（つまり、学習データのパーティション）及び重みベクトルは、同時に計算される。Ｋ−ｍｅａｎｓ法クラスタリング（K-means clustering）は、当技術分野において周知であり、計算が割り当てステップ及び更新ステップに分割されることを述べることは別として、ここではＫ−ｍｅａｎｓ法クラスタリングの詳細は説明されない。

割り当てステップにおいて、次の基準を用いて、表現クラスターｅ（ｉ）がそれぞれの発話ｉに割り当てられる。

更新ステップにおいて、表現ＣＡＴ重みベクトル
は、次の式を用いて再計算される。

割り当てステップ及び更新ステップは、収束するまで繰り返し実行される。

この実施形態において、表現クラスタリングは、話者ファクターが明確に取り除かれるＳＥＦの補助関数に基づく；したがって、話者に依存しない表現クラスタリングを達成することができる。表現クラスタリング及びＣＡＴ重みベクトル推定は、最尤基準に基づいた単一のプロセスへ統合される。また、学習プロセスに矛盾（inconsistency）は存在しない。また、複数話者データを扱う場合には、表現クラスタリングの結果は、話者ファクターに影響されない。話者情報は、表現クラスタリング・プロセスから明確に分離される。

図２〜図９のフローチャートを参照して、この実施形態に従った学習の方法が説明される。

図２のステップＳ４０１において、複数のオーディオ音声の入力が受信される。この実施形態において、ニュートラルな表現（neutral expression）によりすべての話者について、及び、異なる表現で話す何人かの話者について、オーディオ音声（audio speech）が受信される。この実例となる例では、４人の話者が使用される。

次に、ステップＳ４０３において、それぞれがニュートラルな表現で話す４人の声（voices）のそれぞれごとに、音響モデルが学習され生成される。この実施形態において、４つのモデルはそれぞれ一つの声からのデータを使用して学習されるだけである。図３のフローチャートを参照して、Ｓ４０３がより詳細に説明される。

図３のステップＳ３０３において、４人の声のそれぞれごとに、音響モデルが学習され生成される。この実施形態において、４つのモデルはそれぞれ一つの声からのデータを使用して学習されるだけである。

図３のステップＳ３０５において、クラスターＰの個数が、Ｖ＋１にセットされる。ここで、Ｖは、声の個数（４）である。

ステップＳ３０７において、一つのクラスター（クラスター１）が、バイアス・クラスターとして決定される。バイアス・クラスターのための決定木（decision trees）と、関連するクラスター平均ベクトル（cluster mean vectors）は、ステップＳ３０３において最良のモデルを生成した声を使用して初期化される。この例では、それぞれの声は、タグ「声Ａ」、「声Ｂ」、「声Ｃ」及び「声Ｄ」を与えられる。ここで、声Ａが最良のモデルを生成したものと仮定する。共分散行列、マルチ空間確率分布（multi-space probability distributions）（ＭＳＤ）に関する空間重み、及び、構造を共有しているそれらのパラメータもまた、声Ａモデルのそれらに初期化される。

それぞれの二分決定木（binary decision tree）は、すべてのコンテキストを表す単一のルート・ノードから始まる局所的最適化法で構築される。この実施形態において、コンテキストによって、次のベースが使用される；音声ベース、言語ベース、韻律ベース。それぞれのノードが作成されるとともに、コンテキストに関する次の最適な質問が選択される。いずれの質問が尤度の最大の増加をもたらすか及び学習例において生成される終端ノードに基づいて、質問が選択される。このプロセスは、アペンディックス中の図２６を参照して詳細に説明される。

ステップＳ３０９において、クラスター２，…，Ｐのそれぞれに特定の声タグ（voice tag）が割り当てられる。例えば、クラスター２，３，４及び５が、それぞれ話者Ｂ、Ｃ、Ｄ及びＡに対する。声Ａがバイアス・クラスターを初期化するのに用いられたので、それは初期化されるべき最後のクラスターに割り当てられることに留意されるべきである。

ステップＳ３１１において、ＣＡＴ補間重みのセットは、割り当てられた声タグ（voice tag）に従って、以下のように単に１又は０にセットされる。
この具体例では、ストリームごと話者ごとに大域的な重み（global weights）が存在する。

ステップＳ３１３において、各々のクラスター２,…,（Ｐ−１）について順番に、以下のようにクラスターが初期化される。関連する声（voice）のための声データ（例えば、クラスター２のための声Ｂ）は、ステップＳ３０３で学習される関連する声のための単一話者モデルを使用して、調整（aligned）される。これらの調整を所与として、統計値が計算され、そして、クラスターのための決定木及び平均値が推定される。クラスターのための平均値は、ステップＳ３１１でセットされた重みを使用して、クラスター平均の正規化された加重和（normalised weighted sum）として、計算される。すなわち、実際には、これは、所与のコンテキストに関する平均値（そのコンテキストに関するバイアス・クラスターの平均の加重和（いずれの場合も重み１）である）、そして、クラスター２におけるそのコンテキストに関する声Ｂモデルの平均をもたらす。

それから、ステップＳ３１５において、全４つの声からのすべてのデータを使用して、バイアス・クラスターのために決定木が再構築され、関連する平均及び分散パラメータが再推定される。

声Ｂ、Ｃ及びＤのためのクラスターを加えた後に、バイアス・クラスターは、同時に全４つの声を使用して、再推定される。

ステップＳ３１７において、他のクラスターについては、ステップＳ３１３で説明されたように、声Ａだけからのデータを使用して、クラスターＰ（声Ａ）が初期化される。

各クラスターが上記のように初期化されたならば、その後、ＣＡＴモデルは、以下のように、更新され／学習される。

ステップＳ３１９において、ＣＡＴ重みが固定された状態で、クラスター１からＰまで、１クラスターずつ、決定木が再構成される。ステップＳ３２１において、新たな平均及び分散がＣＡＴモデルで推定される。次に、ステップＳ３２３において、各クラスターごとに、新たなＣＡＴ重みが推定される。一つの実施形態では、該プロセスは、収束するまでＳ３２１へループバックする。パラメータ及び重みは、上記パラメータのより良い推定を得るために、バウム・ウェルチ・アルゴリズム（Baum-Welch algorithm）の補助関数を用いて実行される最尤計算を使用して、推定される。

前述のように、パラメータは反復プロセスにより推定される。

更なる実施態様では、ステップＳ３２３において、それぞれの繰り返しの間で決定木が再構成されるように、該プロセスは収束するまでステップＳ３１９へループバックする。

その後、プロセスは図２のステップＳ４０５に戻り、そこで、表現のためにモデルが学習される。この実施形態において、ステップＳ４０３における話者の声のモデリングについて説明されたものと同じ方法で、クラスター適応学習（ＣＡＴ）を用いて、話者の声における表現がモデリングされる。しかしながら、話者の声と異なり、表現情報は学習データにおいてラベル付けされていない。

最初に、ステップＳ４０５において「表現クラスター」（expression clusters）が初期化される。これは、図４を参照して詳細に説明される。

そして、話者のうちの少なくとも１人（ここで、その話者の声は、表現のある（expressive）ものである）についてデータが収集される。ちょうど１人の話者（ここで、その話者は多数のデータ・サンプルを提供し、それぞれが異なる表現を表出する）又は異なる表現で音声データ・サンプルを提供する複数の話者からデータを収集することは可能である。この実施形態において、表現を表出するようにシステムを学習するために提供される音声サンプルは、ステップＳ４０３における初期ＣＡＴモデル（initial CAT model）を学習するためにそのデータが収集された話者から発せられることが仮定されるであろう。

ステップＳ４５３において、表現クラスターが初期化される。一実施形態において、これは、いわゆる教師有り話者表現分解（supervised speaker and expression factorization）とともに自動表現クラスタリングのプロセスを使用して行われる。一実施形態において、音響特徴ベースのクラスタリングが使用される。しかしながら、他の方法又はクラスタリングも使用し得る。音響特徴ベースのクラスタリングにおいて、それぞれの音声ベクトルは、音響特徴ベクトルとして表わされ、クラスタリングは、特徴ベクトルの距離メジャーメントに基づく基準に従って実行される。一実施形態において、学習発話Ｕ＝｛ｕ_１，ｕ_２，．．．，ｕ_ｎ｝は、次の基準に従って、表現クラスターＥ＝｛ｅ_１，ｅ_２，．．．，ｅ_ｋ｝へグルーピングされる。
ここで、ｖ_ｊは、発話ｊから抽出された音響特徴であり、ｃ_ｉは、クラスターｉからの平均値である。

これらの自動クラスタリングの結果を話者ラベルとして使用して、話者表現分解が実行される。それぞれの表現ラベルごとの表現依存パラメータ（それらは学習データの尤度を最大化する）が判定される。すなわち、次のようである。

ステップＳ４５５において、初期表現部分空間（initial expression subspace）において教師無し分解が実行される。すなわち、ステップＳ４５３において決定される初期表現クラスターＥ及び表現依存ＣＡＴ重みベクトルΛ^ｅ（Ｅ）が、式１に入力される。表現クラスター及び表現依存重みベクトルは、上記の式６−７に関して説明されたＫ−ｍｅａｎｓ型クラスタリング（k-means style clustering）を使用して同時に再計算される。

次に、ステップＳ４５７において、それぞれの表現クラスターごとに、決定木が構築される。最後に、ステップＳ４５９において、データのすべてに基づいて、重みが再推定される。

上で説明されたように表現クラスターが初期化された後に、ステップＳ４０７において、すべてのクラスター（バイアス、話者及び表現）について、ガウス平均及び分散が再評価される。

ステップＳ４０９において、一実施形態では、表現クラスターは、一定に保持される。また、それらが式１０を満たすように、表現クラスターのための重みが再推定される。他の実施形態では、それらが式１を満たすように、表現重み及びクラスターの両方が同時に再推定される。いずれの実施形態においても、その後、ステップＳ４１１において決定木が再計算される。次に、プロセスはステップＳ４０７にループバックし、モデル・パラメータが、続いてステップＳ４０９において重み又は重み及びクラスターが、続いてステップＳ４１１において決定木の再構築が、収束まで実行される。一実施形態において、ループＳ４０７−Ｓ４１１は数回繰り返される。

次に、ステップＳ４１３では、すべてのクラスター（バイアス、話者及び表現）について、モデル分散及び平均が再評価される。ステップＳ４１５において、話者クラスターについて、重みが再推定され、ステップＳ４１７において、決定木が再構築される。その後、そのプロセスはステップＳ４１３にループする。また、このループは収束まで繰り返される。その後、そのプロセスはステップＳ４０７にループする。また、表現に関するループが収束まで繰り返される。両方のループについて一緒に収束に到達するまで、そのプロセスは継続する。

上記の実施形態では、表現ＣＡＴ重み及びクラスター・モデルが学習された後に、話者ＣＡＴ重みベクトル及びクラスター・モデルが同様の方法で再評価される。しかしながら、計算のための時間が制限される場合、このステップはスキップすることができる。この実施形態において、プロセスは次のステップを含む。
１．選択されたニュートラルな音声を使用して、話者クラスター・モデルを構築し、収束するまで、話者決定木、話者ＣＡＴ重みベクトル及び話者クラスター・モデルを繰り返し更新する。
２．音響特徴ベースの表現クラスタリングを使用して、学習音声（training speech）をＰＥ個のクラスターにグルーピングする（ここで、ＰＥは、表現ＣＡＴ重みベクトルの次元である）。
３．話者ＣＡＴ重みベクトルを固定しておく。
それぞれの表現クラスターごとに、ＣＡＴ重みをを、そのクラスターについて１にセットし、他のものについて０にセットする。
４．それぞれの表現クラスターのための決定木を構築する。
５．それぞれの個別の表現状態（expression state）ごとに、式１０に基づいて、表現ＣＡＴ重みベクトルを再評価する。
６．すべてのクラスターについて、クラスター・モデル・パラメータを更新する。
７．収束するまで、４へ進む。
８．それぞれの発話ｉについて、表現統計（expression statistics）Ｘ_EE ⁽ⁱ⁾、Ｘ_ES ⁽ⁱ⁾及びｙ_E ⁽ⁱ⁾を、式２のように蓄積（accumulate）する。
９．Ｋ−ｍｅａｎｓ型クラスタリング、ＭＬ基準に基づく表現クラスタリング及び表現ＣＡＴ重み推定を再度行う。
１０．それぞれの表現クラスターについて、決定木を再構築する。
１１．固定された話者ＣＡＴ重みベクトルを使って、表現ＣＡＴ重みベクトルを再評価する。
１２．すべてのクラスターについて、クラスター・モデル・パラメータを更新する。
１３．収束するまで、１０へ進む。

上で説明された学習プロセスにおいて、ステップ２−７は、表現クラスタリングに教師有りＳＥＦを加えたプロセスを実行する。このプロセスは、初期表現空間（initial expression space）を構築する。また、ステップ８において、この初期表現空間に基づいて、教師無しＳＥＦに関する十分統計量が蓄積される。最後に、ステップ９〜１３において、教師無しＳＥＦ学習が実行される。

他の実施形態において、教師無しＳＥＦは、ＣＭＬＬＲベースの分解（CMLLR based factorization）を使用して実行される。この実施形態において、補助関数、式４９（アペンディックスを参照）は、次のようになる。

ここで、ｓ(i)は発話ｉの話者インデックスである。Ｐ^(m,s(i))及びμ^(m,s(i))は、それぞれ、話者依存変換（speaker dependent transforms）Ａ_s ^s(i)により変換されるガウシアン・コンポーネントｍの精度行列（precision matrix）及び平均ベクトルである。すなわち、次のようである。

十分統計量β（ｉ），ｋ_E（ｉ，ｌ），Ｇ_E（ｉ，ｌ，ｎ）は、以下のように定義される。

前述のＣＡＴベースの分解と類似して、補助関数が最大化されるように、表現に従った学習データのパーティション
及びこのパーティションに関連するＣＭＬＬＲ変換
を見出すように、Ｋ−ｍｅａｎｓ型アルゴリズム（k-means style algorithm）を実行することができる。

割り当てステップにおいて、それぞれの発話ｉについて、表現クラスターｅ（ｉ）は、以下によって、それに割り当てられる。

更新ステップにおいて、それぞれの表現クラスターのためのＣＭＬＬＲは、以下のように推定することができる。

ここで、αは、二次方程式の根である。

図５のフローチャートを参照して、この実施形態に従った学習の方法が説明される。

ステップＳ１００１において、複数のオーディオ音声の入力が受信される。

この実施形態において、ニュートラルな表現による複数の話者について、及び、異なる表現で話す何人かの話者について、オーディオ音声が受信される。

次に、ステップＳ１００３において、学習データをすべて使用して、音響モデルが学習される。この音響モデルは規範的モデル（canonical model）になる。この方法で規範的モデルを学習することは、当技術分野において周知であり、ここでは説明されない。

ステップＳ１００７において、ニュートラルな表現で話すそれぞれの声ごとに、ＣＭＬＬＲ変換が評価される。これは、アペンディックスで式６１−６８に関して説明される。

ステップＳ１００９において、表現クラスターが初期化される。一実施形態において、これは、教師有り話者表現分解（supervised speaker speaker and expression factorization）の技法を使用して行われる。これは、式９に関して上で説明された自動表現クラスタリング（automatic expression clustering）を含む。このような方法で、一旦、表現クラスターが決定されたならば、初期表現ＣＭＬＬＲ変換（initial expression CMLLR transforms）は、アペンディックスにおいて式６１〜６８に関して標準ＣＭＬＬＲ技法（standard CMLLR technique）を使用して推定される。

ステップＳ１０１１において、教師無し話者表現分解が実行される。表現クラスタリング及びＣＭＬＬＲ表現変換（expression clustering and CMLLR expression transforms）は、式１を使用して同時に評価される。

ステップ１０１３において、式６１−６８を使用して、話者変換（speaker transforms）が再評価される。

次に、そのプロセスはステップＳ１０１１にループバックし、このループは収束まで繰り返される。一実施形態において、ループＳ１０１１−Ｓ１０１３は数回繰り返される。

次に、ステップＳ１０１５において、規範的モデルが再学習される。

そのプロセスはステップＳ１０１１にループし、このループは収束まで繰り返される。その後、ループＳ１０１１−１０１５は数回繰り返される。

他の実施形態において、モデルを学習するためにＣＡＴとＣＭＬＬＲの組み合せが使用される。

一例として、我々は、表現をモデリングするためにＣＡＴが使用され、話者をモデリングするためにＣＭＬＬＲが使用されるケースについて説明する。しかしながら、この実施形態に従って逆の組み合せもまた可能である。

この例において、補助関数は、次のようになる。

再び、教師無しＳＥＦのパラメータ推定を実行するために、Ｋ−ｍｅａｎｓ型アルゴリズムが使用される。割り当てステップにおいて、それぞれの発話ｉについて、表現クラスターｅ（ｉ）は、以下によって、それに割り当てられる。

更新ステップにおいて、それぞれの表現クラスターのための表現ＣＡＴ重みベクトルは、以下を使用して、再計算される。

図６のフローチャートを参照して、この実施形態に従った学習の方法が説明される。

ステップＳ１１０１において、複数のオーディオ音声の入力が受信される。この実施形態において、ニュートラルな表現によりすべての話者について、及び、異なる表現で話す何人かの話者について、オーディオ音声が受信される。

次に、ステップＳ１１０３において、ニュートラルな表現で話す話者からの学習データをすべて使用して、音響モデルが学習される。この音響モデルは規範的モデルになる。

ステップＳ１１０７において、ニュートラルな表現で話すすべての声について、ＣＭＬＬＲ変換が評価される。これは、アペンディックスにおいて式６１〜６８に関して記述される方法に従って実行される。

ステップＳ１１０９において、表現クラスターが初期化される。これは、図４のフローチャートに関して記述された方法に従って進行する。

一実施形態では、ステップＳ１１１１において、初期化された表現クラスターは、一定に保持され、表現クラスターのためのＣＡＴ重みは、式１０を満たすように再推定される。他の実施形態では、ステップＳ１１１１において、表現重み及びクラスターの両方が、式１を満たすように同時に再推定される。いずれの実施形態においても、その後、ステップＳ１１１３において、決定木が再計算される。次に、そのプロセスはステップＳ１１１１にループし、モデル・パラメータを評価するプロセスが、続いてステップＳ１１１３において決定木を再構築することが、収束まで実行される。一実施形態において、ループＳ１１１１−Ｓ１１１３は数回繰り返される。

次に、ステップＳ１１１５では、ＣＭＬＬＲ話者変換が再計算される。その後、そのプロセスはステップＳ１１１１にループする。一実施形態において、ループＳ１１１１−Ｓ１１１５は数回繰り返される。

上で、我々は、分解（factorization）の３つの方法を使用する実施形態について説明した：ＣＡＴ、ＣＭＬＬＲ、そして、ＣＡＴとＣＭＬＬＲの組み合せ。しかしながら、教師無しＳＥＦの方法は、最尤ベースの分解の任意の方法に適用することができる。以下、一般的な場合が説明される。

一般的な最尤分解（maximum-likelihood factorization）の補助関数は、次のように表すことができる。

ここで、Γ_S及びΓ_Eは、それぞれ、話者依存パラメータ及び表現依存パラメータを表す。Γ_S及びΓ_Eのフォームは、異なるタイプのモデルに対して、異なるであろう。例えば、ＣＡＴについては、それらはＣＡＴ重みベクトルである。ＣＭＬＬＲについては、それらは、ＣＭＬＬＲ変換であり、前述の両方の方法の組み合せについては、Γ_Sは、ＣＭＬＬＲ変換であり、Γ_Eは、ＣＡＴ重みベクトルである。Φ^(m)は、コンポーネントｍのためのパラメータである。Φ^(m)は、ＣＡＴ法における平均ベクトル行列及び共分散行列からなる。しかしながら、ノーマルＨＭＭについては、それは平均ベクトル及び共分散行列を含む。そして、式２８は、以下のように記述することができる。

ここで、Δ_E(i,Γ_S)は、表現推定のための発話ｉの十分統計量である。前述のＣＡＴ法において、十分統計量は、Ｘ_EE ⁽ⁱ⁾、Ｘ_ES ⁽ⁱ⁾及びｙ_E ⁽ⁱ⁾であった。ＣＭＬＬＲのケースにおいて、それらは、β（ｉ），ｋ_E（ｉ，ｌ），Ｇ_E（ｉ，ｌ，ｎ）により与えられた。ＣＭＬＬＲとＣＡＴの組み合せにおいては、前述のように、それらは、Ｘ_E ⁽ⁱ⁾及びＺ_E ⁽ⁱ⁾になる。話者ファクターがΔ_E(i,Γ_S)の計算から明示的に取り除かれる必要があるので、Δ_E(i,Γ_S)は、話者依存パラメータΓ_Sの関数であることに、留意されるべきである。

この一般的な実施形態では、Ｋ−ｍｅａｎｓ型アルゴリズムは以下のように記述することができる。

割り当てステップにおいて、表現クラスターｅ（ｉ）は、以下のように、それぞれの発話ｉに割り当てられる。

上記の実施形態のフレームワークは、一般的であり、最尤基準による分解の様々な技法を使用してインプリメントすることができる。上で与えられた例は、話者表現分解に関連するが、一実施形態において、２より多いファクター（例えば、ノイズ環境、話者及び表現）により同じ技法が使用される。３つのファクターを使う実施形態において、ＣＡＴベースの分解は、次の表現を用いて、達成することができる。

ここで、Ｎはノイズ環境を示す。

そして、この実施形態において、補助方程式、式４９は、次のように書き直すことができる。

ここで、λ_N ⁽ⁱ⁾は、ノイズのためのＣＡＴ重みベクトルである。

一実施形態において、その後、表現パラメータは、上で詳しく説明されたＫ−ｍｅａｎｓ型アルゴリズムを使用して評価される。

前述の一実施形態において、音声データにおける表現情報はラベル付けされていないのに対して、話者データはラベル付けされている。一実施形態において、しかしながら、２以上の音声ファクターがラベル付けされていなくても良い。例えば、話者と表現の両方がラベル付けされていなくても良い。

話者と表現がラベル付けされていない場合、話者変形及び表現変換を同時に推定することはできない。代わりに、それらは反復する方法で更新される必要がある。

この実施形態において、表現クラスタリング及び表現依存パラメータは、補助関数、式２を使用して同時に計算される。話者クラスタリング及び話者依存パラメータを計算するための対応する式は、次のようである。

図７に、話者と表現の両方についてラベル付けされていない音声データによりシステムが提供される場合の実施形態に従ったモデルのフローチャートが示される。この図は、話者及び表現データの両方の分解へのＣＡＴアプローチに対応する。しかしながら、本実施形態に従ってＣＭＬＬＲ又はＭＬ基準に基づく他のアプローチを使用するもでき得る。

ステップＳ１２０１において、複数のオーディオ音声の入力が受信される。この実施形態において、ニュートラルな表現によりすべての話者について、及び、異なる表現で話す何人かの話者について、オーディオ音声が受信される。

Ｓ１２０３において、話者クラスターが初期化される。図８に、話者クラスター初期化のためのフローチャートが示される。ステップＳ１３０５において、初期話者クラスターＳ＝｛ｓ_１，ｓ_２，…，ｓ_ｋ｝を得るために、自動クラスタリング法が使用される。話者情報が未知の場合、それぞれの学習発話に話者ＩＤを自動的に割り当てるために、自動話者適応法（automatic speaker adaptation methods）が使用される。自動話者クラスタリング法は、非常に多くあり、当技術分野において周知である。一例において、クラスタリングは、次の式で定義される音声ベクトルの距離尺度に基づいて実行される。

ステップＳ１３０７において、話者クラスターのうちの１つが、バイアス・クラスターとして割り当てられる。

ステップ１３０９において、声タグ（voice tag）がクラスターのそれぞれに割り当てられる。バイアス・クラスターを初期化するために使用される話者クラスターに対応する声タグは、初期化される最後のクラスターに割り当てられる。

ステップＳ１３１１−Ｓ１３２５は、図３のステップＳ３１１−Ｓ３２５のように進行する。

さて、図７に戻って、図４で説明されたように、ステップＳ１２０５において、話者クラスター及びパラメータは一定に保持され、表現クラスターが初期化される。

表現クラスターが初期化された後に、ステップＳ１２０７において、すべてのクラスター（バイアス、話者及び表現）のために、ガウス平均及び分散が再評価される。

一実施形態では、ステップＳ１２０９において、表現及び話者クラスターは、一定に保持され、表現クラスターのための重みは、式１０を使用して再推定される。他の実施形態では、話者クラスターは、一定に保持され、一方、表現重み及びクラスターの両方が式１を使用して同時に再推定さる。これは、式２を最大化することを含む。

いずれの実施形態においても、ステップＳ１２１１において、決定木が再計算される。

次に、プロセスはＳ１２０７へループバックし、モデル・パラメータが、続いてステップＳ１２０９において表現重みが、続いてステップＳ１２１１において決定木の再構築が、収束まで実行される。一実施形態において、ループＳ１２０７−Ｓ１２０９は数回繰り返される。

次に、ステップＳ１２１３において、すべてのクラスター（バイアス、話者及び表現）のために、モデルの分散及び平均が再評価される。ステップＳ１２１５において、話者クラスターのために、重み及び／又はクラスターが再推定され、ステップＳ１２１７において、決定木が再構築される。表現クラスター及び変換は、一定に保持され、新たな話者クラスター及び変換を得るために、式３４が最大化される。

その後、そのプロセスはステップＳ１２１３にループする。また、このループは収束まで繰り返される。その後、そのプロセスはステップＳ１２０７にループする。また、表現に関するループが収束まで繰り返される。両方のループについて一緒に収束に到達するまで、そのプロセスは継続する。

次に、図９を参照して、一実施形態に従って学習されるシステムによるテキスト音声合成が説明される。

図９は、一実施形態に従って学習されるテキスト音声合成システムのプロセスのフローチャートである。

ステップＳ２０１において、テキストが入力される。テキストは、キーボード、タッチ・スクリーン、テキスト予測機能又は同様のものを介して入力されても良い。

そして、ステップＳ２０３において、テキストは、音響単位のシーケンスに変換される。これらの音響単位は、音素又は書記素であっても良い。該単位は、コンテキスト依存（例えば、選択された音素に加えて先行する音素及び後続する音素も考慮に入れるトライフォン）であっても良い。該テキストは、当該技術において周知の（本明細書では更に説明されない）技法を使用して、音響単位のシーケンスに変換される。

ステップＳ２０４において、所望の話者が選択される。

ステップＳ２０６において、所望の表現が選択される。

表現及び話者の選択は、多くの方法で実行され得る。これは、図１１〜図２１に関して下で説明される。

ステップＳ２０７において、システムは、アクセス可能な方法で記憶される平均及び分散を検索する。

ステップＳ２０９において、システムは、所望の話者及び属性（attribute）のためのパラメータを検索する。ＣＡＴ学習されたシステムの場合には、これが、平均及び分散のための重みを含むであろう。ＣＭＬＬＲ学習されたシステムでは、これが、規範的モデルの平均及び分散のための変換を含むであろう。ステップＳ２０７において、平均が検索される前又は後に、話者及び属性依存パラメータが検索され得ることは、当業者に認識されるであろう。

したがって、ステップＳ２０９の後、話者及び属性依存の平均を得ること（すなわち、ス平均を使用し、パラメータを適用して）が可能であり、そして、これらは、テップＳ２１１で音響モデルの中で使用される。そして、ステップＳ２１３において、その音声が出力される。

学習データがラベル付けされているケースでは、適切な話者又は表現は、モデルを学習するために使用される話者及び／又は表現から直接に選択することができる。これは、話者変換又はクラスター重みが、話者及び表現の学習について、既知であるからである。例えば、これは、図１０に示されるようなユーザ・インターフェースを介して行われても良い。ここで、ディスプレイ２５３は、選択ユニット（selecting unit）２５１により選択され得る種々の表現を示す。種々の話者を選択するために、同様のユーザ・インターフェースを使用し得る。他のディスプレイ方式が使用され得ることは当業者により認識されるであろう。

しかしながら、学習データ中の表現及び／又は話者情報がラベル付けされていないケースでは、適切な変換又はクラスター重みが話者及び／又は表現についてラベル付けされていないので、そのようなアプローチは可能ではない。モデルがそのために学習されていない新しい話者又は新しい表現が望まれれば、これはさらにそうである。

一実施形態において、話者及び表現の選択は、ユーザ・インターフェースを介してマニュアルで実行される。図１１のユーザ・インターフェースにおいて、ユーザは、例えば、スクリーン上のポイントをドラッグ・アンド・ドロップするためのマウス、図を入力するためのキーボードなどを使用して、話者又は表現依存のパラメータを直接選択する。図１１では、マウス、キーボード又は同種のものを含む選択ユニット２５１は、ディスプレイ２５３を使用して、パラメータを選択する。この例では、ディスプレイ２５３は、２つのレーダー・チャート（表現用に一つ、パラメータを示す声用に一つ）を有する。ユーザは、様々な（ラベル付けされていない）クラスターに対応するパラメータの間で変更するために、選択ユニット２５１を使用することができる。ＣＡＴ学習方法において、パラメータがクラスター重みである場合、この選択ユニットでは、レーダー・チャートにより各クラスターの重要度（dominance）のパターンを様々に変更できる。ＣＭＬＬＲ学習方法において、パラメータが話者及び表現変換である場合、選択ユニットでは、種々な変換パターンを選択できる。他の表示方法が使用されても良いことは当業者により認識されるであろう。

他の実施形態において、特定の話者又は表現のためのＣＭＬＬＲ変換又はＣＡＴクラスター重みは、ラベル付けされている適応データにモデルを適応させることによって、得なければならない。

ここで留意すべきは、モデルを学習するのに必要な学習データの量が非常に多いことである。したがって、学習データにラベル付けするのは難しくまた高くつく（expensive）かもしれない。しかしながら、適応の場合は、必要なデータ量は小さいため、そのラベル付けも安く済む。新たな話者について、話者適応を実行するためには、少量のニュートラルな音声さえあればよく、その一方で、適応データから抽出される表現情報は、任意の新たな話者により共有することができる。

一実施形態において、所望の話者又は表現を選択するために、適応データが入力される。一実施形態において、適応データはオーディオ・データを含む。

図１２は、オーディオ・データとともに提供される既知の話者及び／又は表現に適応するシステムの一例を示す。最初に、ステップ５０１で、入力対象となる適応オーディオ・データ（input target adaptation audio data）が受信される。

システムが表現に適応しているならば、オーディオ・データの話者がモデルの学習のために使用された話者のうちの１人でない限り、ニュートラルな感情で話す話者のサンプルも入力される必要がある。しかしながら、留意すべきことは、オーディオ表現データの話者が、合成音声の出力のための所望の話者に対応する必要がないことである；表現データは、話者データとは無関係に、ある話者から他の話者に「移植」（transplanted）され得る。これは下で詳細に説明される。

次に、規範的モデルのＣＡＴ重み、すなわち、前に学習されたクラスターの重み、又は、ＣＭＬＬＲ変換は、必要に応じて、ステップ５０３において、対象となる適応データに最もマッチするように、調整される。このプロセスは、適応データの尤度を最大化することを含む。話者クラスター重みは、ニュートラルなオーディオ・データの話者にマッチするように調整される。そして、感情クラスター重みは、表現データにマッチするように適応される。

他の実施形態において、図１３を参照して説明されるように、オーディオ適応データへのＣＡＴモデルの適応が進行し得る。

図１２にあるように、最初に、ステップＳ６０１において、対象となる声が受信され、対象となる表現で話す声についてデータが収集される。最初に、ステップＳ６０３において、ニュートラルな話者クラスターのための重みが、対象となる声に最もマッチするように、調整される。

そして、ステップＳ６０７において、新たな表現クラスターが、対象となる表現のための既存の表現クラスターに加えられる。次に、ステップＳ６０９において、ステップＳ４５５から進んで図４に関して説明されたように、新たなクラスターのための決定木が初期化される。そして、ステップＳ６１１において、図２に関して説明されたように、すべてのクラスターのために、重み、モデル・パラメータ及び木が、再推定及び再構築される。

システムにより生成され得る任意の話者の声は、対象となる表現により出力することができる。同様に、システムにより生成され得る任意の表現は、対象となる話者の声で出力することができる。

ここで留意すべきは、モデルが適応した話者又は表現が、モデルがそのために学習された話者又は表現であることができ、又は、それが新たな話者又は表現であり得ることである。

一実施形態に従って学習されたシステムは、次の合成が実行されることを可能にする。
１．任意の話者の声は、その声に対応する最終的な話者パラメータ・セットと、任意の属性（例えば、システムがそのために図１３又は図１４に関して上で説明された適応方法に従って適応された表現などのような）とを組み合わせて使用して、合成することができる。
したがって、話者１のために「喜び」（happy）のデータだけが存在するケースにおいて、もしシステムが他の声のうちの少なくとも一つのための「怒り」（angry）のデータに適応したならば、システムが「怒り表現」（angry expression）で話者１の声を出力することが可能である。
２．ＣＡＴにより学習されたシステムでは、任意の位置に重みベクトルをセットすることによって、ＣＡＴモデルにより広げられた（spanned）音響空間からランダムな声を合成することができ、また、任意のモデルが適応した属性を、この新たな声に適用することができる。
３．システムはまた、２つ以上の異なる属性をもつ声を出力するために使用され得る。
例えば、話者の声が、２つの異なる属性（例えば、表現及びアクセント（訛り））で出力され得る。

例えばアクセント（訛り）と表現のような、組み合わせることができる複数の異なる属性をモデリングするために、上で式３２に関して説明されたように、組み合わせられる２つの異なる属性が合体される（incorporated）。

そのようなアレンジメントにおいて、一つのクラスター・セットは、異なる話者のためのものであり、他のクラスター・セットは、表現のためのものであり、最後のクラスター・セットは、ノイズのためのものであろう。一実施形態において、ＣＡＴ分解が使用される。図２を参照して、表現クラスターは、図４を参照して説明されたように、初期化され、ノイズ・クラスターもまた、表現に関して図４を参照して説明されたような追加のクラスター・グループとして初期化されるであろう。図２において、話者を学習するための個別のループ、それから、表現を学習するための個別のループが存在する。声が、例えばノイズと表現のような２つのコンポーネントを有するならば、ノイズのための個別のループ及び表現のための個別のループが存在するであろう。

上記の実施形態のフレームワークは、モデルが一緒に学習され適応されることを可能にし、それにより、可制御性（controllability）及び生成された音声の品質の両方を向上させる。上記のものはまた、適応又は学習データのレンジに関する必要条件をより緩やかにすることを可能にする。例えば、図１４に示される適応データ構成（adaptation data configuration）を使用し得る。ここで、次が存在する。
３人の女性話者 − ｆｓ１，ｆｓ２，及び，ｆｓ３
３人の男性話者 − ｍｓ１，ｍｓ２，及び，ｍｓ３
ｆｓ１とｆｓ２は、アメリカ訛り（American accent）を有し、ニュートラルな表現（neutral expression）で発話が記録される。ｆｓ３は、中国訛り（Chinese accent）を有し、３ロットのデータについて発話が記録される。ここで、１つのデータセットはニュートラルな表現を示し、１つのデータセットは喜びの表現（happy expression）を示し、１つのデータセットは怒りの表現（angry expression）を示す。
男性話者ｍｓ１は、アメリカ訛りを有し、ただニュートラルな表現で発話が記録され、男性話者ｍｓ２は、スコットランド訛り（Scottish accent）を有し、怒り、喜び、悲しみの表現により３つのデータセットについて記録される。
第３の男性話者ｍｓ３は、中国訛りを有し、ニュートラルな表現で発話が記録される。
上記のシステムは、訛り（accent）と表現の記録された組み合せのうちの任意のものにより、そして、６人の話者の声のうちの任意のものにより、声データが出力されることを可能にする。

一実施形態において、クラスターのために使用されるデータのグルーピングが、それぞれの声特性（voice characteristic）について固有（unique）になるように、声属性と話者との間にオーバーラップが存在する。

図１５は、話者の声と表現とがどのように関連付けられるかについて可視化するのに役立つプロットを示す。図１５のプロットは３次元で示されるが、より高い次元数に拡張することができる。

話者は、ｚ軸に沿ってプロットされる。この単純化されたプロットにおいて、話者重みは、一次元として実際上定義される。軸の対応する番号の上で表わされた２以上の話者重みが有り得る。

表現は、ｘ−ｙ平面上に表わされる。ｙ軸に沿った表現１及びｘ軸に沿った表現２で、怒り（怒っている）及び悲しみ（悲しい）に対応する重みが示される。このアレンジメントを使用して、「怒っている」話者ａ及び「悲しい」話者ｂに必要な重みを生成することが可能である。新たな表現又は属性に対応するｘ−ｙ平面上のポイントを得ることによって、どのように新たな表現又は属性を既存の話者に適用することができるかが理解できる。

図１６は、音響空間を参照して上で説明された原理を示す。変換を視覚化することを可能にするために、ここでは、２次元の音響空間が示される。しかしながら、実際上、音響空間は、多数の次元に拡張するであろう。

表現ＣＡＴモデルでは、所与の表現のための平均ベクトルは、次のようである。

ここで、μ_xprは、表現ｘｐｒで話す話者を表わす平均ベクトルであり、λ_k ^xprは、表現ｘｐｒのためのコンポーネントｋのためのＣＡＴ重みであり、μ_kは、コンポーネントｋのコンポーネントｋ平均ベクトルである。

表現依存である唯一の部分は、重みである。したがって、２つの異なる表現（ｘｐｒ１及びｘｐｒ２）の間の差は、ちょうど、平均ベクトルのシフトである。

これは図１６に示される。

したがって、表現２の特性（ｘｐｒ２）を異なる話者の声（Ｓｐｋ２）へ移植する（port）ためには、Ｓｐｋ２のための話者モデルの平均ベクトルに適切なΔを加えることで十分である。この場合、適切なΔは話者から得られる。ここで、データは、ｘｐｒ２で話すこの話者のために利用可能である。この話者は、Ｓｐｋ１と呼ばれるであろう。Δは、所望の表現ｘｐｒ２で話すＳｐｋ１の平均ベクトルと、表現ｘｐｒで話すＳｐｋ１の平均ベクトルとの間の差として、Ｓｐｋ１から得られる。表現ｘｐｒは、話者１及び話者２の両方に共通の表現である。例えば、ニュートラルな表現のためのデータがＳｐｋ１とＳｐｋ２の両方のために利用可能である場合、ｘｐｒはニュートラルな表現であり得る。しかしながら、それは、両方の話者にマッチする又は厳密に（closely）マッチする任意の表現であり得る。一実施形態において、Ｓｐｋ１とＳｐｋ２に厳密にマッチする表現を判定するために、話者のために利用可能である異なる表現のためにＳｐｋ１とＳｐｋ２との間で距離関数（distance function）を構築することができ、また、距離関数は最小化され得る。距離関数は、ユークリッド距離（euclidean distance）、バタチャリヤ距離（Bhattacharyya distance）又はカルバック・ライブラー距離（Kullback-Leibler distance）から選択されても良い。

そして、下で示されるように、適切なΔが、Ｓｐｋ２のための最もマッチする平均ベクトルに加えられても良い。

上記の例は、ＣＡＴベースの技法を主として使用したが、原理上は、Δを識別することは、異なるタイプの表現が出力されることを可能にする任意のタイプの統計モデルに適用することができる。

図１７は、一実施形態に従った合成ステップにおいて教師有り適応（supervised adaptation）がどのように実行されるかについて示す。合成発話のための表現情報は、生来（naturally）、表現音声（expressive speech）であった表現適応データ１７４から抽出される。この実施形態において、表現適応データは、図１７中の「話者１」としてラベル付けされている学習話者のうちの１人からであり、したがって、話者ＣＡＴ重みは既知である。話者ＣＡＴ重み１７５を所与として、表現適応データは、表現適応データの尤度を最大化するために、表現ＣＡＴ重みベクトル１７５に関連する表現空間におけるポイント１７２に投影される。そして、生成された表現ＣＡＴ重みは、異なる話者にわたって共有される。図１７に示されるように、新たな話者「話者２」（ニュートラルな音声１７７だけがそれについて提供される）のために、話者適応データの尤度を最大化する話者空間におけるポイント１７３を見つけるために、話者適応が実行される。最後に、表現ＣＡＴ重み１７５は、「話者１」からのデータと同じ表現をもつ「話者２」のための合成発話１７９を生成するために、話者ＣＡＴ重み１７８で連結される（１７６）。

他の実施形態において、ＳＥＦは、多重次元連続空間（multi-dimension continuous space）において或るテキストデータ・ポイントを或るポイントにマッピングするためのプロセスとして見做されるテキスト音声合成システムに対して表現的テキストを学習する部分として使用される。

図１８を参照して学習が説明される。学習データ２６３は、テキストとテキスト入力に対応する音声（speech）とにより提供される。

学習データ２６３におけるそれぞれの発話（utterance）が固有の表現情報を含むと仮定する。この固有の表現情報は、音声データから判定することが可能であり、また、同様に、音声のトランスクリプション（すなわち、テキストのデータ）から読み取ることも可能である。学習データでは、スピーチ文（speech sentences）とテキスト文（text sentences）が図１８で示すように同時に起こる。

学習データ中のそれぞれのテキスト文を、表現言語特徴ベクトル（expressive linguistic feature vector）と呼ばれるベクトルに変換する「表現言語特徴抽出（expressive linguistic feature extraction）」ブロック２６５が、提供される。

表現言語特徴抽出ブロック２６５によって任意のテキスト文を言語特徴として変換することができ、そして、すべての有り得る表現言語特徴が、表現言語空間（expressive linguistic space）と呼ばれる第１の空間２５５を構成する。学習文（training sentence）のそれぞれのトランスクリプションは、この表現言語空間における点と考えることができる。表現言語特徴ベクトルは、テキスト文における感情の情報をキャッチするはずである。

学習の間、テキストから表現言語特徴を抽出するだけでなく、それぞれのスピーチ文を、表現合成特徴ベクトル（expressive synthesis feature vector）と呼ばれるベクトルに変換する「表現合成特徴抽出（expressive synthesis feature extraction）」ブロック２５７が、提供される。

「表現合成特徴抽出」ブロック２５７によって任意のスピーチ文を表現合成特徴として変換することができ、そして、すべての有り得る表現合成特徴が、表現合成空間（expressive synthesis space）２５９を構成する。表現合成特徴に要求されることは、それが、オリジナルのスピーチ文の固有の表現情報をキャッチするということである；一方、この表現情報は、合成プロセスにおいて再生することができる。

学習データのトランスクリプションからの言語特徴及び学習スピーチ文からの合成特徴を所与として、この実施態様に従った方法及びシステムは、言語特徴空間２５５における言語特徴ベクトルを合成特徴空間２５９における合成特徴ベクトルに変換するための変換２６１を学習する。

合成ステージでは、「表現言語特徴抽出」ブロック２６５が、合成されるべきテキストを、言語特徴空間２５５中の言語特徴ベクトルに変換し、そして、変換ブロック２６１により、言語特徴が、表現合成空間２５９中の合成特徴にマッピングされる。この合成特徴ベクトルは、オリジナルのテキストのデータにおける感情の情報を含み、また、直接、表現音声（expressive speech）を合成するために、シンセサイザーにより用ることができる。

一実施態様において、機械学習方法（例えば、ニューラル・ネットワーク（ＮＮ））は、変換ブロック２６１を提供し、そして、表現言語空間２５５から表現合成空間２５９への変換を学習するために用いられる。学習データ２６３中のそれぞれの文ごとに、合成特徴空間２５９中の表現合成特徴ベクトルを生成するために、音声データが用いられ、また、言語特徴空間２５５中の表現言語特徴を生成するために、音声データのトランスクリプションが用いられる。言語特徴空間から合成特徴空間へのマッピングを学習するために、ＮＮの入力である学習データの言語特徴と対象となる出力である学習データの合成特徴とを使用して、ＮＮのパラメータを更新することができる。

「言語特徴抽出」ブロック２６５は、テキストデータを言語特徴ベクトルに変換する。この特徴ベクトルは、区別となる情報を含まなければならない。すなわち、２つのテキストデータが異なる感情を含むならば、それらの言語特徴は、言語特徴空間において区別できなければならない。

一実施態様において、言語特徴を生成するためにバッグオブワーズ（Bag-of-word）（BoW）技法が用いられる。ＢｏＷ方法は、テキストデータを単語頻度のベクトルとして表す。ベクトルの次元は語彙のサイズと等しく、それぞれの要素は語彙中の特定の単語の頻度を含む。様々な十分に開発されたＢｏＷ技法、例えば、潜在的意味解析（latent semantic analysis）（ＬＳＡ）、確率的潜在的意味解析（probabilistic latent semantic analysis）（ｐＬＳＡ）、潜在的ディリクレ配分法（latent Dirichlet allocation）（ＬＤＡ）などが、適用可能である。これらの技法によって、その次元が語彙サイズに等しいオリジナルの単語頻度ベクトルは、非常に低い次元に圧縮（compacted）することができる。

更なる実施態様では、より正確にテキストデータ中の感情の情報をモデル化するために、テキストデータからの異なるレベルの知識が言語特徴の生成に使用される。

一実施態様では、単語レベル情報だけでなく、より低いレベルの情報（例えば、フルコンテキスト・フォン・シーケンス（full context phone sequence）など）及びより高いレベルの情報（例えば、品詞（ＰＯＳ）、ナレーションスタイルなど）も、言語特徴の生成に用いられる。

一実施態様において、異なるレベルからの情報を一緒に結合するために、図１９に示すような並列構造が使用される。並列構造では、異なるレベルの特徴が別々に抽出され、そして、該異なるレベルの特徴が変換ブロックのための入力である一つの大きいベクトルに連結される。

図１９は、一実施態様に従ったシステムにおいて使用され得る言語特徴を抽出するための並列構造を示す。ステップＳ５３０１において、テキストデータが単語頻度ベクトルに変換される。次に、ステップＳ５３０５において、単語頻度ベクトルを単語レベルの特徴ベクトルに変換するために、単位として単語をつかうＬＤＡモデル５３０３が使用される。ステップＳ５３０５において、推論プロセスを通じて、変分事後ディリクレ・パラメータ（variantial posterior dirichlet parameters）が推定される。

同時に、ステップＳ５３０７において、テキストデータは、フルコンテキスト・フォン（full context phones）のシーケンスとして変換される。Ｓ５３１１において、このフルコンテキスト・フォン・シーケンスは、単位としてフルコンテキスト・フォンをつかうＬＤＡモデル３０９を使用して、フルコンテキスト・フォン・レベルの特徴ベクトルに変換される。

その後、Ｓ５３１３において、言語特徴ベクトルを生成するために、単語レベルの特徴ベクトル及びフルコンテキスト・フォン・レベルの特徴ベクトルが、言語特徴として連結される。

図１９は、言語特徴を抽出する方法の一例を表すのに用いられる。更なる実施態様では、ハイレベル知識（例えばＰＯＳなど）、ナレーションスタイル及びテキストデータからの他の有益な情報を、言語特徴に統合することができる。

さらに、ＬＤＡ以外のＢｏＷ方法も言語特徴を抽出するために同様に用いることができる。

異なるレベルの情報から判定された言語特徴はまた階層構造を使用して同様に結合することができる。そのような階層構造の一つの実施態様において、異なるレベルの知識による言語特徴は、図２０に示すように、カスケードのＮＮをもつシステムに組み込まれる。

図２０において、言語特徴１と言語特徴２は、異なるレベルの知識から判定される言語特徴（例えば、単語レベルの特徴、フルコンテキスト・フォン・レベルの特徴など）を表す。

ＮＮ１の入力３５１として特徴１が使用される。そして、出力３５７において音響特性を生成するために、ＮＮ１の出力３５３が、ＮＮ２の入力３５５である特徴２と結合される。

図１８に戻って、音声データの表現情報を表すために、表現合成特徴抽出ブロック２５７が用いられる。話者依存音響空間２５９中のそれぞれの点は、音声における固有の表現の情報を表す。

一実施形態において、上で説明されたテキスト音声合成システムは、音声に表現を導入するために、「表現重み」（expression weights）を使用する。図１８〜２０を参照して上で説明された表現抽出部（expression deriving section）は、これらの表現依存の重みを直接出力することができる。

これは、表現力依存のＨＭＭパラメータ（expressiveness dependent HMM parameters）がクラスター・モデルの直線補間として表わされることを可能にし、また、表現力の情報を表わすために、それぞれのクラスターＨＭＭモデルごとの補間重みが使用される。

したがって、学習データはグループに分類することができ、そして、グループ依存のＣＡＴ重みは、このグループにおけるすべての学習文を使用して推定することができる。Ｎ個の学習文がＭ固のグループに分類されるならば（Ｍ<<Ｎ）、学習データは、ＣＡＴ重み空間におけるＭ個の点として表すことができる。

一実施態様において、言語特徴を合成特徴にマッピングする変換として使用されるＮＮ及び話者依存音響空間を構成するために使用されるＣＡＴモデルを、一緒に学習することができる。統合学習プロセスは以下のように記述することができる。
１．初期規範的モデルＭ０及びすべての学習文のためのＣＡＴ重みからなる初期ＣＡＴ重みΛ₀を生成するために、話者表現分解を用いて、ＣＡＴモデル学習を初期化し、また、繰り返し番号ｉ＝０にセットする。
２．学習文の表現言語特徴及び学習文のＣＡＴ重みセットΛ_iが所与として、繰り返しｉのためのＮＮ（すなわち、ＮＮ_i）は、最小二乗誤差基準を使用して学習される。
これは、言語空間から音響空間への話者依存のマッピングがそれぞれの話者ごとに学習されるように、各話者ごとに個々になされる。
３．入力として学習文の表現言語特徴を使用して、ＮＮ_iは、学習文の出力ＣＡＴ重みセットＯ_iを生成する。
これは、それぞれの話者からのそれぞれの発話ごとになされる。
４Λ_i+1＝Ｏ_i．学習データの尤度を最大化するように、所与のΛ_i+1がＣＡＴ規範的モデルＭ_i+1を再学習する。
５ｉ＝ｉ＋１．アルゴリズムが収束したならば、６へ進む。そうでなければ、２に進む。
６．終了
上記のプロセスによってＮＮ及びＣＡＴモデルが一緒に更新され、それは合成ステージにおけるパフォーマンスを向上させることができる。

上記の学習方法（該学習方法において、マッピングは、それぞれの話者のために個々に学習される）は、異なる話者が異なる方法で同じ感情を表わし得ることを可能にする。しかしながら、初期規範的モデルを生成するために使用される話者表現分解のために、１人の話者からの音声データにより学習されたマッピングにより得られる表現合成ベクトルは、図１４〜１７に関して上で説明されたように使用して、他の話者に移植され得る。

他の実施形態において、話者共通言語空間（speaker independent linguistic space）の音響空間へのマッピングは、上記のステップ２で学習される。これは、すべての話者に共通するＮＮを学習するために、異なる話者のためのすべての学習サンプルをマージすることを含む。

この統合学習プロセスは、ＮＮ及びＣＡＴモデルに制限されない。一般に、ＮＮ以外の、言語特徴空間から合成特徴空間への変換、及び、ＣＡＴ以外の、合成特徴空間を構成する方法は、同一のフレームワークにおける統合学習を使用してアップデートすることができる。例えば、ＣＭＬＬＲとともに統合学習プロセス（joint training process）を使用することができ得る。

上記のステップ１において使用される話者表現分解は、教師無し又は教師有り話者表現分解を含んでも良い。一実施形態に従った前述の教師無し話者表現分解は、学習データのラベル付けを要求せず、また更に、多重話者データに対処する場合に、表現クラスタリングの結果が話者ファクターに影響されないことを保証する。したがって、教師無しＳＥＦにより生成される表現クラスターは、話者から完全に独立しており（話者に共通であり）（completely independent）、また、１人の話者の音響空間から他の話者の音響空間への表現の有効な移植を可能にする。このプロセスは下で詳細に説明される。

上記は、システムのための学習を説明した。

これから図２１を参照してテキスト音声合成が説明される。

図２１に示される合成システムは、学習に関して説明されたような、表現言語空間４０３におけるダイアログ・セクション（dialogue section）により生成されるレスポンスから表現特徴ベクトルを抽出する表現言語特徴抽出ブロック４０１を含む。合成ステージにおいてこのベクトルを抽出する方法は、学習ステージで説明されたプロセスと同一である。

そして、表現特徴ベクトルは、変換ブロック４０５によって、表現合成空間４０７における表現合成ベクトルにマッピングされる。この表現合成空間は、表現マッピングがそのために学習された話者の音響空間の部分を形成する。変換ブロック４０５は、先に述べたように学習された。

そして、判定された表現合成ベクトルが、シンセサイザー４０９である出力音声（output speech）の統合において使用される。一実施形態において、それは、最初に、他の話者４１１の音響空間に移植される。この実施形態は以下で説明される。先に述べたように、一実施態様では、変換ブロック４０５は、表現言語特徴ベクトルを、話者依存音響空間４０７中のＣＡＴ重みに直接マッピングする。

ここで留意すべきは、モデルを学習するためにＳＥＦを使用する場合に、話者依存の音響空間が、話者空間及び表現空間に分割されることである。上で説明された話者依存の音響空間は、表現マッピングがそのために学習された話者の音響空間である。しかしながら、話者表現分解（ＳＥＦ）を使用して、モデルが学習されたので、このように決定される表現合成ベクトルは、話者に共通である（independent）。したがって、一実施形態において、第２の話者の声がテキストから予測された表現により合成され得るように、それは、第２の話者の音響空間に移植され得る。したがって、表現は、或る話者から他の話者に移植され得る。移植のプロセスは、上で図１４−１７に関して説明された。

ＳＥＦを使用する学習により構築された言語空間及び表現合成空間の両方は、話者共通（speaker independent）である。しかしながら、話者空間、及び、言語空間と表現合成空間との間のマッピングを構築する非線形変換は、話者共通でない。したがって、合成ステップにおいて、話者共通の言語特徴、及び、第１の話者の話者データを使用して学習された非線形変換を使用して、我々は、表現予測を使用して第１の話者の表現合成空間におけるポイントを得る。そして、ＳＥＦを使用して学習されたモデルにおいて、表現空間は話者共通であるので、この表現は、第２の話者に移植することができる。従って、第２の話者は、第１の話者と同じスタイルでテキストを読むことができる。

一実施態様に従った方法において、特別な学習データを準備する必要はなく、学習データの評価を人間のインタラクションに要求する必要はない。さらに、合成すべきテキストは、直接、言語特徴ベクトルに変換される。この言語特徴ベクトルは、単一の感情ＩＤより非常に多くの感情の情報を含む。変換ブロックは、言語特徴ベクトルを、同一の感情をもつ表現合成特徴に変換する。さらに、この合成特徴は、オリジナルのテキストデータ中と同一の感情をもつ音声を合成するために使用することができる。

表現合成特徴空間において、それぞれの学習文が固有の合成特徴ベクトルに関係するならば、それぞれの文における固有の感情の情報が、変換（例えばＮＮ）により学習される。それは、合成のための非常に豊富な感情資源（very rich emotion resources）をユーザに提供することができる。

一実施態様に従った方法において、特別な学習データを準備する必要はなく、学習データの評価を人間のインタラクションに要求する必要はない。さらに、合成すべきテキストは、直接、言語特徴ベクトルに変換される。この言語特徴ベクトルは、単一の感情ＩＤより非常に多くの感情の情報を含む。変換ブロックは、言語特徴ベクトルを、同一の感情をもつ表現合成特徴に変換する。さらに、この合成特徴は、複数の話者によりオリジナルのテキストデータ中と同一の感情をもつ音声を合成するために使用することができる。

表現合成特徴空間において、それぞれの学習文が固有の合成特徴ベクトルに関係するならば、それぞれの文における固有の感情の情報が、変換（例えばＮＮ）により学習される。それは、合成のための非常に豊富な感情資源をユーザに提供することができる。

合成特徴空間における学習文は、グループに分類することができ、また、一つのグループにおけるすべての学習文は、感情の情報を共有する。この方法によって、学習する必要があるパターンの数が削減されるので、変換の学習が改善される。したがって、推定される変換は、よりロバストであることができる。文ベースの合成特徴又はグループ・ベースの合成特徴を選択すること、学習データのためのグループの数を調整することは、本発明の実施態様に従った方法においてより簡単に合成パフォーマンスのための表現力とロバスト性との間のバランスを取り得る。

上記の方法において、硬判定感情認識（hard decision emotion recognition）を避けることができ、そして、これはエラーを低減するであろう。ＮＮの有り得る出力は、無数にある。それは、提案方法が、潜在的に、合成のための異なる感情に関係する無数の異なる合成特徴を生成することができることを意味する。さらに、上記の方法は、簡単に表現力とロバスト性との間のバランスを取ることができる。

上記の合成プロセスにおいて、テキストデータの感情の情報は、既知であるか又は人間若しくは他のソースにより明確に認識される必要はない。学習は、完全に自動である。

上記の実施態様では、空間におけるあらゆる点が表現音声合成システム（expressive speech synthesis system）のためのパラメータを定義するように、多次元連続表現音声合成空間（multi-dimensional continuous expressive speech synthesis space）が定義される。また、テキスト特徴を表現空間中の点にマッピングし、そして、表現音声合成プロセスのためのパラメータを定義することができるプロセスが、学習される。

ＣＡＴ分解法を使用する、教師無し話者表現分解（ＳＥＦ）の方法を説明するために、ラベル付けされていない表現情報をもつ４つのオーディオブックからの２８時間の学習データを使用して、この方法を使用して、２つのシステムが学習された。１つのシステムは、教師有りＳＥＦが別々に後続する音響特徴に基づいた自動表現クラスタリングによる従来のモデルによって学習された。他のシステムは、一実施形態に従った教師無しＳＥＦ方法を使用して、学習された。ここでは、表現クラスタリング及びＳＥＦは単一のプロセスへ結合される。両システムにより生成される音声を比較するＡＢＸテストが実行された。ＡＢＸテストは、当技術分野において周知である。リスナーは、合成声のうちのいずれが、最も基準の人間の声のように聞こえたかを選択することを要求された。そのテストは、モデルの学習のために使用する話者及びテスト話者の両方を使用して実行された。学習話者のためのＡＢＸテストの結果は、テーブル１に示される。また、テスト話者のためのＡＢＸテストの結果は、テーブル２に示される。

ここで、パーセンテージは、声を選んだリスナーのパーセンテージを示し、Ｐは、ｐ値を示す。ｐ値は、当技術分野において周知であり、ここでは説明されない。０．０２５未満のｐ値は、有意差を示す。

実験結果は、教師有りＳＥＦの従来方法よりも提案方法が、かなりパフォーマンスが優れていることを示す。

上記の実施形態に従う方法及びシステムは、表現音声合成、テキスト音声合成、電子ブック読み上げ、音声翻訳（speech to speech translation）又は音声が使用され得る任意の他の状況（situation）の一部として使用されても良い。

ある実施形態は記述されているが、これらの実施形態は例のみ経由で示されており、発明の範囲を制限するようには意図されない。確かに、ここに記述された新しい方法およびシステムは様々な他の形式で具体化されるかもしれない；更に、ここに記述された方法とシステムの形をしている様々な省略、置換および変更は発明の精神から外れずになされるかもしれない。付属のは要求する。また、それらの均等物は、発明の範囲および趣旨以内にあるだろうように、そのような形式あるいは修正をカバーするように意図される。

［アペンディックス］
図２２は、テキスト音声合成システム１を示す。テキスト音声合成システム１は、プログラム５を実行するプロセッサ３を含む。テキスト音声合成システム１は、記憶装置７を更に含む。記憶装置７は、テキストを音声に変換するプログラム５により使用されるデータを記憶する。テキスト音声合成システム１は、入力モジュール１１及び出力モジュール１３を更に含む。入力モジュール１１は、テキスト入力１５に接続される。テキスト入力１５は、テキストを受ける。テキスト入力１５は、例えば、キーボードであっても良い。あるいは、テキスト入力１５は、外部記憶媒体又はネットワークから、テキストデータを受信するための手段であっても良い。一実施形態において、上記システムは、表現抽出部を更に含む。この表現抽出部の役割は、図１８−２１に関して説明される。

出力モジュール１３に接続されるのは、音声用出力１７である。音声出力（オーディオ出力）１７は、テキスト入力１５へ入力されるテキストから変換された音声信号を出力するために使用される。音声出力１７は、例えば、直接の音声出力（例えば、スピーカ）であっても良いし、又は、記憶媒体、ネットワークなどに送信され得るオーディオ・データ・ファイル用の出力であっても良い。

使用するときは、テキスト音声合成システム１は、テキスト入力１５を通してテキストを受け取る。プロセッサ３上で実行されるプログラム５は、記憶装置７に記憶されたデータを使用して、テキストを音声データに変換する。音声は、出力モジュール１３を介して音声出力１７へ出力される。

これから図２３を参照して単純化したプロセスが説明される。最初のステップＳ１０１において、テキストが入力される。テキストは、キーボード、タッチ・スクリーン、テキスト予測機能又は同様のものを介して入力されても良い。その後、テキストは、音響単位のシーケンスに変換される。これらの音響単位は、音素又は書記素であっても良い。該単位は、コンテキスト依存（例えば、選択された音素に加えて先行する音素及び後続する音素も考慮に入れるトライフォン）であっても良い。該テキストは、当該技術において周知の（本明細書では更に説明されない）技法を使用して、音響単位のシーケンスに変換される。

Ｓ１０５において、音響単位を音声パラメータに関連付ける確率分布が検索される。この実施形態において、確率分布は、平均及び分散により定義されるガウス分布であることがある。例えばポアソン分布、スチューデントｔ分布、ラプラス分布又はガンマ分布のような他の分布を使用することが可能であるが、それらのうちの幾つかは、平均及び分散とは異なる変数により定義される。

各々の音響単位が、音声ベクトル又は当該技術の専門用語を使用する「観測（observation）」に対して明確な一対一の対応を有することはとても有り得ない。多くの音響単位は、類似する方法で発音され、また、周囲の音響単位によって、或いは、単語若しくは文におけるそれらの位置によって、影響を受け、又は、異なる話者（speakers）により異なった風に発音される。したがって、各々の音響単位は、音声ベクトルに関連付けられる確率を有するのみであり、また、テキスト音声合成システムは、多くの確率を計算して、音響単位のシーケンスを与えられた複数の観測のうち、最も起こり得るシーケンスを選択する。

ガウス分布は図２４に示される。図２４は、音声ベクトルに関係する音響単位の確率分布であるものとして考えることができる。例えば、Ｘとして示された音声ベクトルは、図３に示される分布を有する音素又は他の音響単位に対応する確率Ｐ１を有する。

ガウス分布の形状及び位置は、その平均及び分散により定義される。これらのパラメータは、システムの学習の間に決定される。

その後、ステップＳ１０７において、これらのパラメータが音響モデルにおいて使用される。この説明において、音響モデルは、隠れマルコフモデル（ＨＭＭ）である。しかしながら、他のモデルを使用することもできる。

音声システムのテキストは、音響単位（すなわち、音素、書記素、単語又はその部分）を音声パラメータに関連付ける多数の確率密度関数を記憶する。ガウス分布が一般に使用されるように、これらは一般にガウシアン又はコンポーネントと呼ばれる。

隠れマルコフモデル又は他のタイプの音響モデルにおいて、特定の音響単位に関係するすべての可能性のある音声ベクトルの確率が考慮される必要がある。そして、その音響単位のシーケンスに最大の可能性をもって対応する音声ベクトルのシーケンスが考慮される。これは、二つの単位が互いに影響を及ぼす方法（way）を考慮に入れる、シーケンスのすべての音響単位にわたる、大域的最適化（global optimization）を意味する。その結果、複数の音響単位からなるシーケンスが考慮される場合に、特定の音響単位に対する最有望な音声ベクトルが最良の音声ベクトルにならないことがあり得る。

幾つかの実施形態においては、それぞれであろう複数の異なる状態が、ガウス分布を用いてモデル化されるであろう。例えば、一つの実施形態では、テキスト音声合成システムは、複数のストリームを含む。それらのようなストリームは、一つ又は複数のスペクトル・パラメータ（Spectrum）、基本周波数の対数（Log F₀）、Log F₀の一次微分（Delta Log F₀）、Log F₀の二次微分（Delta-Delta Log F₀）、バンド非周期性パラメータ（Band aperiodicity parameters）（BAP）、継続期間（duration）などから選択されても良い。ストリームはまた、クラス（例えば、無音（silence）（sil）、短いポーズ（short pause）（pau）及び音声（speech）（spe）など）に更に分けられても良い。一つの実施形態では、ストリーム及びクラスのそれぞれからのデータは、ＨＭＭを使用してモデル化される。ＨＭＭは、異なる数の状態を含んでも良い。例えば、一つの実施形態において、上記のストリーム及びクラスのうちの一部からのデータをモデル化するために、５状態ＨＭＭ（5 state HMMs）が用いられても良い。ガウシアン・コンポーネントは、各ＨＭＭ状態ごとに決定される。

音声ベクトルのシーケンスが決定されると、ステップＳ１０９において、音声が出力される。

図２５は、テキスト音声合成システムで用いる音響モデルを学習するためのシステムを示す。図２５のシステムは、図２２を参照して説明されたそれに類似している。したがって、不要な繰り返しを回避するために、同等の特徴を示すために同等の参照番号が使用される。

図２２を参照して記述された特徴に加えて、図２５は、音声入力２４及び音声入力モジュール２２を更に含む。システムを学習する場合に、テキスト入力１５を介して入力されているテキストにマッチする音声入力を有することが必要である。

隠れマルコフモデル（ＨＭＭ）に基づく音声処理システムにおいて、ＨＭＭはしばしば次のように表現される。

ここで、Ａは状態遷移確率分布であり、次のようである。

また、Ｂは状態出力確率分布であり、次のようである。

また、Πは初期状態確率分布であり、次のようである。

ここで、Ｎは、ＨＭＭにおける状態の数である。

テキスト音声合成システムにおいてＨＭＭがどのように使用されるかについては、当該技術では周知であり、ここでは説明されない。

以下で説明される実施形態において、状態遷移確率分散Ａ及び初期状態確率分布は、当該技術において周知の手続きに従って決定される。したがって、この説明の残りは、状態出力確率分布に関係している。

従来のテキスト音声合成システムを学習する場合の目標は、所与の観測シーケンスのための尤度を最大化するモデル・パラメータ・セットを推定することである。

一般に、テキスト音声合成システムにおいて、モデルセットＭにおける第ｍ番目のガウシアン・コンポーネントからの状態出力ベクトル又は音声ベクトルｏ（ｔ）は、次のようになる。

ここで、μ_ｍとΣ_ｍは、第ｍ番目のガウシアン・コンポーネントの平均と共分散である。

いわゆる最尤（ＭＬ）基準に純粋に分析的に基づいて上記のモデルセットを得ることは可能でないので、従来、その問題は、バウム・ウェルチ・アルゴリズムと大抵呼ばれる期待値最大化（ＥＭ）アルゴリズムとして知られている反復アプローチを使用することによって対処される。
ここで、次のような補助関数（“Ｑ”関数）が得られる。

ここで、γ_m（ｔ）は、観測ｏ（ｔ）を生成するコンポーネントｍの事後確率であり、現在のモデル・パラメータはＭ’、Ｍは新たなパラメータ・セットとする。各々の反復の後で、パラメータ・セットＭ’は、Ｑ（Ｍ，Ｍ’）を最大化する新たなパラメータ・セットＭと置き換えられる。ｐ（ｏ（ｔ），ｍ｜Ｍ）は、例えばＧＭＭ、ＨＭＭなどのような生成モデルである。

モデルは、例えば話者、表現又はノイズ環境のような音声データのファクター、又は他の何らかの音声データのファクターを組み込んでも良い。そして、モデルは、次の状態出力ベクトルをもつ。

ここで、ｍ∈｛１,.......,ＭＮ｝、ｔ∈｛１,.......,Ｔ｝、及び、ｓ∈｛１,.......,Ｓ｝は、それぞれ、コンポーネント、時間及び話者、又は表現、又はノイズ環境、又は音声データの何らかの他のファクターである。また、ＭＮ、Ｔ及びＳは、それぞれ、コンポーネント、フレーム及び話者（又は、表現、又はノイズ環境、又は音声データの何らかの他のファクター）の総数である。以下の説明では、音声ファクターが話者であると仮定されている。

の正確な形は、適用される表現依存変換に依存する。そのような話者依存のアプローチへの２つのアプローチが下で説明される。しかしながら、さらに、他のものも可能である。

クラスター適応学習（Cluster Adaptive Training）（ＣＡＴ）は、多様性のあるデータ（diverse data）を学習し合成するために効果を発揮するアプローチである。ＣＡＴは、もとは音声認識のために開発された。それは、統計的音声合成においてコンテキストの増加した重要性を支援するために修正された。

従来のＣＡＴ方法では、異なる話者は、クラスターへアレンジされたパラメータをモデリングするために重みを適用することによって適応される。個別の決定木は、各クラスターごとに使用される。これは、モデル・パラメータの数を著しく増加させずに、コンテキストの非常に微細な表現を可能にする、コンテキスト実現（context realisation）のためのモデルの交差するフォーム（intersect form）を生成する。

一つの実施形態では、木において使用される決定は、言語上の変動、音声上の変動又は韻律上の変動に基づく。一つの実施形態では、決定木は、クラスターのメンバーである各コンポーネントごとに存在する。韻律上のコンテキスト、音声上のコンテキスト及び言語上のコンテキストは、最終的な音声波形に影響を及ぼす。音声上のコンテキストは、典型的には、声道に影響を及ぼし、韻律上のコンテキスト（例えば音節）及び言語上のコンテキスト（例えば単語の品詞）は、例えば継続時間（リズム）および基本周波数（トーン）のような韻律に影響を及ぼす。それぞれのクラスターは、１又は複数のサブクラスターを含んでも良い。それぞれのサブクラスターは、それら決定木のうちの少なくとも一つを含む。

上記のものは、それぞれのサブクラスターごとの重み又はそれぞれのクラスターごとの重みベクトル（ここで、重みベクトルの要素は、それぞれのサブクラスターごとの重みである）を検索すると考えることができる。

以下の構成（configuration）は、標準的な実施形態を示す。このデータをモデル化するために、この実施形態では、５状態ＨＭＭが使用される。この例に関して、データは、無音、短いポーズ、音声の三つのクラスに分けられる。この特定の実施形態において、サブクラスターごとの決定木及び重みの割り当ては、次のとおりである。

この特定の実施形態では、クラスターごとに次のストリームが使用される。
Spectrum：１つのストリーム、５つの状態、状態ごとに１つの木×３クラス
LogF0：３つのストリーム、ストリームごとに５つの状態、状態及びストリームごとに、１つの木×３クラス
BAP：１つのストリーム、５つの状態、状態ごとに１つの木×３クラス
継続期間：１つのストリーム、５つの状態、１つの木×３クラス（各木は、すべての状態にわたって共有される）
合計：３×２６＝７８の決定木
上記に関して、次の重みが、声特性（voice characteristic）（例えば話者）ごとに、各々のストリームに適用される。
Spectrum：１つのストリーム、５つの状態、ストリームごとに１つの重み×３クラス
LogF0：３つのストリーム、ストリームごとに５つの状態、ストリームごとに１つの重み×３クラス
BAP：１つのストリーム、５つの状態、ストリームごとに１つの重み×３クラス
継続時間：１つのストリーム、５つの状態、状態及びストリームごとに１つの重み×３クラス
合計：３×１０＝３０の重み
この例で示されるように、異なる決定木（spectrum）に同一の重みを割り当てること、あるいは、同一の決定木（継続時間）に２以上の重みを割り当てること、又は、任意の他の組み合せが、可能である。本明細書で使用されるように、同一の重みが適用されるべき決定木は、サブクラスターを形成するために考慮される。

それぞれのクラスター・モデルは、ガウス分散がすべてのクラスターにわたって共有されるガウス平均パラメータ・セットを含む。

したがって、ＣＡＴモデルについて、以下のようである。

ここで、μ_ｃ(m,i)は、コンポーネントｍのためのクラスターＩの平均であり、ｖ（ｍ）∈｛１,.......,Ｖ｝は、コンポーネントｍの共分散行列が属する共分散決定木におけるリーフノードを示し、Ｖは、分散決定木のリーフノードの総数である。

式４３は、次のように書き直すことができる。

は、コンポーネントmのためのPクラスター平均ベクトルの行列である。したがって、ＣＡＴモデルでは、使用される平均ベクトルは、すべてのクラスター平均の直線補間である。

このフォームの表現を、表現状態のそれぞれによる重回帰クラスを含むように、拡張することは、単純である。回帰クラスは、当技術分野において周知であり、ここでは説明されない。

標準のＣＡＴアプローチと同様に、第１のクラスターは、バイアス・クラスターとして次のように指定される。

ＣＡＴモデルの学習は、３つの部分に分割することができる：クラスター・モデル学習、ＣＡＴ重み推定及び決定木構築。

このモデルのための補助関数は、次のように表すことができる。

ここで、Ｃは、Ｍとは独立した定数である。

したがって、上記のもの及び式１０に式５及び６を代入することを使用して、補助関数は、モデル・パラメータが３つの別個の部分に分割され得ることを示す。

最初の部分は、規範的モデルのパラメータ（つまり、話者非依存平均｛μ_n｝及び話者非依存共分散｛Σ_k｝）である。インデックスｎ及びｋは、後で説明される平均及び分散決定木のリーフノードを示す。第２の部分は、話者依存重みλ_i ^(s)である。ここで、ｓは話者を示し、ｉは、クラスター・インデックス・パラメータを示す。第３の部分は、話者依存クラスターμ_c(m,x)の平均である。

補助関数が上記の方法で表現されれば、それは、話者及び声特性パラメータ、話者依存パラメータ及び声特性依存パラメータのＭＬ値を得るために、各々の変数に関して順に最大化される。

ＣＡＴ学習の第１の部分を実行するために、クラスター・モデル・パラメータの推定、式４９の補助関数は、ガウシアン平均ベクトルμ_nに関して、以下のように微分される。

蓄積された統計量Ｇ_ij ^(m)及びｋ_i ^(m)は、次のようである。

導関数を０にセットして法線方向において式を最大化することによって、μ_nのＭＬ推定、すなわち、

について次の式が得られる。

μ_nのＭＬ推定はまた、μ_kに依存することに留意されるべきである（ここで、ｋはｎと等しくない）。インデックスｎは、平均ベクトルの判定木のリーフノードを表わすために用いられるのに対して、インデックスｋは、共分散決定木のリーフノードを表わす。したがって、収束するまですべてのμ_nにわたり繰り返すことによって最適化を実行することが必要である。

これは、次式を解くことによりすべてのμ_nを同時に最適化することによって実行することができる。

しかしながら、学習データが小さいか又はＮが非常に大きい場合、式１５の係数行列はフルランクを有することができない。この問題は、特異値分解又は他の良く知られた行列因数分解技法を用いることにより回避することができる。

その後、同じプロセスが、共分散のＭＬ推定を実行するために行われる。つまり、式４９に示される補助関数がΣ_kで微分され、次式が与えられる。

話者依存重み及び話者依存線形変換のためのＭＬ推定も、同じ方法で、つまり、ＭＬ推定が求められるパラメータに関して補助関数を微分し、そして、微分の値を０にセットすることで、得ることができる。

学習の第２の部分は、ＣＡＴ重みベクトルを推定することを含む。そして、λ^(s)に関して補助関数を微分し、０に等しいとして、次が与えられる。

ここで、μ_c(m,l)は、コンポーネントｍのためのバイアス・クラスターの平均ベクトルである。

そのプロセスは、繰り返し実行される。

ＣＡＴ学習モデルの第３の部分は、決定木の形成である。クラスター依存の決定木は、一つのクラスターごとに形成される。クラスターの決定木が形成されるとき、ツリー構造、ガウス平均ベクトル及び共分散行列を含む他のクラスターのパラメータは固定される。

各々の二分決定木は、すべてのコンテキストを表す単一のルート・ノードから始まる局所的最適化法で構築される。この実施形態において、コンテキストによって、次のベース（音声ベース、言語ベース、及び、韻律ベース）が使用される。各々のノードが作成されるとともに、コンテキストに関する次の最適な質問が選択される。いずれの質問が尤度の最大の増加をもたらすか及び学習例において生成される終端ノードに基づいて、質問が選択される。

その後、学習データに総尤度の最大の増加を提供するために、その最適の質問を用いて分割することができる終端ノードを発見するために、終端ノードのセットが検索される。この増加が閾値を越えるとすれば、該ノードは最適な質問を用いて分割され、２つの新たな終端ノードが作成される。更に分割しても、尤度分割に適用される閾値を越えないことにより、新たな終端ノードを形成することができない場合、そのプロセスは停止する。

このプロセスは例えば図２６に示される。

平均決定木中の第ｎ番目の終端ノードは、質問ｑにより２の新たな終端ノードｎ₊ ^q及びｎ_- ^qに分割される。この分割により達成される尤度の増加は、以下のように計算することができる。

ここで、Ｓ（ｎ）は、ノードｎに関連するコンポーネントのセットを示す。μ_nに関して不変である項は含まれない点に留意されるべきである。

決定木の形成は、一つのクラスターの木が構築されるときに他のクラスターのパラメータは固定されるという仮定に基づく。μ_nの最大尤度は式５３により与えられる。それゆえ、ノードｎの尤度は、次のように書き直すことができる。

したがって、ノードｎをｎ₊ ^q及びｎ_- ^qへ分割することにより得られる尤度は、次式により与えられる。

また、アルゴリズムを生成する決定木は、この関数を最大化する分割に従って、ノードを分割する。

したがって、上記を使用して、各々のクラスターの決定木を構築することは可能である。ここで、木は、最初に木において最適な質問が尋ねられ、分割の尤度に従う階層の順に決定が配列されるように、配列される。その後、重みが各々のクラスターに適用される。

また、決定木は、同様の原理を用いて、分散のために構築され得る。

制約付き最尤線形回帰（ＣＭＬＬＲ）は、複数の話者についてモデルを学習するための他の技法である。該モデルは、それぞれの話者ごとの観測ベクトルを規範的モデルのそれに関連付けるために、線形回帰の技法を使用することにより、異なる話者ごとに学習される。

モデルの学習は、学習データのすべてからのデータを使用して、最初に規範的モデルを学習することを含む。一実施形態において、これは標準の期待値最大化アルゴリズム（standard expectation-maximization algorithm）を使用して実行される。その後、ＣＭＬＬＲ変換パラメータが、個々の話者ごとに学習される。

ＣＭＬＬＲ変換パラメータは、規範的モデルの平均μ_m及び共分散Σ_mを変換する、１セットの話者依存の線形の変換Ｗ^(s)＝［ｂ^(s)TＡ^(s)T］^Tを含む。ここで、Ａ及びｂは、それぞれ、変換行列及びバイアス・ベクトルである。

これらの変換を用いて、観測ベクトルの確率は、次のように表すことができる。

ＣＭＬＬＲ変換パラメータＷを推定するために、最尤基準を用いて、次の補助関数が使用される。

ＣＭＬＬＲのパラメータ推定は、一列ずつ実行される。

ここで、ｃ_i ^(s)は、

の第ｉの列ベクトルの拡張されたコファクター列ベクトルであり、Ｘ_iは、目標ＣＭＬＬＲ変換とは独立した項である。対角共分散行列のケースにおいて、統計量β^(s)，Ｇ^(s)(i)及びｋ^(s)(i)は、以下のように定義される。

ｗ_i ^(s)に関して微分すると、次が与えられる。

ここで、αは、次の二次方程式の根である。

二次方程式について２つの根がある。最終的な解は、次の補助関数を最大化する解である。

いくつかのタスクについては、２以上のファクターを同時にモデリングすることが必要である。例えば、電子ブックの読み上げのための声の合成は、表現のある声による幾つかの声の合成を要求しても良い。しかしながら、表現学習データがすべての話者のために利用可能であるとは限らないかもしれないので、話者と表現のそれぞれの組み合せ又は表現のためのモデルを直接作成することは、しばしば実用的でない。

この問題への解決策は、複数の属性及び話者をもつ学習データを使用する場合、話者と表現を独立してモデリングする分解技法を使用することによって、提供される。分解技法は、ＣＡＴ、ＣＭＬＬＲ、ＣＡＴとＣＭＬＬＲの組み合せ又は他の最尤技法（maximum likelihood techniques）に基づくことができる。ＣＡＴ学習方法に基づいた話者表現分解（ＳＥＦ）は、話者及び表現情報の両方を表すためにＣＡＴ重みベクトルを使用することを含んでいる。すなわち、話者をモデリングするために、ＣＡＴ重みベクトルのいくつかの次元が使用され、一方、表現をモデリングするために、他の次元が使用される。ニュートラルな話者に対応するパラメータ及び表現に対応するパラメータは、個別のクラスターへアレンジされる。そして、式４３は、次のように書き直すことができる。

ここで、λ_s及びλ_eは、それぞれ、話者及び表現をモデリングするためのＣＡＴ重みベクトルである。Ｍ_s ^(m)及びＭ_e ^(m)は、それぞれ、表現ＣＡＴ重みベクトル及び話者ＣＡＴ重みベクトルに関連するコンポーネントｍのためのクラスター平均行列である。μ^(m,1)は、バイアス・クラスターにおけるコンポーネントｍのための平均ベクトルである。

ＳＥＦはまた、上で説明されたＣＭＬＬＲ学習フレームワーク内で実現することができる。アプローチは、２つの線形変換のカスケードを含んでいる。一つは、話者をモデル化することであり、他の一つは、表現をモデル化することである。すなわち、観察ベクトルは、次のような変換を受ける。

ＳＥＦはまた、ＣＡＴとＣＭＬＬＲを組み合わせることにより適用することができる。この場合、表現情報は、ＣＡＴ重みベクトルによってモデリングすることができ、一方、話者情報は、ＣＭＬＬＲ変換によってモデリングすることができる。したがって、観測ベクトルのための確率関数は、次のようになる。

あるいは、ＣＭＬＬＲは、表現をモデリングするために使用することができ、ＣＡＴ重みベクトルは、話者をモデリングするために使用することができる。そのケースにおいて、観測ベクトルのための確率関数は、次のようになる。

Claims

テキスト音声合成システムのための音響モデルを学習する方法において、
前記方法は、
音声データを受信することと、ここで、前記音声データは、第１の音声ファクターの異なる値に対応するデータを含み、更に、前記音声データは、音声データの所与のアイテムについて前記第１の音声ファクターが未知であるように、ラベル付けされておらず、
前記第１の音声ファクターの前記値に従って、前記音声データを、第１のクラスター・セットにクラスタリングすることと、
前記音響モデルが、前記第１の音声ファクターの前記異なる値の音声を表すことができるように、第１のパラメータ・セットを推定することを含み、
前記クラスタリング及び前記第１のパラメータの推定が、共通の最尤基準に従って一緒に実行される、方法。
前記第１のクラスター・セットのそれぞれのクラスターは、少なくとも一つのサブクラスターを含み、
前記第１のパラメータ・セットは、適用されるべき重みであり、サブクラスターごとに一つの重みが存在し、
前記重みは、前記第１の音声ファクターに依存する、請求項１に記載の方法。
前記第１のパラメータ・セットは、前記第１の音声ファクターに依存する制約付き尤度線形回帰変換である、請求項１に記載の方法。
前記第１の音声ファクターは、話者であり、
前記音声データは、ニュートラルな音声で話す１人又は複数人の話者からの音声データを更に含む、請求項１に記載の方法。
前記第１の音声ファクターは、表現である、請求項１に記載の方法。
受信された前記音声データに対応するテキストデータを受信することと、
第１の空間において構築される表現言語特徴ベクトルを形成するために、入力された前記テキストから表現特徴を抽出することと、
前記音声データから表現特徴を抽出し、第２の空間において構築される表現特徴合成ベクトルを形成することと、
機械学習アルゴリズムを学習することを更に含み、
前記機械学習アルゴリズムの学習の入力は、表現言語特徴ベクトルであり、前記機械学習アルゴリズムの学習の出力は、前記音声データ及び前記テキストデータに対応する表現特徴合成ベクトルである、請求項５に記載の方法。
前記音声データは、第２の音声ファクターの異なる値に対応するデータを更に含む、請求項１に記載の方法。
前記第２の音声ファクターの値は、未知であり、
前記方法は、
前記第２の音声ファクターの値に従って、前記音声データを、第２のクラスター・セットにクラスタリングすることと、
前記音響モデルが、前記第２の音声ファクターの前記異なる値の音声を表すことができるように、第２のパラメータ・セットを推定することを更に含み、
前記第１及び第２のパラメータ・セット並びに前記第１及び第２のクラスター・セットが、オーバーラップせず、
前記クラスタリング及び前記第２のパラメータの推定が、前記第２のパラメータの推定及び前記第２のクラスター・セットへのクラスタリングの両方に共通である単一の最尤基準に従って一緒に実行される、請求項７に記載の方法。
第２のクラスター・セットのそれぞれは、少なくとも一つのサブクラスターを含み、
前記第２のパラメータ・セットは、適用されるべき重みであり、サブクラスターごとに一つの重みが存在し、
前記重みは、前記第２の音声ファクターに依存する、請求項８に記載の方法。
前記第２のパラメータ・セットは、前記第２の音声ファクターに依存する制約付き尤度線形回帰変換である請求項８に記載の方法。
前記音声データは、第２の音声ファクターの異なる値に対応するデータを更に含み、
前記音響モデルを学習することは、
前記第２の音声ファクターの値に従って、前記音声データを、第２のクラスター・セットにクラスタリングすることと、
前記音響モデルが、前記第２の音声ファクターの前記異なる値の音声を表すことができるように、第２のパラメータ・セットを推定することを更に含み、
前記クラスタリング及び前記第２のパラメータの推定が、前記第２のパラメータの推定及び前記第２のクラスター・セットへのクラスタリングの両方に共通である単一の最尤基準に従って一緒に実行され、
前記第１及び第２のパラメータ・セット並びに前記第１及び第２のクラスター・セットが、オーバーラップしない、請求項４に記載の方法。
前記第２の音声ファクターは、表現である、請求項１１に記載の方法。
前記音響モデルは、前記音響ユニットを音声ベクトルのシーケンスに関連付ける確率分布関数を含む、請求項１に記載の方法。
音声ファクターの対象となる値を有する音声を出力するように構成されたテキスト音声合成方法において、
前記音声ファクターの対象となる値を有するオーディオ・データを入力することと、
前記音声ファクターの対象となる値に音響モデルを適応させることと、
テキストを入力することと、
入力された前記テキストを音響単位のシーケンスに分割することと、
前記音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換することと、
前記音声ファクターの対象となる値によるオーディオとして前記音声ベクトルのシーケンスを出力することを含み、
前記音響モデルは、前記音声ファクターに関係する音声ファクター・パラメータ・セット及び前記音声ファクターに関係する音声ファクター・クラスター・セットを含み、
所与の１又は複数のクラスター及び所与の１又は複数のパラメータについて、それらが関係する前記音声ファクターが未知であるように、前記音声ファクターに関係する前記音声ファクター・パラメータ・セット及び前記音声ファクター・クラスター・セットが、ラベル付けされていない、方法。
前記音声ファクターは、表現であり、
前記音響モデルは、話者に関係するパラメータ・セット及び話者に関係するクラスター・セットを含み、
前記表現パラメータ・セットと、前記話者パラメータ・セットと、前記表現クラスター・セットと、前記話者クラスター・セットとが、オーバーラップせず、
前記方法は、
第２の話者の音声とともに第１の話者の音声から得られる表現パラメータを使用することによって、第１の話者から第２の話者に表現を移植するように構成される、請求項１４に記載のテキスト音声合成方法。
テキスト音声合成方法において、前記方法は、
入力テキストを受信することと、
前記入力テキストを音響単位のシーケンスに分割することと、
音響モデルを使用して、前記音響単位のシーケンスを音響ベクトルのシーケンスに変換することと、ここで、前記音響モデルは、話者の声に関係する話者パラメータ・セット及び話者クラスター・セット並びに表現に関係する表現パラメータ・セット及び表現パラメータ・セットを含み、前記話者及び表現パラメータ・セット並びに前記話者及び表現クラスター・セットが、オーバーラップせず、
前記音声ベクトルをのシーケンスをオーディオとして出力することを含み、
前記方法は、
第１の空間において構築される表現言語特徴ベクトルを形成するために、前記入力テキストから表現特徴を抽出し、
前記表現言語特徴ベクトルを、第２の空間において構築される表現合成特徴ベクトルにマッピングすることによって、
表現に関係する前記パラメータのうちの少なくとも一部を判定することを更に含む、方法。
前記第２の空間は、第１の話者の前記音響空間であり、
前記方法は、前記表現合成特徴ベクトルを第２の話者の前記音響空間に移植するように構成される、請求項１６に記載の方法。
テキスト音声合成方法において、
入力テキストを受信することと、
前記入力テキストを音響単位のシーケンスに分割することと、
音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換することと、ここで、前記音響モデルは、請求項１２の方法を用いて学習される、
前記音声ベクトルのシーケンスをオーディオとして出力することを含み、
前記方法は、
第１の空間において構築される表現言語特徴ベクトルを形成するために、前記入力テキストから表現特徴を抽出し、
前記表現言語特徴ベクトルを、第２の空間において構築される表現合成特徴ベクトルにマッピングすることによって、
前記第２のパラメータのうちの少なくとも一部を判定することを更に含む、方法。
テキスト音声合成システムのための音響モデルを学習するためのシステムにおいて、前記システムは、
第１の音声ファクターの異なる値に対応する音声データを受信するための入力と、ここで、所定のデータ・アイテムについて、前記第１の音声ファクターの値が未知であるように、前記音声データは、ラベル付けされていない、
前記第１の音声ファクターの前記の値に従って前記音声データを第１のクラスター・セットにクラスタリングし、
前記音響モデルが、前記第１の音声ファクターの前記異なる値の音声を表すことができるように、第１のパラメータ・セットを推定する、
ように構成されたプロセッサとを含み、
前記クラスタリング及び前記第１のパラメータの推定は、前記第１のパラメータの推定及び前記第１のクラスター・セットへの前記クラスタリングの両方に共通の単一の最尤基準に従って、一緒に実行される、システム。
音声ファクターの対象となる値を有する音声を出力するように構成されるシステムにおいて、前記システムは、
前記音声ファクターの対象となる値を有する適応データを受信するための入力と、
テキストを受信するための入力と、
前記音声ファクターの対象となる値に音響モデルを適応させ、
前記入力テキストを音響単位のシーケンスに分割し、
前記音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換し、
前記音声ファクターの対象となる値によるオーディオとして前記音声ベクトルのシーケンスを出力する、
ように構成されたプロセッサとを含み、
前記音響モデルは、前記音声ファクターに関係する第１のパラメータ・セット及び前記音声ファクターに関係する第１のクラスター・セットを含み、
所与の１又は複数のクラスター及び所与の１又は複数のパラメータについて、前記第１の音声ファクターの前記値が未知であるように、前記音声ファクターに関係する前記第１のパラメータ・セット及び前記第１のクラスター・セットが、ラベル付けされていない、システム。
テキスト音声合成システムにおいて、前記システムは、
入力テキストを受信するための入力と、
前記入力テキストを音響単位のシーケンスに分割し、
音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換し、ここで、前記音響モデルは、話者の声に関係する第１のパラメータ・セット及び第１のクラスター・セット並びに、表現に関係する第２のパラメータ・セット及び第２のクラスター・セットを含み、前記第１及び第２のパラメータ・セット並びに前記第１及び第２のクラスター・セットは、オーバーラップせず、
前記音声ベクトルのシーケンスをオーディオとして出力し、
第１の空間において構築される表現言語特徴ベクトルを形成するために、前記入力テキストから表現特徴を抽出し、
前記表現言語特徴ベクトルを、第２の空間において構築される表現合成特徴ベクトルにマッピングすることによって、
表現に関係する前記パラメータのうちの少なくとも一部を判定する、
ように構成されたプロセッサと、
を含むシステム。
コンピュータに請求項１の方法を実行させるように構成されたコンピュータ読み取り可能なコードを含む記憶媒体。
コンピュータに請求項１４の方法を実行させるように構成されたコンピュータ読み取り可能なコードを含む記憶媒体。
コンピュータに請求項１６の方法を実行させるように構成されたコンピュータ読み取り可能なコードを含む記憶媒体。