JP2014146339A

JP2014146339A - コンピュータ生成ヘッド

Info

Publication number: JP2014146339A
Application number: JP2014014924A
Authority: JP
Inventors: Latorre-Martinez Javier; ジャビア・ラトル−マルチネス; Ping Leung Wan Vincent; ビンセント・ピン・ルン・ワン; Stenger Bjorn; ビョルン・ステンガー; Anderson Robert; ロバート・アンダーソン; Cipolla Roberto; ロベルト・シポラ
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-01-29
Filing date: 2014-01-29
Publication date: 2014-08-14
Also published as: US9959657B2; CN103971393A; GB2510200A; GB2510200B; US20140210830A1; JP6109901B2; JP2016042362A; EP2760023A1; GB201301583D0

Abstract

【課題】トーキングヘッドによるアニメーション手法を提供する。
【解決手段】唇の動きによって出力されることになる音声に関連する入力を準備することと、入力を音響単位の系列へと分割することと、入力されるテキストのための表情特性を選択することと、統計的モデルを用いて音響単位の系列を画像ベクトルの系列へと変換することと、ヘッドの口が動いて、選択された表情を伴って入力テキストに関連付けられる音声を真似るよう、画像ベクトルの系列をビデオとして出力することとを具備する。選択された表情における各確率分布の所定の種別のパラメータは、同一種別のパラメータの重み付き和として表現され、音響単位の系列を画像ベクトルの系列へと変換する。使用される重み付けは表情依存でありパラメータはクラスタで準備され、各クラスタは少なくとも１つのサブクラスタを含み、サブクラスタ毎に１つの重みが存在するように検索される。
【選択図】図２

Description

一般にここに記述される本発明の実施形態は、コンピュータ生成ヘッドおよびそのようなヘッドをアニメーションにする方法に関する。

コンピュータ生成されたトーキングヘッドは、多数の様々な状況において使用することができる。例えば、拡声装置を介して情報を提供するために、コンピュータのユーザへ情報を提供するために、などである。そのような、コンピュータ生成され、アニメーションにされたヘッドは、コンピュータゲームにおいて、コンピュータ生成された人物が「話す」ことを可能にするためにも使用されるかもしれない。

しかしながら、そのようなヘッドをよりリアルにみせることに継続的なニーズがある。

非制限の実施形態に従うシステムおよび方法が、これから添付の図面を参照して記述されるであろう。

（関連出願の相互参照）
この出願は、２０１３年１月２９日に出願された英国特許出願第１３０１５８３．９号に基づいており、かつ、この優先権の利益を主張するものであって、これの全内容は参照によってここに組み込まれる。

図１は、ヘッドをコンピュータ生成するシステムの概略図である。図２は、発明の実施形態に従う、生成されたヘッドをレンダリングし、アニメーションにするための基本ステップを示すフロー図である。図３（ａ）は、ユーザインターフェースつきの、生成されたヘッドの画像である。図３（ｂ）は、インターフェースの線画である。図４は、表情特性がどのように選択され得るかを示す、システムの概略図である。図５は、図４のシステムについてのバリエーションである。図６は、図４のシステムについてのさらなるバリエーションである。図７は、図７はガウス確率関数の概略図である。図８は、本発明の実施形態に従う方法において使用されるクラスタリングデータ配列の概略図である。図９は、本発明の実施形態に従う、ヘッド生成システムを学習させる方法を説明するフロー図である。図１０は、本発明に従う実施形態によって使用される決定木の概略図である。図１１は、本発明の実施形態に従うシステムの適応を示すフロー図である。図１２は、本発明のさらなる実施形態に従うシステムの適応を示すフロー図である。図１３は、重み付けが因子化（ｆａｃｔｏｒｉｚｅ）される場合の、ヘッド生成システムの学習を示すフロー図である。図１４は、図１３のフロー図のステップのうち１つのサブステップを詳細に示すフロー図である。図１５は、図１３のフロー図のステップのうち１つのサブステップを詳細に示すフロー図である。図１６は、図１３を参照して記述されたシステムの適応を示すフロー図である。図１７は、本発明の実施形態に従う方法およびシステムと共に使用可能な画像モデルである。図１８（ａ）は、図１７のモデルについてのバリエーションである。図１８（ｂ）は、図１８（ａ）のモデルについてのバリエーションである。図１９は、図１８（ａ）および図１８（ｂ）のモデルの学習を示すフロー図である。図２０は、図１９を参照して記述された学習の基本を示す概略図である。図２１（ａ）は、エラー対図１７、図１８（ａ）、図１８（ｂ）および図２１（ｂ）を参照して記述された画像モデルにおいて使用されたモード数のプロットである。図２１（ｂ）は、学習に使用されたセンテンスの数対学習されたモデルにおいて測定されたエラーのプロットである。図２２（ａ）、図２２（ｂ）、図２２（ｃ）および図２２（ｄ）は、テストデータにおいて表出された感情についての混同行列である。画像モデルのバリエーションに対する嗜好（ｐｒｅｆｅｒｅｎｃｅ）を示すテーブルである。

第１の態様において、本発明は、ヘッドのコンピュータ生成をアニメーションにする方法を提供する。ヘッドは、当該ヘッドによって出力される音声に従って動く口を持つ。方法は、口の動きによって出力されることになる音声に関連する入力を準備することを具備する。方法は、入力を音響単位の系列へと分割することを具備する。方法は、入力されるテキストのための表情特性を選択することを具備する。方法は、統計的モデル（モデルは、音響単位を画像ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持つ）を用いて音響単位の系列を画像ベクトル（画像ベクトルは、ヘッドの顔を定義する複数のパラメータを含む）の系列へと変換することを具備する。方法は、ヘッドの口が動いて、選択された表情を伴って出力される音声を真似るよう、画像ベクトルの系列をビデオとして出力することを具備する。選択された表情における各確率分布の所定の種別のパラメータは、同一種別のパラメータの重み付き和として表現される。音響単位の系列を画像ベクトルの系列へと変換することが選択された表情のための表情依存の重みを検索することを具備するよう、使用される重み付けは表情依存である。パラメータはクラスタで準備され、各クラスタは少なくとも１つのサブクラスタを含む。サブクラスタ毎に１つの重みが存在するよう、表情依存の重みはクラスタ毎に検索される。

口は、例えば、唇、あご、舌などの口の任意のパーツを意味することに注意されたい。さらなる実施形態において、唇は、動いて入力音声を真似る。

上記のヘッドは、ヘッドの唇の動きから音声をヴィジュアル的に出力できる。さらなる実施形態において、モデルは、音響単位を音声ベクトルへと変換するようにさらに構成され、モデルは、音響単位を音声ベクトルへ関連付ける確率分布を記述する複数のモデルパラメータを持ち、方法は、ヘッドの唇の動きに同期するオーディオとして音声ベクトルの系列を出力することをさらに具備する。故に、ヘッドは、オーディオおよびビデオの両方を出力できる。

入力は、音響単位の系列へと分割されるテキスト入力であるかもしれない。さらなる実施形態において、入力は、オーディオ入力である音声入力であり、音声入力は、音響単位の系列へと分割され、ヘッドのビデオと共にオーディオとして出力される。ひとたび音響単位へと分割されると、オーディオ音声信号と共に音声信号をヴィジュアル的に出力するためにヘッドが生成することができるよう、音声入力から導出される音響単位を画像ベクトルと関連付けるためにモデルが実行可能となる。

実施形態において、各サブクラスタは少なくとも１つの決定木を含むかもしれず、決定木は言語学的な差異、音声学的な差異または韻律学的な差異のうち少なくとも１つに関連する質問に基づいている。クラスタの決定木の間には、ならびに、サブクラスタにおける木の間には、構造に差異が存在するかもしれない。確率分布は、ガウス分布、ポアソン分布、ガンマ分布、スチューデントのｔ分布またはラプラス分布から選択されるかもしれない。

表情特性は、様々な感情、アクセントまたは発話スタイルのうち少なくとも１つから選択されるかもしれない。音声に対する変動は、発話時に話者の顔に表出される表情に微妙な変動をしばしば引き起こすであろう。そして、上記方法は、これらの変動を取り込んでヘッドが自然に見えることを可能にするために用いることができる。

一実施形態において、表情特性を選択することは、入力（重み付けが入力を介して選択されることを可能にする）を準備することを具備する。さらに、表情特性を選択することは、出力される音声から、使用されるべき重み付けを予測することを具備する。いっそうのさらなる実施形態において、表情特性を選択することは、出力される音声に関する外部情報から、使用されるべき重み付けを予測することを具備する。

上記方法が新たな表情特性に適応することも可能である。例えば、表情を選択することは、顔を含むビデオ入力を受け取ることと、ビデオ入力の顔の表情特性をシミュレートするために重み付けを変更することとを具備する。

入力データが音声を含むオーディオファイルである場合に、ヘッドを制御するために用いられる重み付けはオーディオ音声入力から得ることができる。

さらなる実施形態において、表情特性を選択することは、事前に保存された複数の重みセットから重みセットをランダムに選択することを具備し、それぞれの重みのセットは、全てのサブクラスタのための重み付けを含む。

画像ベクトルは、パラメータ（顔がこれらのパラメータから再構築されることを可能にする）を含む。一実施形態において、画像ベクトルは、顔がモードの重み付き和から構築されることを可能にするパラメータを含み、モードは、顔または顔のパーツの再構築を表す。さらなる実施形態において、モードは、顔の形状およびアピアランスを表すモードを含む。同一の重み付けパラメータが、形状モードおよび当該形状モードの対応するアピアランスモードのために使用されるかもしれない。

モードは、顔の姿勢、顔の局部の変形、まばたきなどを表すために用いられるかもしれない。ヘッドの静的な特徴は、固定の形状およびテクスチャを用いてモデル化されるかもしれない。

第２の態様において、コンピュータ生成ヘッドをレンダリングするためのシステムを新たな表情に適応させる方法が提供される。ヘッドは、当該ヘッドによって出力される音声に従って動く口を持つ。システムは、口の動きによって出力されることになる音声のデータを受け取るための入力を具備する。システムは、プロセッサを具備する。プロセッサは、入力データを音響単位の系列へと分割するように構成される。プロセッサは、入力されるテキストのための表情特性の選択を可能にするように構成される。プロセッサは、統計的モデル（モデルは、音響単位を画像ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持つ）を用いて前記音響単位の系列を画像ベクトル（画像ベクトルは、ヘッドの顔を定義する複数のパラメータを含む）の系列へと変換するように構成される。プロセッサは、ヘッドの口が動いて、選択された表情を伴って出力される音声を真似るよう、画像ベクトルの系列をビデオとして出力するように構成される。選択された表情における各確率分布の所定の種別のパラメータは、同一種別のパラメータの重み付き和として表現される。音響単位の系列を画像ベクトルの系列へと変換することが選択された表情のための表情依存の重みを検索することを具備するよう、使用される重み付けは表情依存である。パラメータはクラスタで準備され、各クラスタは少なくとも１つのサブクラスタを含む。サブクラスタ毎に１つの重みが存在するよう、表情依存の重みはクラスタ毎に検索される。方法は、新たな入力ビデオファイルを受け取ることを具備する。方法は、生成される画像と新たなビデオファイルとの類似度を最大化するために、クラスタへと適用される重みを計算することを具備する。

上記方法は、新たなビデオファイルからのデータを用いて新たなクラスタを作成することと、生成される画像と新たなビデオファイルとの類似度を最大化するために、新たなクラスタを含むクラスタへと適用される重みを計算することとをさらに具備する。

第３の態様において、コンピュータ生成ヘッドをレンダリングするためのシステムが提供される。ヘッドは、当該ヘッドによって出力される音声に従って動く口を持つ。システムは、口の動きによって出力されることになる音声のデータを受け取るための入力を具備する。システムは、プロセッサを具備する。プロセッサは、入力データを音響単位の系列へと分割するように構成される。プロセッサは、入力されるテキストのための表情特性の選択を可能にするように構成される。プロセッサは、統計的モデル（モデルは、音響単位を画像ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持つ）を用いて音響単位の系列を画像ベクトル（画像ベクトルは、ヘッドの顔を定義する複数のパラメータを含む）の系列へと変換するように構成される。プロセッサは、ヘッドの唇が動いて、選択された表情を伴って出力される音声を真似るよう、画像ベクトルの系列をビデオとして出力するように構成される。選択された表情における各確率分布の所定の種別のパラメータは、同一種別のパラメータの重み付き和として表現される。音響単位の系列を画像ベクトルの系列へと変換することが選択された表情のための表情依存の重みを検索することを具備するよう、使用される重み付けは表情依存である。パラメータはクラスタで準備され、各クラスタは少なくとも１つのサブクラスタを含む。サブクラスタ毎に１つの重みが存在するよう、表情依存の重みはクラスタ毎に検索される。

第４の態様において、コンピュータ生成ヘッドをレンダリングするための適応可能なシステムが提供される。ヘッドは、当該ヘッドによって出力される音声に従って動く口を持つ。システムは、口の動きによって出力されることになる音声のデータを受け取るための入力を具備する。システムは、プロセッサを具備する。プロセッサは、入力データを音響単位の系列へと分割するように構成される。プロセッサは、入力されるテキストのための表情特性の選択を可能にするように構成される。プロセッサは、統計的モデル（モデルは、音響単位を画像ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持つ）を用いて音響単位の系列を画像ベクトル（画像ベクトルは、ヘッドの顔を定義する複数のパラメータを含む）の系列へと変換するように構成される。プロセッサは、ヘッドの唇が動いて、選択された表情を伴って出力される音声を真似るよう、画像ベクトルの系列をビデオとして出力するように構成される。前記選択された表情における各確率分布の所定の種別のパラメータは、同一種別のパラメータの重み付き和として表現される。音響単位の系列を画像ベクトルの系列へと変換することが前記選択された表情のための表情依存の重みを検索することを具備するよう、使用される重み付けは表情依存である。パラメータはクラスタで準備され、各クラスタは少なくとも１つのサブクラスタを含む。サブクラスタ毎に１つの重みが存在するよう、前記表情依存の重みはクラスタ毎に検索される。システムは、クラスタおよびサブクラスタで準備されるパラメータならびにサブクラスタのための重みを保存するように構成されたメモリをさらに具備する。システムは、新たなビデオファイルを受け取るようにさらに構成される。プロセッサは、生成される画像と新たなビデオファイルとの類似度を最大化するために、サブクラスタへと適用される重みを再計算するように構成される。

上記の生成されたヘッドは、２Ｄでレンダリングされるかもしれないし、３Ｄでレンダリングされるかもしれない。３Ｄに関して、画像ベクトルは、３次元でヘッドを定義する。３Ｄにおいて、姿勢における変動は、３Ｄデータにおいて補償される。しかしながら、まばたきおよび静的な特徴は、前述のように扱われるかもしれない。

実施形態に従う一部の方法はソフトウェアによって実装可能であるので、一部の実施形態は任意の適切な伝送媒体上で汎用コンピュータへと提供されるコンピュータコードを包含する。伝送媒体は、フロッピー（登録商標）ディスク、ＣＤＲＯＭ、磁気デバイスまたはプログラム可能なメモリデバイスなどの任意の記録媒体、または、任意の信号（例えば電気、光またはマイクロ波信号）などの任意の一時的な媒体を含むことができる。

図１は、話すことのできるヘッドのコンピュータ生成のシステムの概略図である。システム１は、プログラム５を実行するプロセッサ３を含む。システム１は、さらにストレージまたはメモリ７を含む。ストレージ７は、ディスプレイ１９上にヘッドをレンダリングするプログラム５によって使用されるデータを保存する。テキスト読み上げシステム１は、さらに入力モジュール１１および出力モジュール１３を含む。入力モジュール１１は、ヘッドによって出力される音声ならびにテキストが共に出力されることになる感情または表情に関連するデータ用の入力に接続される。入力されるデータのタイプは、後により詳細に記述される多くの形式をとるかもしれない。入力１５は、ユーザがデータを直接的に入力することを可能にするインターフェースであるかもしれない。或いは、入力は、外部記録媒体またはネットワークからデータを受信する受信機であるかもしれない。

出力モジュール１３に接続されるのはオーディオヴィジュアル出力１７である。出力１７は、生成されたヘッドを表示するディスプレイ１９を含む。

使用時には、システム１はデータ入力１５を通じてデータを受け取る。プロセッサ３で実行されるプログラム５は、入力データを、ヘッドによって出力される音声およびヘッドが表出することになる感情へと変換する。プログラムは、ストレージにアクセスし、入力データに基づいてパラメータを選択する。プログラムは、ヘッドをレンダリングする。アニメーションにされた時のヘッドは、出力される音声に従って、その唇を動かし、所望の表情を表出する。ヘッドは、音声を含むオーディオ信号を出力するオーディオ出力も持つ。オーディオ音声は、ヘッドの唇の動きと同期する。

図２は、ヘッドをアニメーションにし、レンダリングする基本処理の概略図である。ステップＳ２０１において、トーキングヘッドによって出力される音声に関連し、かつ、テキストを発話する間にヘッドが表出すべき表情に関連する情報も含むであろう、入力が受け取られる。

この特定の実施形態において、音声に関連する入力はテキストとなるであろう。図２において、テキストは表情入力から分離される。しかしながら、音声に関連する入力は、テキスト入力である必要はなく、ヘッドが音声を出力すること可能にする任意のタイプの信号であり得る。例えば、入力は、音声入力、ビデオ入力、結合された音声およびビデオの入力から選択可能である。別の許容される入力は、既に生成された顔／音声のセットまたは予め定義されたテキスト／表情に関連する任意の形式のインデックス（例えば、システムに「お願い」または「すみません」と言わせるアイコン）となるであろう。

不確かさの回避のため、音声を出力することにより、ヘッドの唇が出力される音声に従って動くことに注目されるべきである。しかしながら、オーディオ出力のボリュームは、無音であるかもしれない。実施形態において、言葉を真似るヘッドというまさにヴィジュアルの表現（ここでは、唇の動きにより音声がヴィジュアルで出力される）が存在する。さらなる実施形態において、これは、音声のオーディオ出力を伴うかもしれないし、伴わないかもしれない。

テキストが入力として受け取られる場合には、それは、それから、音素、書記素、コンテキスト依存の音素若しくは書記素、および、単語若しくはその一部分、であるかもしれない音響単位の系列へと変換される。

一実施形態において、表情がステップＳ２０５において選択されることを可能にするために、追加情報が入力に与えられる。これは、それから、図９に関連してより詳細に記述されるであろう表情重みがステップＳ２０７において導出されることを可能にする。

いくつかの実施形態では、ステップＳ２０５およびステップＳ２０７は併合される。これは、多数の様々なやり方で達成されるかもしれない。例えば、図３は、表情を選択するインターフェースを示す。ここでは、ユーザは、例えば、画面上のポイントをドラッグアンドドロップするためのマウス、数字（ｆｉｇｕｒｅ）を入力するためのキーボードなどを用いて、重み付けを直接的に選択する。図３（ｂ）において、マウス、キーボードなどを含む選択部２５１が、ディスプレイ２５３を用いて重み付けを選択する。ディスプレイ２５３は、この例では重み付けを示すレーダーチャートを備えている。ユーザは、レーダーチャートを介して様々なクラスタの支配（ｄｏｍｉｎａｎｃｅ）を変更するために選択部２５１を使用できる。インターフェースにおいて他の表示法が使用されてよいことは、当業者によって理解されるであろう。いくつかの実施形態において、ユーザは、テキスト、感情の重み、ピッチの重み、スピードおよび太さ（ｄｅｐｔｈ）を直接的に入力できる。

ピッチが非常に高いかそれとも非常に低いかで顔の動きは異なるし、同様に太さを変えることは大柄な人間と小柄な人間との間でボイスの響きを変えるので、ピッチおよび太さは顔の動きに影響を及ぼすことがあり得る。スピードは、持続時間分布を介して各モデルに割り当てられたフレーム数を変更することによって、追加的なパラメータとして制御することができる。

図３（ａ）は、生成されたヘッドと共に全体的なユニットを示す。ヘッドは、テクスチャのないメッシュとして部分的に示されている。通常の使用では、ヘッドは完全にテクスチャを付けられるであろう。

さらなる実施形態において、システムは、所定の重み付けベクトルのセットを保存するメモリを備え付けられている。各ベクトルは、テキストが様々な表情を用いてヘッドを介して出力されることを可能にするように設計されてよい。表情は、ヘッドによって表出され、オーディオ出力においても表明される。表情は、嬉しい、悲しい、ニュートラル、腹を立てた、恐れている、優しい、などから選択することができる。さらなる実施形態において、表情は、例えば、ささやく、叫ぶなどのユーザの発話スタイルまたはユーザのアクセントに関連し得る。

そのような実施形態に従うシステムが図４に示される。ここで、ディスプレイ２５３は、選択部２５１によって選択され得る様々な表情を示す。

さらなる実施形態において、ユーザは表情に関連する情報を別個に入力せず、ここで、図２に示されるように、Ｓ２０７において導出される表情重み付けは、ステップＳ２０３におけるテキストから直接的に導出される。

そのようなシステムが図５に示される。例えば、システムは、当該システムが命令または質問であると認識するテキストに対応する音声を、トーキングヘッドを介して出力する必要があるかもしれない。システムは、電子書籍を出力するように構成されるかもしれない。システムは、テキストから（例えば、引用符から）、ナレータに対立するものとしての書籍内のキャラクタによって何かが話される時を認識し、出力において使用される新たな表情を導入するために重み付けを変更するかもしれない。同様に、システムは、テキストが繰り返されているかどうかを認識するように構成されるかもしれない。そのような状況において、ボイス特性は、次の出力のために変化するかもしれない。さらに、システムは、テキストが嬉しい瞬間または不安な瞬間に言及しているかどうかを認識するように構成されてもよく、テキストは適切な表情を伴って出力される。これはステップＳ２１１（ここでは、表情重みがテキストから直接的に予測される）において概略的に示されている。

図５に示される上記システムにおいて、テキストにおいてチェックされる属性およびルールを保存するメモリ２６１が用意される。入力テキストは、ユニット２６３によってメモリ２６１へと提供される。テキスト用のルールがチェックされ、それから、表情の種別に関する情報が選択部２６５へと渡される。選択部２６５は、選択された表情のための重み付けをルックアップする。

上記システムおよび検討（ｃｏｎｓｉｄｅｒａｔｉｏｎ）は、コンピュータゲーム（ここでは、ゲーム内のキャラクタが発話する）において使用されるシステムにも適用されるかもしれない。

さらなる実施形態において、システムは、さらなるソースから、ヘッドがどのように音声を出力すべきかについての情報を受け取る。そのようなシステムの例が図６に示される。例えば、電子書籍の場合において、システムは、テキストのある一部分がどのように出力されるべきかを示す入力を受け取るかもしれない。

コンピュータゲームにおいて、システムは、話しているキャラクタが、負傷したのかどうか、隠れているのでささやかなければならないのかどうか、誰かの注意を引きつけようとしているのかどうか、ゲームのステージを首尾良く完了したのかどうか、などをゲームから判定することができるであろう。

図６のシステムにおいて、ヘッドが音声をどのように出力すべきかのさらなる情報がユニット２７１から受け取られる。ユニット２７１は、それから、この情報をメモリ２７３へと送る。メモリ２７３は、ボイスがどのように出力されるべきかに関する情報を検索し、これをユニット２７５へ送る。ユニット２７５は、それから、ヘッドからの所望の出力のための重み付けを検索する。

さらなる実施形態において、音声はステップＳ２０９において直接的に入力される。ここで、ステップＳ２０９は、３つのサブブロック（音声からテキストを検出する自動音声認識装置（ＡＳＲ：ａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｚｅｒ）、テキストおよび音声を同期させるアライナ（ａｌｉｇｎｅｒ）、ならびに、自動表情認識装置）を含むかもしれない。認識された表情は、Ｓ２０７において表情重みへと変換される。認識されたテキストは、それから、テキスト入力２０３へと流れる。この装置（ａｒｒａｎｇｅｍｅｎｔ）は、オーディオヴィジュアル出力を生成するトーキングヘッドシステムへのオーディオ入力を可能にする。これは、例えば、本物の表情に富んだ音声を得て、そこから、当該音声に適切な顔を合成することを可能にする。

さらなる実施形態において、音声に対応する入力テキストが、ＡＳＲサブモジュールのジョブを取り除く、または、単純化することによってモジュールＳ２０９の性能を向上させるために、使用可能である。

ステップＳ２１３において、テキストおよび表情重みは、この実施形態においてクラスタ適応学習（ｃｌｕｓｔｅｒａｄａｐｔｉｖｅｔｒａｉｎｅｄ）ＨＭＭまたはＣＡＴ−ＨＭＭである音響モデルへと入力される。

テキストは、音響単位の系列へと変換される。これらの音響単位は、音素であるかもしれないし、書記素であるかもしれない。単位は、選択された音素だけでなく、前後の音素、単語内のフォン（ｐｈｏｎｅ）の位置、フォンが属する単語における音節数なども考慮に入れる、コンテキスト依存の例えばトライフォン（ｔｒｉｐｈｏｎｅ）、クインフォン（ｑｕｉｎｐｈｏｎｅ）など、であるかもしれない。テキストは、当技術において周知であって、かつ、ここではこれ以上説明されることのない技法を用いて音響単位の系列へと変換される。

顔の生成に利用可能な多数のモデルが存在する。これらのうちいくつかは、例えば、キーポイント／特徴、筋肉構造などに対する顔のパラメータ化に依存する。

故に、顔は、顔を生成するためのそのような顔モデルにおいて使用されるパラメータの「顔」ベクトルによって定義することができる。これは、音声合成（ここでは、出力音声が音声ベクトルから生成される）における状況と類似している。音声合成において、音声ベクトルは音響単位と関連付けられる確率を持ち、一対一対応は存在しない。同様に、顔ベクトルは、音響単位に関連付けられる確率を持つに過ぎない。故に、顔ベクトルは、音声とキャラクタの発話の視覚的表現との両方を出力できるトーキングヘッドを生成するために、音声ベクトルと同様のやり方で操作可能である。故に、顔ベクトルを音声ベクトルと同じやり方で扱うことが可能であり、同一データから顔ベクトルを学習させることが可能である。

音響単位を画像パラメータに関連付ける確率分布がルックアップされる。この実施形態において、確率分布は、平均および分散によって定義されるガウス分布となるであろう。とはいえ、ポアソン、スチューデントのｔ、ラプラスまたはガンマ分布などの他の分布（これらの一部は平均および分散以外の変数によって定義される）を使用することは可能であるが。

この実施形態において、最初に単なる画像処理を検討するので、各音響単位は、当技術の専門用語を使用するための、「顔ベクトル」または「観測」に対する決定的な一対一対応を持っていない。上述の顔ベクトルは、所与のフレームでの顔のジェスチャを定義するパラメータのベクトルからなる。多数の音響単位は、同様のやり方で発音されたり、周囲の音響単位またはそれらの単語若しくはセンテンス内の位置によって影響を受けたり、話者の表情、感情の状態、アクセント、発話スタイルなどに依存して様々に発音されたりする。故に、各音響単位は、顔ベクトルに関連付けられる確率を持つに過ぎず、テキスト読み上げシステムは、多数の確率を計算し、音響単位の系列を考慮した場合の最もふさわしい観測系列を選択する。

ガウス分布が図７に示される。図７は、顔ベクトルに関連する音響単位の確率分布であるとみなすことができる。例えば、Ｘとして示される音声ベクトルは、図７に示される分布を持つ音素または他の音響単位に対応する確率Ｐ１を持つ。

ガウシアンの形状および位置は、平均および分散によって定義される。これらのパラメータは、システムの学習時に判定される。

これらのパラメータは、それから、ステップＳ２１３において、「ヘッドモデル」と名付けられるモデルにおいて使用される。「ヘッドモデル」は、音声合成において使用される音響モデルのヴィジュアル版またはオーディオヴィジュアル版である。この説明において、ヘッドモデルは、隠れマルコフモデル（ＨＭＭ）である。しかしながら、他のモデルも使用可能である。

トーキングヘッドシステムのメモリは、音響単位（即ち、音素、書記素、単語またはその一部分）を音声パラメータに関連付ける多数の確率密度関数を保存するであろう。ガウス分布が一般的に使用されるので、これらは一般的にガウシアンまたはコンポーネントと呼ばれる。

隠れマルコフモデルまたは他の種別のヘッドモデルにおいて、特定の音響単位に関連する全ての潜在的な顔ベクトルの確率が考慮されなければならない。それから、音響単位の系列に最も対応しそうな顔ベクトルの系列が考慮に入れられるであろう。これは、２つの単位が互いに影響を及ぼすやり方を考慮に入れた、系列の全ての音響単位に亘る大域的最適化を暗示する。結果として、特定の音響単位に対して最もふさわしい顔ベクトルが、音響単位の系列が考慮される場合の最適な顔ベクトルでないことがあり得る。

図２のフローチャートにおいて、「圧縮された表情豊かなビデオモデル」として画像ベクトルをモデル化するために、単一のストリームが示される。いくつかの実施形態において、それぞれガウシアンを用いてモデル化される複数の相異なる状態が存在するであろう。例えば、実施形態において、トーキングヘッドシステムは、多数のストリームを含む。そのようなストリームは、口のみ、または、舌若しくは目のみ、などのためのパラメータを表すかもしれない。ストリームは、無音（ｓｉｌ）、小休止（ｐａｕ）および音声（ｓｐｅ）などのクラスへとさらに分類されるかもしれない。実施形態において、ストリームおよびクラスの各々からのデータは、ＨＭＭを用いてモデル化されるであろう。ＨＭＭは、様々な数の状態を含むかもしれず、例えば、実施形態において、５状態ＨＭＭが上記ストリームおよびクラスのうちの一部からのデータをモデル化するために使用されるかもしれない。ガウシアンコンポーネントは、ＨＭＭ状態毎に判定される。

上記のものは、音声をヴィジュアルで出力するヘッドに傾注した。しかしながら、ヘッドはヴィジュアル出力に加えてオーディオを出力してもよい。図３に戻ると、「ヘッドモデル」は、１以上のストリームを介して画像ベクトルを生成し、加えて１以上のストリームを介して音声ベクトルを生成するために使用される。図２において、３つのオーディオストリームが示され、これらはスペクトル、ＬｏｇＦ０およびＢＡＰである。

クラスタ適応学習は、隠れマルコフモデルのテキスト読み上げシステム（ＨＭＭ−ＴＴＳ）に対する拡張である。ＨＭＭ−ＴＴＳは、有限数（通常、５）の、出力のある状態（ｅｍｉｔｔｉｎｇｓａｔｅ）を持つＨＭＭを用いて、コンテキスト依存音声単位（ＣＤＳＵ）をモデル化する音声合成に対するパラメータによるアプローチである。ＨＭＭを連結してそれらからサンプリングすることは、次に合成音声へと再合成することのできるパラメータセットを生成する。典型的には、ＣＤＳＵをクラスタリングして学習データにおけるスパースネス（ｓｐａｒｓｅｎｅｓｓ）を扱うために決定木が使用される。任意の所与のＣＤＳＵに対してＨＭＭにおいて使用される平均および分散が、決定木を用いてルックアップされるかもしれない。

ＣＡＴは、スタイル依存の情報または感情依存の情報を取り込むために多数の決定木を使用する。これは、重み付けλがステップＳ２０７から導出されている場合には、重み付きパラメータの総和によって各パラメータを表現することによってなされる。パラメータは、図８に示されるように合成される。

故に、実施形態において、選択された表情を備える、（音声または顔いずれかのパラメータのための）ガウシアンの平均は、ガウシアンの独立平均の重み付き和として表現される。

ここで、μ_ｍ ^（ｓ）は、選択された表情ｓにおけるコンポーネントｍの平均であり、ｉ∈｛１，．．．，Ｐ｝はクラスタ用のインデックスであってＰはクラスタの総数であり、λ_ｉ ^（ｓ）は、表情ｓの第ｉのクラスタの表情依存の補間重みである。μ_{ｃ（ｍ，ｉ）}は、クラスタｉにおけるコンポーネントｍの平均である。実施形態において、クラスタのうち１つ、例えば、クラスタｉ＝１は、全ての重みが常に１．０に設定される。このクラスタは、「バイアスクラスタ」と呼ばれる。各クラスタは、少なくとも１つの決定木を含む。決定木は、クラスタにおけるコンポーネント毎に存在するであろう。表現を単純化するために、ｃ（ｍ，ｉ）∈｛１，．．．，Ｎ｝は、第ｉのクラスタの平均ベクトル決定木におけるコンポーネントｍの一般的な葉ノードインデックスを示し、Ｎは、全てのクラスタの決定木中の葉ノードの総数である。決定木の詳細は後述されるであろう。

ヘッドモデルのために、システムは、アクセス可能なやり方で保存されるであろう平均および分散をルックアップする。ヘッドモデルは、ステップＳ２０７からの表情重みも受け取る。平均がルックアップされる前後にボイス特性依存の重み付けがルックアップされてよいことは、当業者に理解されるであろう。

表情依存の重み（即ち、平均の使用および重み付けの適用）は、それからステップＳ２１３においてヘッドモデルで使用される。

顔特性独立の平均がクラスタリングされる。実施形態において、各クラスタは、少なくとも１つの決定木を含み、前述の木において用いられる決定は、言語学的な変動、音声学的な変動または韻律学的な変動に基づいている。実施形態において、決定木は、クラスタのメンバであるコンポーネント毎に存在する。韻律学的なコンテキスト、音声学的なコンテキストおよび言語学的なコンテキストは、顔のジェスチャに影響を与える。音声学的なコンテキストは、典型的には口の位置および動きに影響を与え、韻律学的なコンテキスト（例えば、音節）および言語学的なコンテキスト（例えば、単語の品詞）は、持続時間（リズム）などの韻律および顔の他のパーツ（例えば、目のまばたき）に影響を与える。各クラスタは、１以上のサブクラスタ（ここでは、各サブクラスタは、少なくとも１つの前述の決定木を含む）を含むかもしれない。

上記のものは、サブクラスタ毎の重みまたはクラスタ毎の重みベクトルのどちらかを検索することと考えることが可能であり、重みベクトルの成分はサブクラスタ毎の重み付けである。

以下の設定が、本発明の実施形態に従って用いられてよい。このデータをモデル化するために、この実施形態において、５状態ＨＭＭが使用される。データは、この例において３つのクラス（無音、小休止および音声）に分類される。この特定の実施形態において、サブクラスタ毎の決定木および重みの割り当ては以下の通りである。

この特定の実施形態において、以下のストリームがクラスタ毎に用いられる。
スペクトル：１ストリーム、５状態、状態毎に１本の木×３クラス
ＬｏｇＦ０：３ストリーム、ストリーム毎に５状態、状態およびストリーム毎に１本の木×３クラス
ＢＡＰ：１ストリーム、５状態、状態毎に１本の木×３クラス
ＶＩＤ：１ストリーム、５状態、状態毎に１本の木×３クラス
持続時間：１ストリーム、５状態、１本の木×３クラス（それぞれの木は、全ての状態中で共有される）
合計：３×３１＝９３本の決定木
上記のものに対して、以下の重みが表情特性毎の各ストリームに適用される。
スペクトル：１ストリーム、５状態、ストリーム毎に１個の重み×３クラス
ＬｏｇＦ０：３ストリーム、ストリーム毎に５状態、ストリーム毎に１個の重み×３クラス
ＢＡＰ：１ストリーム、５状態、ストリーム毎に１個の重み×３クラス
ＶＩＤ：１ストリーム、５状態、ストリーム毎に１個の重み×３クラス
持続時間：１ストリーム、５状態、状態およびストリーム毎に１個の重み×３クラス
合計：３×１１＝３３個の重み。

この例に示されるように、相異なる決定木（ＶＩＤ）に同一の重みを割り当てること、若しくは、同一の決定木（持続時間）に１より多くの重みを割り当てること、または、任意の他の組み合わせが可能である。ここで用いられるように、同一の重み付けが適用されることになる決定木は、サブクラスタを形成すると考えられる。

実施形態において、オーディオストリーム（スペクトル、ｌｏｇＦ０）は、合成中にトーキングヘッドのビデオを生成するためには使用されないが、オーディオヴィジュアルストリームをテキストとアライメントするために学習中に必要とされる。

以下のテーブルは、本発明の実施形態に従って、どのストリームがアライメント、ビデオおよびオーディオのために用いられるかを示す。

実施形態において、選択されたボイス特性を持つガウス分布の平均は、ガウシアンコンポーネントの平均の重み付き和として表現され、ここでは総和は各クラスタから１つの平均を使用し、平均は現在処理中の音響単位の音声学的なコンテキスト、言語学的なコンテキストおよび韻律学的なコンテキストに基づいて選択される。

ステップＳ２１３において用いられるモデルの学習は、図９乃至図１１を参照してより詳細に説明されるであろう。図２は、４つのストリーム（３つ（１つはスペクトル、１つはＬｏｇＦ０、および、１つは持続時間）が音声ベクトルを生成することに関連し、１つが顔／ＶＩＤパラメータに関連する）を持つ簡略化されたモデルを示す。（しかしながら、上記のものから、多数の実施形態が追加的なストリームを使用するであろうし、多数のストリームが各音声パラメータまたは各ビデオパラメータをモデル化するために使用されてよい、ということに注目されたい。例えば、この図において、ＢＡＰストリームは単純化のために取り除かれている。これは、単純なパルス／ノイズ型の励振に対応する。しかしながら、ＢＡＰまたは任意の他のビデオストリームまたはオーディオストリームを含める原理は、表示されたストリームと同じである。）これらは、ステップＳ２１５において出力される、音声ベクトルの系列および顔ベクトルの系列を生成する。

音声ベクトルは、それから、ステップＳ２１７において、これらをステップＳ２１９において音声サウンドファイルへと変換する音声生成部へと提供される。顔ベクトルは、それから、ステップＳ２２１において、これらのパラメータをステップＳ２２３においてビデオへと変換する顔画像生成部へと提供される。ビデオファイルおよびサウンドファイルは、それから、ステップＳ２２５において、アニメーションにされたトーキングヘッドを生成するために合成される。

次に、本発明の実施形態に従うシステムの学習が図９を参照して説明されるであろう。

隠れマルコフモデル（ＨＭＭ）に基づいている画像処理システムにおいて、ＨＭＭはしばしば以下のように表現される。

ここで、Ａ＝｛ａ_ｉｊ｝^Ｎ _{ｉ，ｊ＝１}は、状態遷移確率分布であり、Ｂ＝｛ｂ_ｊ（ｏ）｝^Ｎ _ｊ＝１は、状態出力確率分布であり、Π＝｛π_ｉ｝^Ｎ _ｉ＝１は、初期状態確率分布であり、ここで、ＮはＨＭＭの状態数である。

上述のように、顔ベクトルパラメータは、音声ベクトルパラメータと同じやり方でＨＭＭから導出することができる。

現在の実施形態において、状態遷移確率分布Ａおよび初期状態確率分布は、当分野において周知の手続に従って判定される。故に、この説明の残部は、状態出力確率分布に関係するであろう。

一般的に、トーキングヘッドシステムにおいて、モデルセットＭにおける第ｍのガウシアンコンポーネントからの状態出力ベクトルまたは画像ベクトルｏ（ｔ）は、以下の通りである。

ここで、μ^（ｓ） _ｍおよびΣ^（ｓ） _ｍは、話者ｓについての第ｍのガウシアンコンポーネントの平均および共分散である。

従来のトーキングヘッドシステムを学習させる時の目的は、所与の観測系列に対する尤度を最大化するモデルパラメータセットＭを推定することである。従来のモデルにおいて、データを収集される同一の単独話者が存在し、かつ、感情はニュートラルであるので、モデルパラメータセットは、全てのコンポーネントｍに対してμ^（ｓ） _ｍ＝μ_ｍかつΣ^（ｓ） _ｍ＝Σ_ｍである。

完全に分析的にいわゆる最尤（ＭＬ）基準に基づいて上記モデルセットを得ることは可能でないから、問題は、慣例的に、バウム＝ウェルチアルゴリズムとしてしばしば言及される期待値最大化（ＥＭ）アルゴリズムとして知られる反復的アプローチを用いることによって取り組まれる。ここで、補助関数（「Ｑ」関数）が導出される。

ここで、γｍ（ｔ）は、現在のモデルパラメータＭ’を考慮した場合にコンポーネントｍが観測ｏ（ｔ）を生成する事後確率であり、Ｍは新たなパラメータセットである。各反復の後に、パラメータセットＭ’は、Ｑ（Ｍ，Ｍ’）を最大化する新たなパラメータセットＭに取り替えられる。ｐ（ｏ（ｔ），ｍ｜Ｍ）は、ＧＭＭ、ＨＭＭなどの生成モデルである。

本実施形態において、以下の状態出力ベクトルを持つＨＭＭが使用される。

ここで、ｍ∈｛１，．．．，ＭＮ｝、ｔ∈｛１，．．．，Ｔ｝およびｓ∈｛１，．．．，Ｓ｝は、それぞれ、コンポーネント、時間および表情のインデックスであり、ここで、ＭＮ、ＴおよびＳは、それぞれコンポーネント、フレームおよび話者表情の総数である。ここで、データは同一の話者から収集されるが、話者は様々な表情を表出するであろう。

μ^{^} _ｍ ^（ｓ）およびΣ^{^} _ｍ ^（ｓ）の厳密な形式は、適用される表情依存の変換の種別に依存する。最も一般的なやり方において、表情依存の変換は、以下のものを含む。
− 表情依存の重みのセットλ^（ｓ） _ｑ（ｍ）
− 表情依存のクラスタμ^（ｓ） _{ｃ（ｍ，ｘ）}
− 線形変換のセット［Ａ^（ｓ） _ｒ（ｍ），ｂ^（ｓ） _ｒ（ｍ）］。

ステップＳ２１１における全ての実行可能な表情依存の変換の適用後に、表情ｓについての確率分布ｍの平均ベクトルμ^{^} _ｍ ^（ｓ）および共分散行列Σ^{^} _ｍ ^（ｓ）は、以下の通りである。

ここで、μ_{ｃ（ｍ，ｉ）}は、数式１において記述されたようにコンポーネントｍについてのクラスタＩの平均であり、μ^（ｓ） _{ｃ（ｍ，ｘ）}は、表情ｓについての追加的なクラスタのコンポーネントｍについての平均ベクトル（これは後述されるであろう）であり、Ａ^（ｓ） _ｒ（ｍ）およびｂ^（ｓ） _ｒ（ｍ）は、表情ｓについての回帰クラスｒ（ｍ）に関連付けられる線形変換行列およびバイアスベクトルである。

Ｒは、回帰クラスの総数であり、ｒ（ｍ）∈｛１，．．．，Ｒ｝は、コンポーネントｍが属する回帰クラスを示す。

線形変換が全く適用されないならば、Ａ^（ｓ） _ｒ（ｍ）およびｂ^（ｓ） _ｒ（ｍ）は、それぞれ、単位行列および零ベクトルとなる。

後述される理由のため、この実施形態において、共分散は、クラスタリングされて決定木に配置され、ここでは、ｖ（ｍ）∈｛１，．．．，Ｖ｝がコンポーネントｍの共分散行列が属する共分散決定木における葉ノードを示し、Ｖは分散決定木の葉ノードの総数である。

上記のものを用いて、補助関数は以下のように表現することができる。

ここで、Ｃは、Ｍとは独立の定数である。

故に、上記のものを用い、数式８に数式６および数式７を代入すると、補助関数はモデルパラメータが４つの別個の部分に分割され得ることを示す。

第１の部分は、カノニカル（ｃａｎｏｎｉｃａｌ）モデルのパラメータ（即ち、表情独立の平均｛μ_ｎ｝および表情独立の共分散｛Σ_ｋ｝）であり、上記インデックスｎおよびｋは後述されるであろう平均決定木および分散決定木の葉ノードを示す。第２の部分は、表情依存の重み｛λ_ｉ ^（ｓ）｝_ｓ，ｉであり、ここではｓは表情を示し、ｉはクラスタインデックスパラメータを示す。第３の部分は、表情依存のクラスタの平均μ_{ｃ（ｍ，ｘ）}であり、第４の部分は、制約付き最尤線形回帰（ＣＭＬＬＲ）変換｛Ａ_ｄ ^（ｓ），ｂ_ｄ ^（ｓ）｝であり、ここでは、ｓは表情を示し、ｄはコンポーネントｍが属するコンポーネントまたは表情の回帰クラスを示す。

詳細には、平均のＭＬ推定値を判定するために、以下の手続が行われる。

以下の数式を単純化するために、線形変換が全く適用されないことが仮定される。もし、線形変換が適用されるならば、オリジナルの観測ベクトル｛ｏ_ｒ（ｔ）｝は変換されたベクトルに置換されなければならない。

同様に、追加的なクラスタが存在しないことが仮定されるであろう。学習中に追加的なクラスタを含めることは、Ａ^（ｓ） _ｒ（ｍ）が単位行列かつ｛ｂ^（ｓ） _ｒ（ｍ）＝μ^（ｓ） _{ｃ（ｍ，ｘ）}｝の線形変換を加えることとちょうど等価である。

まず、数式４の補助関数は、μ_ｎに関して以下のように微分される。

ここで、

Ｇ_ｉｊ ^（ｍ）およびｋ_ｉ ^（ｍ）は、累積統計値である。

導関数を０に設定することによって通常のやり方で数式を最大化することにより、μ_ｎのＭＬ推定値（即ち、μ^{^} _ｎ）について以下の式が立てられる。

μ_ｎのＭＬ推定値がμ_ｋ（ここではｋはｎと等しくない）にも依存することに注意されたい。インデックスｎは、平均ベクトルの決定木の葉ノードを表すために用いられるのに対して、インデックスｋは共分散決定木の葉ノードを表す。故に、収束まで全てのμ_ｎに亘って反復することにより最適化を行うことが必要である。

これは、以下の数式を解くことによって全てのμ_ｎを同時に最適化することにより、なされ得る。

しかしながら、学習データが小規模であるかＮがかなり大きいならば、数式７の係数行列はフルランクを持たない可能性がある。この問題は、特異値分解または他の周知の行列因子分解法を用いることによって、回避できる。

次に、同じ処理が、共分散のＭＬ推定を行うために行われる。即ち、数式（８）に示される補助関数がΣ_ｋに関して微分され、以下のものを与える。

ここで、

表情依存の重みおよび表情依存の線形変換のＭＬ推定値も同じやり方（即ち、ＭＬ推定が必要とされるパラメータに関して補助関数を微分し、それから微分値を０に設定する）で得ることができる。

表情依存の重みについて、これは以下のものをもたらす。

好ましい実施形態において、処理は反復的なやり方で行われる。この基本的なシステムは、図９のフロー図を参照して説明される。

ステップＳ３０１において、複数のビデオ画像入力が受け取られる。この説明例において、１人の話者が用いられるが、話者は話す時に３つの相異なる感情を表出し、さらにニュートラルな表情を伴って話す。オーディオおよびビデオの両方のデータは、ニュートラルな表情についての１つのデータセットおよび３つのさらなるデータセット（１つが３つの表情の各々のためのもの）が存在するように、収集される。

次に、ステップＳ３０３において、オーディオヴィジュアルモデルが、４つのデータセットの各々について学習および生成される。入力ヴィジュアルデータは、学習データを生成するためにパラメータ化される。実行可能な方法が、図１９に関して画像モデルのための学習と関連して説明される。学習データは、音声ベクトルおよび画像ベクトルの両方に関連付けられる音響単位が存在するように、収集される。この実施形態において、４つのモデルの各々は、１つの顔からのデータを用いて学習されるに過ぎない。

クラスタ適応モデルは、以下のように初期化および学習される。

ステップＳ３０５において、クラスタ数ＰがＶ＋１に設定され、ここではＶは表情の数（４）である。

ステップＳ３０７において、１つのクラスタ（クラスタ１）がバイアスクラスタとして判定される。実施形態において、これは、ニュートラルな表情のためのクラスタであるだろう。バイアスクラスタのための決定木および関連するクラスタ平均ベクトルは、ステップＳ３０３において最高のモデルを生成した表情を用いて初期化される。この例において、それぞれの顔は、タグ「表情Ａ（ニュートラル）」、「表情Ｂ」、「表情Ｃ」および「表情Ｄ」を与えられる。共分散行列、多空間確率分布（ＭＳＤ）のための空間重み、および、それらのパラメータ共有構造もまた、表情Ａ（ニュートラル）のモデルのものへと初期化される。

各二分決定木は、全てのコンテキストを表す単一のルートノードから始まる局所的最適法で構築される。この実施形態において、コンテキストに従って、以下の基礎が用いられる。それは、音声学的なもの、言語学的なもの、および、韻律学的なものである。各ノードが作成される時に、コンテキストについての次の最適な質問が選択される。質問はどの質問が尤度において最大の増加を生じさせるかに基づいて選択され、学習例において終端ノードが生成される。

それから、その最適な質問を用いて分割可能な１つの終端ノードを見つけ出して学習データに対する合計の尤度において最大の増加を提供するために、終端ノードのセットが探索される。もし、この増加が閾値を超えるならば、ノードは最適な質問を用いて分割され、２つの新たな終端ノードが作成される。いかなるそれ以上の分割も尤度分割に適用される閾値を超えないであろうから新たな終端ノードを全く作り出すことができない場合には、処理は停止する。

この処理は、例えば図１０に示される。平均決定木における第ｎの終端ノードは、質問ｑによって２つの新たな端末ノードｎ^q _＋およびｎ^q ₋へと分割される。この分割によって獲得される尤度利得は、以下のように計算できる。

ここで、Ｓ（ｎ）は、ノードｎに関連付けられるコンポーネントの集合を示す。μ_ｎに関して一定である項は含まれていないことに注意されたい。

ここで、Ｃは、μ_ｎとは独立の定数項である。μ_ｎの最大の尤度は、数式１３によって与えられる。故に、上のものは以下のように書くことができる。

故に、ノードｎをｎ^q _＋およびｎ^q ₋へと分割することによって増加する尤度は以下のように与えられる。

上記のものを用いてクラスタ毎の決定木を構築することが可能であり、ここで、木は当該木において最初に最適な質問が尋ねられるように配列され、決定は分割による尤度に従って階層順に配列される。次に、重み付けが各クラスタへと適用される。

決定木は、分散のためにも構築されるかもしれない。共分散決定木は、以下のように構築される。共分散決定木における終端ノードが質問ｑによって２つの新たな終端ノードｋ^q _＋およびｋ^q ₋へと分割されるならば、クラスタ共分散行列および分割による利得は以下のように表現される。

ここで、Ｄは、｛Σ_ｋ｝とは独立の定数である。故に、尤度における増分は以下の通りである。

ステップＳ３０９において、特定の表情タグが第２，．．．，Ｐクラスタの各々に割り当てられる。例えば、クラスタ２，３，４および５は、それぞれ、表情Ｂ，Ｃ，ＤおよびＡ向けである。表情Ａ（ニュートラル）は、バイアスクラスタを初期化するために用いられたので、初期化される最後のクラスタに割り当てられることに注意されたい。

ステップＳ３１１において、ＣＡＴ補間重みのセットが、割り当てられた表情（以降、「voicetag」としても言及される）に従って、以下のように１または０へと単純に設定される。

この実施形態において、表情毎、ストリーム毎の大域的重みが存在する。表情／ストリームの組み合わせ毎に、３つの重みセット（無音用、画像用および休止用）が設定される。

ステップＳ３１３において、各クラスタ２，．．．，Ｐ−１について、順番に、クラスタが以下のように初期化される。関連する表情（例えば、クラスタ２についての表情Ｂ）についての顔データが、ステップＳ３０３において学習された関連する顔についての単話者モデルを用いてアライメントされる。これらのアライメントが与えられると、統計値が計算され、クラスタについての決定木および平均値が推定される。クラスタについての平均値は、ステップＳ３１１において設定される重みを用いて、クラスタ平均の正規化された重み付き和として計算される。即ち、実際には、これは、所与のコンテキストについての平均値（これは、当該コンテキストについてのバイアスクラスタの平均およびクラスタ２における当該コンテキストについての表情Ｂのモデルの平均の重み付き和（両方の場合に重みは１）である）に帰着する。

ステップＳ３１５において、今度は、決定木が、全４つの顔からの全データを用いて、バイアスクラスタのために再構築され、関連する平均および分散パラメータが再推定される。

表情Ｂ，ＣおよびＤのためのクラスタの追加後に、バイアスクラスタは、同時に全４つの表情を用いて再推定される。

ステップＳ３１７において、今度は、クラスタＰ（表情Ａ）が、ステップＳ３１３において説明される他のクラスタと同様に、表情Ａからのデータのみを用いて初期化される。

ひとたびクラスタが上記のように初期化されたならば、ＣＡＴモデルは、次は以下のように更新／学習される。

ステップＳ３１９において、決定木は、ＣＡＴ重みを固定しておいて、クラスタ１からＰまでクラスタ単位で再構築される。ステップＳ３２１では、ＣＡＴモデルにおいて新たな平均および分散が推定される。次いで、ステップＳ３２３において、新たなＣＡＴ重みが、クラスタ毎に推定される。実施形態において、収束まで処理はＳ３２１へとループバックする。パラメータおよび重みは、前述のパラメータのより良い推定値を得るためにバウム＝ウェルチアルゴリズムの補助関数を用いることによって行われる最尤計算を用いて推定される。

前述のように、パラメータは、反復処理を経て推定される。

さらなる実施形態において、ステップＳ３２３では、収束まで決定木が各反復中に再構築されるよう、処理はステップＳ３１９へとループバックする。

さらなる実施形態において、表情依存の変換が前述のように使用される。ここで、収束まで変換が適用され、変換されたモデルが次に反復されるように、表情依存の変換はステップＳ３２３の後に挿入される。実施形態において、変換は各反復の中で更新されるであろう。

図１０は、決定木の形であるクラスタ１乃至Ｐを示す。この単純化された例において、クラスタ１にはちょうど４つの終端ノードが存在し、クラスタＰには３つの終端ノードが存在する。決定木は対称性である必要はなく、即ち、各決定木は様々な数の終端ノードを持ち得ることに注目するのは重要である。木の中の終端ノードの数および分岐の数は、最初の決定において最大の分割を達成し、それからより大きな分割が生じる質問の順に質問が尋ねられる、対数尤度分割によって純粋に判定される。ひとたび達成される分割が閾値を下回るならば、ノードの分割は終了する。

上記のものは、以下の合成が行われることを可能にするカノニカルモデルを生成する。
１．４つの表情のうちいずれかが、当該表情に対応する重みベクトルの最終的なセットを用いて合成可能である。
２．ランダムな表情が、重みベクトルを任意の位置に設定することによってＣＡＴモデルによって張られるオーディオヴィジュアル空間から合成可能である。

さらなる例において、システムが表情特性を持つ目標表情の入力を与えられる場合に、同一特性を合成するためにアシスタントが用いられてもよい。

さらなる例において、システムが表情を表出する話者の入力を与えられる場合に、当該表情を合成するためにアシスタントが用いられてもよい。

図１１は、一例を示す。最初に、ステップ５０１において入力目標表情が受け取られる。次に、ステップＳ５０３において、カノニカルモデルの重み付け（即ち、過去に学習されたクラスタの重み付け）が、目標表情に一致するように調整される。

次に、顔ビデオが、ステップＳ５０３において導出された新たな重み付けを用いて出力される。

さらなる実施形態において、より複雑な方法（ここでは、新たなクラスタが新たな表情のために用意される）が用いられる。これは、図１２を参照して説明されるであろう。

図１１のように、最初に、ステップＳ５０１において、目標表情を表出して話す話者のデータが受け取られる。それから、ステップＳ５０３において、重み付けは、目標表情と最も一致するように調整される。

それから、ステップＳ５０７において、新たなクラスタが、目標表情のためのモデルに追加される。次に、新たな表情クラスタのための決定木が、図９を参照して説明されたのと同様のやり方で構築される。

それから、ステップＳ５１１において、モデルパラメータ（即ち、この例においては平均）が、新たなクラスタのために計算される。

次に、ステップＳ５１３において、重みが、全クラスタに対して更新される。それから、ステップＳ５１５において、新たなクラスタの構造が更新される。

これまでと同様に、ステップＳ５０５において、新たな目標表情を備える音声ベクトルおよび顔ベクトルが、新たなクラスタに関する新たな重み付けを用いて出力される。

この実施形態において、ステップＳ５１５では、他のクラスタを更新するには合成時に利用可能な学習データが必要とされるので、他のクラスタはこの時点では更新されないことに注意されたい。

さらなる実施形態において、クラスタはステップＳ５１５の後に更新され、故にフロー図は収束までステップＳ５０９へとループバックする。

最終的に、実施形態において、目標表情に対する類似度を更に向上させるために、ＣＭＬＬＲなどの線形変換がモデルに加えて適用可能である。この変換の回帰クラスは、大域的でもあり得るし、表情依存でもあり得る。

第２のケースでは、回帰クラスの共有構造（ｔｙｉｎｇｓｔｒｕｃｔｕｒｅ）は、表情依存のクラスタの決定木から、または、カノニカルモデルへ表情依存の重みを適用して追加的クラスタを追加した後に得られる分布のクラスタリングから、導出可能である。

最初は、バイアスクラスタは表情独立の特性を表すのに対して、他のクラスタはそれらの関連するボイスデータセットを表す。学習が進行するにつれて、表情へのクラスタの厳密な割り当ては、それほど厳密ではなくなる。クラスタおよびＣＡＴ重みは、今や広大な音響空間を表す。

上記実施形態は、ちょうど１つの属性（即ち、表情）を用いるクラスタリングに関連する。しかしながら、さらなる制御を得るために、ボイスおよび顔の属性を因子化（ｆａｃｔｏｒｉｓｅ）することも可能である。以下の実施形態において、表情は、発話スタイル（ｓ）および感情（ｅ）へと細分され、モデルは、これら２つの種別、表情または属性について因子化される。ここで、モデルセットＭにおける第ｍのガウシアンコンポーネントからのモデルパラメータｏ（ｔ）からなる、状態出力ベクトルまたはベクトルは、以下の通りである。

ここで、μ^{（ｓ，ｅ）} _ｍおよびΣ^{（ｓ，ｅ）} _ｍは、発話スタイルｓおよび感情ｅについての第ｍのガウシアンコンポーネントの平均および共分散である。

この実施形態において、ｓは、発話スタイル／ボイスを示すであろう。発話スタイルは、ささやく、叫ぶなどのスタイルを表す。ｓは、アクセントなどを示すためにも使用され得る。

同様に、この実施形態において、ただ２つの因子だけが考慮されるが、方法は他の音声因子へと拡張される可能性もあるし、これらの因子が更に細分される可能性もあり、因子化が各細分に対して行われる。

従来のテキスト読み上げシステムを学習させる時の目的は、所与の観測系列に対する尤度を最大化するモデルパラメータセットＭを推定することである。従来のモデルにおいて、１つの発話スタイルおよび表情／感情が存在し、故に、モデルパラメータセットは、全てのコンポーネントｍについてμ^{（ｓ，ｅ）} _ｍ＝μ_ｍおよびΣ^{（ｓ，ｅ）} _ｍ＝Σ_ｍである。

完全に分析的にいわゆる最尤（ＭＬ）基準に基づいて上記モデルセットを得ることは可能でないから、問題は、慣例的に、バウム＝ウェルチアルゴリズムとしてしばしば言及される期待値最大化（ＥＭ）アルゴリズムとして知られる反復的アプローチを用いて取り組まれる。ここで、補助関数（「Ｑ」関数）が導出される。

ここで、ｍ∈｛１，．．．，ＭＮ｝、ｔ∈｛１，．．．，Ｔ｝、ｓ∈｛１，．．．，Ｓ｝およびｅ∈｛１，．．．Ｅ｝は、それぞれ、コンポーネント、時間、発話スタイルおよび表情／感情のインデックスであり、ここで、ＭＮ、Ｔ、ＳおよびＥは、それぞれコンポーネント、フレーム、発話スタイルおよび表情の総数である。

μ^{^} _ｍ ^{（ｓ，ｅ）}およびΣ^{^} _ｍ ^{（ｓ，ｅ）}の厳密な形式は、適用される発話スタイルおよび感情依存の変換の種別に依存する。最も一般的なやり方において、スタイル依存の変換は、以下のものを含む。
− スタイル−感情依存の重みのセットλ^{（ｓ，ｅ）} _ｑ（ｍ）
− スタイル−感情依存のクラスタμ^{（ｓ，ｅ）} _{ｃ（ｍ，ｘ）}
− 線形変換のセット［Ａ^{（ｓ，ｅ）} _ｒ（ｍ），ｂ^{（ｓ，ｅ）} _ｒ（ｍ）］（それによって、これらの変換は、スタイルだけに依存したり、感情だけに依存したり、両方に依存したりすることもあり得る）。

全ての実行可能なスタイル依存の変換の適用後に、スタイルｓおよび感情ｅについての確率分布ｍの平均ベクトルμ^{^} _ｍ ^{（ｓ，ｅ）}および共分散行列Σ^{^} _ｍ ^{（ｓ，ｅ）}は、以下のようになる。

ここで、μ_{ｃ（ｍ，ｉ）}は、コンポーネントｍについてのクラスタＩの平均であり、μ^{（ｓ，ｅ）} _{ｃ（ｍ，ｘ）}は、スタイルｓ、感情ｅについての追加的なクラスタのコンポーネントｍについての平均ベクトル（これは後述されるであろう）であり、Ａ^{（ｓ，ｅ）} _ｒ（ｍ）およびｂ^{（ｓ，ｅ）} _ｒ（ｍ）は、スタイルｓ、表情ｅについての回帰クラスｒ（ｍ）に関連付けられる線形変換行列およびバイアスベクトルである。

線形変換が全く適用されないならば、Ａ^{（ｓ，ｅ）} _ｒ（ｍ）およびｂ^{（ｓ，ｅ）} _ｒ（ｍ）は、それぞれ、単位行列および零ベクトルとなる。

ここで、Ｃは、Ｍとは独立の定数である。

故に、上記のものを用い、数式２９に数式２７および数式２８を代入すると、補助関数はモデルパラメータが４つの別個の部分に分割され得ることを示す。

第１の部分は、カノニカルモデルのパラメータ（即ち、スタイルおよび表情に独立の平均｛μ_ｎ｝およびスタイルおよび表情に独立の共分散｛Σ_ｋ｝）であり、上記インデックスｎおよびｋは後述されるであろう平均決定木および分散決定木の葉ノードを示す。第２の部分は、スタイル−表情依存の重み｛λ_ｉ ^{（ｓ，ｅ）}｝_{ｓ，ｅ，ｉ}であり、ここではｓは発話スタイルを示し、ｅは表情を示し、ｉはクラスタインデックスパラメータを示す。第３の部分は、スタイル−表情依存のクラスタの平均μ_{ｃ（ｍ，ｘ）}であり、第４の部分は、制約付き最尤線形回帰（ＣＭＬＬＲ）変換｛Ａ_ｄ ^{（ｓ，ｅ）}，ｂ_ｄ ^{（ｓ，ｅ）}｝_{ｓ，ｅ，ｄ}であり、ここでは、ｓはスタイルを示し、ｅは表情を示し、ｄはコンポーネントｍが属するコンポーネントまたはスタイル−感情回帰クラスを示す。

ひとたび補助関数が上記のやり方で表現されれば、今度は、スタイルおよび感情／表情特性パラメータ、スタイル依存パラメータおよび表情／感情依存パラメータのＭＬ値を得るために、補助関数は、順番に変数の各々に関して最大化される。

以下の数式を単純化するために、線形変換が全く適用されないことが仮定される。もし、線形変換が適用されるならば、オリジナルの観測ベクトル｛ｏ_ｒ（ｔ）｝は変換された観測ベクトルに置換されなければならない。

同様に、追加的なクラスタが存在しないことが仮定されるであろう。学習中に追加的なクラスタを含めることは、Ａ^{（ｓ，ｅ）} _ｒ（ｍ）が単位行列かつ｛ｂ^{（ｓ，ｅ）} _ｒ（ｍ）＝μ^{（ｓ，ｅ）} _{ｃ（ｍ，ｘ）}｝の線形変換を加えることとちょうど等価である。

まず、数式２９の補助関数は、μ_ｎに関して以下のように微分される。

ここで、

しかしながら、学習データが小規模であるかＮがかなり大きいならば、数式３５の係数行列はフルランクを持たない可能性がある。この問題は、特異値分解または他の周知の行列因子分解法を用いることによって、回避できる。

次に、同じ処理が、共分散のＭＬ推定を行うために行われる。即ち、数式２９に示される補助関数がΣ_ｋに関して微分され、以下のものを与える。

ここで、

スタイル依存の重みおよびスタイル依存の線形変換のＭＬ推定値も同じやり方（即ち、ＭＬ推定が必要とされるパラメータに関して補助関数を微分し、それから微分値を０に設定する）で得ることができる。

表情／感情依存の重みについて、これは以下のものをもたらす。

ここで、

そして、同様に、スタイル依存の重みについて、これは以下のものをもたらす。

ここで、

好ましい実施形態において、処理は反復的なやり方で行われる。この基本的なシステムは、図１３乃至図１５のフロー図を参照して説明される。

ステップＳ４０１において、複数のオーディオおよびビデオ入力が受け取られる。この説明例において、４つのスタイルが用いられる。

次に、ステップＳ４０３において、音響モデルが、それぞれニュートラルな感情を伴って発話する、４つのボイス／スタイルの各々について学習および生成される。この実施形態において、４つのモデルの各々は、１つの発話スタイルを伴うデータを用いて学習されるに過ぎない。Ｓ４０３は、図１４のフローチャートを参照してより詳細に説明される。

図１４のステップＳ８０５において、クラスタ数ＰはＶ＋１に設定され、ここでＶはボイスの数（４）である。

ステップＳ８０７において、１つのクラスタ（クラスタ１）がバイアスクラスタとして判定される。バイアスクラスタのための決定木および関連するクラスタ平均ベクトルは、ステップＳ３０３において最高のモデルを生成したボイスを用いて初期化される。この例において、それぞれのボイスは、タグ「スタイルＡ」、「スタイルＢ」、「スタイルＣ」および「スタイルＤ」を与えられ、ここでスタイルＡが最高のモデルを生成したと仮定される。共分散行列、多空間確率分布（ＭＳＤ）のための空間重み、および、それらのパラメータ共有構造もまた、スタイルＡのモデルのものへと初期化される。

それから、図９乃至図１２を参照して上に説明されたように、その最適な質問を用いて分割可能な１つの終端ノードを見つけ出して学習データに対する合計の尤度において最大の増加を提供するために、終端ノードのセットが探索される。

前述のように、決定木は、分散のためにも構築されるかもしれない。

ステップＳ８０９において、特定のボイスタグが第２，．．．，Ｐクラスタの各々に割り当てられる。例えば、クラスタ２，３，４および５は、それぞれ、スタイルＢ，Ｃ，ＤおよびＡ向けである。スタイルＡは、バイアスクラスタを初期化するために用いられたので、初期化される最後のクラスタに割り当てられることに注意されたい。

ステップＳ８１１において、ＣＡＴ補間重みのセットが、割り当てられたボイスタグに従って、以下のように１または０へと単純に設定される。

この実施形態において、スタイル毎、ストリーム毎の大域的重みが存在する。

ステップＳ８１３において、各クラスタ２，．．．，Ｐ−１について、順番に、クラスタが以下のように初期化される。関連するスタイル（例えば、クラスタ２についてのスタイルＢ）についてのボイスデータが、ステップＳ３０３において学習された関連するスタイルについての単スタイルモデルを用いてアライメントされる。これらのアライメントが与えられると、統計値が計算され、クラスタについての決定木および平均値が推定される。クラスタについての平均値は、ステップＳ８１１において設定される重みを用いて、クラスタ平均の正規化された重み付き和として計算される。即ち、実際には、これは、所与のコンテキストについての平均値（これは、当該コンテキストについてのバイアスクラスタの平均およびクラスタ２における当該コンテキストについてのスタイルＢのモデルの平均の重み付き和（両方の場合に重みは１）である）に帰着する。

ステップＳ８１５において、今度は、決定木が、全４つのスタイルからの全データを用いて、バイアスクラスタのために再構築され、関連する平均および分散パラメータが再推定される。

スタイルＢ，ＣおよびＤのためのクラスタの追加後に、バイアスクラスタは、同時に全４つのスタイルを用いて再推定される。

ステップＳ８１７において、今度は、クラスタＰ（スタイルＡ）が、ステップＳ８１３において説明される他のクラスタと同様に、スタイルＡからのデータのみを用いて初期化される。

ステップＳ８１９において、決定木は、ＣＡＴ重みを固定しておいて、クラスタ１からＰまでクラスタ単位で再構築される。ステップＳ８２１では、ＣＡＴモデルにおいて新たな平均および分散が推定される。次いで、ステップＳ８２３において、新たなＣＡＴ重みが、クラスタ毎に推定される。実施形態において、収束まで処理はＳ８２１へとループバックする。パラメータおよび重みは、前述のパラメータのより良い推定値を得るためにバウム＝ウェルチアルゴリズムの補助関数を用いることによって行われる最尤計算を用いて推定される。

さらなる実施形態において、ステップＳ８２３では、収束まで決定木が各反復中に再構築されるよう、処理はステップＳ８１９へとループバックする。

処理は、それから、図１３のステップＳ４０５（ここでは、今度は、モデルが、声および顔の両方で異なる感情のために学習される）へと戻る。

この実施形態において、感情は、ステップＳ４０３における発話スタイルのモデル化について説明されたのと同じやり方でクラスタ適応学習を用いてモデル化される。最初に、「感情クラスタ」がステップＳ４０５において初期化される。これは、図１５を参照してより詳細に説明されるであろう。

次に、データが、スタイルの少なくとも１つについて収集され、ここでは、さらに、入力データは顔の表情またはボイスのどちらかの点で感情的である。ただ１つのスタイルから（ここでは話者は当該スタイルでそれぞれ様々な感情を表出する多数のデータサンプルを提供する）、または、複数のスタイルおよび様々な感情を伴うデータサンプルを提供する話者からデータを収集することが可能である。この実施形態において、システムを学習させて感情を表出するために提供される音声サンプルが、ステップＳ４０３においてデータを収集して初期ＣＡＴモデルを学習させるために用いられたスタイルから得られることが推定されるであろう。しかしながら、システムは、ステップＳ４０３において用いられたデータとは異なる発話スタイルに関して収集されたデータを用いて、感情を表出するために学習することもできる。

ステップＳ４５１において、非ニュートラルな感情データが、Ｎ_ｅ個のグループへとグループ化される。ステップＳ４５３において、Ｎ_ｅ個の追加的なクラスタが、感情をモデル化するために追加される。クラスタは、各感情グループに関連付けられる。例えば、クラスタは、「嬉しい」などに関連付けられる。

これらの感情クラスタは、ステップＳ４０３において作り出されたニュートラルスタイルのクラスタに加えて用意される。

ステップＳ４５５において、もし１つの感情を表出する学習のために音声データが用いられるならば、当該感情に関連付けられるクラスタが「１」に設定され、他の感情クラスタの全てが「０」で重み付けられるように、感情クラスタの重み付けのためにバイナリベクトルを初期化する。

この初期化フェーズ中に、ニュートラルな感情および発話スタイルのクラスタは、データについての発話スタイルに関連付けられる重み付けに設定される。

次に、ステップＳ４５７において、決定木が、各感情クラスタのために構築される。最終的には、重みは、ステップＳ４５９においてデータの全てに基づいて再推定される。

感情クラスタが前述のように初期化された後に、ステップＳ４０７において、ガウス平均および分散が、全てのクラスタ（バイアス、スタイルおよび感情）について再推定される。

次に、ステップＳ４０９において、感情クラスタについての重みが、前述のように再推定される。それから、決定木が、ステップＳ４１１において再計算される。次に、処理はステップＳ４０７へとループバックし、モデルパラメータ、それに続くステップＳ４０９における重み付け、それに続くステップＳ４１１における決定木の再構築が、収束まで行われる。実施形態において、ループＳ４０７−Ｓ４０９は数回繰り返される。

次に、ステップＳ４１３において、モデルの分散および平均が、バイアス、スタイルおよび感情の全てのクラスタについて再推定される。ステップＳ４１５において、重みが発話スタイルのクラスタについて再推定され、ステップＳ４１７において、決定木が再構築される。処理は次にステップＳ４１３へとループバックし、このループは収束まで繰り返される。処理は次にステップＳ４０７へとループバックし、感情に関するループが収束まで繰り返される。処理は、収束が両方のループについて共に達せられるまで継続する。

さらなる実施形態において、システムは、新たな感情などの新たな属性に適応するために用いられる。これは、図１６を参照して説明されるであろう。

最初に、目標ボイスがステップＳ６０１において受け取られ、データが新たな属性を伴って発話するボイスについて収集される。最初に、ニュートラルなスタイルのクラスタのための重み付けが、ステップＳ６０３において目標ボイスに最も一致するように調整される。

次に、新たな感情クラスタが、ステップＳ６０７において新たな感情についての既存の感情のクラスタへと追加される。次に、新たなクラスタのための決定木が、ステップＳ４５５から先へ図１２に関連して説明されたように、初期化される。次に、重み付け、モデルパラメータおよび木が、図１３を参照して説明されたように、全てのクラスタについて再推定および再構築される。

上記方法は、コンピュータ生成ヘッドが様々な表情を採用して適応できるように当該ヘッドが自然なやり方で音声を出力することを可能にするシステムを説明する。データのクラスタリングされた形式は、非常に効率的なやり方でシステムを実行するデータが保存されるので当該システムが小さな設置面積で構築されることを可能にし、システムはかなり少量のデータを必要としつつも前述のように容易に新たな表情に適応することも可能である。

上記のものは、ヘッドをレンダリングしてアニメーションにするためにＣＡＴ−ＨＭＭがどのように適用されるかを詳細に説明した。前述のように、顔ベクトルは、複数の顔パラメータを含む。ベクトルをサポートするための１つの適したモデルは、アクティブ・アピアランス・モデル（ＡＡＭ）である。とはいえ、他の統計モデルが使用されてもよいが。

ＡＡＭは、Ｖ個の頂点のメッシュ上に定義される。モデルの形状、ｓ＝（ｘ_１；ｙ_１；ｘ_２；ｙ_２；；ｘ_Ｖ；ｙ_Ｖ）^Ｔは、各メッシュ頂点の２Ｄ位置（ｘ_ｉ；ｙ_ｉ）を定義し、以下のものによって与えられる線形モデルである。

ここで、ｓ_０がモデルの平均形状であり、ｓ_ｉはＭ個の線形形状モードのうち第ｉのモードであり、ｃ_ｉはその対応するパラメータ（これは、「重み付け」パラメータであると考えることができる）である。形状モード、および、それらがどのように学習されるかは、図１９を参照してより詳細に説明されるであろう。しかしながら、形状モードは、顔の表情のセットとみなすことができる。顔についての形状は、形状モードの重み付き和（ここでは重み付けはパラメータｃ_ｉによって提供される）によって生成されるかもしれない。

このやり方で出力される表情を定義することによって、顔は表情の連続を表出することが可能である。

次に、カラー値が、ａ＝（ｒ_１；ｇ_１；ｂ_１；ｒ_２；ｇ_２；ｂ_２；．．．；ｒ_Ｐ；ｇ_Ｐ；ｂ_Ｐ）^Ｔに従って、モデルのアピアランスに含められる。ここで、（ｒ_ｉ；ｇ_ｉ；ｂ_ｉ）は、平均形状ｓ_０に投影するＰ個の画素のうち第ｉの画素のＲＧＢ表現である。形状モデルと同様に、アピアランスは以下のものによって与えられる。

ここで、ａ_０は、モデルの平均のアピアランスベクトルであり、ａ_ｉは、第ｉのアピアランスモードである。

この実施形態において、合成されたアピアランスモデルが使用され、数式２．１および数式２．１におけるパラメータｃ_ｉは、同一であり、形状およびアピアランスの両方を制御する。

図１７は、そのようなＡＡＭの概略図を示す。ステップＳ１００１において、モデルへの入力はパラメータである。次に、これらの重みは、形状モデル１００３およびアピアランスモデル１００５の両方に向けられる。

図１７は、形状モデル１００３のモードｓ_０，ｓ_１，．．．，ｓ_Ｍおよびアピアランスモデルのモードａ_０，ａ_１，．．．，ａ_Ｍを説明する。形状モデル１００３の出力１００７およびアピアランスモデルの出力１００９は、ステップＳ１０１１において合成されて所望の顔画像を生成する。

このモデルに入力されるパラメータは、上記図２に付随する説明において上で言及された顔ベクトルとして使用可能である。

ＡＡＭの大域的な性質は、３Ｄの姿勢変化と共に局所的な変形による変動を扱う一部のモードにつながる。

この実施形態において、ヘッド回転または他の物理的に意味のある動きに完全に対応するＡＡＭのモードが使用される。これは、以下のように数学的に表現可能である。

この実施形態において、同様の数式がアピアランスについても導出される。しかしながら、ＡＡＭにおける形状およびアピアランスの結合は、これを難問にする。これに取り組むために、学習中に、固定のニュートラルな表情を伴う短いヘッド回転の学習系列を記録し、観測された平均の正規化形状ｓ^{^}＝ｓ−ｓ_０にＰＣＡを適用することによって、最初に｛ｓ_ｉ ^ｐｏｓｅ｝^Ｋ _ｉ＝１をモデル化する形状コンポーネントが導出される。次に、上の数式２．３におけるパラメータ｛ｃ_ｉ｝^Ｋ _ｉ＝１を推定するために、ｓ^{^}が、｛ｓ_ｉ ^ｐｏｓｅ｝^Ｋ _ｉ＝１によって張られる姿勢変動空間に投影される。

これらのパラメータが見つけ出されると、姿勢の正規化された学習形状ｓ^＊を得るために、姿勢コンポーネントが各学習形状から取り除かれる。

形状およびアピアランスが本当に独立である場合には、変形コンポーネントは、数式２．５のように正規化された形状サンプルの学習セットの主成分分析（ＰＣＡ）を用いて見つけ出すことが可能であって、これは姿勢モードと直交するモードのみが見つけ出されることを保証する。

しかしながら、数式２．４を用いて計算されるパラメータが形状およびアピアランスモードについて同一である保証は全くなく、これは当該パラメータから導出されたモデルを用いて学習例を再構築することが可能でないかもしれないことを意味する。

この問題を克服するために、アピアランスおよび形状パラメータのそれぞれの｛ｃ_ｉ｝^Ｋ _ｉ＝１の平均が以下のものを用いて計算される。

次に、モデルは、数式２．５におけるこれらのパラメータを使用し、完全な学習セットのサンプルから変形モードを見つけ出すことによって構築される。

さらなる実施形態において、モデルは、目のまばたきなどの局部的な変形に適応させられる。これは、説明された方法の修正版（ここでは、模範のまばたきが、まばたきを含むが他のヘッドの動きを全く備えないビデオから学習される）により実現することができる。

これらのまばたきモードを学習セットから取り除くために、姿勢を分離するための上に教示された方法を直接的に適用することは、アーチファクトを導入するかもしれない。この理由は、まばたきに関連付けられる形状モード（動きの大部分がまぶたにある）を考慮すれば明らかである。これは、目が顔の重心（例えば、口が開けば、これは重心を低くする）に対して異なる位置にあるならば、たとえまぶたの動きが目を不自然に開けたり閉じたりしたとしても、まぶたが平均のまぶた位置に向かって動くことを意味する。数式２．６において、絶対座標のパラメータを計算する代わりに、ラプラス演算子を用いて相対的な形状座標が実装される。

ラプラス演算子Ｌ（）は、形状内の各頂点ｉの相対位置δ_ｉが以下のものを用いてそのオリジナルの位置ｐ_ｉから計算できるように、形状サンプル上で定義される。

ここで、Ｎは、ＡＡＭメッシュ上で定義される１つ隣（ｏｎｅ−ｎｅｉｇｈｂｏｒｈｏｏｄ）であり、ｄ_ｉｊは平均の形状における頂点ｉおよびｊの間の距離である。顔内部の目の位置の代わりに目内部の相対的な動きがモデル化されるので、このアプローチはまばたきについての学習サンプルを正確に正規化する。

さらなる実施形態は、顔の相異なる部位がほぼ独立に動くという事実にも適応する。モードは姿勢および変形コンポーネントへと分解されることが説明された。これは、変形コンポーネントが影響を及ぼす局所的な部位による、変形コンポーネントのさらなる分離を可能にする。モデルはＲ個の部位へと分割可能であり、その形状は以下のものに従ってモデル化することができる。

ここで、Ｉ_ｊは、部位ｊに関連付けられるコンポーネントインデックスの集合である。一実施形態において、部位毎のモードは、手動で選択された、平均の形状において印を付けられた境界に従ってモデルの頂点の部分集合のみを考慮するだけで学習される。モードは、部位に対応するモード（モデルが、学習セットにおいて観測される、最高の分散の割合を表すことを可能にする）を貪欲的に追加することによって、最大数まで反復的に含められる。

類似のモデルが、アピアランスのために用いられる。線形ブレンディングが、部位境界付近で局所的に適用される。このアプローチは、顔を上半分および下半分へ分割するために用いられる。この利点は、合成中の口形状の変化が顔の上半分におけるアーチファクトを引き起こすことがあり得ないことである。大域的なモードが姿勢をモデル化するために用いられるので、顔の上半分および下半分が相異なる姿勢を持つリスクは全くない。

図１８は、前述の強化型ＡＡＭを説明する。図１７のＡＡＭと同じく、図１８（ａ）のＡＡＭに対する入力重み付けは、図２を参照して説明されるアルゴリズムにおいて用いられる顔ベクトルを作り出すことができる。

しかしながら、ここでは、入力パラメータｃｉは、Ｓ１０５１において入力される姿勢用のパラメータ、Ｓ１０５３のまばたき用のパラメータ、および、Ｓ１０５５において入力される各部位における変形をモデル化するためのパラメータへと分割される。図１８において、部位１乃至Ｒが示される。

次に、これらのパラメータは、形状モデル１０５７およびアピアランスモデル１０５９へと提供される。ここでは、姿勢パラメータは、形状モデル１０５７のうちの姿勢モード１０６１およびアピアランスモデルのうちの姿勢モード１０６３を重み付けるために用いられ、まばたきパラメータは、形状モデル１０５７のうちのまばたきモード１０６５およびアピアランスモデルのうちのまばたきモード１０６７を重み付けるために用いられ、局部的変形パラメータは、形状モデル１０５７のうちの局部的変形モード１０６９およびアピアランスモデルの局部的変形モード１０７１を重み付けるために用いられる。

図１７と同じく、ステップＳ１０７３において生成された形状が出力され、ステップＳ１０７５において生成されたアピアランスが出力される。次に、生成された形状および生成されたアピアランスが、ステップＳ１０７７において合成されて生成画像を作り出す。

歯および舌は学習例の多数において遮られているので、これらの部位の合成は著しいアーチファクトを引き起こすかもしれない。これらのアーチファクトを低減させるために、上側および下側の歯のために固定の形状およびテクスチャが用いられる。これらの静的なテクスチャの置換は、上側および下側のそれぞれの歯の中心の頂点の置き換えによって与えられる。歯は顔の残部の前にレンダリングされ、これは正確なオクルージョンが生じることを保証する。

図１８（ｂ）は、図１８（ａ）に対する修正（ここでは、静的なアーチファクトが最初にレンダリングされる）を示している。ステップＳ１０７３およびステップＳ１０７５において形状およびアピアランスがそれぞれ生成された後に、ステップＳ１０８１において歯の位置が判定される。実施形態において、歯は、顔面上の固定の可視のポイントに関係のある位置に存在すると判定される。それから、歯は、ステップＳ１０８３において当該歯の固定の形状およびテクスチャを仮定することによりレンダリングされる。次に、顔の残部は、ステップＳ１０８５においてレンダリングされる。

図１９は、本発明の実施形態に従うシステムの学習を示すフロー図である。ステップＳ１３０１において学習画像が収集される。一実施形態において、学習画像は、さまざまな表情にわたって収集される。例えば、オーディオおよびヴィジュアルデータが、話者の顔の表情を収集するために準備されたカメラおよびオーディオを収集するマイクロフォンによって収集されるかもしれない。話者は、センテンスを読み出すことが可能であり、特定のセンテンスを読む時に用いられる必要のある感情または表情についての指示を受けるであろう。

データは、感情の各々において共通の音素のセットに対応する学習画像からフレームセットを選択することが可能であるように、選択される。一部の実施形態において、約７０００の学習センテンスが用いられる。しかしながら、このデータの多くは、前述のように音声モデルを学習して音声ベクトルを生成するために用いられる。

前述の学習データに加えて、さらなる学習データが、姿勢変化によるモードを分離するために取り込まれる。例えば、話者が固定のニュートラルな表情を維持しながら彼らのヘッドを回転させるビデオが取り込まれるかもしれない。

同様に、話者が彼らの顔面の残部を静止しながらまばたきをするビデオが取り込まれるかもしれない。

ステップＳ１３０３において、ＡＡＭを構築するための画像が選択される。実施形態において、ほんの約１００個のフレームが、ＡＡＭを構築するために必要とされるに過ぎない。データが様々なフレーム（ここでは、話者は広範な表情を表出する）に亘って収集されることを可能にする画像が選択される。例えば、話者が様々な表情を表出するフレーム（様々な口の形状、目を開く、閉じる、全開など）が選択されるかもしれない。一実施形態では、ヘッドによって表出される感情の各々において共通の音素のセットに対応するフレームが選択される。

さらなる実施形態において、多数のフレーム（例えば、長いビデオシーケンスのフレームの全て）が使用され得る。いっそうのさらなる実施形態において、フレーム（ここでは、活動させられる個別の筋肉群におおよそ対応する１組の顔の表情を話者が演じた）が選択されるかもしれない。

ステップＳ１３０５において、ステップＳ１３０３において選択されたフレーム上の注目点が標識付けされる。実施形態において、これは、顔面上のキーポイント（例えば、目角、口角、および、ほくろ、または、しみ）を視覚的に識別することによってなされる。一部の輪郭（例えば、顔および髪のシルエット、ならびに、唇）も標識付けされるかもしれないし、キーポイントはこれらの輪郭の複数ポイントへの等距離の細分化によって当該輪郭から自動的に生成されるかもしれない。

他の実施形態において、キーポイントは、学習されたキーポイント検出器を用いて自動的に見つけ出される。いっそうのさらなる実施形態において、キーポイントは、多数の顔画像を自動的にアライメントすることによって見つけ出される。いっそうのさらなる実施形態において、上記方法の２つ以上が、処理中にユーザによって与えられた標識から一部の欠落した情報を推定することによって半自動の処理が適用されるように、手動の標識付けと組み合わせられる可能性がある。

ステップＳ１３０７において、姿勢変化をモデル化するために取り込まれたフレームが選択され、ＡＡＭが姿勢を単独でモデル化するために構築される。

次に、ステップＳ１３０９において、まばたきをモデル化するために取り込まれたフレームが選択され、ＡＡＭモードがまばたきを単独でモデル化するために構築される。

次に、さらなるＡＡＭが、姿勢およびまばたきをモデル化するために用いられたフレームを含む、選択されたフレームの全てを用いて構築される（但し、モデルを構築する前に、ｋ個のモードの効果は前述のデータから取り除かれた）。

ＡＡＭが十分に行われていないフレームが選択される。これらのフレームは、次に手動で標識付けされて学習セットに追加される。処理は、新たな画像を追加することによるさらなる改善がほとんどなくなるまで繰り返される。

ひとたびモードについての全てのＡＡＭパラメータ（姿勢、まばたきおよび変形）が確立されたならば、ＡＡＭは学習されている。

図２０は、ＡＡＭがどのように構築されるのかの概略図である。学習画像１３６１が標識付けされ、形状モデル１３６３が導出される。テクスチャ１３６５もまた顔モデルごとに抽出される。ひとたびＡＡＭモデルおよびパラメータが前述のように計算されれば、形状モデル１３６３およびテクスチャモデル３６５は顔１３６７を生成するために合成される。

一実施形態において、ＡＡＭパラメータおよびそれらの１次導関数が、前述のようにＣＡＴ−ＨＭＭ学習アルゴリズムのための入力において用いられる。

さらなる実施形態において、過去に学習されたＡＡＭの空間ドメインが、既存のモデルに影響を与えることなくさらなるドメインへと拡張される。例えば、それは、髪および耳の部位を含ませてさらなるリアリズムを加えるために、顔の部位でのみ学習されたモデルを拡張するのに使用されてよい。

既存のＡＡＭについてのＮ個の学習画像のセットが既知であり、同様にこれらの画像についてのオリジナルモデルの係数ベクトル｛ｃ_ｊ｝^Ｎ _ｊ＝１（ｃ_ｊ∈Ｒ^Ｍ）も既知である。モデルに含められる部位は、それから、標識付けされ、Ｎ個の学習形状｛ｓ^~ _ｊ ^ｅｘｔ｝^Ｎ _ｊ＝１およびアピアランス｛ａ^~ _ｊ ^ｅｘｔ｝^Ｎ _ｊ＝１の新たなセットに帰着する。Ｍ個のモードを備えるオリジナルモデルを仮定すると、新たな形状モード｛ｓ_ｉ｝^Ｍ _ｉ＝１は、以下の制約を満足すべきである。

これは、拡張された学習形状ｓ^~ _ｊ ^ｅｘｔを再構築するために、オリジナルモデルの係数を用いて、新たなモードが合成可能であることを示す。学習サンプル数Ｎがモード数Ｍより大きいことを仮定すると、新たな形状モードは最小二乗解として得ることができる。新たなアピアランスモードは、同様に見つけ出される。

上記のものを説明するために、実験が行われた。ここでは、６個の感情（ニュートラル、優しい、腹を立てた、恐れている、うれしいおよび悲しい）の間で分類された６９２５個のセンテンスのコーパスが用いられた。データから３００個のセンテンスがテストセットとして差し出され、残りのデータが音声モデルを学習させるために用いられた。音声データは、４５次元のメル周波数ケプストラム係数、ｌоｇ−Ｆ０（ピッチ）および２５帯域の非周期性とともにそれらの１次および２次導関数からなる標準的な特徴セットを用いてパラメータ化された。ヴィジュアルデータは、後述される様々なＡＡＭを用いてパラメータ化された。一部のＡＡＭは、提案された拡張で得られた改善を評価するために、学習された。それぞれのケースにおいて、ＡＡＭは１７個のパラメータによって制御され、パラメータ値およびそれらの１次導関数がＣＡＴモデルにおいて用いられた。

使用された第１のモデル、即ちＡＡＭｂａｓｅは、７１個の学習画像（このうち４７個の顔のキーポイントが手動で標識付けされた）から構築された。さらに、両目、内唇および外唇、ならびに、顔のエッジ周辺の輪郭が標識付けされ、それらの長さに従って等間隔でポイントがサンプリングされた。第２のモデル、即ちＡＡＭｄｅｃоｍｐは、３Ｄのヘッドの回転（２つのモードによってモデル化される）およびまばたき（１つのモードによってモデル化される）を変形モードから分離する。第３のモデル、即ちＡＡＭｒｅｇｉоｎｓは、８個のモードが顔の下半分をモデル化するために用いられ、かつ、６個のモードが顔の上半分をモデル化するために用いられる点を除いてＡＡＭｄｅｃоｍｐと同じやり方で構築される。最後のモデル、即ちＡＡＭｆｕｌｌは、口の部位（静的な形状を別様で扱うように修正されている）を除いてＡＡＭｒｅｇｉоｎｓと同じである。第１の実験において、各ＡＡＭの再構築エラーが、約１００万フレームを含む、６９２５個のセンテンスの完全なデータセットに対して定量的に評価された。再構築エラーは、各ＡＡＭの平均形状へとワープされた入力画像と生成されたアピアランスとの間の画素毎の差分のＬ２ノルムとして見積もられた。

図２１（ａ）は、再構築エラーが、ＡＡＭモード数に対してどのように変化するのかを示す。少数のモードに関してＡＡＭｂａｓｅは最も低い再構築エラーを備えているが、モード数が増えるにつれてエラーの差は縮小することが認められる。換言すれば、意味的に重要なモードが提供する柔軟性は、トラッキング精度の低下を犠牲にして得られるのではない。実際、修正されたモデルは、図２１（ｂ）に示されるように、ベースモデルに比べて、ロバストであり、かつ、平均してより少ないワーストケースエラーを持つことが確かめられた。これは、ＡＡＭｒｅｇｉоｎｓおよびＡＡＭｄｅｃоｍｐは異なる顔の部位の間の擬似相関を学習することにより学習データを過剰に適応させないので、ＡＡＭｒｅｇｉоｎｓおよびＡＡＭｄｅｃоｍｐが初見の例をより上手に一般化できることにおそらく原因がある。

合成されたビデオの知覚的な品質を評価するために、多数の大規模ユーザ研究が行われた。実験装置は、クラウドソーシングウェブサイトを介して配布され、提案されたシステムによって生成されたビデオをユーザに提示した。

最初の研究では、提案されたＶＴＴＳシステムの、様々な表情を表出する能力が評価された。ユーザは、テストセットから単一のセンテンスのビデオまたはオーディオクリップを与えられ、話者によって表出される表情を識別して６個の感情のリストから選択することを求められた。この評価のための合成ビデオデータは、ＡＡＭｒｅｇｉоｎｓモデルを用いて生成された。合成ビデオデータは、実際のビデオフィルムのトリミングされたバージョンだけでなく合成ビデオのみおよび合成オーディオのみのバージョンとも比較された。それぞれの場合において、６個の感情の各々で１０個のセンテンスが、２０人によって評価され、１２００個の合計サンプル数に帰着した。

平均認識率は、取り込まれたフィルムについて７３％であり、我々の生成ビデオ（オーディオつき）について７７％であり、合成ビデオのみについて５２％であり、合成オーディオのみについて６８％である。これらの結果は、合成的に生成された結果の認識率が、実際のフィルムに、匹敵し、わずかに高くすらあることを示す。これは、合成における表情の様式化に原因があるのかもしれない。相異なる表情の間の混同行列が図２２に示される。優しい表情およびニュートラルな感情は、全てのケースで最も混同されやすい。一部の感情は、オーディオのみからいっそう適切に認識されるが、両方の刺激を用いる場合に全体的な認識率はより高い。

最終的なシステムでのＡＡＭの質的な効果を判定するために、様々なＡＡＭを用いて構築されたシステムについて嗜好テストが行われた。嗜好テスト毎に、６個の感情の各々において１０個のセンテンスが、並んでレンダリングされた２つのモデルと共に生成された。ＡＡＭの各ペアは、左のモデル、右のモデル、または、嗜好を持たない、の中から選択することを求められた（我々のモデルのレンダリングの順序は、偏りを避けるために実験の間に切り替えられた）１０人のユーザによって評価され、嗜好テストあたり合計６００ペアの比較に帰着した。

この実験において、顔モデルの品質に焦点を合わせるために、ビデオはオーディオなしで見せられた。図２３に示されるテーブル１から、ＡＡＭｆｕｌｌは最高のスコアを達成したこと、ＡＡＭｒｅｇｉоｎｓもまた標準的なＡＡＭよりも好まれていることが認められる。この嗜好は、大量のヘッドの動きが存在する、腹を立てた、などの表情について最も顕著であり、それゆえ、ヘッドの目立って大きな動きを伴わない、ニュートラル、および、優しい、などの感情についてより低い。

いくつかの実施形態を説明したが、これらの実施形態は、例として提示したものに過ぎず、発明の範囲を限定することを意図されていない。実際、ここで説明された新規な方法および装置は、様々な他の形態で実施されることが可能である。更に、発明の要旨を逸脱することなく、ここで説明された方法および装置の形態において種々の省略、置き換え、変更を行うことができる。添付の特許請求の範囲およびその均等物は、係る変形の形態をカバーするように意図されており、発明の範囲や要旨に含まれるであろう。

Claims

ヘッドのコンピュータ生成をアニメーションにする方法であって、
前記ヘッドは、当該ヘッドによって出力される音声に従って動く口を持ち、
前記方法は、
前記口の動きによって出力されることになる音声に関連する入力を準備することと、
前記入力を音響単位の系列へと分割することと、
入力されるテキストのための表情特性を選択することと、
統計的モデル（前記モデルは、音響単位を画像ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持つ）を用いて前記音響単位の系列を画像ベクトル（前記画像ベクトルは、前記ヘッドの顔を定義する複数のパラメータを含む）の系列へと変換することと、
前記ヘッドの口が動いて、選択された表情を伴って前記ヘッドによって出力される音声を真似るよう、前記画像ベクトルの系列をビデオとして出力することと
を具備し、
前記選択された表情における各確率分布の所定の種別のパラメータは、同一種別のパラメータの重み付き和として表現され、
前記音響単位の系列を画像ベクトルの系列へと変換することが前記選択された表情のための表情依存の重みを検索することを具備するよう、使用される重み付けは表情依存であり、
パラメータはクラスタで準備され、各クラスタは少なくとも１つのサブクラスタを含み、
サブクラスタ毎に１つの重みが存在するよう、前記表情依存の重みはクラスタ毎に検索される、
方法。
前記モデルは、前記音響単位の系列を音声ベクトルへと変換するように構成され、
前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持ち、
前記方法は、前記音声ベクトルの系列を前記ヘッドの唇の動きと同期するオーディオとして出力することをさらに具備する、
請求項１記載の方法。
前記入力は、音響単位の系列へと分割されるテキスト入力である、請求項１記載の方法。
前記入力が音声入力であり、
前記音声入力は、音響単位の系列へと分割され、前記ヘッドのビデオと共にオーディオとして出力される、
請求項１記載の方法。
各サブクラスタは、少なくとも１つの決定木を含み、
前記決定木は、言語学的な差異、音声学的な差異または韻律学的な差異のうち少なくとも１つに関連する質問に基づいている、
請求項１記載の方法。
表情特性は、様々な感情、アクセントまたは発話スタイルのうち少なくとも１つから選択される、請求項１記載の方法。
表情特性を選択することは、入力（重み付けが当該入力を介して選択されることを可能にする）を準備することを具備する、請求項１記載の方法。
表情特性を選択することは、出力される音声から、使用されるべき重み付けを予測することを具備する、請求項１記載の方法。
表情特性を選択することは、出力される音声に関する外部情報から、使用されるべき重み付けを予測することを具備する、請求項１記載の方法。
表情を選択することは、
顔を含むビデオ入力を受け取ることと、
前記ビデオ入力の顔の表情特性をシミュレートするために重み付けを変更することと
を具備する、請求項１記載の方法。
表情特性を選択することは、
出力される音声を含むオーディオ入力を受け取ることと、
オーディオ音声入力から重み付けを得ることと
を具備する、請求項１記載の方法。
表情特性を選択することは、事前に保存された複数の重みのセットから重みのセットをランダムに選択することを具備し、
それぞれの重みのセットは、全てのサブクラスタのための重み付けを含む、
請求項１記載の方法。
前記画像ベクトルは、顔がモードの重み付き和から構築されることを可能にするパラメータを含み、
前記モードは、顔または顔のパーツの再構築を表す、
請求項１記載の方法。
モードが、顔の形状およびアピアランスを表すモードを含む、請求項１３記載の方法。
同一の重み付けパラメータが、形状モードおよび当該形状モードの対応するアピアランスモードのために使用される、請求項１４記載の方法。
モードのうち少なくとも１つが、顔の姿勢を表す、請求項１３記載の方法。
複数のモードが、顔の部位の変形を表す、請求項１３記載の方法。
モードのうち少なくとも１つが、まばたきを表す、請求項１３記載の方法。
ヘッドの静的な特徴が、固定の形状およびテクスチャを用いてモデル化される、請求項１３記載の方法。
コンピュータ生成ヘッドをレンダリングするためのシステムを新たな表情に適応させる方法であって、
前記ヘッドは、当該ヘッドによって出力される音声に従って動く口を持ち、
前記システムは、
前記口の動きによって出力されることになる音声のデータを受け取るための入力と、
プロセッサと
を具備し、
前記プロセッサは、
入力データを音響単位の系列へと分割し、
入力されるテキストのための表情特性の選択を可能にし、
統計的モデル（前記モデルは、音響単位を画像ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持つ）を用いて前記音響単位の系列を画像ベクトル（前記画像ベクトルは、前記ヘッドの顔を定義する複数のパラメータを含む）の系列へと変換し、
前記ヘッドの口が動いて、選択された表情を伴って出力される音声を真似るよう、前記画像ベクトルの系列をビデオとして出力する、
ように構成され、
前記選択された表情における各確率分布の所定の種別のパラメータは、同一種別のパラメータの重み付き和として表現され、
前記音響単位の系列を画像ベクトルの系列へと変換することが前記選択された表情のための表情依存の重みを検索することを具備するよう、使用される重み付けは表情依存であり、
パラメータはクラスタで準備され、各クラスタは少なくとも１つのサブクラスタを含み、
サブクラスタ毎に１つの重みが存在するよう、前記表情依存の重みはクラスタ毎に検索され、
前記方法は、
新たな入力ビデオファイルを受け取ることと、
生成される画像と新たなビデオファイルとの類似度を最大化するために、クラスタへと適用される重みを計算することと
を具備する、
方法。
新たなビデオファイルからのデータを用いて新たなクラスタを作成することと、
生成される画像と前記新たなビデオファイルとの類似度を最大化するために、新たなクラスタを含むクラスタへと適用される重みを計算することと
をさらに具備する、請求項２０記載の方法。
コンピュータ生成ヘッドをレンダリングするためのシステムであって、
前記ヘッドは、当該ヘッドによって出力される音声に従って動く口を持ち、
前記システムは、
前記口の動きによって出力されることになる音声のデータを受け取るための入力と、
プロセッサと
を具備し、
前記プロセッサは、
入力データを音響単位の系列へと変換し、
入力されるテキストのための表情特性の選択を可能にし、
統計的モデル（前記モデルは、音響単位を画像ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持つ）を用いて前記音響単位の系列を画像ベクトル（前記画像ベクトルは、前記ヘッドの顔を定義する複数のパラメータを含む）の系列へと変換し、
前記ヘッドの口が動いて、選択された表情を伴って出力される音声を真似るよう、前記画像ベクトルの系列をビデオとして出力する
ように構成され、
前記選択された表情における各確率分布の所定の種別のパラメータは、同一種別のパラメータの重み付き和として表現され、
前記音響単位の系列を画像ベクトルの系列へと変換することが前記選択された表情のための表情依存の重みを検索することを具備するよう、使用される重み付けは表情依存であり、
パラメータはクラスタで準備され、各クラスタは少なくとも１つのサブクラスタを含み、
サブクラスタ毎に１つの重みが存在するよう、前記表情依存の重みはクラスタ毎に検索される、
システム。
コンピュータ生成ヘッドをレンダリングするための適応可能なシステムであって、
前記ヘッドは、当該ヘッドによって出力される音声に従って動く口を持ち、
前記システムは、
前記口の動きによって出力されることになる音声のデータを受け取るための入力と、
プロセッサと
を具備し、
前記プロセッサは、
入力データを音響単位の系列へと分割し、
入力されるテキストのための表情特性の選択を可能にし、
統計的モデル（前記モデルは、音響単位を画像ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持つ）を用いて前記音響単位の系列を画像ベクトル（前記画像ベクトルは、前記ヘッドの顔を定義する複数のパラメータを含む）の系列へと変換し、
前記ヘッドの口が動いて、選択された表情を伴って出力される音声を真似るよう、前記画像ベクトルの系列をビデオとして出力する、
ように構成され、
前記選択された表情における各確率分布の所定の種別のパラメータは、同一種別のパラメータの重み付き和として表現され、
前記音響単位の系列を画像ベクトルの系列へと変換することが前記選択された表情のための表情依存の重みを検索することを具備するよう、使用される重み付けは表情依存であり、
パラメータはクラスタで準備され、各クラスタは少なくとも１つのサブクラスタを含み、
サブクラスタ毎に１つの重みが存在するよう、前記表情依存の重みはクラスタ毎に検索され、
前記システムは、クラスタおよびサブクラスタで準備されるパラメータならびに前記サブクラスタのための重みを保存するように構成されたメモリをさらに具備し、
前記システムは、新たなビデオファイルを受け取るようにさらに構成され、
前記プロセッサは、生成される画像と新たなビデオファイルとの類似度を最大化するために、サブクラスタへと適用される重みを再計算するように構成される、
システム。
コンピュータに請求項１記載の方法を行わせるように構成されたコンピュータ可読コードを具備するプログラム。
コンピュータに請求項２０記載の方法を行わせるように構成されたコンピュータ可読コードを具備するプログラム。