JP2014146339A - コンピュータ生成ヘッド - Google Patents

コンピュータ生成ヘッド Download PDF

Info

Publication number
JP2014146339A
JP2014146339A JP2014014924A JP2014014924A JP2014146339A JP 2014146339 A JP2014146339 A JP 2014146339A JP 2014014924 A JP2014014924 A JP 2014014924A JP 2014014924 A JP2014014924 A JP 2014014924A JP 2014146339 A JP2014146339 A JP 2014146339A
Authority
JP
Japan
Prior art keywords
facial expression
cluster
head
input
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014014924A
Other languages
English (en)
Inventor
Latorre-Martinez Javier
ジャビア・ラトル−マルチネス
Ping Leung Wan Vincent
ビンセント・ピン・ルン・ワン
Stenger Bjorn
ビョルン・ステンガー
Anderson Robert
ロバート・アンダーソン
Cipolla Roberto
ロベルト・シポラ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2014146339A publication Critical patent/JP2014146339A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】トーキングヘッドによるアニメーション手法を提供する。
【解決手段】唇の動きによって出力されることになる音声に関連する入力を準備することと、入力を音響単位の系列へと分割することと、入力されるテキストのための表情特性を選択することと、統計的モデルを用いて音響単位の系列を画像ベクトルの系列へと変換することと、ヘッドの口が動いて、選択された表情を伴って入力テキストに関連付けられる音声を真似るよう、画像ベクトルの系列をビデオとして出力することとを具備する。選択された表情における各確率分布の所定の種別のパラメータは、同一種別のパラメータの重み付き和として表現され、音響単位の系列を画像ベクトルの系列へと変換する。使用される重み付けは表情依存でありパラメータはクラスタで準備され、各クラスタは少なくとも1つのサブクラスタを含み、サブクラスタ毎に1つの重みが存在するように検索される。
【選択図】図2

Description

一般にここに記述される本発明の実施形態は、コンピュータ生成ヘッドおよびそのようなヘッドをアニメーションにする方法に関する。
コンピュータ生成されたトーキングヘッドは、多数の様々な状況において使用することができる。例えば、拡声装置を介して情報を提供するために、コンピュータのユーザへ情報を提供するために、などである。そのような、コンピュータ生成され、アニメーションにされたヘッドは、コンピュータゲームにおいて、コンピュータ生成された人物が「話す」ことを可能にするためにも使用されるかもしれない。
しかしながら、そのようなヘッドをよりリアルにみせることに継続的なニーズがある。
非制限の実施形態に従うシステムおよび方法が、これから添付の図面を参照して記述されるであろう。
(関連出願の相互参照)
この出願は、2013年1月29日に出願された英国特許出願第1301583.9号に基づいており、かつ、この優先権の利益を主張するものであって、これの全内容は参照によってここに組み込まれる。
図1は、ヘッドをコンピュータ生成するシステムの概略図である。 図2は、発明の実施形態に従う、生成されたヘッドをレンダリングし、アニメーションにするための基本ステップを示すフロー図である。 図3(a)は、ユーザインターフェースつきの、生成されたヘッドの画像である。 図3(b)は、インターフェースの線画である。 図4は、表情特性がどのように選択され得るかを示す、システムの概略図である。 図5は、図4のシステムについてのバリエーションである。 図6は、図4のシステムについてのさらなるバリエーションである。 図7は、図7はガウス確率関数の概略図である。 図8は、本発明の実施形態に従う方法において使用されるクラスタリングデータ配列の概略図である。 図9は、本発明の実施形態に従う、ヘッド生成システムを学習させる方法を説明するフロー図である。 図10は、本発明に従う実施形態によって使用される決定木の概略図である。 図11は、本発明の実施形態に従うシステムの適応を示すフロー図である。 図12は、本発明のさらなる実施形態に従うシステムの適応を示すフロー図である。 図13は、重み付けが因子化(factorize)される場合の、ヘッド生成システムの学習を示すフロー図である。 図14は、図13のフロー図のステップのうち1つのサブステップを詳細に示すフロー図である。 図15は、図13のフロー図のステップのうち1つのサブステップを詳細に示すフロー図である。 図16は、図13を参照して記述されたシステムの適応を示すフロー図である。 図17は、本発明の実施形態に従う方法およびシステムと共に使用可能な画像モデルである。 図18(a)は、図17のモデルについてのバリエーションである。 図18(b)は、図18(a)のモデルについてのバリエーションである。 図19は、図18(a)および図18(b)のモデルの学習を示すフロー図である。 図20は、図19を参照して記述された学習の基本を示す概略図である。 図21(a)は、エラー対図17、図18(a)、図18(b)および図21(b)を参照して記述された画像モデルにおいて使用されたモード数のプロットである。 図21(b)は、学習に使用されたセンテンスの数対学習されたモデルにおいて測定されたエラーのプロットである。 図22(a)、図22(b)、図22(c)および図22(d)は、テストデータにおいて表出された感情についての混同行列である。 画像モデルのバリエーションに対する嗜好(preference)を示すテーブルである。
第1の態様において、本発明は、ヘッドのコンピュータ生成をアニメーションにする方法を提供する。ヘッドは、当該ヘッドによって出力される音声に従って動く口を持つ。方法は、口の動きによって出力されることになる音声に関連する入力を準備することを具備する。方法は、入力を音響単位の系列へと分割することを具備する。方法は、入力されるテキストのための表情特性を選択することを具備する。方法は、統計的モデル(モデルは、音響単位を画像ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持つ)を用いて音響単位の系列を画像ベクトル(画像ベクトルは、ヘッドの顔を定義する複数のパラメータを含む)の系列へと変換することを具備する。方法は、ヘッドの口が動いて、選択された表情を伴って出力される音声を真似るよう、画像ベクトルの系列をビデオとして出力することを具備する。選択された表情における各確率分布の所定の種別のパラメータは、同一種別のパラメータの重み付き和として表現される。音響単位の系列を画像ベクトルの系列へと変換することが選択された表情のための表情依存の重みを検索することを具備するよう、使用される重み付けは表情依存である。パラメータはクラスタで準備され、各クラスタは少なくとも1つのサブクラスタを含む。サブクラスタ毎に1つの重みが存在するよう、表情依存の重みはクラスタ毎に検索される。
口は、例えば、唇、あご、舌などの口の任意のパーツを意味することに注意されたい。さらなる実施形態において、唇は、動いて入力音声を真似る。
上記のヘッドは、ヘッドの唇の動きから音声をヴィジュアル的に出力できる。さらなる実施形態において、モデルは、音響単位を音声ベクトルへと変換するようにさらに構成され、モデルは、音響単位を音声ベクトルへ関連付ける確率分布を記述する複数のモデルパラメータを持ち、方法は、ヘッドの唇の動きに同期するオーディオとして音声ベクトルの系列を出力することをさらに具備する。故に、ヘッドは、オーディオおよびビデオの両方を出力できる。
入力は、音響単位の系列へと分割されるテキスト入力であるかもしれない。さらなる実施形態において、入力は、オーディオ入力である音声入力であり、音声入力は、音響単位の系列へと分割され、ヘッドのビデオと共にオーディオとして出力される。ひとたび音響単位へと分割されると、オーディオ音声信号と共に音声信号をヴィジュアル的に出力するためにヘッドが生成することができるよう、音声入力から導出される音響単位を画像ベクトルと関連付けるためにモデルが実行可能となる。
実施形態において、各サブクラスタは少なくとも1つの決定木を含むかもしれず、決定木は言語学的な差異、音声学的な差異または韻律学的な差異のうち少なくとも1つに関連する質問に基づいている。クラスタの決定木の間には、ならびに、サブクラスタにおける木の間には、構造に差異が存在するかもしれない。確率分布は、ガウス分布、ポアソン分布、ガンマ分布、スチューデントのt分布またはラプラス分布から選択されるかもしれない。
表情特性は、様々な感情、アクセントまたは発話スタイルのうち少なくとも1つから選択されるかもしれない。音声に対する変動は、発話時に話者の顔に表出される表情に微妙な変動をしばしば引き起こすであろう。そして、上記方法は、これらの変動を取り込んでヘッドが自然に見えることを可能にするために用いることができる。
一実施形態において、表情特性を選択することは、入力(重み付けが入力を介して選択されることを可能にする)を準備することを具備する。さらに、表情特性を選択することは、出力される音声から、使用されるべき重み付けを予測することを具備する。いっそうのさらなる実施形態において、表情特性を選択することは、出力される音声に関する外部情報から、使用されるべき重み付けを予測することを具備する。
上記方法が新たな表情特性に適応することも可能である。例えば、表情を選択することは、顔を含むビデオ入力を受け取ることと、ビデオ入力の顔の表情特性をシミュレートするために重み付けを変更することとを具備する。
入力データが音声を含むオーディオファイルである場合に、ヘッドを制御するために用いられる重み付けはオーディオ音声入力から得ることができる。
さらなる実施形態において、表情特性を選択することは、事前に保存された複数の重みセットから重みセットをランダムに選択することを具備し、それぞれの重みのセットは、全てのサブクラスタのための重み付けを含む。
画像ベクトルは、パラメータ(顔がこれらのパラメータから再構築されることを可能にする)を含む。一実施形態において、画像ベクトルは、顔がモードの重み付き和から構築されることを可能にするパラメータを含み、モードは、顔または顔のパーツの再構築を表す。さらなる実施形態において、モードは、顔の形状およびアピアランスを表すモードを含む。同一の重み付けパラメータが、形状モードおよび当該形状モードの対応するアピアランスモードのために使用されるかもしれない。
モードは、顔の姿勢、顔の局部の変形、まばたきなどを表すために用いられるかもしれない。ヘッドの静的な特徴は、固定の形状およびテクスチャを用いてモデル化されるかもしれない。
第2の態様において、コンピュータ生成ヘッドをレンダリングするためのシステムを新たな表情に適応させる方法が提供される。ヘッドは、当該ヘッドによって出力される音声に従って動く口を持つ。システムは、口の動きによって出力されることになる音声のデータを受け取るための入力を具備する。システムは、プロセッサを具備する。プロセッサは、入力データを音響単位の系列へと分割するように構成される。プロセッサは、入力されるテキストのための表情特性の選択を可能にするように構成される。プロセッサは、統計的モデル(モデルは、音響単位を画像ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持つ)を用いて前記音響単位の系列を画像ベクトル(画像ベクトルは、ヘッドの顔を定義する複数のパラメータを含む)の系列へと変換するように構成される。プロセッサは、ヘッドの口が動いて、選択された表情を伴って出力される音声を真似るよう、画像ベクトルの系列をビデオとして出力するように構成される。選択された表情における各確率分布の所定の種別のパラメータは、同一種別のパラメータの重み付き和として表現される。音響単位の系列を画像ベクトルの系列へと変換することが選択された表情のための表情依存の重みを検索することを具備するよう、使用される重み付けは表情依存である。パラメータはクラスタで準備され、各クラスタは少なくとも1つのサブクラスタを含む。サブクラスタ毎に1つの重みが存在するよう、表情依存の重みはクラスタ毎に検索される。方法は、新たな入力ビデオファイルを受け取ることを具備する。方法は、生成される画像と新たなビデオファイルとの類似度を最大化するために、クラスタへと適用される重みを計算することを具備する。
上記方法は、新たなビデオファイルからのデータを用いて新たなクラスタを作成することと、生成される画像と新たなビデオファイルとの類似度を最大化するために、新たなクラスタを含むクラスタへと適用される重みを計算することとをさらに具備する。
第3の態様において、コンピュータ生成ヘッドをレンダリングするためのシステムが提供される。ヘッドは、当該ヘッドによって出力される音声に従って動く口を持つ。システムは、口の動きによって出力されることになる音声のデータを受け取るための入力を具備する。システムは、プロセッサを具備する。プロセッサは、入力データを音響単位の系列へと分割するように構成される。プロセッサは、入力されるテキストのための表情特性の選択を可能にするように構成される。プロセッサは、統計的モデル(モデルは、音響単位を画像ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持つ)を用いて音響単位の系列を画像ベクトル(画像ベクトルは、ヘッドの顔を定義する複数のパラメータを含む)の系列へと変換するように構成される。プロセッサは、ヘッドの唇が動いて、選択された表情を伴って出力される音声を真似るよう、画像ベクトルの系列をビデオとして出力するように構成される。選択された表情における各確率分布の所定の種別のパラメータは、同一種別のパラメータの重み付き和として表現される。音響単位の系列を画像ベクトルの系列へと変換することが選択された表情のための表情依存の重みを検索することを具備するよう、使用される重み付けは表情依存である。パラメータはクラスタで準備され、各クラスタは少なくとも1つのサブクラスタを含む。サブクラスタ毎に1つの重みが存在するよう、表情依存の重みはクラスタ毎に検索される。
第4の態様において、コンピュータ生成ヘッドをレンダリングするための適応可能なシステムが提供される。ヘッドは、当該ヘッドによって出力される音声に従って動く口を持つ。システムは、口の動きによって出力されることになる音声のデータを受け取るための入力を具備する。システムは、プロセッサを具備する。プロセッサは、入力データを音響単位の系列へと分割するように構成される。プロセッサは、入力されるテキストのための表情特性の選択を可能にするように構成される。プロセッサは、統計的モデル(モデルは、音響単位を画像ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持つ)を用いて音響単位の系列を画像ベクトル(画像ベクトルは、ヘッドの顔を定義する複数のパラメータを含む)の系列へと変換するように構成される。プロセッサは、ヘッドの唇が動いて、選択された表情を伴って出力される音声を真似るよう、画像ベクトルの系列をビデオとして出力するように構成される。前記選択された表情における各確率分布の所定の種別のパラメータは、同一種別のパラメータの重み付き和として表現される。音響単位の系列を画像ベクトルの系列へと変換することが前記選択された表情のための表情依存の重みを検索することを具備するよう、使用される重み付けは表情依存である。パラメータはクラスタで準備され、各クラスタは少なくとも1つのサブクラスタを含む。サブクラスタ毎に1つの重みが存在するよう、前記表情依存の重みはクラスタ毎に検索される。システムは、クラスタおよびサブクラスタで準備されるパラメータならびにサブクラスタのための重みを保存するように構成されたメモリをさらに具備する。システムは、新たなビデオファイルを受け取るようにさらに構成される。プロセッサは、生成される画像と新たなビデオファイルとの類似度を最大化するために、サブクラスタへと適用される重みを再計算するように構成される。
上記の生成されたヘッドは、2Dでレンダリングされるかもしれないし、3Dでレンダリングされるかもしれない。3Dに関して、画像ベクトルは、3次元でヘッドを定義する。3Dにおいて、姿勢における変動は、3Dデータにおいて補償される。しかしながら、まばたきおよび静的な特徴は、前述のように扱われるかもしれない。
実施形態に従う一部の方法はソフトウェアによって実装可能であるので、一部の実施形態は任意の適切な伝送媒体上で汎用コンピュータへと提供されるコンピュータコードを包含する。伝送媒体は、フロッピー(登録商標)ディスク、CD ROM、磁気デバイスまたはプログラム可能なメモリデバイスなどの任意の記録媒体、または、任意の信号(例えば電気、光またはマイクロ波信号)などの任意の一時的な媒体を含むことができる。
図1は、話すことのできるヘッドのコンピュータ生成のシステムの概略図である。システム1は、プログラム5を実行するプロセッサ3を含む。システム1は、さらにストレージまたはメモリ7を含む。ストレージ7は、ディスプレイ19上にヘッドをレンダリングするプログラム5によって使用されるデータを保存する。テキスト読み上げシステム1は、さらに入力モジュール11および出力モジュール13を含む。入力モジュール11は、ヘッドによって出力される音声ならびにテキストが共に出力されることになる感情または表情に関連するデータ用の入力に接続される。入力されるデータのタイプは、後により詳細に記述される多くの形式をとるかもしれない。入力15は、ユーザがデータを直接的に入力することを可能にするインターフェースであるかもしれない。或いは、入力は、外部記録媒体またはネットワークからデータを受信する受信機であるかもしれない。
出力モジュール13に接続されるのはオーディオヴィジュアル出力17である。出力17は、生成されたヘッドを表示するディスプレイ19を含む。
使用時には、システム1はデータ入力15を通じてデータを受け取る。プロセッサ3で実行されるプログラム5は、入力データを、ヘッドによって出力される音声およびヘッドが表出することになる感情へと変換する。プログラムは、ストレージにアクセスし、入力データに基づいてパラメータを選択する。プログラムは、ヘッドをレンダリングする。アニメーションにされた時のヘッドは、出力される音声に従って、その唇を動かし、所望の表情を表出する。ヘッドは、音声を含むオーディオ信号を出力するオーディオ出力も持つ。オーディオ音声は、ヘッドの唇の動きと同期する。
図2は、ヘッドをアニメーションにし、レンダリングする基本処理の概略図である。ステップS201において、トーキングヘッドによって出力される音声に関連し、かつ、テキストを発話する間にヘッドが表出すべき表情に関連する情報も含むであろう、入力が受け取られる。
この特定の実施形態において、音声に関連する入力はテキストとなるであろう。図2において、テキストは表情入力から分離される。しかしながら、音声に関連する入力は、テキスト入力である必要はなく、ヘッドが音声を出力すること可能にする任意のタイプの信号であり得る。例えば、入力は、音声入力、ビデオ入力、結合された音声およびビデオの入力から選択可能である。別の許容される入力は、既に生成された顔/音声のセットまたは予め定義されたテキスト/表情に関連する任意の形式のインデックス(例えば、システムに「お願い」または「すみません」と言わせるアイコン)となるであろう。
不確かさの回避のため、音声を出力することにより、ヘッドの唇が出力される音声に従って動くことに注目されるべきである。しかしながら、オーディオ出力のボリュームは、無音であるかもしれない。実施形態において、言葉を真似るヘッドというまさにヴィジュアルの表現(ここでは、唇の動きにより音声がヴィジュアルで出力される)が存在する。さらなる実施形態において、これは、音声のオーディオ出力を伴うかもしれないし、伴わないかもしれない。
テキストが入力として受け取られる場合には、それは、それから、音素、書記素、コンテキスト依存の音素若しくは書記素、および、単語若しくはその一部分、であるかもしれない音響単位の系列へと変換される。
一実施形態において、表情がステップS205において選択されることを可能にするために、追加情報が入力に与えられる。これは、それから、図9に関連してより詳細に記述されるであろう表情重みがステップS207において導出されることを可能にする。
いくつかの実施形態では、ステップS205およびステップS207は併合される。これは、多数の様々なやり方で達成されるかもしれない。例えば、図3は、表情を選択するインターフェースを示す。ここでは、ユーザは、例えば、画面上のポイントをドラッグアンドドロップするためのマウス、数字(figure)を入力するためのキーボードなどを用いて、重み付けを直接的に選択する。図3(b)において、マウス、キーボードなどを含む選択部251が、ディスプレイ253を用いて重み付けを選択する。ディスプレイ253は、この例では重み付けを示すレーダーチャートを備えている。ユーザは、レーダーチャートを介して様々なクラスタの支配(dominance)を変更するために選択部251を使用できる。インターフェースにおいて他の表示法が使用されてよいことは、当業者によって理解されるであろう。いくつかの実施形態において、ユーザは、テキスト、感情の重み、ピッチの重み、スピードおよび太さ(depth)を直接的に入力できる。
ピッチが非常に高いかそれとも非常に低いかで顔の動きは異なるし、同様に太さを変えることは大柄な人間と小柄な人間との間でボイスの響きを変えるので、ピッチおよび太さは顔の動きに影響を及ぼすことがあり得る。スピードは、持続時間分布を介して各モデルに割り当てられたフレーム数を変更することによって、追加的なパラメータとして制御することができる。
図3(a)は、生成されたヘッドと共に全体的なユニットを示す。ヘッドは、テクスチャのないメッシュとして部分的に示されている。通常の使用では、ヘッドは完全にテクスチャを付けられるであろう。
さらなる実施形態において、システムは、所定の重み付けベクトルのセットを保存するメモリを備え付けられている。各ベクトルは、テキストが様々な表情を用いてヘッドを介して出力されることを可能にするように設計されてよい。表情は、ヘッドによって表出され、オーディオ出力においても表明される。表情は、嬉しい、悲しい、ニュートラル、腹を立てた、恐れている、優しい、などから選択することができる。さらなる実施形態において、表情は、例えば、ささやく、叫ぶなどのユーザの発話スタイルまたはユーザのアクセントに関連し得る。
そのような実施形態に従うシステムが図4に示される。ここで、ディスプレイ253は、選択部251によって選択され得る様々な表情を示す。
さらなる実施形態において、ユーザは表情に関連する情報を別個に入力せず、ここで、図2に示されるように、S207において導出される表情重み付けは、ステップS203におけるテキストから直接的に導出される。
そのようなシステムが図5に示される。例えば、システムは、当該システムが命令または質問であると認識するテキストに対応する音声を、トーキングヘッドを介して出力する必要があるかもしれない。システムは、電子書籍を出力するように構成されるかもしれない。システムは、テキストから(例えば、引用符から)、ナレータに対立するものとしての書籍内のキャラクタによって何かが話される時を認識し、出力において使用される新たな表情を導入するために重み付けを変更するかもしれない。同様に、システムは、テキストが繰り返されているかどうかを認識するように構成されるかもしれない。そのような状況において、ボイス特性は、次の出力のために変化するかもしれない。さらに、システムは、テキストが嬉しい瞬間または不安な瞬間に言及しているかどうかを認識するように構成されてもよく、テキストは適切な表情を伴って出力される。これはステップS211(ここでは、表情重みがテキストから直接的に予測される)において概略的に示されている。
図5に示される上記システムにおいて、テキストにおいてチェックされる属性およびルールを保存するメモリ261が用意される。入力テキストは、ユニット263によってメモリ261へと提供される。テキスト用のルールがチェックされ、それから、表情の種別に関する情報が選択部265へと渡される。選択部265は、選択された表情のための重み付けをルックアップする。
上記システムおよび検討(consideration)は、コンピュータゲーム(ここでは、ゲーム内のキャラクタが発話する)において使用されるシステムにも適用されるかもしれない。
さらなる実施形態において、システムは、さらなるソースから、ヘッドがどのように音声を出力すべきかについての情報を受け取る。そのようなシステムの例が図6に示される。例えば、電子書籍の場合において、システムは、テキストのある一部分がどのように出力されるべきかを示す入力を受け取るかもしれない。
コンピュータゲームにおいて、システムは、話しているキャラクタが、負傷したのかどうか、隠れているのでささやかなければならないのかどうか、誰かの注意を引きつけようとしているのかどうか、ゲームのステージを首尾良く完了したのかどうか、などをゲームから判定することができるであろう。
図6のシステムにおいて、ヘッドが音声をどのように出力すべきかのさらなる情報がユニット271から受け取られる。ユニット271は、それから、この情報をメモリ273へと送る。メモリ273は、ボイスがどのように出力されるべきかに関する情報を検索し、これをユニット275へ送る。ユニット275は、それから、ヘッドからの所望の出力のための重み付けを検索する。
さらなる実施形態において、音声はステップS209において直接的に入力される。ここで、ステップS209は、3つのサブブロック(音声からテキストを検出する自動音声認識装置(ASR:automatic speech recognizer)、テキストおよび音声を同期させるアライナ(aligner)、ならびに、自動表情認識装置)を含むかもしれない。認識された表情は、S207において表情重みへと変換される。認識されたテキストは、それから、テキスト入力203へと流れる。この装置(arrangement)は、オーディオヴィジュアル出力を生成するトーキングヘッドシステムへのオーディオ入力を可能にする。これは、例えば、本物の表情に富んだ音声を得て、そこから、当該音声に適切な顔を合成することを可能にする。
さらなる実施形態において、音声に対応する入力テキストが、ASRサブモジュールのジョブを取り除く、または、単純化することによってモジュールS209の性能を向上させるために、使用可能である。
ステップS213において、テキストおよび表情重みは、この実施形態においてクラスタ適応学習(cluster adaptive trained)HMMまたはCAT−HMMである音響モデルへと入力される。
テキストは、音響単位の系列へと変換される。これらの音響単位は、音素であるかもしれないし、書記素であるかもしれない。単位は、選択された音素だけでなく、前後の音素、単語内のフォン(phone)の位置、フォンが属する単語における音節数なども考慮に入れる、コンテキスト依存の例えばトライフォン(triphone)、クインフォン(quinphone)など、であるかもしれない。テキストは、当技術において周知であって、かつ、ここではこれ以上説明されることのない技法を用いて音響単位の系列へと変換される。
顔の生成に利用可能な多数のモデルが存在する。これらのうちいくつかは、例えば、キーポイント/特徴、筋肉構造などに対する顔のパラメータ化に依存する。
故に、顔は、顔を生成するためのそのような顔モデルにおいて使用されるパラメータの「顔」ベクトルによって定義することができる。これは、音声合成(ここでは、出力音声が音声ベクトルから生成される)における状況と類似している。音声合成において、音声ベクトルは音響単位と関連付けられる確率を持ち、一対一対応は存在しない。同様に、顔ベクトルは、音響単位に関連付けられる確率を持つに過ぎない。故に、顔ベクトルは、音声とキャラクタの発話の視覚的表現との両方を出力できるトーキングヘッドを生成するために、音声ベクトルと同様のやり方で操作可能である。故に、顔ベクトルを音声ベクトルと同じやり方で扱うことが可能であり、同一データから顔ベクトルを学習させることが可能である。
音響単位を画像パラメータに関連付ける確率分布がルックアップされる。この実施形態において、確率分布は、平均および分散によって定義されるガウス分布となるであろう。とはいえ、ポアソン、スチューデントのt、ラプラスまたはガンマ分布などの他の分布(これらの一部は平均および分散以外の変数によって定義される)を使用することは可能であるが。
この実施形態において、最初に単なる画像処理を検討するので、各音響単位は、当技術の専門用語を使用するための、「顔ベクトル」または「観測」に対する決定的な一対一対応を持っていない。上述の顔ベクトルは、所与のフレームでの顔のジェスチャを定義するパラメータのベクトルからなる。多数の音響単位は、同様のやり方で発音されたり、周囲の音響単位またはそれらの単語若しくはセンテンス内の位置によって影響を受けたり、話者の表情、感情の状態、アクセント、発話スタイルなどに依存して様々に発音されたりする。故に、各音響単位は、顔ベクトルに関連付けられる確率を持つに過ぎず、テキスト読み上げシステムは、多数の確率を計算し、音響単位の系列を考慮した場合の最もふさわしい観測系列を選択する。
ガウス分布が図7に示される。図7は、顔ベクトルに関連する音響単位の確率分布であるとみなすことができる。例えば、Xとして示される音声ベクトルは、図7に示される分布を持つ音素または他の音響単位に対応する確率P1を持つ。
ガウシアンの形状および位置は、平均および分散によって定義される。これらのパラメータは、システムの学習時に判定される。
これらのパラメータは、それから、ステップS213において、「ヘッドモデル」と名付けられるモデルにおいて使用される。「ヘッドモデル」は、音声合成において使用される音響モデルのヴィジュアル版またはオーディオヴィジュアル版である。この説明において、ヘッドモデルは、隠れマルコフモデル(HMM)である。しかしながら、他のモデルも使用可能である。
トーキングヘッドシステムのメモリは、音響単位(即ち、音素、書記素、単語またはその一部分)を音声パラメータに関連付ける多数の確率密度関数を保存するであろう。ガウス分布が一般的に使用されるので、これらは一般的にガウシアンまたはコンポーネントと呼ばれる。
隠れマルコフモデルまたは他の種別のヘッドモデルにおいて、特定の音響単位に関連する全ての潜在的な顔ベクトルの確率が考慮されなければならない。それから、音響単位の系列に最も対応しそうな顔ベクトルの系列が考慮に入れられるであろう。これは、2つの単位が互いに影響を及ぼすやり方を考慮に入れた、系列の全ての音響単位に亘る大域的最適化を暗示する。結果として、特定の音響単位に対して最もふさわしい顔ベクトルが、音響単位の系列が考慮される場合の最適な顔ベクトルでないことがあり得る。
図2のフローチャートにおいて、「圧縮された表情豊かなビデオモデル」として画像ベクトルをモデル化するために、単一のストリームが示される。いくつかの実施形態において、それぞれガウシアンを用いてモデル化される複数の相異なる状態が存在するであろう。例えば、実施形態において、トーキングヘッドシステムは、多数のストリームを含む。そのようなストリームは、口のみ、または、舌若しくは目のみ、などのためのパラメータを表すかもしれない。ストリームは、無音(sil)、小休止(pau)および音声(spe)などのクラスへとさらに分類されるかもしれない。実施形態において、ストリームおよびクラスの各々からのデータは、HMMを用いてモデル化されるであろう。HMMは、様々な数の状態を含むかもしれず、例えば、実施形態において、5状態HMMが上記ストリームおよびクラスのうちの一部からのデータをモデル化するために使用されるかもしれない。ガウシアンコンポーネントは、HMM状態毎に判定される。
上記のものは、音声をヴィジュアルで出力するヘッドに傾注した。しかしながら、ヘッドはヴィジュアル出力に加えてオーディオを出力してもよい。図3に戻ると、「ヘッドモデル」は、1以上のストリームを介して画像ベクトルを生成し、加えて1以上のストリームを介して音声ベクトルを生成するために使用される。図2において、3つのオーディオストリームが示され、これらはスペクトル、LogF0およびBAPである。
クラスタ適応学習は、隠れマルコフモデルのテキスト読み上げシステム(HMM−TTS)に対する拡張である。HMM−TTSは、有限数(通常、5)の、出力のある状態(emitting sate)を持つHMMを用いて、コンテキスト依存音声単位(CDSU)をモデル化する音声合成に対するパラメータによるアプローチである。HMMを連結してそれらからサンプリングすることは、次に合成音声へと再合成することのできるパラメータセットを生成する。典型的には、CDSUをクラスタリングして学習データにおけるスパースネス(sparseness)を扱うために決定木が使用される。任意の所与のCDSUに対してHMMにおいて使用される平均および分散が、決定木を用いてルックアップされるかもしれない。
CATは、スタイル依存の情報または感情依存の情報を取り込むために多数の決定木を使用する。これは、重み付けλがステップS207から導出されている場合には、重み付きパラメータの総和によって各パラメータを表現することによってなされる。パラメータは、図8に示されるように合成される。
故に、実施形態において、選択された表情を備える、(音声または顔いずれかのパラメータのための)ガウシアンの平均は、ガウシアンの独立平均の重み付き和として表現される。
ここで、μ (s)は、選択された表情sにおけるコンポーネントmの平均であり、i∈{1,...,P}はクラスタ用のインデックスであってPはクラスタの総数であり、λ (s)は、表情sの第iのクラスタの表情依存の補間重みである。μc(m,i)は、クラスタiにおけるコンポーネントmの平均である。実施形態において、クラスタのうち1つ、例えば、クラスタi=1は、全ての重みが常に1.0に設定される。このクラスタは、「バイアスクラスタ」と呼ばれる。各クラスタは、少なくとも1つの決定木を含む。決定木は、クラスタにおけるコンポーネント毎に存在するであろう。表現を単純化するために、c(m,i)∈{1,...,N}は、第iのクラスタの平均ベクトル決定木におけるコンポーネントmの一般的な葉ノードインデックスを示し、Nは、全てのクラスタの決定木中の葉ノードの総数である。決定木の詳細は後述されるであろう。
ヘッドモデルのために、システムは、アクセス可能なやり方で保存されるであろう平均および分散をルックアップする。ヘッドモデルは、ステップS207からの表情重みも受け取る。平均がルックアップされる前後にボイス特性依存の重み付けがルックアップされてよいことは、当業者に理解されるであろう。
表情依存の重み(即ち、平均の使用および重み付けの適用)は、それからステップS213においてヘッドモデルで使用される。
顔特性独立の平均がクラスタリングされる。実施形態において、各クラスタは、少なくとも1つの決定木を含み、前述の木において用いられる決定は、言語学的な変動、音声学的な変動または韻律学的な変動に基づいている。実施形態において、決定木は、クラスタのメンバであるコンポーネント毎に存在する。韻律学的なコンテキスト、音声学的なコンテキストおよび言語学的なコンテキストは、顔のジェスチャに影響を与える。音声学的なコンテキストは、典型的には口の位置および動きに影響を与え、韻律学的なコンテキスト(例えば、音節)および言語学的なコンテキスト(例えば、単語の品詞)は、持続時間(リズム)などの韻律および顔の他のパーツ(例えば、目のまばたき)に影響を与える。各クラスタは、1以上のサブクラスタ(ここでは、各サブクラスタは、少なくとも1つの前述の決定木を含む)を含むかもしれない。
上記のものは、サブクラスタ毎の重みまたはクラスタ毎の重みベクトルのどちらかを検索することと考えることが可能であり、重みベクトルの成分はサブクラスタ毎の重み付けである。
以下の設定が、本発明の実施形態に従って用いられてよい。このデータをモデル化するために、この実施形態において、5状態HMMが使用される。データは、この例において3つのクラス(無音、小休止および音声)に分類される。この特定の実施形態において、サブクラスタ毎の決定木および重みの割り当ては以下の通りである。
この特定の実施形態において、以下のストリームがクラスタ毎に用いられる。
スペクトル:1ストリーム、5状態、状態毎に1本の木×3クラス
LogF0:3ストリーム、ストリーム毎に5状態、状態およびストリーム毎に1本の木×3クラス
BAP:1ストリーム、5状態、状態毎に1本の木×3クラス
VID:1ストリーム、5状態、状態毎に1本の木×3クラス
持続時間:1ストリーム、5状態、1本の木×3クラス(それぞれの木は、全ての状態中で共有される)
合計:3×31=93本の決定木
上記のものに対して、以下の重みが表情特性毎の各ストリームに適用される。
スペクトル:1ストリーム、5状態、ストリーム毎に1個の重み×3クラス
LogF0:3ストリーム、ストリーム毎に5状態、ストリーム毎に1個の重み×3クラス
BAP:1ストリーム、5状態、ストリーム毎に1個の重み×3クラス
VID:1ストリーム、5状態、ストリーム毎に1個の重み×3クラス
持続時間:1ストリーム、5状態、状態およびストリーム毎に1個の重み×3クラス
合計:3×11=33個の重み。
この例に示されるように、相異なる決定木(VID)に同一の重みを割り当てること、若しくは、同一の決定木(持続時間)に1より多くの重みを割り当てること、または、任意の他の組み合わせが可能である。ここで用いられるように、同一の重み付けが適用されることになる決定木は、サブクラスタを形成すると考えられる。
実施形態において、オーディオストリーム(スペクトル、logF0)は、合成中にトーキングヘッドのビデオを生成するためには使用されないが、オーディオヴィジュアルストリームをテキストとアライメントするために学習中に必要とされる。
以下のテーブルは、本発明の実施形態に従って、どのストリームがアライメント、ビデオおよびオーディオのために用いられるかを示す。
実施形態において、選択されたボイス特性を持つガウス分布の平均は、ガウシアンコンポーネントの平均の重み付き和として表現され、ここでは総和は各クラスタから1つの平均を使用し、平均は現在処理中の音響単位の音声学的なコンテキスト、言語学的なコンテキストおよび韻律学的なコンテキストに基づいて選択される。
ステップS213において用いられるモデルの学習は、図9乃至図11を参照してより詳細に説明されるであろう。図2は、4つのストリーム(3つ(1つはスペクトル、1つはLogF0、および、1つは持続時間)が音声ベクトルを生成することに関連し、1つが顔/VIDパラメータに関連する)を持つ簡略化されたモデルを示す。(しかしながら、上記のものから、多数の実施形態が追加的なストリームを使用するであろうし、多数のストリームが各音声パラメータまたは各ビデオパラメータをモデル化するために使用されてよい、ということに注目されたい。例えば、この図において、BAPストリームは単純化のために取り除かれている。これは、単純なパルス/ノイズ型の励振に対応する。しかしながら、BAPまたは任意の他のビデオストリームまたはオーディオストリームを含める原理は、表示されたストリームと同じである。)これらは、ステップS215において出力される、音声ベクトルの系列および顔ベクトルの系列を生成する。
音声ベクトルは、それから、ステップS217において、これらをステップS219において音声サウンドファイルへと変換する音声生成部へと提供される。顔ベクトルは、それから、ステップS221において、これらのパラメータをステップS223においてビデオへと変換する顔画像生成部へと提供される。ビデオファイルおよびサウンドファイルは、それから、ステップS225において、アニメーションにされたトーキングヘッドを生成するために合成される。
次に、本発明の実施形態に従うシステムの学習が図9を参照して説明されるであろう。
隠れマルコフモデル(HMM)に基づいている画像処理システムにおいて、HMMはしばしば以下のように表現される。
ここで、A={aij i,j=1は、状態遷移確率分布であり、B={b(o)} j=1は、状態出力確率分布であり、Π={π i=1は、初期状態確率分布であり、ここで、NはHMMの状態数である。
上述のように、顔ベクトルパラメータは、音声ベクトルパラメータと同じやり方でHMMから導出することができる。
現在の実施形態において、状態遷移確率分布Aおよび初期状態確率分布は、当分野において周知の手続に従って判定される。故に、この説明の残部は、状態出力確率分布に関係するであろう。
一般的に、トーキングヘッドシステムにおいて、モデルセットMにおける第mのガウシアンコンポーネントからの状態出力ベクトルまたは画像ベクトルo(t)は、以下の通りである。
ここで、μ(s) およびΣ(s) は、話者sについての第mのガウシアンコンポーネントの平均および共分散である。
従来のトーキングヘッドシステムを学習させる時の目的は、所与の観測系列に対する尤度を最大化するモデルパラメータセットMを推定することである。従来のモデルにおいて、データを収集される同一の単独話者が存在し、かつ、感情はニュートラルであるので、モデルパラメータセットは、全てのコンポーネントmに対してμ(s) =μかつΣ(s) =Σである。
完全に分析的にいわゆる最尤(ML)基準に基づいて上記モデルセットを得ることは可能でないから、問題は、慣例的に、バウム=ウェルチアルゴリズムとしてしばしば言及される期待値最大化(EM)アルゴリズムとして知られる反復的アプローチを用いることによって取り組まれる。ここで、補助関数(「Q」関数)が導出される。
ここで、γm(t)は、現在のモデルパラメータM’を考慮した場合にコンポーネントmが観測o(t)を生成する事後確率であり、Mは新たなパラメータセットである。各反復の後に、パラメータセットM’は、Q(M,M’)を最大化する新たなパラメータセットMに取り替えられる。p(o(t),m|M)は、GMM、HMMなどの生成モデルである。
本実施形態において、以下の状態出力ベクトルを持つHMMが使用される。
ここで、m∈{1,...,MN}、t∈{1,...,T}およびs∈{1,...,S}は、それぞれ、コンポーネント、時間および表情のインデックスであり、ここで、MN、TおよびSは、それぞれコンポーネント、フレームおよび話者表情の総数である。ここで、データは同一の話者から収集されるが、話者は様々な表情を表出するであろう。
μ^ (s)およびΣ^ (s)の厳密な形式は、適用される表情依存の変換の種別に依存する。最も一般的なやり方において、表情依存の変換は、以下のものを含む。
− 表情依存の重みのセットλ(s) q(m)
− 表情依存のクラスタμ(s) c(m,x)
− 線形変換のセット[A(s) r(m),b(s) r(m)]。
ステップS211における全ての実行可能な表情依存の変換の適用後に、表情sについての確率分布mの平均ベクトルμ^ (s)および共分散行列Σ^ (s)は、以下の通りである。
ここで、μc(m,i)は、数式1において記述されたようにコンポーネントmについてのクラスタIの平均であり、μ(s) c(m,x)は、表情sについての追加的なクラスタのコンポーネントmについての平均ベクトル(これは後述されるであろう)であり、A(s) r(m)およびb(s) r(m)は、表情sについての回帰クラスr(m)に関連付けられる線形変換行列およびバイアスベクトルである。
Rは、回帰クラスの総数であり、r(m)∈{1,...,R}は、コンポーネントmが属する回帰クラスを示す。
線形変換が全く適用されないならば、A(s) r(m)およびb(s) r(m)は、それぞれ、単位行列および零ベクトルとなる。
後述される理由のため、この実施形態において、共分散は、クラスタリングされて決定木に配置され、ここでは、v(m)∈{1,...,V}がコンポーネントmの共分散行列が属する共分散決定木における葉ノードを示し、Vは分散決定木の葉ノードの総数である。
上記のものを用いて、補助関数は以下のように表現することができる。
ここで、Cは、Mとは独立の定数である。
故に、上記のものを用い、数式8に数式6および数式7を代入すると、補助関数はモデルパラメータが4つの別個の部分に分割され得ることを示す。
第1の部分は、カノニカル(canonical)モデルのパラメータ(即ち、表情独立の平均{μ}および表情独立の共分散{Σ})であり、上記インデックスnおよびkは後述されるであろう平均決定木および分散決定木の葉ノードを示す。第2の部分は、表情依存の重み{λ (s)s,iであり、ここではsは表情を示し、iはクラスタインデックスパラメータを示す。第3の部分は、表情依存のクラスタの平均μc(m,x)であり、第4の部分は、制約付き最尤線形回帰(CMLLR)変換{A (s),b (s)}であり、ここでは、sは表情を示し、dはコンポーネントmが属するコンポーネントまたは表情の回帰クラスを示す。
詳細には、平均のML推定値を判定するために、以下の手続が行われる。
以下の数式を単純化するために、線形変換が全く適用されないことが仮定される。もし、線形変換が適用されるならば、オリジナルの観測ベクトル{o(t)}は変換されたベクトルに置換されなければならない。
同様に、追加的なクラスタが存在しないことが仮定されるであろう。学習中に追加的なクラスタを含めることは、A(s) r(m)が単位行列かつ{b(s) r(m)=μ(s) c(m,x)}の線形変換を加えることとちょうど等価である。
まず、数式4の補助関数は、μに関して以下のように微分される。
ここで、
ij (m)およびk (m)は、累積統計値である。
導関数を0に設定することによって通常のやり方で数式を最大化することにより、μのML推定値(即ち、μ^ )について以下の式が立てられる。
μのML推定値がμ(ここではkはnと等しくない)にも依存することに注意されたい。インデックスnは、平均ベクトルの決定木の葉ノードを表すために用いられるのに対して、インデックスkは共分散決定木の葉ノードを表す。故に、収束まで全てのμに亘って反復することにより最適化を行うことが必要である。
これは、以下の数式を解くことによって全てのμを同時に最適化することにより、なされ得る。
しかしながら、学習データが小規模であるかNがかなり大きいならば、数式7の係数行列はフルランクを持たない可能性がある。この問題は、特異値分解または他の周知の行列因子分解法を用いることによって、回避できる。
次に、同じ処理が、共分散のML推定を行うために行われる。即ち、数式(8)に示される補助関数がΣに関して微分され、以下のものを与える。
ここで、
表情依存の重みおよび表情依存の線形変換のML推定値も同じやり方(即ち、ML推定が必要とされるパラメータに関して補助関数を微分し、それから微分値を0に設定する)で得ることができる。
表情依存の重みについて、これは以下のものをもたらす。
好ましい実施形態において、処理は反復的なやり方で行われる。この基本的なシステムは、図9のフロー図を参照して説明される。
ステップS301において、複数のビデオ画像入力が受け取られる。この説明例において、1人の話者が用いられるが、話者は話す時に3つの相異なる感情を表出し、さらにニュートラルな表情を伴って話す。オーディオおよびビデオの両方のデータは、ニュートラルな表情についての1つのデータセットおよび3つのさらなるデータセット(1つが3つの表情の各々のためのもの)が存在するように、収集される。
次に、ステップS303において、オーディオヴィジュアルモデルが、4つのデータセットの各々について学習および生成される。入力ヴィジュアルデータは、学習データを生成するためにパラメータ化される。実行可能な方法が、図19に関して画像モデルのための学習と関連して説明される。学習データは、音声ベクトルおよび画像ベクトルの両方に関連付けられる音響単位が存在するように、収集される。この実施形態において、4つのモデルの各々は、1つの顔からのデータを用いて学習されるに過ぎない。
クラスタ適応モデルは、以下のように初期化および学習される。
ステップS305において、クラスタ数PがV+1に設定され、ここではVは表情の数(4)である。
ステップS307において、1つのクラスタ(クラスタ1)がバイアスクラスタとして判定される。実施形態において、これは、ニュートラルな表情のためのクラスタであるだろう。バイアスクラスタのための決定木および関連するクラスタ平均ベクトルは、ステップS303において最高のモデルを生成した表情を用いて初期化される。この例において、それぞれの顔は、タグ「表情A(ニュートラル)」、「表情B」、「表情C」および「表情D」を与えられる。共分散行列、多空間確率分布(MSD)のための空間重み、および、それらのパラメータ共有構造もまた、表情A(ニュートラル)のモデルのものへと初期化される。
各二分決定木は、全てのコンテキストを表す単一のルートノードから始まる局所的最適法で構築される。この実施形態において、コンテキストに従って、以下の基礎が用いられる。それは、音声学的なもの、言語学的なもの、および、韻律学的なものである。各ノードが作成される時に、コンテキストについての次の最適な質問が選択される。質問はどの質問が尤度において最大の増加を生じさせるかに基づいて選択され、学習例において終端ノードが生成される。
それから、その最適な質問を用いて分割可能な1つの終端ノードを見つけ出して学習データに対する合計の尤度において最大の増加を提供するために、終端ノードのセットが探索される。もし、この増加が閾値を超えるならば、ノードは最適な質問を用いて分割され、2つの新たな終端ノードが作成される。いかなるそれ以上の分割も尤度分割に適用される閾値を超えないであろうから新たな終端ノードを全く作り出すことができない場合には、処理は停止する。
この処理は、例えば図10に示される。平均決定木における第nの終端ノードは、質問qによって2つの新たな端末ノードnq およびnq へと分割される。この分割によって獲得される尤度利得は、以下のように計算できる。
ここで、S(n)は、ノードnに関連付けられるコンポーネントの集合を示す。μに関して一定である項は含まれていないことに注意されたい。
ここで、Cは、μとは独立の定数項である。μの最大の尤度は、数式13によって与えられる。故に、上のものは以下のように書くことができる。
故に、ノードnをnq およびnq へと分割することによって増加する尤度は以下のように与えられる。
上記のものを用いてクラスタ毎の決定木を構築することが可能であり、ここで、木は当該木において最初に最適な質問が尋ねられるように配列され、決定は分割による尤度に従って階層順に配列される。次に、重み付けが各クラスタへと適用される。
決定木は、分散のためにも構築されるかもしれない。共分散決定木は、以下のように構築される。共分散決定木における終端ノードが質問qによって2つの新たな終端ノードkq およびkq へと分割されるならば、クラスタ共分散行列および分割による利得は以下のように表現される。
ここで、Dは、{Σ}とは独立の定数である。故に、尤度における増分は以下の通りである。
ステップS309において、特定の表情タグが第2,...,Pクラスタの各々に割り当てられる。例えば、クラスタ2,3,4および5は、それぞれ、表情B,C,DおよびA向けである。表情A(ニュートラル)は、バイアスクラスタを初期化するために用いられたので、初期化される最後のクラスタに割り当てられることに注意されたい。
ステップS311において、CAT補間重みのセットが、割り当てられた表情(以降、「voicetag」としても言及される)に従って、以下のように1または0へと単純に設定される。
この実施形態において、表情毎、ストリーム毎の大域的重みが存在する。表情/ストリームの組み合わせ毎に、3つの重みセット(無音用、画像用および休止用)が設定される。
ステップS313において、各クラスタ2,...,P−1について、順番に、クラスタが以下のように初期化される。関連する表情(例えば、クラスタ2についての表情B)についての顔データが、ステップS303において学習された関連する顔についての単話者モデルを用いてアライメントされる。これらのアライメントが与えられると、統計値が計算され、クラスタについての決定木および平均値が推定される。クラスタについての平均値は、ステップS311において設定される重みを用いて、クラスタ平均の正規化された重み付き和として計算される。即ち、実際には、これは、所与のコンテキストについての平均値(これは、当該コンテキストについてのバイアスクラスタの平均およびクラスタ2における当該コンテキストについての表情Bのモデルの平均の重み付き和(両方の場合に重みは1)である)に帰着する。
ステップS315において、今度は、決定木が、全4つの顔からの全データを用いて、バイアスクラスタのために再構築され、関連する平均および分散パラメータが再推定される。
表情B,CおよびDのためのクラスタの追加後に、バイアスクラスタは、同時に全4つの表情を用いて再推定される。
ステップS317において、今度は、クラスタP(表情A)が、ステップS313において説明される他のクラスタと同様に、表情Aからのデータのみを用いて初期化される。
ひとたびクラスタが上記のように初期化されたならば、CATモデルは、次は以下のように更新/学習される。
ステップS319において、決定木は、CAT重みを固定しておいて、クラスタ1からPまでクラスタ単位で再構築される。ステップS321では、CATモデルにおいて新たな平均および分散が推定される。次いで、ステップS323において、新たなCAT重みが、クラスタ毎に推定される。実施形態において、収束まで処理はS321へとループバックする。パラメータおよび重みは、前述のパラメータのより良い推定値を得るためにバウム=ウェルチアルゴリズムの補助関数を用いることによって行われる最尤計算を用いて推定される。
前述のように、パラメータは、反復処理を経て推定される。
さらなる実施形態において、ステップS323では、収束まで決定木が各反復中に再構築されるよう、処理はステップS319へとループバックする。
さらなる実施形態において、表情依存の変換が前述のように使用される。ここで、収束まで変換が適用され、変換されたモデルが次に反復されるように、表情依存の変換はステップS323の後に挿入される。実施形態において、変換は各反復の中で更新されるであろう。
図10は、決定木の形であるクラスタ1乃至Pを示す。この単純化された例において、クラスタ1にはちょうど4つの終端ノードが存在し、クラスタPには3つの終端ノードが存在する。決定木は対称性である必要はなく、即ち、各決定木は様々な数の終端ノードを持ち得ることに注目するのは重要である。木の中の終端ノードの数および分岐の数は、最初の決定において最大の分割を達成し、それからより大きな分割が生じる質問の順に質問が尋ねられる、対数尤度分割によって純粋に判定される。ひとたび達成される分割が閾値を下回るならば、ノードの分割は終了する。
上記のものは、以下の合成が行われることを可能にするカノニカルモデルを生成する。
1.4つの表情のうちいずれかが、当該表情に対応する重みベクトルの最終的なセットを用いて合成可能である。
2.ランダムな表情が、重みベクトルを任意の位置に設定することによってCATモデルによって張られるオーディオヴィジュアル空間から合成可能である。
さらなる例において、システムが表情特性を持つ目標表情の入力を与えられる場合に、同一特性を合成するためにアシスタントが用いられてもよい。
さらなる例において、システムが表情を表出する話者の入力を与えられる場合に、当該表情を合成するためにアシスタントが用いられてもよい。
図11は、一例を示す。最初に、ステップ501において入力目標表情が受け取られる。次に、ステップS503において、カノニカルモデルの重み付け(即ち、過去に学習されたクラスタの重み付け)が、目標表情に一致するように調整される。
次に、顔ビデオが、ステップS503において導出された新たな重み付けを用いて出力される。
さらなる実施形態において、より複雑な方法(ここでは、新たなクラスタが新たな表情のために用意される)が用いられる。これは、図12を参照して説明されるであろう。
図11のように、最初に、ステップS501において、目標表情を表出して話す話者のデータが受け取られる。それから、ステップS503において、重み付けは、目標表情と最も一致するように調整される。
それから、ステップS507において、新たなクラスタが、目標表情のためのモデルに追加される。次に、新たな表情クラスタのための決定木が、図9を参照して説明されたのと同様のやり方で構築される。
それから、ステップS511において、モデルパラメータ(即ち、この例においては平均)が、新たなクラスタのために計算される。
次に、ステップS513において、重みが、全クラスタに対して更新される。それから、ステップS515において、新たなクラスタの構造が更新される。
これまでと同様に、ステップS505において、新たな目標表情を備える音声ベクトルおよび顔ベクトルが、新たなクラスタに関する新たな重み付けを用いて出力される。
この実施形態において、ステップS515では、他のクラスタを更新するには合成時に利用可能な学習データが必要とされるので、他のクラスタはこの時点では更新されないことに注意されたい。
さらなる実施形態において、クラスタはステップS515の後に更新され、故にフロー図は収束までステップS509へとループバックする。
最終的に、実施形態において、目標表情に対する類似度を更に向上させるために、CMLLRなどの線形変換がモデルに加えて適用可能である。この変換の回帰クラスは、大域的でもあり得るし、表情依存でもあり得る。
第2のケースでは、回帰クラスの共有構造(tying structure)は、表情依存のクラスタの決定木から、または、カノニカルモデルへ表情依存の重みを適用して追加的クラスタを追加した後に得られる分布のクラスタリングから、導出可能である。
最初は、バイアスクラスタは表情独立の特性を表すのに対して、他のクラスタはそれらの関連するボイスデータセットを表す。学習が進行するにつれて、表情へのクラスタの厳密な割り当ては、それほど厳密ではなくなる。クラスタおよびCAT重みは、今や広大な音響空間を表す。
上記実施形態は、ちょうど1つの属性(即ち、表情)を用いるクラスタリングに関連する。しかしながら、さらなる制御を得るために、ボイスおよび顔の属性を因子化(factorise)することも可能である。以下の実施形態において、表情は、発話スタイル(s)および感情(e)へと細分され、モデルは、これら2つの種別、表情または属性について因子化される。ここで、モデルセットMにおける第mのガウシアンコンポーネントからのモデルパラメータo(t)からなる、状態出力ベクトルまたはベクトルは、以下の通りである。
ここで、μ(s,e) およびΣ(s,e) は、発話スタイルsおよび感情eについての第mのガウシアンコンポーネントの平均および共分散である。
この実施形態において、sは、発話スタイル/ボイスを示すであろう。発話スタイルは、ささやく、叫ぶなどのスタイルを表す。sは、アクセントなどを示すためにも使用され得る。
同様に、この実施形態において、ただ2つの因子だけが考慮されるが、方法は他の音声因子へと拡張される可能性もあるし、これらの因子が更に細分される可能性もあり、因子化が各細分に対して行われる。
従来のテキスト読み上げシステムを学習させる時の目的は、所与の観測系列に対する尤度を最大化するモデルパラメータセットMを推定することである。従来のモデルにおいて、1つの発話スタイルおよび表情/感情が存在し、故に、モデルパラメータセットは、全てのコンポーネントmについてμ(s,e) =μおよびΣ(s,e) =Σである。
完全に分析的にいわゆる最尤(ML)基準に基づいて上記モデルセットを得ることは可能でないから、問題は、慣例的に、バウム=ウェルチアルゴリズムとしてしばしば言及される期待値最大化(EM)アルゴリズムとして知られる反復的アプローチを用いて取り組まれる。ここで、補助関数(「Q」関数)が導出される。
ここで、γm(t)は、現在のモデルパラメータM’を考慮した場合にコンポーネントmが観測o(t)を生成する事後確率であり、Mは新たなパラメータセットである。各反復の後に、パラメータセットM’は、Q(M,M’)を最大化する新たなパラメータセットMに取り替えられる。p(o(t),m|M)は、GMM、HMMなどの生成モデルである。
本実施形態において、以下の状態出力ベクトルを持つHMMが使用される。
ここで、m∈{1,...,MN}、t∈{1,...,T}、s∈{1,...,S}およびe∈{1,...E}は、それぞれ、コンポーネント、時間、発話スタイルおよび表情/感情のインデックスであり、ここで、MN、T、SおよびEは、それぞれコンポーネント、フレーム、発話スタイルおよび表情の総数である。
μ^ (s,e)およびΣ^ (s,e)の厳密な形式は、適用される発話スタイルおよび感情依存の変換の種別に依存する。最も一般的なやり方において、スタイル依存の変換は、以下のものを含む。
− スタイル−感情依存の重みのセットλ(s,e) q(m)
− スタイル−感情依存のクラスタμ(s,e) c(m,x)
− 線形変換のセット[A(s,e) r(m),b(s,e) r(m)](それによって、これらの変換は、スタイルだけに依存したり、感情だけに依存したり、両方に依存したりすることもあり得る)。
全ての実行可能なスタイル依存の変換の適用後に、スタイルsおよび感情eについての確率分布mの平均ベクトルμ^ (s,e)および共分散行列Σ^ (s,e)は、以下のようになる。
ここで、μc(m,i)は、コンポーネントmについてのクラスタIの平均であり、μ(s,e) c(m,x)は、スタイルs、感情eについての追加的なクラスタのコンポーネントmについての平均ベクトル(これは後述されるであろう)であり、A(s,e) r(m)およびb(s,e) r(m)は、スタイルs、表情eについての回帰クラスr(m)に関連付けられる線形変換行列およびバイアスベクトルである。
Rは、回帰クラスの総数であり、r(m)∈{1,...,R}は、コンポーネントmが属する回帰クラスを示す。
線形変換が全く適用されないならば、A(s,e) r(m)およびb(s,e) r(m)は、それぞれ、単位行列および零ベクトルとなる。
後述される理由のため、この実施形態において、共分散は、クラスタリングされて決定木に配置され、ここでは、v(m)∈{1,...,V}がコンポーネントmの共分散行列が属する共分散決定木における葉ノードを示し、Vは分散決定木の葉ノードの総数である。
上記のものを用いて、補助関数は以下のように表現することができる。
ここで、Cは、Mとは独立の定数である。
故に、上記のものを用い、数式29に数式27および数式28を代入すると、補助関数はモデルパラメータが4つの別個の部分に分割され得ることを示す。
第1の部分は、カノニカルモデルのパラメータ(即ち、スタイルおよび表情に独立の平均{μ}およびスタイルおよび表情に独立の共分散{Σ})であり、上記インデックスnおよびkは後述されるであろう平均決定木および分散決定木の葉ノードを示す。第2の部分は、スタイル−表情依存の重み{λ (s,e)s,e,iであり、ここではsは発話スタイルを示し、eは表情を示し、iはクラスタインデックスパラメータを示す。第3の部分は、スタイル−表情依存のクラスタの平均μc(m,x)であり、第4の部分は、制約付き最尤線形回帰(CMLLR)変換{A (s,e),b (s,e)s,e,dであり、ここでは、sはスタイルを示し、eは表情を示し、dはコンポーネントmが属するコンポーネントまたはスタイル−感情回帰クラスを示す。
ひとたび補助関数が上記のやり方で表現されれば、今度は、スタイルおよび感情/表情特性パラメータ、スタイル依存パラメータおよび表情/感情依存パラメータのML値を得るために、補助関数は、順番に変数の各々に関して最大化される。
詳細には、平均のML推定値を判定するために、以下の手続が行われる。
以下の数式を単純化するために、線形変換が全く適用されないことが仮定される。もし、線形変換が適用されるならば、オリジナルの観測ベクトル{o(t)}は変換された観測ベクトルに置換されなければならない。
同様に、追加的なクラスタが存在しないことが仮定されるであろう。学習中に追加的なクラスタを含めることは、A(s,e) r(m)が単位行列かつ{b(s,e) r(m)=μ(s,e) c(m,x)}の線形変換を加えることとちょうど等価である。
まず、数式29の補助関数は、μに関して以下のように微分される。
ここで、
ij (m)およびk (m)は、累積統計値である。
導関数を0に設定することによって通常のやり方で数式を最大化することにより、μのML推定値(即ち、μ^ )について以下の式が立てられる。
μのML推定値がμ(ここではkはnと等しくない)にも依存することに注意されたい。インデックスnは、平均ベクトルの決定木の葉ノードを表すために用いられるのに対して、インデックスkは共分散決定木の葉ノードを表す。故に、収束まで全てのμに亘って反復することにより最適化を行うことが必要である。
これは、以下の数式を解くことによって全てのμを同時に最適化することにより、なされ得る。
しかしながら、学習データが小規模であるかNがかなり大きいならば、数式35の係数行列はフルランクを持たない可能性がある。この問題は、特異値分解または他の周知の行列因子分解法を用いることによって、回避できる。
次に、同じ処理が、共分散のML推定を行うために行われる。即ち、数式29に示される補助関数がΣに関して微分され、以下のものを与える。
ここで、
スタイル依存の重みおよびスタイル依存の線形変換のML推定値も同じやり方(即ち、ML推定が必要とされるパラメータに関して補助関数を微分し、それから微分値を0に設定する)で得ることができる。
表情/感情依存の重みについて、これは以下のものをもたらす。
ここで、
そして、同様に、スタイル依存の重みについて、これは以下のものをもたらす。
ここで、
好ましい実施形態において、処理は反復的なやり方で行われる。この基本的なシステムは、図13乃至図15のフロー図を参照して説明される。
ステップS401において、複数のオーディオおよびビデオ入力が受け取られる。この説明例において、4つのスタイルが用いられる。
次に、ステップS403において、音響モデルが、それぞれニュートラルな感情を伴って発話する、4つのボイス/スタイルの各々について学習および生成される。この実施形態において、4つのモデルの各々は、1つの発話スタイルを伴うデータを用いて学習されるに過ぎない。S403は、図14のフローチャートを参照してより詳細に説明される。
図14のステップS805において、クラスタ数PはV+1に設定され、ここでVはボイスの数(4)である。
ステップS807において、1つのクラスタ(クラスタ1)がバイアスクラスタとして判定される。バイアスクラスタのための決定木および関連するクラスタ平均ベクトルは、ステップS303において最高のモデルを生成したボイスを用いて初期化される。この例において、それぞれのボイスは、タグ「スタイルA」、「スタイルB」、「スタイルC」および「スタイルD」を与えられ、ここでスタイルAが最高のモデルを生成したと仮定される。共分散行列、多空間確率分布(MSD)のための空間重み、および、それらのパラメータ共有構造もまた、スタイルAのモデルのものへと初期化される。
各二分決定木は、全てのコンテキストを表す単一のルートノードから始まる局所的最適法で構築される。この実施形態において、コンテキストに従って、以下の基礎が用いられる。それは、音声学的なもの、言語学的なもの、および、韻律学的なものである。各ノードが作成される時に、コンテキストについての次の最適な質問が選択される。質問はどの質問が尤度において最大の増加を生じさせるかに基づいて選択され、学習例において終端ノードが生成される。
それから、図9乃至図12を参照して上に説明されたように、その最適な質問を用いて分割可能な1つの終端ノードを見つけ出して学習データに対する合計の尤度において最大の増加を提供するために、終端ノードのセットが探索される。
前述のように、決定木は、分散のためにも構築されるかもしれない。
ステップS809において、特定のボイスタグが第2,...,Pクラスタの各々に割り当てられる。例えば、クラスタ2,3,4および5は、それぞれ、スタイルB,C,DおよびA向けである。スタイルAは、バイアスクラスタを初期化するために用いられたので、初期化される最後のクラスタに割り当てられることに注意されたい。
ステップS811において、CAT補間重みのセットが、割り当てられたボイスタグに従って、以下のように1または0へと単純に設定される。
この実施形態において、スタイル毎、ストリーム毎の大域的重みが存在する。
ステップS813において、各クラスタ2,...,P−1について、順番に、クラスタが以下のように初期化される。関連するスタイル(例えば、クラスタ2についてのスタイルB)についてのボイスデータが、ステップS303において学習された関連するスタイルについての単スタイルモデルを用いてアライメントされる。これらのアライメントが与えられると、統計値が計算され、クラスタについての決定木および平均値が推定される。クラスタについての平均値は、ステップS811において設定される重みを用いて、クラスタ平均の正規化された重み付き和として計算される。即ち、実際には、これは、所与のコンテキストについての平均値(これは、当該コンテキストについてのバイアスクラスタの平均およびクラスタ2における当該コンテキストについてのスタイルBのモデルの平均の重み付き和(両方の場合に重みは1)である)に帰着する。
ステップS815において、今度は、決定木が、全4つのスタイルからの全データを用いて、バイアスクラスタのために再構築され、関連する平均および分散パラメータが再推定される。
スタイルB,CおよびDのためのクラスタの追加後に、バイアスクラスタは、同時に全4つのスタイルを用いて再推定される。
ステップS817において、今度は、クラスタP(スタイルA)が、ステップS813において説明される他のクラスタと同様に、スタイルAからのデータのみを用いて初期化される。
ひとたびクラスタが上記のように初期化されたならば、CATモデルは、次は以下のように更新/学習される。
ステップS819において、決定木は、CAT重みを固定しておいて、クラスタ1からPまでクラスタ単位で再構築される。ステップS821では、CATモデルにおいて新たな平均および分散が推定される。次いで、ステップS823において、新たなCAT重みが、クラスタ毎に推定される。実施形態において、収束まで処理はS821へとループバックする。パラメータおよび重みは、前述のパラメータのより良い推定値を得るためにバウム=ウェルチアルゴリズムの補助関数を用いることによって行われる最尤計算を用いて推定される。
前述のように、パラメータは、反復処理を経て推定される。
さらなる実施形態において、ステップS823では、収束まで決定木が各反復中に再構築されるよう、処理はステップS819へとループバックする。
処理は、それから、図13のステップS405(ここでは、今度は、モデルが、声および顔の両方で異なる感情のために学習される)へと戻る。
この実施形態において、感情は、ステップS403における発話スタイルのモデル化について説明されたのと同じやり方でクラスタ適応学習を用いてモデル化される。最初に、「感情クラスタ」がステップS405において初期化される。これは、図15を参照してより詳細に説明されるであろう。
次に、データが、スタイルの少なくとも1つについて収集され、ここでは、さらに、入力データは顔の表情またはボイスのどちらかの点で感情的である。ただ1つのスタイルから(ここでは話者は当該スタイルでそれぞれ様々な感情を表出する多数のデータサンプルを提供する)、または、複数のスタイルおよび様々な感情を伴うデータサンプルを提供する話者からデータを収集することが可能である。この実施形態において、システムを学習させて感情を表出するために提供される音声サンプルが、ステップS403においてデータを収集して初期CATモデルを学習させるために用いられたスタイルから得られることが推定されるであろう。しかしながら、システムは、ステップS403において用いられたデータとは異なる発話スタイルに関して収集されたデータを用いて、感情を表出するために学習することもできる。
ステップS451において、非ニュートラルな感情データが、N個のグループへとグループ化される。ステップS453において、N個の追加的なクラスタが、感情をモデル化するために追加される。クラスタは、各感情グループに関連付けられる。例えば、クラスタは、「嬉しい」などに関連付けられる。
これらの感情クラスタは、ステップS403において作り出されたニュートラルスタイルのクラスタに加えて用意される。
ステップS455において、もし1つの感情を表出する学習のために音声データが用いられるならば、当該感情に関連付けられるクラスタが「1」に設定され、他の感情クラスタの全てが「0」で重み付けられるように、感情クラスタの重み付けのためにバイナリベクトルを初期化する。
この初期化フェーズ中に、ニュートラルな感情および発話スタイルのクラスタは、データについての発話スタイルに関連付けられる重み付けに設定される。
次に、ステップS457において、決定木が、各感情クラスタのために構築される。最終的には、重みは、ステップS459においてデータの全てに基づいて再推定される。
感情クラスタが前述のように初期化された後に、ステップS407において、ガウス平均および分散が、全てのクラスタ(バイアス、スタイルおよび感情)について再推定される。
次に、ステップS409において、感情クラスタについての重みが、前述のように再推定される。それから、決定木が、ステップS411において再計算される。次に、処理はステップS407へとループバックし、モデルパラメータ、それに続くステップS409における重み付け、それに続くステップS411における決定木の再構築が、収束まで行われる。実施形態において、ループS407−S409は数回繰り返される。
次に、ステップS413において、モデルの分散および平均が、バイアス、スタイルおよび感情の全てのクラスタについて再推定される。ステップS415において、重みが発話スタイルのクラスタについて再推定され、ステップS417において、決定木が再構築される。処理は次にステップS413へとループバックし、このループは収束まで繰り返される。処理は次にステップS407へとループバックし、感情に関するループが収束まで繰り返される。処理は、収束が両方のループについて共に達せられるまで継続する。
さらなる実施形態において、システムは、新たな感情などの新たな属性に適応するために用いられる。これは、図16を参照して説明されるであろう。
最初に、目標ボイスがステップS601において受け取られ、データが新たな属性を伴って発話するボイスについて収集される。最初に、ニュートラルなスタイルのクラスタのための重み付けが、ステップS603において目標ボイスに最も一致するように調整される。
次に、新たな感情クラスタが、ステップS607において新たな感情についての既存の感情のクラスタへと追加される。次に、新たなクラスタのための決定木が、ステップS455から先へ図12に関連して説明されたように、初期化される。次に、重み付け、モデルパラメータおよび木が、図13を参照して説明されたように、全てのクラスタについて再推定および再構築される。
上記方法は、コンピュータ生成ヘッドが様々な表情を採用して適応できるように当該ヘッドが自然なやり方で音声を出力することを可能にするシステムを説明する。データのクラスタリングされた形式は、非常に効率的なやり方でシステムを実行するデータが保存されるので当該システムが小さな設置面積で構築されることを可能にし、システムはかなり少量のデータを必要としつつも前述のように容易に新たな表情に適応することも可能である。
上記のものは、ヘッドをレンダリングしてアニメーションにするためにCAT−HMMがどのように適用されるかを詳細に説明した。前述のように、顔ベクトルは、複数の顔パラメータを含む。ベクトルをサポートするための1つの適したモデルは、アクティブ・アピアランス・モデル(AAM)である。とはいえ、他の統計モデルが使用されてもよいが。
AAMは、V個の頂点のメッシュ上に定義される。モデルの形状、s=(x;y;x;y; ;x;yは、各メッシュ頂点の2D位置(x;y)を定義し、以下のものによって与えられる線形モデルである。
ここで、sがモデルの平均形状であり、sはM個の線形形状モードのうち第iのモードであり、cはその対応するパラメータ(これは、「重み付け」パラメータであると考えることができる)である。形状モード、および、それらがどのように学習されるかは、図19を参照してより詳細に説明されるであろう。しかしながら、形状モードは、顔の表情のセットとみなすことができる。顔についての形状は、形状モードの重み付き和(ここでは重み付けはパラメータcによって提供される)によって生成されるかもしれない。
このやり方で出力される表情を定義することによって、顔は表情の連続を表出することが可能である。
次に、カラー値が、a=(r;g;b;r;g;b;...;r;g;bに従って、モデルのアピアランスに含められる。ここで、(r;g;b)は、平均形状sに投影するP個の画素のうち第iの画素のRGB表現である。形状モデルと同様に、アピアランスは以下のものによって与えられる。
ここで、aは、モデルの平均のアピアランスベクトルであり、aは、第iのアピアランスモードである。
この実施形態において、合成されたアピアランスモデルが使用され、数式2.1および数式2.1におけるパラメータcは、同一であり、形状およびアピアランスの両方を制御する。
図17は、そのようなAAMの概略図を示す。ステップS1001において、モデルへの入力はパラメータである。次に、これらの重みは、形状モデル1003およびアピアランスモデル1005の両方に向けられる。
図17は、形状モデル1003のモードs,s,...,sおよびアピアランスモデルのモードa,a,...,aを説明する。形状モデル1003の出力1007およびアピアランスモデルの出力1009は、ステップS1011において合成されて所望の顔画像を生成する。
このモデルに入力されるパラメータは、上記図2に付随する説明において上で言及された顔ベクトルとして使用可能である。
AAMの大域的な性質は、3Dの姿勢変化と共に局所的な変形による変動を扱う一部のモードにつながる。
この実施形態において、ヘッド回転または他の物理的に意味のある動きに完全に対応するAAMのモードが使用される。これは、以下のように数学的に表現可能である。
この実施形態において、同様の数式がアピアランスについても導出される。しかしながら、AAMにおける形状およびアピアランスの結合は、これを難問にする。これに取り組むために、学習中に、固定のニュートラルな表情を伴う短いヘッド回転の学習系列を記録し、観測された平均の正規化形状s^=s−sにPCAを適用することによって、最初に{s pose i=1をモデル化する形状コンポーネントが導出される。次に、上の数式2.3におけるパラメータ{c i=1を推定するために、s^が、{s pose i=1によって張られる姿勢変動空間に投影される。
これらのパラメータが見つけ出されると、姿勢の正規化された学習形状sを得るために、姿勢コンポーネントが各学習形状から取り除かれる。
形状およびアピアランスが本当に独立である場合には、変形コンポーネントは、数式2.5のように正規化された形状サンプルの学習セットの主成分分析(PCA)を用いて見つけ出すことが可能であって、これは姿勢モードと直交するモードのみが見つけ出されることを保証する。
しかしながら、数式2.4を用いて計算されるパラメータが形状およびアピアランスモードについて同一である保証は全くなく、これは当該パラメータから導出されたモデルを用いて学習例を再構築することが可能でないかもしれないことを意味する。
この問題を克服するために、アピアランスおよび形状パラメータのそれぞれの{c i=1の平均が以下のものを用いて計算される。
次に、モデルは、数式2.5におけるこれらのパラメータを使用し、完全な学習セットのサンプルから変形モードを見つけ出すことによって構築される。
さらなる実施形態において、モデルは、目のまばたきなどの局部的な変形に適応させられる。これは、説明された方法の修正版(ここでは、模範のまばたきが、まばたきを含むが他のヘッドの動きを全く備えないビデオから学習される)により実現することができる。
これらのまばたきモードを学習セットから取り除くために、姿勢を分離するための上に教示された方法を直接的に適用することは、アーチファクトを導入するかもしれない。この理由は、まばたきに関連付けられる形状モード(動きの大部分がまぶたにある)を考慮すれば明らかである。これは、目が顔の重心(例えば、口が開けば、これは重心を低くする)に対して異なる位置にあるならば、たとえまぶたの動きが目を不自然に開けたり閉じたりしたとしても、まぶたが平均のまぶた位置に向かって動くことを意味する。数式2.6において、絶対座標のパラメータを計算する代わりに、ラプラス演算子を用いて相対的な形状座標が実装される。
ラプラス演算子L()は、形状内の各頂点iの相対位置δが以下のものを用いてそのオリジナルの位置pから計算できるように、形状サンプル上で定義される。
ここで、Nは、AAMメッシュ上で定義される1つ隣(one−neighborhood)であり、dijは平均の形状における頂点iおよびjの間の距離である。顔内部の目の位置の代わりに目内部の相対的な動きがモデル化されるので、このアプローチはまばたきについての学習サンプルを正確に正規化する。
さらなる実施形態は、顔の相異なる部位がほぼ独立に動くという事実にも適応する。モードは姿勢および変形コンポーネントへと分解されることが説明された。これは、変形コンポーネントが影響を及ぼす局所的な部位による、変形コンポーネントのさらなる分離を可能にする。モデルはR個の部位へと分割可能であり、その形状は以下のものに従ってモデル化することができる。
ここで、Iは、部位jに関連付けられるコンポーネントインデックスの集合である。一実施形態において、部位毎のモードは、手動で選択された、平均の形状において印を付けられた境界に従ってモデルの頂点の部分集合のみを考慮するだけで学習される。モードは、部位に対応するモード(モデルが、学習セットにおいて観測される、最高の分散の割合を表すことを可能にする)を貪欲的に追加することによって、最大数まで反復的に含められる。
類似のモデルが、アピアランスのために用いられる。線形ブレンディングが、部位境界付近で局所的に適用される。このアプローチは、顔を上半分および下半分へ分割するために用いられる。この利点は、合成中の口形状の変化が顔の上半分におけるアーチファクトを引き起こすことがあり得ないことである。大域的なモードが姿勢をモデル化するために用いられるので、顔の上半分および下半分が相異なる姿勢を持つリスクは全くない。
図18は、前述の強化型AAMを説明する。図17のAAMと同じく、図18(a)のAAMに対する入力重み付けは、図2を参照して説明されるアルゴリズムにおいて用いられる顔ベクトルを作り出すことができる。
しかしながら、ここでは、入力パラメータciは、S1051において入力される姿勢用のパラメータ、S1053のまばたき用のパラメータ、および、S1055において入力される各部位における変形をモデル化するためのパラメータへと分割される。図18において、部位1乃至Rが示される。
次に、これらのパラメータは、形状モデル1057およびアピアランスモデル1059へと提供される。ここでは、姿勢パラメータは、形状モデル1057のうちの姿勢モード1061およびアピアランスモデルのうちの姿勢モード1063を重み付けるために用いられ、まばたきパラメータは、形状モデル1057のうちのまばたきモード1065およびアピアランスモデルのうちのまばたきモード1067を重み付けるために用いられ、局部的変形パラメータは、形状モデル1057のうちの局部的変形モード1069およびアピアランスモデルの局部的変形モード1071を重み付けるために用いられる。
図17と同じく、ステップS1073において生成された形状が出力され、ステップS1075において生成されたアピアランスが出力される。次に、生成された形状および生成されたアピアランスが、ステップS1077において合成されて生成画像を作り出す。
歯および舌は学習例の多数において遮られているので、これらの部位の合成は著しいアーチファクトを引き起こすかもしれない。これらのアーチファクトを低減させるために、上側および下側の歯のために固定の形状およびテクスチャが用いられる。これらの静的なテクスチャの置換は、上側および下側のそれぞれの歯の中心の頂点の置き換えによって与えられる。歯は顔の残部の前にレンダリングされ、これは正確なオクルージョンが生じることを保証する。
図18(b)は、図18(a)に対する修正(ここでは、静的なアーチファクトが最初にレンダリングされる)を示している。ステップS1073およびステップS1075において形状およびアピアランスがそれぞれ生成された後に、ステップS1081において歯の位置が判定される。実施形態において、歯は、顔面上の固定の可視のポイントに関係のある位置に存在すると判定される。それから、歯は、ステップS1083において当該歯の固定の形状およびテクスチャを仮定することによりレンダリングされる。次に、顔の残部は、ステップS1085においてレンダリングされる。
図19は、本発明の実施形態に従うシステムの学習を示すフロー図である。ステップS1301において学習画像が収集される。一実施形態において、学習画像は、さまざまな表情にわたって収集される。例えば、オーディオおよびヴィジュアルデータが、話者の顔の表情を収集するために準備されたカメラおよびオーディオを収集するマイクロフォンによって収集されるかもしれない。話者は、センテンスを読み出すことが可能であり、特定のセンテンスを読む時に用いられる必要のある感情または表情についての指示を受けるであろう。
データは、感情の各々において共通の音素のセットに対応する学習画像からフレームセットを選択することが可能であるように、選択される。一部の実施形態において、約7000の学習センテンスが用いられる。しかしながら、このデータの多くは、前述のように音声モデルを学習して音声ベクトルを生成するために用いられる。
前述の学習データに加えて、さらなる学習データが、姿勢変化によるモードを分離するために取り込まれる。例えば、話者が固定のニュートラルな表情を維持しながら彼らのヘッドを回転させるビデオが取り込まれるかもしれない。
同様に、話者が彼らの顔面の残部を静止しながらまばたきをするビデオが取り込まれるかもしれない。
ステップS1303において、AAMを構築するための画像が選択される。実施形態において、ほんの約100個のフレームが、AAMを構築するために必要とされるに過ぎない。データが様々なフレーム(ここでは、話者は広範な表情を表出する)に亘って収集されることを可能にする画像が選択される。例えば、話者が様々な表情を表出するフレーム(様々な口の形状、目を開く、閉じる、全開など)が選択されるかもしれない。一実施形態では、ヘッドによって表出される感情の各々において共通の音素のセットに対応するフレームが選択される。
さらなる実施形態において、多数のフレーム(例えば、長いビデオシーケンスのフレームの全て)が使用され得る。いっそうのさらなる実施形態において、フレーム(ここでは、活動させられる個別の筋肉群におおよそ対応する1組の顔の表情を話者が演じた)が選択されるかもしれない。
ステップS1305において、ステップS1303において選択されたフレーム上の注目点が標識付けされる。実施形態において、これは、顔面上のキーポイント(例えば、目角、口角、および、ほくろ、または、しみ)を視覚的に識別することによってなされる。一部の輪郭(例えば、顔および髪のシルエット、ならびに、唇)も標識付けされるかもしれないし、キーポイントはこれらの輪郭の複数ポイントへの等距離の細分化によって当該輪郭から自動的に生成されるかもしれない。
他の実施形態において、キーポイントは、学習されたキーポイント検出器を用いて自動的に見つけ出される。いっそうのさらなる実施形態において、キーポイントは、多数の顔画像を自動的にアライメントすることによって見つけ出される。いっそうのさらなる実施形態において、上記方法の2つ以上が、処理中にユーザによって与えられた標識から一部の欠落した情報を推定することによって半自動の処理が適用されるように、手動の標識付けと組み合わせられる可能性がある。
ステップS1307において、姿勢変化をモデル化するために取り込まれたフレームが選択され、AAMが姿勢を単独でモデル化するために構築される。
次に、ステップS1309において、まばたきをモデル化するために取り込まれたフレームが選択され、AAMモードがまばたきを単独でモデル化するために構築される。
次に、さらなるAAMが、姿勢およびまばたきをモデル化するために用いられたフレームを含む、選択されたフレームの全てを用いて構築される(但し、モデルを構築する前に、k個のモードの効果は前述のデータから取り除かれた)。
AAMが十分に行われていないフレームが選択される。これらのフレームは、次に手動で標識付けされて学習セットに追加される。処理は、新たな画像を追加することによるさらなる改善がほとんどなくなるまで繰り返される。
ひとたびモードについての全てのAAMパラメータ(姿勢、まばたきおよび変形)が確立されたならば、AAMは学習されている。
図20は、AAMがどのように構築されるのかの概略図である。学習画像1361が標識付けされ、形状モデル1363が導出される。テクスチャ1365もまた顔モデルごとに抽出される。ひとたびAAMモデルおよびパラメータが前述のように計算されれば、形状モデル1363およびテクスチャモデル365は顔1367を生成するために合成される。
一実施形態において、AAMパラメータおよびそれらの1次導関数が、前述のようにCAT−HMM学習アルゴリズムのための入力において用いられる。
さらなる実施形態において、過去に学習されたAAMの空間ドメインが、既存のモデルに影響を与えることなくさらなるドメインへと拡張される。例えば、それは、髪および耳の部位を含ませてさらなるリアリズムを加えるために、顔の部位でのみ学習されたモデルを拡張するのに使用されてよい。
既存のAAMについてのN個の学習画像のセットが既知であり、同様にこれらの画像についてのオリジナルモデルの係数ベクトル{c j=1(c∈R)も既知である。モデルに含められる部位は、それから、標識付けされ、N個の学習形状{s~ ext j=1およびアピアランス{a~ ext j=1の新たなセットに帰着する。M個のモードを備えるオリジナルモデルを仮定すると、新たな形状モード{s i=1は、以下の制約を満足すべきである。
これは、拡張された学習形状s~ extを再構築するために、オリジナルモデルの係数を用いて、新たなモードが合成可能であることを示す。学習サンプル数Nがモード数Mより大きいことを仮定すると、新たな形状モードは最小二乗解として得ることができる。新たなアピアランスモードは、同様に見つけ出される。
上記のものを説明するために、実験が行われた。ここでは、6個の感情(ニュートラル、優しい、腹を立てた、恐れている、うれしいおよび悲しい)の間で分類された6925個のセンテンスのコーパスが用いられた。データから300個のセンテンスがテストセットとして差し出され、残りのデータが音声モデルを学習させるために用いられた。音声データは、45次元のメル周波数ケプストラム係数、lоg−F0(ピッチ)および25帯域の非周期性とともにそれらの1次および2次導関数からなる標準的な特徴セットを用いてパラメータ化された。ヴィジュアルデータは、後述される様々なAAMを用いてパラメータ化された。一部のAAMは、提案された拡張で得られた改善を評価するために、学習された。それぞれのケースにおいて、AAMは17個のパラメータによって制御され、パラメータ値およびそれらの1次導関数がCATモデルにおいて用いられた。
使用された第1のモデル、即ちAAMbaseは、71個の学習画像(このうち47個の顔のキーポイントが手動で標識付けされた)から構築された。さらに、両目、内唇および外唇、ならびに、顔のエッジ周辺の輪郭が標識付けされ、それらの長さに従って等間隔でポイントがサンプリングされた。第2のモデル、即ちAAMdecоmpは、3Dのヘッドの回転(2つのモードによってモデル化される)およびまばたき(1つのモードによってモデル化される)を変形モードから分離する。第3のモデル、即ちAAMregiоnsは、8個のモードが顔の下半分をモデル化するために用いられ、かつ、6個のモードが顔の上半分をモデル化するために用いられる点を除いてAAMdecоmpと同じやり方で構築される。最後のモデル、即ちAAMfullは、口の部位(静的な形状を別様で扱うように修正されている)を除いてAAMregiоnsと同じである。第1の実験において、各AAMの再構築エラーが、約100万フレームを含む、6925個のセンテンスの完全なデータセットに対して定量的に評価された。再構築エラーは、各AAMの平均形状へとワープされた入力画像と生成されたアピアランスとの間の画素毎の差分のL2ノルムとして見積もられた。
図21(a)は、再構築エラーが、AAMモード数に対してどのように変化するのかを示す。少数のモードに関してAAMbaseは最も低い再構築エラーを備えているが、モード数が増えるにつれてエラーの差は縮小することが認められる。換言すれば、意味的に重要なモードが提供する柔軟性は、トラッキング精度の低下を犠牲にして得られるのではない。実際、修正されたモデルは、図21(b)に示されるように、ベースモデルに比べて、ロバストであり、かつ、平均してより少ないワーストケースエラーを持つことが確かめられた。これは、AAMregiоnsおよびAAMdecоmpは異なる顔の部位の間の擬似相関を学習することにより学習データを過剰に適応させないので、AAMregiоnsおよびAAMdecоmpが初見の例をより上手に一般化できることにおそらく原因がある。
合成されたビデオの知覚的な品質を評価するために、多数の大規模ユーザ研究が行われた。実験装置は、クラウドソーシングウェブサイトを介して配布され、提案されたシステムによって生成されたビデオをユーザに提示した。
最初の研究では、提案されたVTTSシステムの、様々な表情を表出する能力が評価された。ユーザは、テストセットから単一のセンテンスのビデオまたはオーディオクリップを与えられ、話者によって表出される表情を識別して6個の感情のリストから選択することを求められた。この評価のための合成ビデオデータは、AAMregiоnsモデルを用いて生成された。合成ビデオデータは、実際のビデオフィルムのトリミングされたバージョンだけでなく合成ビデオのみおよび合成オーディオのみのバージョンとも比較された。それぞれの場合において、6個の感情の各々で10個のセンテンスが、20人によって評価され、1200個の合計サンプル数に帰着した。
平均認識率は、取り込まれたフィルムについて73%であり、我々の生成ビデオ(オーディオつき)について77%であり、合成ビデオのみについて52%であり、合成オーディオのみについて68%である。これらの結果は、合成的に生成された結果の認識率が、実際のフィルムに、匹敵し、わずかに高くすらあることを示す。これは、合成における表情の様式化に原因があるのかもしれない。相異なる表情の間の混同行列が図22に示される。優しい表情およびニュートラルな感情は、全てのケースで最も混同されやすい。一部の感情は、オーディオのみからいっそう適切に認識されるが、両方の刺激を用いる場合に全体的な認識率はより高い。
最終的なシステムでのAAMの質的な効果を判定するために、様々なAAMを用いて構築されたシステムについて嗜好テストが行われた。嗜好テスト毎に、6個の感情の各々において10個のセンテンスが、並んでレンダリングされた2つのモデルと共に生成された。AAMの各ペアは、左のモデル、右のモデル、または、嗜好を持たない、の中から選択することを求められた(我々のモデルのレンダリングの順序は、偏りを避けるために実験の間に切り替えられた)10人のユーザによって評価され、嗜好テストあたり合計600ペアの比較に帰着した。
この実験において、顔モデルの品質に焦点を合わせるために、ビデオはオーディオなしで見せられた。図23に示されるテーブル1から、AAMfullは最高のスコアを達成したこと、AAMregiоnsもまた標準的なAAMよりも好まれていることが認められる。この嗜好は、大量のヘッドの動きが存在する、腹を立てた、などの表情について最も顕著であり、それゆえ、ヘッドの目立って大きな動きを伴わない、ニュートラル、および、優しい、などの感情についてより低い。
いくつかの実施形態を説明したが、これらの実施形態は、例として提示したものに過ぎず、発明の範囲を限定することを意図されていない。実際、ここで説明された新規な方法および装置は、様々な他の形態で実施されることが可能である。更に、発明の要旨を逸脱することなく、ここで説明された方法および装置の形態において種々の省略、置き換え、変更を行うことができる。添付の特許請求の範囲およびその均等物は、係る変形の形態をカバーするように意図されており、発明の範囲や要旨に含まれるであろう。

Claims (25)

  1. ヘッドのコンピュータ生成をアニメーションにする方法であって、
    前記ヘッドは、当該ヘッドによって出力される音声に従って動く口を持ち、
    前記方法は、
    前記口の動きによって出力されることになる音声に関連する入力を準備することと、
    前記入力を音響単位の系列へと分割することと、
    入力されるテキストのための表情特性を選択することと、
    統計的モデル(前記モデルは、音響単位を画像ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持つ)を用いて前記音響単位の系列を画像ベクトル(前記画像ベクトルは、前記ヘッドの顔を定義する複数のパラメータを含む)の系列へと変換することと、
    前記ヘッドの口が動いて、選択された表情を伴って前記ヘッドによって出力される音声を真似るよう、前記画像ベクトルの系列をビデオとして出力することと
    を具備し、
    前記選択された表情における各確率分布の所定の種別のパラメータは、同一種別のパラメータの重み付き和として表現され、
    前記音響単位の系列を画像ベクトルの系列へと変換することが前記選択された表情のための表情依存の重みを検索することを具備するよう、使用される重み付けは表情依存であり、
    パラメータはクラスタで準備され、各クラスタは少なくとも1つのサブクラスタを含み、
    サブクラスタ毎に1つの重みが存在するよう、前記表情依存の重みはクラスタ毎に検索される、
    方法。
  2. 前記モデルは、前記音響単位の系列を音声ベクトルへと変換するように構成され、
    前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持ち、
    前記方法は、前記音声ベクトルの系列を前記ヘッドの唇の動きと同期するオーディオとして出力することをさらに具備する、
    請求項1記載の方法。
  3. 前記入力は、音響単位の系列へと分割されるテキスト入力である、請求項1記載の方法。
  4. 前記入力が音声入力であり、
    前記音声入力は、音響単位の系列へと分割され、前記ヘッドのビデオと共にオーディオとして出力される、
    請求項1記載の方法。
  5. 各サブクラスタは、少なくとも1つの決定木を含み、
    前記決定木は、言語学的な差異、音声学的な差異または韻律学的な差異のうち少なくとも1つに関連する質問に基づいている、
    請求項1記載の方法。
  6. 表情特性は、様々な感情、アクセントまたは発話スタイルのうち少なくとも1つから選択される、請求項1記載の方法。
  7. 表情特性を選択することは、入力(重み付けが当該入力を介して選択されることを可能にする)を準備することを具備する、請求項1記載の方法。
  8. 表情特性を選択することは、出力される音声から、使用されるべき重み付けを予測することを具備する、請求項1記載の方法。
  9. 表情特性を選択することは、出力される音声に関する外部情報から、使用されるべき重み付けを予測することを具備する、請求項1記載の方法。
  10. 表情を選択することは、
    顔を含むビデオ入力を受け取ることと、
    前記ビデオ入力の顔の表情特性をシミュレートするために重み付けを変更することと
    を具備する、請求項1記載の方法。
  11. 表情特性を選択することは、
    出力される音声を含むオーディオ入力を受け取ることと、
    オーディオ音声入力から重み付けを得ることと
    を具備する、請求項1記載の方法。
  12. 表情特性を選択することは、事前に保存された複数の重みのセットから重みのセットをランダムに選択することを具備し、
    それぞれの重みのセットは、全てのサブクラスタのための重み付けを含む、
    請求項1記載の方法。
  13. 前記画像ベクトルは、顔がモードの重み付き和から構築されることを可能にするパラメータを含み、
    前記モードは、顔または顔のパーツの再構築を表す、
    請求項1記載の方法。
  14. モードが、顔の形状およびアピアランスを表すモードを含む、請求項13記載の方法。
  15. 同一の重み付けパラメータが、形状モードおよび当該形状モードの対応するアピアランスモードのために使用される、請求項14記載の方法。
  16. モードのうち少なくとも1つが、顔の姿勢を表す、請求項13記載の方法。
  17. 複数のモードが、顔の部位の変形を表す、請求項13記載の方法。
  18. モードのうち少なくとも1つが、まばたきを表す、請求項13記載の方法。
  19. ヘッドの静的な特徴が、固定の形状およびテクスチャを用いてモデル化される、請求項13記載の方法。
  20. コンピュータ生成ヘッドをレンダリングするためのシステムを新たな表情に適応させる方法であって、
    前記ヘッドは、当該ヘッドによって出力される音声に従って動く口を持ち、
    前記システムは、
    前記口の動きによって出力されることになる音声のデータを受け取るための入力と、
    プロセッサと
    を具備し、
    前記プロセッサは、
    入力データを音響単位の系列へと分割し、
    入力されるテキストのための表情特性の選択を可能にし、
    統計的モデル(前記モデルは、音響単位を画像ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持つ)を用いて前記音響単位の系列を画像ベクトル(前記画像ベクトルは、前記ヘッドの顔を定義する複数のパラメータを含む)の系列へと変換し、
    前記ヘッドの口が動いて、選択された表情を伴って出力される音声を真似るよう、前記画像ベクトルの系列をビデオとして出力する、
    ように構成され、
    前記選択された表情における各確率分布の所定の種別のパラメータは、同一種別のパラメータの重み付き和として表現され、
    前記音響単位の系列を画像ベクトルの系列へと変換することが前記選択された表情のための表情依存の重みを検索することを具備するよう、使用される重み付けは表情依存であり、
    パラメータはクラスタで準備され、各クラスタは少なくとも1つのサブクラスタを含み、
    サブクラスタ毎に1つの重みが存在するよう、前記表情依存の重みはクラスタ毎に検索され、
    前記方法は、
    新たな入力ビデオファイルを受け取ることと、
    生成される画像と新たなビデオファイルとの類似度を最大化するために、クラスタへと適用される重みを計算することと
    を具備する、
    方法。
  21. 新たなビデオファイルからのデータを用いて新たなクラスタを作成することと、
    生成される画像と前記新たなビデオファイルとの類似度を最大化するために、新たなクラスタを含むクラスタへと適用される重みを計算することと
    をさらに具備する、請求項20記載の方法。
  22. コンピュータ生成ヘッドをレンダリングするためのシステムであって、
    前記ヘッドは、当該ヘッドによって出力される音声に従って動く口を持ち、
    前記システムは、
    前記口の動きによって出力されることになる音声のデータを受け取るための入力と、
    プロセッサと
    を具備し、
    前記プロセッサは、
    入力データを音響単位の系列へと変換し、
    入力されるテキストのための表情特性の選択を可能にし、
    統計的モデル(前記モデルは、音響単位を画像ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持つ)を用いて前記音響単位の系列を画像ベクトル(前記画像ベクトルは、前記ヘッドの顔を定義する複数のパラメータを含む)の系列へと変換し、
    前記ヘッドの口が動いて、選択された表情を伴って出力される音声を真似るよう、前記画像ベクトルの系列をビデオとして出力する
    ように構成され、
    前記選択された表情における各確率分布の所定の種別のパラメータは、同一種別のパラメータの重み付き和として表現され、
    前記音響単位の系列を画像ベクトルの系列へと変換することが前記選択された表情のための表情依存の重みを検索することを具備するよう、使用される重み付けは表情依存であり、
    パラメータはクラスタで準備され、各クラスタは少なくとも1つのサブクラスタを含み、
    サブクラスタ毎に1つの重みが存在するよう、前記表情依存の重みはクラスタ毎に検索される、
    システム。
  23. コンピュータ生成ヘッドをレンダリングするための適応可能なシステムであって、
    前記ヘッドは、当該ヘッドによって出力される音声に従って動く口を持ち、
    前記システムは、
    前記口の動きによって出力されることになる音声のデータを受け取るための入力と、
    プロセッサと
    を具備し、
    前記プロセッサは、
    入力データを音響単位の系列へと分割し、
    入力されるテキストのための表情特性の選択を可能にし、
    統計的モデル(前記モデルは、音響単位を画像ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持つ)を用いて前記音響単位の系列を画像ベクトル(前記画像ベクトルは、前記ヘッドの顔を定義する複数のパラメータを含む)の系列へと変換し、
    前記ヘッドの口が動いて、選択された表情を伴って出力される音声を真似るよう、前記画像ベクトルの系列をビデオとして出力する、
    ように構成され、
    前記選択された表情における各確率分布の所定の種別のパラメータは、同一種別のパラメータの重み付き和として表現され、
    前記音響単位の系列を画像ベクトルの系列へと変換することが前記選択された表情のための表情依存の重みを検索することを具備するよう、使用される重み付けは表情依存であり、
    パラメータはクラスタで準備され、各クラスタは少なくとも1つのサブクラスタを含み、
    サブクラスタ毎に1つの重みが存在するよう、前記表情依存の重みはクラスタ毎に検索され、
    前記システムは、クラスタおよびサブクラスタで準備されるパラメータならびに前記サブクラスタのための重みを保存するように構成されたメモリをさらに具備し、
    前記システムは、新たなビデオファイルを受け取るようにさらに構成され、
    前記プロセッサは、生成される画像と新たなビデオファイルとの類似度を最大化するために、サブクラスタへと適用される重みを再計算するように構成される、
    システム。
  24. コンピュータに請求項1記載の方法を行わせるように構成されたコンピュータ可読コードを具備するプログラム。
  25. コンピュータに請求項20記載の方法を行わせるように構成されたコンピュータ可読コードを具備するプログラム。
JP2014014924A 2013-01-29 2014-01-29 コンピュータ生成ヘッド Pending JP2014146339A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB1301583.9A GB2510200B (en) 2013-01-29 2013-01-29 A computer generated head
GB1301583.9 2013-01-29

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2015194171A Division JP6109901B2 (ja) 2013-01-29 2015-09-30 コンピュータ生成ヘッド

Publications (1)

Publication Number Publication Date
JP2014146339A true JP2014146339A (ja) 2014-08-14

Family

ID=47890966

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2014014924A Pending JP2014146339A (ja) 2013-01-29 2014-01-29 コンピュータ生成ヘッド
JP2015194171A Active JP6109901B2 (ja) 2013-01-29 2015-09-30 コンピュータ生成ヘッド

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2015194171A Active JP6109901B2 (ja) 2013-01-29 2015-09-30 コンピュータ生成ヘッド

Country Status (5)

Country Link
US (1) US9959657B2 (ja)
EP (1) EP2760023A1 (ja)
JP (2) JP2014146339A (ja)
CN (1) CN103971393A (ja)
GB (1) GB2510200B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11144713B2 (en) 2016-09-29 2021-10-12 Kabushiki Kaisha Toshiba Communication device generating a response message simulating a response by a target user

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2516965B (en) 2013-08-08 2018-01-31 Toshiba Res Europe Limited Synthetic audiovisual storyteller
US9378735B1 (en) * 2013-12-19 2016-06-28 Amazon Technologies, Inc. Estimating speaker-specific affine transforms for neural network based speech recognition systems
CN106327555A (zh) * 2016-08-24 2017-01-11 网易(杭州)网络有限公司 一种获得唇形动画的方法及装置
US10554957B2 (en) * 2017-06-04 2020-02-04 Google Llc Learning-based matching for active stereo systems
US10586368B2 (en) 2017-10-26 2020-03-10 Snap Inc. Joint audio-video facial animation system
CN107977674B (zh) * 2017-11-21 2020-02-18 Oppo广东移动通信有限公司 图像处理方法、装置、移动终端及计算机可读存储介质
CN112823380A (zh) * 2018-05-24 2021-05-18 华纳兄弟娱乐公司 将数字视频中的口形和动作与替代音频匹配
KR102079453B1 (ko) * 2018-07-31 2020-02-19 전자부품연구원 비디오 특성에 부합하는 오디오 합성 방법
CN110288077B (zh) * 2018-11-14 2022-12-16 腾讯科技(深圳)有限公司 一种基于人工智能的合成说话表情的方法和相关装置
US20220108510A1 (en) * 2019-01-25 2022-04-07 Soul Machines Limited Real-time generation of speech animation
CN110035271B (zh) * 2019-03-21 2020-06-02 北京字节跳动网络技术有限公司 保真图像生成方法、装置及电子设备
US10957304B1 (en) * 2019-03-26 2021-03-23 Audible, Inc. Extracting content from audio files using text files
US20220358703A1 (en) * 2019-06-21 2022-11-10 Deepbrain Ai Inc. Method and device for generating speech video on basis of machine learning
CN110347867B (zh) * 2019-07-16 2022-04-19 北京百度网讯科技有限公司 用于生成嘴唇动作视频的方法和装置
US11151979B2 (en) * 2019-08-23 2021-10-19 Tencent America LLC Duration informed attention network (DURIAN) for audio-visual synthesis
CN111415677B (zh) * 2020-03-16 2020-12-25 北京字节跳动网络技术有限公司 用于生成视频的方法、装置、设备和介质
CN113468883B (zh) * 2020-03-30 2024-04-30 株式会社理光 位置信息的融合方法、装置及计算机可读存储介质
CN118135992A (zh) * 2020-12-24 2024-06-04 北京猎户星空科技有限公司 语音合成模型训练和语音合成方法、装置、设备及介质
CN112907706A (zh) * 2021-01-31 2021-06-04 云知声智能科技股份有限公司 基于多模态的声音驱动动漫视频生成方法、装置及系统
US20240312093A1 (en) * 2021-07-15 2024-09-19 Hewlett-Packard Development Company, L.P. Rendering Avatar to Have Viseme Corresponding to Phoneme Within Detected Speech
CN117275129B (zh) * 2023-10-29 2024-04-16 浙江华屹物联技术有限公司 一种基于物联网的语音结合人脸识别的门禁系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003281567A (ja) * 2002-03-20 2003-10-03 Oki Electric Ind Co Ltd 3次元画像生成装置およびその画像生成方法ならびにその画像生成プログラムを記録したコンピュータ読取り可能な記録媒体
WO2012154618A2 (en) * 2011-05-06 2012-11-15 Seyyer, Inc. Video generation based on text
JP2012529664A (ja) * 2009-06-10 2012-11-22 株式会社東芝 テキスト音声合成方法及びシステム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6343267B1 (en) * 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
CN1144172C (zh) * 1998-04-30 2004-03-31 松下电器产业株式会社 包括最大似然方法的基于本征音的发言者适应方法
US6735566B1 (en) * 1998-10-09 2004-05-11 Mitsubishi Electric Research Laboratories, Inc. Generating realistic facial animation from speech
US6366885B1 (en) 1999-08-27 2002-04-02 International Business Machines Corporation Speech driven lip synthesis using viseme based hidden markov models
CN1320497C (zh) * 2002-07-03 2007-06-06 中国科学院计算技术研究所 基于统计与规则结合的语音驱动人脸动画方法
EP1671277A1 (en) * 2003-09-30 2006-06-21 Koninklijke Philips Electronics N.V. System and method for audio-visual content synthesis
US7613613B2 (en) * 2004-12-10 2009-11-03 Microsoft Corporation Method and system for converting text to lip-synchronized speech in real time
JP2007006182A (ja) 2005-06-24 2007-01-11 Fujifilm Holdings Corp 画像処理装置および方法並びにプログラム
US7784580B2 (en) 2005-11-18 2010-08-31 Toyota Jidosha Kabushiki Kaisha Fuel supply system component protective construction
JP4543263B2 (ja) 2006-08-28 2010-09-15 株式会社国際電気通信基礎技術研究所 アニメーションデータ作成装置及びアニメーションデータ作成プログラム
US8224652B2 (en) * 2008-09-26 2012-07-17 Microsoft Corporation Speech and text driven HMM-based body animation synthesis
KR101541907B1 (ko) 2008-10-14 2015-08-03 삼성전자 주식회사 음성 기반 얼굴 캐릭터 형성 장치 및 방법
US8260038B2 (en) 2009-02-25 2012-09-04 Seiko Epson Corporation Subdivision weighting for robust object model fitting
US8204301B2 (en) 2009-02-25 2012-06-19 Seiko Epson Corporation Iterative data reweighting for balanced model learning
US9728203B2 (en) * 2011-05-02 2017-08-08 Microsoft Technology Licensing, Llc Photo-realistic synthesis of image sequences with lip movements synchronized with speech
GB2501062B (en) 2012-03-14 2014-08-13 Toshiba Res Europ Ltd A text to speech method and system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003281567A (ja) * 2002-03-20 2003-10-03 Oki Electric Ind Co Ltd 3次元画像生成装置およびその画像生成方法ならびにその画像生成プログラムを記録したコンピュータ読取り可能な記録媒体
JP2012529664A (ja) * 2009-06-10 2012-11-22 株式会社東芝 テキスト音声合成方法及びシステム
WO2012154618A2 (en) * 2011-05-06 2012-11-15 Seyyer, Inc. Video generation based on text
JP2014519082A (ja) * 2011-05-06 2014-08-07 セイヤー インコーポレイテッド 文字に基づく映像生成

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11144713B2 (en) 2016-09-29 2021-10-12 Kabushiki Kaisha Toshiba Communication device generating a response message simulating a response by a target user

Also Published As

Publication number Publication date
US9959657B2 (en) 2018-05-01
CN103971393A (zh) 2014-08-06
GB2510200A (en) 2014-07-30
GB2510200B (en) 2017-05-10
US20140210830A1 (en) 2014-07-31
JP6109901B2 (ja) 2017-04-05
JP2016042362A (ja) 2016-03-31
EP2760023A1 (en) 2014-07-30
GB201301583D0 (en) 2013-03-13

Similar Documents

Publication Publication Date Title
JP6109901B2 (ja) コンピュータ生成ヘッド
US9361722B2 (en) Synthetic audiovisual storyteller
US11144597B2 (en) Computer generated emulation of a subject
JP2016029576A (ja) コンピュータ生成ヘッド
JP6092293B2 (ja) テキスト読み上げシステム
US10573304B2 (en) Speech recognition system and method using an adaptive incremental learning approach
JP6246777B2 (ja) 音声合成方法、装置及びプログラム
JP5768093B2 (ja) 音声処理システム
JP2015057651A (ja) 音声処理システム及び方法
Wang et al. HMM trajectory-guided sample selection for photo-realistic talking head
Filntisis et al. Video-realistic expressive audio-visual speech synthesis for the Greek language
Chiţu¹ et al. Automatic visual speech recognition
Schabus et al. Speaker-adaptive visual speech synthesis in the HMM-framework.
Hilder et al. In pursuit of visemes
d’Alessandro et al. Reactive statistical mapping: Towards the sketching of performative control with data
Schabus et al. Building a synchronous corpus of acoustic and 3D facial marker data for adaptive audio-visual speech synthesis.
Georgios Text-driven articulate talking face generation
CN117635892A (zh) 人脸模型的表情调整方法、装置、设备及存储介质
JP2024514466A (ja) 発声のグラフィカル調整推奨
Filntisis et al. Video-realistic expressive audio-visual speech synthesis for the Greek
Inanoglu et al. Multimodal Speaker Identity Conversion
JP2003280677A (ja) 口形状ライブラリを作成するための分解方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150120

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150320

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150630