JP2003529861A5

JP2003529861A5 -

Info

Publication number: JP2003529861A5
Application number: JP2001573407A
Authority: JP
Filing date: 2001-03-09
Publication date: 2012-01-19
Anticipated expiration: 2021-03-09

Description

【特許請求の範囲】
【請求項１】
人間の顔の形状を表すアクティブ形状モデルパラメータ・ベクトルを求めて、前記人間の顔を合成する方法であって、前記方法は分析段階と合成段階とを含み、
前記分析段階は、
動き追跡装置とサウンド記録装置とが、同期して、話者の顔の形状を表す情報と、該話者の声を表す情報とを記録するステップと、
コンピュータが、顔の形状を表す前記情報から、複数の第１の時点の各々における顔の形状をそれぞれ表す複数の第１のアクティブ形状モデルパラメータ・ベクトルを求めるステップであって、前記複数の第１の時点は、顔の形状を表す前記情報を記録した時間の中の複数の時点である、ステップと、
コンピュータが、声を表す前記情報から、複数の音素と、それぞれ該複数の音素の各々が発声された時点である複数の第２の時点を求めるステップと、
コンピュータが、前記複数の第２の時点の各々において発声された音素にそれぞれ関連する複数の第２のアクティブ形状モデルパラメータ・ベクトルを求めるステップであって、前記複数の第２のアクティブ形状モデルパラメータ・ベクトルの各々は、前記複数の第１のアクティブ形状モデルパラメータ・ベクトルの各々と複数の第３のアクティブ形状モデルパラメータ・ベクトルの各々との距離が最小となるように求められ、前記複数の第３のアクティブ形状モデルパラメータ・ベクトルの各々は、前記複数の第１の時点の各々における近似された顔の形状を表し、前記複数の第３のアクティブ形状モデルパラメータ・ベクトルは、前記複数の第２のアクティブ形状モデルパラメータ・ベクトルの凸結合である補間関数を使用して定められ、前記補間関数は、時間の関数である所定の結合係数を有する、ステップと
を含み、
前記合成段階は、
コンピュータが、オーディオ駆動信号から、複数の第３の時点を求めるステップであって、前記オーディオ駆動信号は、複数の音素を表す第１の情報と、複数の時点を表す第２の情報とを含み、前記第２の情報によって表される複数の時点の各々は、前記第１の情報によって表される前記複数の音素の各々が発声される時点であり、前記複数の第３の時点の各々は、前記第２の情報によって表される複数の時点の各々である、ステップと、
コンピュータが、複数の第４のアクティブ形状モデルパラメータ・ベクトルの凸結合である補間関数を使用して、複数の第５のアクティブ形状モデルパラメータ・ベクトルを求めるステップであって、前記複数の第４のアクティブ形状モデルパラメータ・ベクトルの各々は、求めた前記複数の第２のアクティブ形状パラメータ・ベクトルのうちの、前記第１の情報によって表される複数の音素の各々に関連するアクティブ形状パラメータ・ベクトルであり、前記複数の第５のアクティブ形状モデルパラメータ・ベクトルの各々は、前記複数の第３の時点のうちの２つの時点の間の時点における補完された顔の形状を表し、前記合成段階において使用される前記補間関数の結合係数は、前記分析段階で使用される前記結合係数と同じである、ステップと
コンピュータが、前記複数の第４のアクティブ形状モデルパラメータ・ベクトルと前記複数の第５のアクティブ形状モデルパラメータ・ベクトルとを使用して、人間の顔を合成するステップと
を含む、方法。
【請求項２】
前記結合係数は、次のタイプの関数：
【数１】

である、請求項１記載の方法。
【請求項３】
前記分析段階で求めた前記複数の第２のアクティブ形状モデルパラメータ・ベクトルに基づいてモデル特徴点に対応したワイヤフレームの頂点をコンピュータが識別し、前記複数の第４のアクティブ形状モデルパラメータ・ベクトル及び前記複数の第５のアクティブ形状モデルパラメータ・ベクトルの各々に対してコンピュータが特徴点の変換を行うことにより顔の形状の補間の操作を行ってワイヤフレームベースのモデルをアニメ化する、請求項１又は２に記載の方法。
【請求項４】
前記合成段階で合成される顔の各々に対し、コンピュータが、特徴点に対応するワイヤフレームの頂点にのみ変換を行い、特徴点に対応するワイヤフレームの頂点に行う変換の凸結合により残りの頂点に変換を拡張する、請求項３記載の方法。
【請求項５】
コンピュータが、前記複数の第２のアクティブ形状モデルパラメータ・ベクトルを話者の顔の特徴点の座標に変換し、次に、前記座標を低レベル顔アニメーションパラメータに変換する、請求項１記載の方法。
【請求項６】
コンピュータが特徴点自体を識別する１組のマーカーの動きを分析することにより、特徴点の座標を表す前記低レベル顔アニメーションパラメータを得る、請求項５記載の方法。
【請求項７】
前記動き追跡装置が、
（イ）話者の額に付けられた物体にマーカーの部分集合を関連させ、
（ロ）記録の初めに、中立の顔モデルの位置にできるだけ対応した位置を取るように話者の顔を設定し、このような中立位置にある顔の第１フレームを得る、
という方法により顔の特徴点の座標を表すデータを標準化し、
コンピュータが、前記第１フレームに続く全てのフレームに対し、前記部分集合のマーカーに対応する座標が前記第１フレーム内の同じ部分集合のマーカーの座標と一致するように、座標セットを回転し平行移動する、請求項６記載の方法。

本発明の詳細な説明の前に、以下の一般的な前置きを行わなければならない。
アニメーションは音声系列により駆動され、該系列において各音素が発声される時点は知られている。この発明は、言語に依存しないアニメーション方法を示す。このことは、次の操作系列が、スピーチの動きが再生されるべき各言語で同じあることを意味する。この発明により、人間の顔のそれぞれの動きを、言語に固有の音声データに関連付けることができる。このような動きは、統計分析により得られ、非常にリアルなアニメーション効果を与える。実際には、ワイヤフレームに基づいて得られるモデルの場合には、アニメーションは、ＭＰＥＧ−４規格で定義された無表情又は中立的な顔を表す基本モデルに対する動きとして作られた１組の動きを、ワイヤフレームの頂点に適用することに存する。これらの相対的な動きは、ある基本ベクトル（「自動変換」という）の線形結合の結果である。後で説明する分析の一部が、このようなベクトルの組を見つけるのに使用される。その他の部分は、ＭＰＥＧ−４規格で定義された低レベルアニメーションパラメータ（いわゆるＦＡＰ（顔アニメーションパラメータ））により表現された変換を各音素に関連付けるのに使用される。
次に、アニメーションすなわち合成段階は、特定の駆動テキスト中の音素に対応するバイスメの系列を、モデルが基礎とするワイヤフレームの頂点についての動きの系列に変換することに存する。

図２は、本発明によるプロセスに関する分析段階をさらに詳細に示す。
話者４が１以上の期間(sessions)において１組の訓練フレーズのうちの幾つかのフレーズを発声し、該人が話している間に声と顔の動きとが適当なサウンド記録装置５とテレビカメラ６により記録される。同時に、発声されたテキストの音声の表記が行われてテキスト中に存在する音素を得る。
声の記録装置は、後続の音声整列を可能にする、即ち種々の音素が発声される複数の時点を識別可能にするべく適切な質を与えるアナログ又はデジタル装置とできる。このことは、時間軸が幾つかのインターバルに分割されることを意味し、その結果、各インターバルはある音素の発声に対応する（図２中の「オーディオセグメンテーション」工程）。ある時点は各インターバルに関連付けられ、各インターバル中の時点は、音素が隣接の音素から受ける影響が最小である。以下、上記時点は、音素にリンクした時点を参照したとき理解されるであろう。
音声整列の概念を明瞭にするために図３と後の表１とが参照できる。両方とも、フレーズ「Un trucchetto geniale gli valse l'assoluzione 」についてそれぞれタイミングの取られた音声分析及び音声表記に関する。

声と動きの情報収集の後、バイスメの計算段階が続く。
この段階の目的は、各単一の音素に関連するＡＳＭパラメータのベクトル、即ちバイスメを決定することである。基本的な基準は、記録された動きを最高に近似できる合成（すなわちアニメーション）を作ることである。合成段階で使用されるパラメータを推定するためにこの基準が本発明において採用されていることを強調することは重要である。このことは、動き追跡中に記録されたフレーズセットに属するフレーズのみならず、どんなフレーズの動きも再生できることを意味する。上述のように、アニメーションは、それぞれの時点に関連した音素によりガイドされる。アニメーション駆動テキストの個々の音素に関連したバイスメが直接的に使用されないならば、音素に関連した複数の時点に対応した動きの表現が非常に不連続なものになるであろう。実際、顔の動きは、連続的な現象であり、従って、動きの連続的な（従ってより自然な）表現を与えるために、隣接するバイスメを補間しなければならない。
補間は、計算されるべきバイスメの凸結合であり、該結合の係数（重み）は時間に従い定められる。全ての係数が［０，１］の区間にあり、かつ、それらの和が１に等しい場合には、線形結合は凸と定義される。一般に、補間係数は、発声の時点を含む小さな区間においてのみ零とは異なる値を有する。発声の時点では、係数値は最大に達する。バイスメに対して補間を実施すること（補間ノードを形成すること）が要求される場合には、全ての係数は、１に等しくしなけらばならない特定バイスメの係数を除いて、ある音素の時点においては零に等しくなければならない。

これらの係数のために使用できる関数の例は次の通りである。

ここで、ｔ_nはｎ番目の音素の発声の時点である。

【００１７】
以下に記載する操作は、合成された動きと共に記録された動きの近似基準を考慮するのに使用される。バイスメベクトルは、行列Ｖを形成する行にグループ化できる。次に、凸結合の係数は、行ベクトル
【外２】

にグループ化できる。従って、バイスメの凸結合は、積
【外３】

により形成される。係数のベクトルは時間の関数であり、各行がある時点の係数を含む行列Ｃが形成できる。分析のため、動き追跡データが存在する複数の時点が選択される。積ＣＶは、追跡データ中に含まれる自然な動きを近似できるＡＳＭベクトルの行を含む。この工程の目的は、（観測されたフレームの）自然な動きと合成された動きとのギャップを最小にすべく、バイスメを含むＶ行列中の要素を決定することである。有利には、積ＣＶの行と、記録された動きを表現するＡＳＭベクトルとの間の平均二乗距離は、ユークリッド・ルールにより定められるように最小化される。

所与の駆動信号（一般にはフレーズ）を再生するために、まず、音素系列として該フレーズを表記しなければならない。音素の各々は、表１の例に示されるように、それが発声された時点によりラベリングされる。バイスメの離散的な系列は、この離散的な系列に対応する。音素の系列は、再生されるフレーズのソースに従って異なる方法にて得ることができる。スピーチの波形を発生することに加えて、合成されたサウンドの場合には、シンセサイザーが、音声の表記とそれぞれの時間基準を発生する。自然の声の場合には、この情報は、オーディオ信号から抽出しなければならない。一般には、この操作は、発声されたフレーズ中の音素が知られているか否かによって、２つの異なる方法にて実行できる。一方は、「音声整列」と称され、他方は、一般に低質の結果を与える「音声認識」と称される。これらの手順は、全て文献にて公知であるから、本発明の主題ではない。