JP2003529861A

JP2003529861A - 音響信号により駆動される人間の顔の合成モデルのアニメ化方法

Info

Publication number: JP2003529861A
Application number: JP2001573407A
Authority: JP
Inventors: ジャンルーカ・フランシーニ; クラウディオ・ランデ; スクヤルグ・レプソイ; マウロ・クアグリア
Original assignee: Telecom Italia Lab SpA
Current assignee: Telecom Italia Lab SpA
Priority date: 2000-03-31
Filing date: 2001-03-09
Publication date: 2003-10-07
Anticipated expiration: 2021-03-09
Also published as: WO2001075805A1; IT1320002B1; CA2375350C; CA2375350A1; DE60101540D1; JP4913973B2; EP1203352A1; ITTO20000303A1; ITTO20000303A0; US7123262B2; US20060012601A1; EP1203352B1; DE60101540T2

Abstract

(57)【要約】本方法により、オーディオ信号に関係した人間の顔の合成モデルのアニメーションが可能になる。本方法は、言語に依存せず、すごく自然にアニメ化された合成モデルを与える。本方法は、実際の話者を追跡して得た声と顔の動きとの同時分析、及び適切なバイスメの抽出に基づいている。それに続くアニメーションは、駆動テキストの音素に対応するバイスメ系列を人間の顔モデルに適用される動き系列に変換することに存する。

Description

【発明の詳細な説明】

【０００１】技術分野この発明は音声映像通信システム又はマルチメディア通信システムに関し、特
に、オーディオ信号により駆動される人間の顔の合成モデルをアニメ化する方法
に関する。

【０００２】背景技術ユーザーとアプリケーションとの相互作用を容易にしかつ増加させるべく、マ
ルチメディアアプリケーションの開発において自然又は合成の対象物の統合につ
いての関心が増しつつあり、この意味で、マン−マシン関係を簡易にする擬人的
モデルの使用が予想される。この関心は、最近、国際標準化機構によっても認め
られた。とりわけ、ＩＳＯ／ＩＥＣ規格１４４９６「Generic Coding of Audio-
Visual Objects」（一般に「ＭＰＥＧ−４規格」として知られており、以下この
ように称する。）は、このようなアプリケーションに対して一般的な枠組みを設
けることを目的とする。一般にこのようなアプリケーションでは、ＭＰＥＧ−４規格に示された特定の
解決策に関わらず、擬人化モデルが他の情報フローを助けるものと思われ、アニ
メ化し得る対象物と考えられる。この場合、アニメーションは、例えばスピーチ
としてのオーディオ信号により駆動される。これらの信号も、音声系列、即ち「
音素」の系列として考えることができる。この場合、「音素」は、最小の言語単
位（言語中の違いを示すサウンドの概念に対応する）である。この場合には、声自体に同期したモデルの形状と外観を変形できるアニメーシ
ョンシステムが開発され、合成顔がスピーチの典型的な表現を示す必要がある。
開発が向かう最終的な結果は、可能な限り自然に見える話す頭部又は顔である。

【０００３】この種のアニメ化モデルの用途は、ウエルカム又はオンラインヘルプのメッセ
ージのようなインターネットのアプリケーションから、共同作業アプリケーショ
ン（例えばｅ−メイルブラウザ）や、映画やテレビのポストプロダクション効果
の作成のようなプロのアプリケーションや、ビデオゲームなどに範囲を広げ得る
。一般に使用される人間の顔モデルは、一般に三次元メッシュ構造（「ワイヤフ
レーム」として公知である）から成る幾何的表現に基づいて作られる。アニメー
ションは、ワイヤフレーム（又はそれぞれの部分集合）を形成する多角形の適当
な変換を連続して行うことに基づき、要求される効果を再生する、即ち当該特定
の場合にはスピーチに関係した動きの再生を行う。この目的のためＭＰＥＧ−４規格により予想される解決策は、１組の顔のアニ
メーションパラメータの使用を示す。これは、モデルに対して独立に定義されシ
ステムの協同作業性を保証する。このパラメータセットは、３つのレベルで編成
される。すなわち、最高のレベルが、いわゆる「バイスメ(visemes）」と「表現
(expressions）」とから成り、最低のレベルが、顔の一般ポーズを可能にする基
本的変換から成る。ＭＰＥＧ−４規格により、バイスメは１以上の類似の音素の
視覚的等価物である。

【０００４】この発明では、バイスメなる用語は、音素の発声に関連した顔の形状を示すの
に使用され、低レベルＭＰＥＧ−４パラメータの適用により得られる。従って、
高レベルＭＰＥＧ−４パラメータを参照しない。声により駆動される顔モデルをアニメ化するための種々のシステムが、文献か
ら公知である。例えば、F.Lavagetto の「Converting Speech into Lip Movemen
ts: A Multimedia Telephone for Hard of Hearing People 」, IEEE Transacti
ons of Rehabilitation Engineering, Vol.3, N.1, March 1995; DIST, Genoa U
niversity の「Description of Algorithms for Speech-to-Facial Movements T
ransformation 」, ACTS "SPLIT" Project, November 1995; TUB、Technical Un
iversity of Berlinの「Analysis and Synthesis of Visual Speech Movements
」, ACTS "SPLIT" Project, November 1995 、なる文献を挙げることができる。
しかしながら、これらのシステムは、ＭＰＥＧ−４規格に応じたパラメータを実
現せず、このためあまり柔軟でない。

【０００５】ＭＰＥＧ−４規格に応じたアニメーション方法は、本出願人によるイタリア特
許出願ＴＯ９８Ａ０００８４２に記載されている。この方法は、ＭＰＥＧ−４規
格により定義されたバイスメと特定言語に固有のバイスメとから成る１セットか
ら選択されたバイスメを音素又は音素群に関連付ける。本発明により、バイスメ
は、モデルの唇領域及び顎の形状及び／又は位置を特徴付けるマクロパラメータ
群に分割され、中立位置からの変化を表しかつアニメ化されたモデルの適切な自
然さを保証するそれぞれの強度値に関連付けられる。さらに、マクロパラメータ
は、ＭＰＥＧ−４規格で定義された低レベル顔アニメーションパラメータに分割
され、これに対しても、マクロパラメータにリンクした強度値が関連付けられ、
アニメ化されたモデルの適切な自然さを保証する。前記方法は、異なる言語に対して使用でき、結果として得られる合成モデルの
適当な自然さを保証する。しかしながら、この方法は、現実の話者の顔を追跡し
た動きデータ分析に基づいていない。このため、アニメーションの結果は、あま
りリアルでも自然でもない。

【０００６】本発明の開示本発明による方法は、言語に依存せず、また、現実の話者を追跡して声と顔の
動きとを同時分析したことに基づいている故に、アニメ化された合成モデルをさ
らに自然にしている。本発明による方法は、特許請求の範囲に記載されている。声によりガイドされる顔モデルをアニメ化するために、いわゆる「アクティブ
形状モデル」（以下、頭字語ＡＳＭを使用する）の使用が、S.LepsoyとS.Curing
a の「Conversion of articulatory parameters into active shape model coef
ficients for lip motion representation and synthesis」, Image Communicat
ion 13 (1998）、第２０９〜２２５頁、及びS.Leosoyの「Active shape models
for lip motion synthesis」, Proceedings of the International Workshop on
Synthetic-Natural Hybrid Coding and Three Dimensional Imaging (IWSNHC3D
I 97), Rhodes (Greece)、１９９７年９月、第２００〜２０３頁に示唆されてお
り、こられは特に動きの表現変換の問題を扱っている。アクティブ形状モデル法
は、空間内に点を分布するための表現技術であり、これは、少数のパラメータに
より顔や他の変換可能な対象物を記載するのに特に有効である。従って、これら
のアクティブ形状モデルは、データ量の削減を可能にする。これが、本発明の目
的のために用いられる特徴である。アクティブ形状モデル理論についてのさらなる詳細は、例えば、T.F.Cootes,
D.Cooper, C.J.Taylor及びJ.Grahamの「Active Shape Models - Their Training
and Application, Computer Vision and Image Understanding 」, Vol.61, no
.1、１９９５年１月、第３８〜５９頁に見出せる。

【０００７】本発明の詳細な説明の前に、以下の一般的な前置きを行わなければならない。アニメーションは音声系列により駆動され、該系列において各音素が発声され
る時刻は知られている。この発明は、言語に依存しないアニメーション方法を示
す。このことは、次の操作系列が、スピーチの動きが再生されるべき各言語で同
じあることを意味する。この発明により、人間の顔のそれぞれの動きを、言語に
固有の音声データに関連付けることができる。このような動きは、統計分析によ
り得られ、非常にリアルなアニメーション効果を与える。実際には、ワイヤフレ
ームに基づいて得られるモデルの場合には、アニメーションは、ＭＰＥＧ−４規
格で定義された無表情又は中立的な顔を表す基本モデルに対する動きとして作ら
れた１組の動きを、ワイヤフレームの頂点に適用することに存する。これらの相
対的な動きは、ある基本ベクトル（「自動変換」という）の線形結合の結果であ
る。後で説明する分析の一部が、このようなベクトルの組を見つけるのに使用さ
れる。その他の部分は、ＭＰＥＧ−４規格で定義された低レベルアニメーション
パラメータ（いわゆるＦＡＰ（顔アニメーションパラメータ））により表現され
た変換を各音素に関連付けるのに使用される。次に、アニメーションすなわち合成段階は、特定の駆動テキスト中の音素に対
応するバイスメの系列を、モデルが基礎とするワイヤフレームの頂点についての
動きの系列に変換することに存する。

【０００８】以下の説明の理解を容易にするため、ワイヤフレーム構造に基づいて作られた
人間の顔モデルを図１に示す。数字１はワイヤフレーム構造を示し、数字２はテ
クスチャー（即ち、ワイヤフレーム自体の頂点と交差するワイヤフレームを満た
す表面）に関連し、数字３は実際の人のピクチャーを用いて完成されたモデルを
示す。ワイヤフレームに基づいたモデルの作成方法は本発明の一部ではないので
、ここではさらに説明しない。この作成に関するプロセスの例は、本出願人によ
るイタリア特許出願ＴＯ９８Ａ０００８２８に記載されている。

【０００９】図２は、本発明によるプロセスに関する分析段階をさらに詳細に示す。話者４が１以上の期間(sessions)において１組の訓練フレーズのうちの幾つか
のフレーズを発声し、該人が話している間に声と顔の動きとが適当なサウンド記
録装置５とテレビカメラ６により記録される。同時に、発声されたテキストの音
声の表記が行われてテキスト中に存在する音素を得る。声の記録装置は、後続の音声整列を可能にする、即ち種々の音素が発声される
時刻を識別可能にするべく適切な質を与えるアナログ又はデジタル装置とできる
。このことは、時間軸が幾つかのインターバルに分割されることを意味し、その
結果、各インターバルはある音素の発声に対応する（図２中の「オーディオセグ
メンテーション」工程）。時刻は各インターバルに関連付けられ、各インターバ
ル中の時刻は、音素が隣接の音素から受ける影響が最小である。以下、上記時刻
は、音素にリンクした時刻を参照したとき理解されるであろう。音声整列の概念を明瞭にするために図３と後の表１とが参照できる。両方とも
、フレーズ「Un trucchetto geniale gli valse l'assoluzione 」についてそれ
ぞれタイミングの取られた音声分析及び音声表記に関する。

【００１０】

【表１】

【００１１】声と動きは、同期して記録される。従って、音声の整列は、音素が各フレーム
内で発声された情報を与える。この情報により、アルファベットの各音素に対し
て顔の幾何学的等価物の推定を可能にする。再度、図２に関し顔の動きの記録を考えると、この記録は「動き追跡」技術に
より得るのが有利である。この技術により、重要な顔の特徴（例えば、目の角、
唇と顔の縁）に位置する１組のマーカーの動きの推定に基づいた大いにもっとも
らしいアニメーションが可能になる。これらのマーカーは、図４において数字７
で示されている。マーカーに対して選択されるポイントは、「ランドマーク」又
は「特徴点」と称する。一般に、マーカーは小さい物体であり、その固有位置は
、光学的又は磁気的装置により検出できる。動き追跡技術は、当該分野において
周知であり、ここではさらなる説明は要しないであろう。有意なデータセットを
得るために、ある数のフレーズ（少なくとも百個）が各言語に対して記録される
必要がある。従って、動き追跡装置の内部記憶容量の限界及びフレーズ読み出し
におけるエラーゆえに、好ましくは、記録はいくつかの期間にて行うべきである
。これらの期間の各々は、１以上のフレーズに専用される。

【００１２】マーカー７の動きを追跡することにより得られるデータは、いくつかの理由に
より直接的な分析には適さない１組の座標から成る。これは、いくつかの撮影期
間が実行されると被験者の位置の違いが生じるからである。また、避けられない
頭部の動きをデータから削除しなければならない。本目的は、顔の自然なポーズ
に関する動きをモデル化することであり、絶対的な動きをモデル化することでは
ない。表情は使用する装置にも依存する。記録されたデータ中のエラー（例えば
、ある時間でのいくつかのマーカーの突然の動きや消失）が起こり得る。信頼の
おけるデータを得るためには、これらのエラーに対しては修正段階が必要である
。換言すれば、生のデータの修正及び標準化が必要である。この目的のために、各記録の初めに、話者の顔はできるだけＭＰＥＧ−４規格
で定義された顔の中立位置を取らなければならない。標準化（又は訓練データの
クリーニング）は、マーカー７に対応するポイントセットを中立的な顔の一般モ
デル中のそれぞれの特徴点に整列させることに存する。この顔モデルの空間方位
、位置及び寸法は知られている。この変換のパラメータは、記録における第１フ
レームに基づいて計算される。マーカー７は異なる記録中には同じ位置にはない
かもしれないので、系列中のフレームへの参照が要求される。この操作は、記録
された各系列に対して実行される。

【００１３】実際、記録で使用されるある数（例えば３つ）のマーカーは、額に付けられた
堅固な物体の上にあり（図４ではこの物体は数字８で示されている）、記録中に
対象の頭部全体の避けられない動きを消去するのに使用される。簡単のために、
例として、最初の３つのマーカーの使用が仮定できる。従って、系列中の最初の
ものに続く全フレームにおいて、最初の３つのマーカーが最初のフレーム中の対
応するマーカーに一致するように座標セットを回転及び平行移動させる。この操
作の後、最初の３つのマーカーはもはや使用されない。また、各ピクチャーの現
実の顔の特徴点の位置が、中立的な顔として選ばれたモデルの位置と可能な限り
一致しなければならない。このことは、記録されたピクチャーをスケーリングし
てモデルの寸法にそれを適合させること、及び平行移動させることを伴う。上述
のように、この段階では、最初の３つのマーカーはもはや使用されない。多量の動きデータを扱うため（ある実施態様では、転送されるデータ量を削減
するためにも）、動きの圧縮表現を見い出さなければならない。この圧縮では、
顔の種々の領域での動きが相関しているということを利用する。従って、上述の
ように、本発明により、動きの数値表現がいくつかの基本ベクトル（「自動変換
」という）の組み合わせとして圧縮され表現される。自動変換は、記録され変換
された系列中に含まれる顔の動きの可能な最も近い近似を可能にしなければなら
ない。強調すべきは、ここで扱う動きは中立ポーズに関するものである。圧縮の
目的は、ＡＳＭの構成部分である主成分分析（ＰＣＡ）により達成される。この
分析から生じる主な成分は、自動変換と同一であり、本発明では同じ意味を有す
る。

【００１４】スピーチ中に取られる顔のポーズ（即ち、特徴点の位置）は、ある精度にて自
動変換の線形結合として近似できる。これらの線形結合は、（低レベルパラメー
タにより）特徴点の位置として表されるバイスメの表現を与える。線形結合の係
数は、ＡＳＭパラメータと称される。要約すると、特徴点の座標を含んだベクト
ルｘは、

【外１】の座標を用いて得られる中立的な顔に対する変換である。この場合、Ｐは列とし
て自動変換を含んだ行列であり、ｖはＡＳＭパラメータを有するベクトルである
。ＡＳＭモデルは、少数のパラメータから成るベクトルによる動き追跡中に顔が
取るポーズの表現を可能にする。例示目的のため、４１個のマーカーの座標が、
１０個のＡＳＭパラメータを用いて満足する結果に近似され得る。また、これら
の操作は、収集システムに固有の（即ち、顔の動きとは相関しない）ノイズ成分
を抑える。

【００１５】声と動きの情報収集の後、バイスメの計算段階が続く。この段階の目的は、各単一の音素に関連するＡＳＭパラメータのベクトル、即
ちバイスメを決定することである。基本的な基準は、記録された動きを最高に近
似できる合成（すなわちアニメーション）を作ることである。合成段階で使用さ
れるパラメータを推定するためにこの基準が本発明において採用されていること
を強調することは重要である。このことは、動き追跡中に記録されたフレーズセ
ットに属するフレーズのみならず、どんなフレーズの動きも再生できることを意
味する。上述のように、アニメーションは、それぞれの時刻に関連した音素によ
りガイドされる。アニメーション駆動テキストの個々の音素に関連したバイスメ
が直接的に使用されないならば、音素に関連した時刻に対応した動きの表現が非
常に不連続なものになるであろう。実際、顔の動きは、連続的な現象であり、従
って、動きの連続的な（従ってより自然な）表現を与えるために、隣接するバイ
スメを補間しなければならない。補間は、計算されるべきバイスメの凸結合であり、該結合の係数（重み）は時
間に従い定められる。全ての係数が［０，１］の区間にあり、かつ、それらの和
が１に等しい場合には、線形結合は凸と定義される。一般に、補間係数は、発声
の時刻を含む小さな区間においてのみ零とは異なる値を有する。発声の時刻では
、係数値は最大に達する。バイスメに対して補間を実施すること（補間ノードを
形成すること）が要求される場合には、全ての係数は、１に等しくしなけらばな
らない特定バイスメの係数を除いて、ある音素の時刻においては零に等しくなけ
ればならない。

【００１６】これらの係数のために使用できる関数の例は次の通りである。

【数２】ここで、ｔ_nはｎ番目の音素の発声の時刻である。

【００１７】以下に記載する操作は、合成された動きと共に記録された動きの近似基準を考
慮するのに使用される。バイスメベクトルは、行列Ｖを形成する行にグループ化
できる。次に、凸結合の係数は、行ベクトル

【外２】にグループ化できる。従って、バイスメの凸結合は、積

【外３】により形成される。係数のベクトルは時間の関数であり、各行が時刻の係数を含
む行列Ｃが形成できる。分析のため、動き追跡データが存在する時刻が選択され
る。積ＣＶは、追跡データ中に含まれる自然な動きを近似できるＡＳＭベクトル
の行を含む。この工程の目的は、（観測されたフレームの）自然な動きと合成さ
れた動きとのギャップを最小にすべく、バイスメを含むＶ行列中の要素を決定す
ることである。有利には、記録された動きを表現する積ＣＶの行とＡＳＭベクト
ルとの平均二乗距離は、ユークリッド・ルールにより定められるように最小化さ
れる。

【００１８】バイスメを計算した後、次の工程は、上述の操作により得られた圧縮表現から
ＭＰＥＧ−４規格で定義された特徴点の空間内での位置に移すことに存する。計
算されたバイスメがＡＳＭ係数を含んだベクトルであることを考慮すると、アク
ティブ形状モデル理論において記載されているように、簡単な行列の積により変
換を得ることができる。特徴点の変換を含んだベクトルは、（列としての）ＡＳ
Ｍベクトルに対して自動変換行列を掛けることにより得られる。次に、低レベルの顔アニメーションパラメータは、無表情の顔に関する特徴点
の位置を表す。従って、これらの低レベルパラメータにて特徴点の位置として表
現されたバイスメの平行移動は直接的である。訓練セットの全フレーズに上記操作を行った後、低レベル顔アニメーションパ
ラメータを音素にリンクする表（これは合成（又はアニメーション）段階で使用
される）が作られる。

【００１９】ここで、図５のチャートを参照すると、所与の駆動テキストから開始してモデ
ルの合成又はアニメーションに関する操作が示されている。ここでの「合成」は、音声情報と時間情報とに基づいてワイヤフレームの動き
を計算することを意味する。よって、変換は、サウンドに関連して合成され、綿
密に唇の動きを再生する。従って、合成とは、バイスメ系列をアニメ化される顔
を表現するワイヤフレーム座標の系列に変換するプロセスである。合成は、音素
と分析プロセスから得られた低レベルＭＰＥＧ−４のＦＡＰとの対応表に基づく
。従って、アニメーションプロセスは、アニメ化されるワイヤフレーム、再生さ
れるフレーズ中に含まれる音素、及び低レベルｍｉ／ＦＡＰ表を入力として用い
る。ワイヤフレームは、空間内の１組のポイント、前のポイントを頂点として使
用する１組の多角形、及び表面の外観に固有の情報（例えば色やテクスチャー）
により特定される。

【００２０】所与の駆動信号（一般にはフレーズ）を再生するために、まず、音素系列とし
て該フレーズを表記しなければならない。音素の各々は、表１の例に示されるよ
うに、それが発声された時刻によりラベリングされる。バイスメの離散的な系列
は、この離散的な系列に対応する。音素の系列は、再生されるフレーズのソース
に従って異なる方法にて得ることができる。スピーチの波形を発生することに加
えて、合成されたサウンドの場合には、シンセサイザーが、音声の表記とそれぞ
れの時間基準を発生する。自然の声の場合には、この情報は、オーディオ信号か
ら抽出しなければならない。一般には、この操作は、発声されたフレーズ中の音
素が知られているか否かによって、２つの異なる方法にて実行できる。一方は、
「音声整列」と称され、他方は、一般に低質の結果を与える「音声認識」と称さ
れる。これらの手順は、全て文献にて公知であるから、本発明の主題ではない。

【００２１】アニメ化された顔の動きの自然さと流動性を保証するために、１秒当たり多数
のピクチャー即ちフレーム（例えば少なくとも１６フレーム）が要求される。こ
の数は、駆動信号に含まれる音素の数よりもかなり多い。従って、次の２つの音
素間に含まれる顔の多くの中間の動きは、後にさらに詳細に示されるように決定
される必要がある。単一のフレームの作成に関し、顔のアニメーションパラメータは特徴点から取
られることに注意すべきである。このため、ワイヤフレーム内のどの頂点が考慮
されている特徴点に対応するのかを知らなければならない。この情報は、分析段
階で使用したものと同様の方法により、即ち、主成分に関する係数ベクトルに主
成分行列を掛けることにより得られる。このようにして、ＦＡＰが頂点の動きに
変換される。ワイヤフレームが予め定められた空間方位を有すべきことをＭＰＥ
Ｇ−４規格が規定していることを考慮すると、動きへのＦＡＰ変換は、ＦＡＰが
顔の寸法に関係した計測単位にて特定されることからみて直接的である。

【００２２】一般に、顔を再生するモデルは、特徴点の数よりずっと多い数の頂点を含む。
全ての頂点の定められた動きを得るには、特徴点の動きを外挿しなければならな
い。特徴点に関連しない各頂点の動きは、特徴点の動きの凸結合となる。動かさ
れる頂点と特徴点の各々との距離に基づいて、相対係数が計算される。この目的
のため、ワイヤフレームの弧に沿った最小の距離長さ（Dijkstraの距離として知
られている）が使用される（E.Dijkstraの「A note on two problems in connec
tion with graphs」, Numerische Mathematik, Vol.1, p.269-271, Springer Ve
rlag, Berlin, 1959）。特徴点により与えられる頂点への寄与は、２点間のDijk
straの距離のｎ乗に逆比例する。この累乗は、動かされる頂点に近い特徴点に大
きな重要性を与える目的で決定され、ワイヤフレームの寸法とは独立である。後者の操作は、ワイヤフレーム全体におけるバイスメの表現となる。上述の方
法の使用により、全ての特徴点が全ての頂点に作用するという利点が得られ、従
って、動かされる各頂点に対するこれらの点の部分集合の特定はもはや必要とさ
れない。相対的に簡単なモデルの場合にもワイヤフレームには多数の頂点がある
ことを考慮すると、このことにより、このようにしなければ手動で実行しなけれ
ばならない作業段階（よって、極度に高コストである）を省くことができる。図６は、イタリア語における音素ａ、ｍ、ｐ：、ｕ（ＥＵＲＯ−ＭＰＰＡ音声
シンボル）に対応したバイスメが、テクスチャーの加えられたワイヤフレーム全
体の構造を変えることにより如何にして表されるかを示す。

【００２３】上述のように、フレーズを合成するためには時間的な展開を考慮しなければな
らない。開始点は、離散的な瞬間の公知のバイスメの系列である。可変又は固定
のフレームの周波数を任意に用いるために、モデルの動きが時間の連続関数とし
て表現される。時間の連続関数としての表現は、分析段階において説明したのと
同様の方法にて達成されるバイスメの補間により得られる。凸結合における係数
として作用するスケーリングは、各バイスメに関連する。この係数は、時間の連
続関数であり、バイスメを計算するための分析段階にて前に使用された補間ルー
チンにより計算される。効率性の理由により、好ましくは、計算は補間により実
行され、特徴点の数は頂点の数よりも少ない。連続表現は、任意にサンプリング
でき、連続して示されサウンドに同期した個々のフレームを得てコンピュータ上
にアニメーションを再生できる。ここでの記載は、非限定的な例として与えられており、本発明の保護の範囲内
での変更が可能なのは明らかである。

【図面の簡単な説明】

【図１】人間の顔のモデルの３つのピクチャーを示し、左のピクチャーのみワイヤーフ
レームであり、中間のピクチャーは均質な色付けと陰影付けを施したものであり
、右のピクチャーはさらにテクスチャーが施されている。

【図２】言語固有の音声データと人間の顔のそれぞれの動きを関連付ける分析操作を示
すフローチャートである。

【図３】音声整列の例を示す。

【図４】一般動きの追跡期間中に使用される一組のマーカーを示す。

【図５】合成操作を示すフローチャートであり、該合成操作では、忠実なモデルアニメ
ーションを駆動するのに使用されるテキストの音声フローを変換する。

【図６】モデルアニメーションの例を示す。

【符号の説明】

７マーカー８堅固な物体

───────────────────────────────────────────────────── フロントページの続き (72)発明者クラウディオ・ランデイタリア国アイ−10148 トリノヴィアレイスロモリ 274、クセルト−セントロ・ステュディ・エ・ラボラトリ・テレコミニカチオーニ・エッセ・ピー・アー内 (72)発明者スクヤルグ・レプソイイタリア国アイ−10148 トリノヴィアレイスロモリ 274、クセルト−セントロ・ステュディ・エ・ラボラトリ・テレコミニカチオーニ・エッセ・ピー・アー内 (72)発明者マウロ・クアグリアイタリア国アイ−10148 トリノヴィアレイスロモリ 274、クセルト−セントロ・ステュディ・エ・ラボラトリ・テレコミニカチオーニ・エッセ・ピー・アー内Ｆターム(参考） 5B050 AA08 BA08 BA12 EA04 EA13 EA24 FA02 FA10 5D045 AB30

Claims

【特許請求の範囲】

【請求項１】オーディオ信号により駆動される人間の顔の合成モデルをア
ニメ化する方法であって、分析段階と合成段階とを含み、分析段階では、バイス
メのアルファベット、即ち、オーディオ訓練信号セットから抽出された音声単位
に対応する話者の顔形状を表す情報セットを決定し、合成段階では、オーディオ
駆動信号をそれぞれの時間情報に関連した音声単位の系列に変換し、一方、オー
ディオ駆動信号に含まれる該音声単位セットに対応するバイスメの系列を分析段
階にて決定し、そして、該バイスメ系列を再生するのに必要な変換をモデルに対
して行う上記方法において、前記分析段階では、アクティブ形状モデルパラメータのベクトルとして決定さ
れるバイスメのアルファベットを与え、それに対して規格ＩＳＯ／ＩＥＣ１４４
９６による低レベル顔アニメーションのパラメータとして表されたモデルの夫々
の変換を関連付け、分析段階と合成段階の両方の間、オーディオ訓練信号とオーディオアニメーシ
ョン駆動信号の音声単位にそれぞれ対応するバイスメ系列を、バイスメ補間によ
り動きの連続表現に変換し、該バイスメ補間は、時間の連続関数である結合係数
に関連付けられるバイスメ自体の凸結合として実行し、合成段階において実行さ
れる結合係数が、分析段階での結合で使用されるものと同じであることを特徴と
する上記方法。
【請求項２】前記凸結合の係数が、次のタイプの関数：【数１】であることを特徴とする請求項１記載の方法。
【請求項３】分析段階でどの顔アニメーションパラメータを決定したかに
基づいてモデル特徴点に対応したワイヤフレームの頂点を識別し、各バイスメに
対する特徴点の変換を行うことにより前記バイスメ補間の操作を行ってワイヤフ
レームベースのモデルをアニメ化することを特徴とする請求項１又は２に記載の
方法。
【請求項４】前記合成段階でモデルが取る各位置に対し、特徴点に対応す
るワイヤフレームの頂点にのみ変換を行い、特徴点に対応するワイヤフレームの
頂点に行う変換の凸結合により残りの頂点に変換を拡張することを特徴とする請
求項３記載の方法。
【請求項５】前記バイスメを話者の顔の特徴点の座標に変換し、次に、前
記座標を規格ＩＳＯ／ＩＥＣ１４４９６に記載の前記低レベル顔アニメーション
パラメータに変換することを特徴とする請求項１記載の方法。
【請求項６】特徴点自体を識別する１組のマーカー（７）の動きを分析す
ることにより、特徴点の座標を表す前記低レベル顔アニメーションパラメータを
得ることを特徴とする請求項５記載の方法。
【請求項７】（イ）話者の額に付けられた堅固な物体（８）にマーカー
の部分集合を関連させ、（ロ）記録の初めに、規格ＩＳＯ／ＩＥＣ１４４９６で定義された中立の顔モ
デルの位置にできるだけ対応した位置を取るように話者の顔を設定し、このよう
な中立位置にある顔の第１フレームを得る、という方法により顔の特徴点の座標を表すデータを標準化し、第１フレームに続く全てのフレームに対し、前記部分集合のマーカーに対応す
る座標が第１フレーム内の同じ部分集合のマーカーの座標と一致するように、座
標セットを回転し平行移動することを特徴とする請求項６記載の方法。