JP2003529861A - 音響信号により駆動される人間の顔の合成モデルのアニメ化方法 - Google Patents

音響信号により駆動される人間の顔の合成モデルのアニメ化方法

Info

Publication number
JP2003529861A
JP2003529861A JP2001573407A JP2001573407A JP2003529861A JP 2003529861 A JP2003529861 A JP 2003529861A JP 2001573407 A JP2001573407 A JP 2001573407A JP 2001573407 A JP2001573407 A JP 2001573407A JP 2003529861 A JP2003529861 A JP 2003529861A
Authority
JP
Japan
Prior art keywords
face
model
animation
coordinates
markers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001573407A
Other languages
English (en)
Other versions
JP2003529861A5 (ja
JP4913973B2 (ja
Inventor
ジャンルーカ・フランシーニ
クラウディオ・ランデ
スクヤルグ・レプソイ
マウロ・クアグリア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telecom Italia Lab SpA
Original Assignee
Telecom Italia Lab SpA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telecom Italia Lab SpA filed Critical Telecom Italia Lab SpA
Publication of JP2003529861A publication Critical patent/JP2003529861A/ja
Publication of JP2003529861A5 publication Critical patent/JP2003529861A5/ja
Application granted granted Critical
Publication of JP4913973B2 publication Critical patent/JP4913973B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)
  • Toys (AREA)

Abstract

(57)【要約】 本方法により、オーディオ信号に関係した人間の顔の合成モデルのアニメーションが可能になる。本方法は、言語に依存せず、すごく自然にアニメ化された合成モデルを与える。本方法は、実際の話者を追跡して得た声と顔の動きとの同時分析、及び適切なバイスメの抽出に基づいている。それに続くアニメーションは、駆動テキストの音素に対応するバイスメ系列を人間の顔モデルに適用される動き系列に変換することに存する。

Description

【発明の詳細な説明】
【0001】 技術分野 この発明は音声映像通信システム又はマルチメディア通信システムに関し、特
に、オーディオ信号により駆動される人間の顔の合成モデルをアニメ化する方法
に関する。
【0002】 背景技術 ユーザーとアプリケーションとの相互作用を容易にしかつ増加させるべく、マ
ルチメディアアプリケーションの開発において自然又は合成の対象物の統合につ
いての関心が増しつつあり、この意味で、マン−マシン関係を簡易にする擬人的
モデルの使用が予想される。この関心は、最近、国際標準化機構によっても認め
られた。とりわけ、ISO/IEC規格14496「Generic Coding of Audio-
Visual Objects」(一般に「MPEG−4規格」として知られており、以下この
ように称する。)は、このようなアプリケーションに対して一般的な枠組みを設
けることを目的とする。 一般にこのようなアプリケーションでは、MPEG−4規格に示された特定の
解決策に関わらず、擬人化モデルが他の情報フローを助けるものと思われ、アニ
メ化し得る対象物と考えられる。この場合、アニメーションは、例えばスピーチ
としてのオーディオ信号により駆動される。これらの信号も、音声系列、即ち「
音素」の系列として考えることができる。この場合、「音素」は、最小の言語単
位(言語中の違いを示すサウンドの概念に対応する)である。 この場合には、声自体に同期したモデルの形状と外観を変形できるアニメーシ
ョンシステムが開発され、合成顔がスピーチの典型的な表現を示す必要がある。
開発が向かう最終的な結果は、可能な限り自然に見える話す頭部又は顔である。
【0003】 この種のアニメ化モデルの用途は、ウエルカム又はオンラインヘルプのメッセ
ージのようなインターネットのアプリケーションから、共同作業アプリケーショ
ン(例えばe−メイルブラウザ)や、映画やテレビのポストプロダクション効果
の作成のようなプロのアプリケーションや、ビデオゲームなどに範囲を広げ得る
。 一般に使用される人間の顔モデルは、一般に三次元メッシュ構造(「ワイヤフ
レーム」として公知である)から成る幾何的表現に基づいて作られる。アニメー
ションは、ワイヤフレーム(又はそれぞれの部分集合)を形成する多角形の適当
な変換を連続して行うことに基づき、要求される効果を再生する、即ち当該特定
の場合にはスピーチに関係した動きの再生を行う。 この目的のためMPEG−4規格により予想される解決策は、1組の顔のアニ
メーションパラメータの使用を示す。これは、モデルに対して独立に定義されシ
ステムの協同作業性を保証する。このパラメータセットは、3つのレベルで編成
される。すなわち、最高のレベルが、いわゆる「バイスメ(visemes)」と「表現
(expressions)」とから成り、最低のレベルが、顔の一般ポーズを可能にする基
本的変換から成る。MPEG−4規格により、バイスメは1以上の類似の音素の
視覚的等価物である。
【0004】 この発明では、バイスメなる用語は、音素の発声に関連した顔の形状を示すの
に使用され、低レベルMPEG−4パラメータの適用により得られる。従って、
高レベルMPEG−4パラメータを参照しない。 声により駆動される顔モデルをアニメ化するための種々のシステムが、文献か
ら公知である。例えば、F.Lavagetto の「Converting Speech into Lip Movemen
ts: A Multimedia Telephone for Hard of Hearing People 」, IEEE Transacti
ons of Rehabilitation Engineering, Vol.3, N.1, March 1995; DIST, Genoa U
niversity の「Description of Algorithms for Speech-to-Facial Movements T
ransformation 」, ACTS "SPLIT" Project, November 1995; TUB、Technical Un
iversity of Berlinの「Analysis and Synthesis of Visual Speech Movements
」, ACTS "SPLIT" Project, November 1995 、なる文献を挙げることができる。
しかしながら、これらのシステムは、MPEG−4規格に応じたパラメータを実
現せず、このためあまり柔軟でない。
【0005】 MPEG−4規格に応じたアニメーション方法は、本出願人によるイタリア特
許出願TO98A000842に記載されている。この方法は、MPEG−4規
格により定義されたバイスメと特定言語に固有のバイスメとから成る1セットか
ら選択されたバイスメを音素又は音素群に関連付ける。本発明により、バイスメ
は、モデルの唇領域及び顎の形状及び/又は位置を特徴付けるマクロパラメータ
群に分割され、中立位置からの変化を表しかつアニメ化されたモデルの適切な自
然さを保証するそれぞれの強度値に関連付けられる。さらに、マクロパラメータ
は、MPEG−4規格で定義された低レベル顔アニメーションパラメータに分割
され、これに対しても、マクロパラメータにリンクした強度値が関連付けられ、
アニメ化されたモデルの適切な自然さを保証する。 前記方法は、異なる言語に対して使用でき、結果として得られる合成モデルの
適当な自然さを保証する。しかしながら、この方法は、現実の話者の顔を追跡し
た動きデータ分析に基づいていない。このため、アニメーションの結果は、あま
りリアルでも自然でもない。
【0006】 本発明の開示 本発明による方法は、言語に依存せず、また、現実の話者を追跡して声と顔の
動きとを同時分析したことに基づいている故に、アニメ化された合成モデルをさ
らに自然にしている。本発明による方法は、特許請求の範囲に記載されている。 声によりガイドされる顔モデルをアニメ化するために、いわゆる「アクティブ
形状モデル」(以下、頭字語ASMを使用する)の使用が、S.LepsoyとS.Curing
a の「Conversion of articulatory parameters into active shape model coef
ficients for lip motion representation and synthesis」, Image Communicat
ion 13 (1998)、第209〜225頁、及びS.Leosoyの「Active shape models
for lip motion synthesis」, Proceedings of the International Workshop on
Synthetic-Natural Hybrid Coding and Three Dimensional Imaging (IWSNHC3D
I 97), Rhodes (Greece)、1997年9月、第200〜203頁に示唆されてお
り、こられは特に動きの表現変換の問題を扱っている。アクティブ形状モデル法
は、空間内に点を分布するための表現技術であり、これは、少数のパラメータに
より顔や他の変換可能な対象物を記載するのに特に有効である。従って、これら
のアクティブ形状モデルは、データ量の削減を可能にする。これが、本発明の目
的のために用いられる特徴である。 アクティブ形状モデル理論についてのさらなる詳細は、例えば、T.F.Cootes,
D.Cooper, C.J.Taylor及びJ.Grahamの「Active Shape Models - Their Training
and Application, Computer Vision and Image Understanding 」, Vol.61, no
.1、1995年1月、第38〜59頁に見出せる。
【0007】 本発明の詳細な説明の前に、以下の一般的な前置きを行わなければならない。 アニメーションは音声系列により駆動され、該系列において各音素が発声され
る時刻は知られている。この発明は、言語に依存しないアニメーション方法を示
す。このことは、次の操作系列が、スピーチの動きが再生されるべき各言語で同
じあることを意味する。この発明により、人間の顔のそれぞれの動きを、言語に
固有の音声データに関連付けることができる。このような動きは、統計分析によ
り得られ、非常にリアルなアニメーション効果を与える。実際には、ワイヤフレ
ームに基づいて得られるモデルの場合には、アニメーションは、MPEG−4規
格で定義された無表情又は中立的な顔を表す基本モデルに対する動きとして作ら
れた1組の動きを、ワイヤフレームの頂点に適用することに存する。これらの相
対的な動きは、ある基本ベクトル(「自動変換」という)の線形結合の結果であ
る。後で説明する分析の一部が、このようなベクトルの組を見つけるのに使用さ
れる。その他の部分は、MPEG−4規格で定義された低レベルアニメーション
パラメータ(いわゆるFAP(顔アニメーションパラメータ))により表現され
た変換を各音素に関連付けるのに使用される。 次に、アニメーションすなわち合成段階は、特定の駆動テキスト中の音素に対
応するバイスメの系列を、モデルが基礎とするワイヤフレームの頂点についての
動きの系列に変換することに存する。
【0008】 以下の説明の理解を容易にするため、ワイヤフレーム構造に基づいて作られた
人間の顔モデルを図1に示す。数字1はワイヤフレーム構造を示し、数字2はテ
クスチャー(即ち、ワイヤフレーム自体の頂点と交差するワイヤフレームを満た
す表面)に関連し、数字3は実際の人のピクチャーを用いて完成されたモデルを
示す。ワイヤフレームに基づいたモデルの作成方法は本発明の一部ではないので
、ここではさらに説明しない。この作成に関するプロセスの例は、本出願人によ
るイタリア特許出願TO98A000828に記載されている。
【0009】 図2は、本発明によるプロセスに関する分析段階をさらに詳細に示す。 話者4が1以上の期間(sessions)において1組の訓練フレーズのうちの幾つか
のフレーズを発声し、該人が話している間に声と顔の動きとが適当なサウンド記
録装置5とテレビカメラ6により記録される。同時に、発声されたテキストの音
声の表記が行われてテキスト中に存在する音素を得る。 声の記録装置は、後続の音声整列を可能にする、即ち種々の音素が発声される
時刻を識別可能にするべく適切な質を与えるアナログ又はデジタル装置とできる
。このことは、時間軸が幾つかのインターバルに分割されることを意味し、その
結果、各インターバルはある音素の発声に対応する(図2中の「オーディオセグ
メンテーション」工程)。時刻は各インターバルに関連付けられ、各インターバ
ル中の時刻は、音素が隣接の音素から受ける影響が最小である。以下、上記時刻
は、音素にリンクした時刻を参照したとき理解されるであろう。 音声整列の概念を明瞭にするために図3と後の表1とが参照できる。両方とも
、フレーズ「Un trucchetto geniale gli valse l'assoluzione 」についてそれ
ぞれタイミングの取られた音声分析及び音声表記に関する。
【0010】
【表1】
【0011】 声と動きは、同期して記録される。従って、音声の整列は、音素が各フレーム
内で発声された情報を与える。この情報により、アルファベットの各音素に対し
て顔の幾何学的等価物の推定を可能にする。 再度、図2に関し顔の動きの記録を考えると、この記録は「動き追跡」技術に
より得るのが有利である。この技術により、重要な顔の特徴(例えば、目の角、
唇と顔の縁)に位置する1組のマーカーの動きの推定に基づいた大いにもっとも
らしいアニメーションが可能になる。これらのマーカーは、図4において数字7
で示されている。マーカーに対して選択されるポイントは、「ランドマーク」又
は「特徴点」と称する。一般に、マーカーは小さい物体であり、その固有位置は
、光学的又は磁気的装置により検出できる。動き追跡技術は、当該分野において
周知であり、ここではさらなる説明は要しないであろう。有意なデータセットを
得るために、ある数のフレーズ(少なくとも百個)が各言語に対して記録される
必要がある。従って、動き追跡装置の内部記憶容量の限界及びフレーズ読み出し
におけるエラーゆえに、好ましくは、記録はいくつかの期間にて行うべきである
。これらの期間の各々は、1以上のフレーズに専用される。
【0012】 マーカー7の動きを追跡することにより得られるデータは、いくつかの理由に
より直接的な分析には適さない1組の座標から成る。これは、いくつかの撮影期
間が実行されると被験者の位置の違いが生じるからである。また、避けられない
頭部の動きをデータから削除しなければならない。本目的は、顔の自然なポーズ
に関する動きをモデル化することであり、絶対的な動きをモデル化することでは
ない。表情は使用する装置にも依存する。記録されたデータ中のエラー(例えば
、ある時間でのいくつかのマーカーの突然の動きや消失)が起こり得る。信頼の
おけるデータを得るためには、これらのエラーに対しては修正段階が必要である
。換言すれば、生のデータの修正及び標準化が必要である。 この目的のために、各記録の初めに、話者の顔はできるだけMPEG−4規格
で定義された顔の中立位置を取らなければならない。標準化(又は訓練データの
クリーニング)は、マーカー7に対応するポイントセットを中立的な顔の一般モ
デル中のそれぞれの特徴点に整列させることに存する。この顔モデルの空間方位
、位置及び寸法は知られている。この変換のパラメータは、記録における第1フ
レームに基づいて計算される。マーカー7は異なる記録中には同じ位置にはない
かもしれないので、系列中のフレームへの参照が要求される。この操作は、記録
された各系列に対して実行される。
【0013】 実際、記録で使用されるある数(例えば3つ)のマーカーは、額に付けられた
堅固な物体の上にあり(図4ではこの物体は数字8で示されている)、記録中に
対象の頭部全体の避けられない動きを消去するのに使用される。簡単のために、
例として、最初の3つのマーカーの使用が仮定できる。従って、系列中の最初の
ものに続く全フレームにおいて、最初の3つのマーカーが最初のフレーム中の対
応するマーカーに一致するように座標セットを回転及び平行移動させる。この操
作の後、最初の3つのマーカーはもはや使用されない。また、各ピクチャーの現
実の顔の特徴点の位置が、中立的な顔として選ばれたモデルの位置と可能な限り
一致しなければならない。このことは、記録されたピクチャーをスケーリングし
てモデルの寸法にそれを適合させること、及び平行移動させることを伴う。上述
のように、この段階では、最初の3つのマーカーはもはや使用されない。 多量の動きデータを扱うため(ある実施態様では、転送されるデータ量を削減
するためにも)、動きの圧縮表現を見い出さなければならない。この圧縮では、
顔の種々の領域での動きが相関しているということを利用する。従って、上述の
ように、本発明により、動きの数値表現がいくつかの基本ベクトル(「自動変換
」という)の組み合わせとして圧縮され表現される。自動変換は、記録され変換
された系列中に含まれる顔の動きの可能な最も近い近似を可能にしなければなら
ない。強調すべきは、ここで扱う動きは中立ポーズに関するものである。圧縮の
目的は、ASMの構成部分である主成分分析(PCA)により達成される。この
分析から生じる主な成分は、自動変換と同一であり、本発明では同じ意味を有す
る。
【0014】 スピーチ中に取られる顔のポーズ(即ち、特徴点の位置)は、ある精度にて自
動変換の線形結合として近似できる。これらの線形結合は、(低レベルパラメー
タにより)特徴点の位置として表されるバイスメの表現を与える。線形結合の係
数は、ASMパラメータと称される。要約すると、特徴点の座標を含んだベクト
ルxは、
【外1】 の座標を用いて得られる中立的な顔に対する変換である。この場合、Pは列とし
て自動変換を含んだ行列であり、vはASMパラメータを有するベクトルである
。 ASMモデルは、少数のパラメータから成るベクトルによる動き追跡中に顔が
取るポーズの表現を可能にする。例示目的のため、41個のマーカーの座標が、
10個のASMパラメータを用いて満足する結果に近似され得る。また、これら
の操作は、収集システムに固有の(即ち、顔の動きとは相関しない)ノイズ成分
を抑える。
【0015】 声と動きの情報収集の後、バイスメの計算段階が続く。 この段階の目的は、各単一の音素に関連するASMパラメータのベクトル、即
ちバイスメを決定することである。基本的な基準は、記録された動きを最高に近
似できる合成(すなわちアニメーション)を作ることである。合成段階で使用さ
れるパラメータを推定するためにこの基準が本発明において採用されていること
を強調することは重要である。このことは、動き追跡中に記録されたフレーズセ
ットに属するフレーズのみならず、どんなフレーズの動きも再生できることを意
味する。上述のように、アニメーションは、それぞれの時刻に関連した音素によ
りガイドされる。アニメーション駆動テキストの個々の音素に関連したバイスメ
が直接的に使用されないならば、音素に関連した時刻に対応した動きの表現が非
常に不連続なものになるであろう。実際、顔の動きは、連続的な現象であり、従
って、動きの連続的な(従ってより自然な)表現を与えるために、隣接するバイ
スメを補間しなければならない。 補間は、計算されるべきバイスメの凸結合であり、該結合の係数(重み)は時
間に従い定められる。全ての係数が[0,1]の区間にあり、かつ、それらの和
が1に等しい場合には、線形結合は凸と定義される。一般に、補間係数は、発声
の時刻を含む小さな区間においてのみ零とは異なる値を有する。発声の時刻では
、係数値は最大に達する。バイスメに対して補間を実施すること(補間ノードを
形成すること)が要求される場合には、全ての係数は、1に等しくしなけらばな
らない特定バイスメの係数を除いて、ある音素の時刻においては零に等しくなけ
ればならない。
【0016】 これらの係数のために使用できる関数の例は次の通りである。
【数2】 ここで、tn はn番目の音素の発声の時刻である。
【0017】 以下に記載する操作は、合成された動きと共に記録された動きの近似基準を考
慮するのに使用される。バイスメベクトルは、行列Vを形成する行にグループ化
できる。次に、凸結合の係数は、行ベクトル
【外2】 にグループ化できる。従って、バイスメの凸結合は、積
【外3】 により形成される。係数のベクトルは時間の関数であり、各行が時刻の係数を含
む行列Cが形成できる。分析のため、動き追跡データが存在する時刻が選択され
る。積CVは、追跡データ中に含まれる自然な動きを近似できるASMベクトル
の行を含む。この工程の目的は、(観測されたフレームの)自然な動きと合成さ
れた動きとのギャップを最小にすべく、バイスメを含むV行列中の要素を決定す
ることである。有利には、記録された動きを表現する積CVの行とASMベクト
ルとの平均二乗距離は、ユークリッド・ルールにより定められるように最小化さ
れる。
【0018】 バイスメを計算した後、次の工程は、上述の操作により得られた圧縮表現から
MPEG−4規格で定義された特徴点の空間内での位置に移すことに存する。計
算されたバイスメがASM係数を含んだベクトルであることを考慮すると、アク
ティブ形状モデル理論において記載されているように、簡単な行列の積により変
換を得ることができる。特徴点の変換を含んだベクトルは、(列としての)AS
Mベクトルに対して自動変換行列を掛けることにより得られる。 次に、低レベルの顔アニメーションパラメータは、無表情の顔に関する特徴点
の位置を表す。従って、これらの低レベルパラメータにて特徴点の位置として表
現されたバイスメの平行移動は直接的である。 訓練セットの全フレーズに上記操作を行った後、低レベル顔アニメーションパ
ラメータを音素にリンクする表(これは合成(又はアニメーション)段階で使用
される)が作られる。
【0019】 ここで、図5のチャートを参照すると、所与の駆動テキストから開始してモデ
ルの合成又はアニメーションに関する操作が示されている。 ここでの「合成」は、音声情報と時間情報とに基づいてワイヤフレームの動き
を計算することを意味する。よって、変換は、サウンドに関連して合成され、綿
密に唇の動きを再生する。従って、合成とは、バイスメ系列をアニメ化される顔
を表現するワイヤフレーム座標の系列に変換するプロセスである。合成は、音素
と分析プロセスから得られた低レベルMPEG−4のFAPとの対応表に基づく
。従って、アニメーションプロセスは、アニメ化されるワイヤフレーム、再生さ
れるフレーズ中に含まれる音素、及び低レベルmi/FAP表を入力として用い
る。ワイヤフレームは、空間内の1組のポイント、前のポイントを頂点として使
用する1組の多角形、及び表面の外観に固有の情報(例えば色やテクスチャー)
により特定される。
【0020】 所与の駆動信号(一般にはフレーズ)を再生するために、まず、音素系列とし
て該フレーズを表記しなければならない。音素の各々は、表1の例に示されるよ
うに、それが発声された時刻によりラベリングされる。バイスメの離散的な系列
は、この離散的な系列に対応する。音素の系列は、再生されるフレーズのソース
に従って異なる方法にて得ることができる。スピーチの波形を発生することに加
えて、合成されたサウンドの場合には、シンセサイザーが、音声の表記とそれぞ
れの時間基準を発生する。自然の声の場合には、この情報は、オーディオ信号か
ら抽出しなければならない。一般には、この操作は、発声されたフレーズ中の音
素が知られているか否かによって、2つの異なる方法にて実行できる。一方は、
「音声整列」と称され、他方は、一般に低質の結果を与える「音声認識」と称さ
れる。これらの手順は、全て文献にて公知であるから、本発明の主題ではない。
【0021】 アニメ化された顔の動きの自然さと流動性を保証するために、1秒当たり多数
のピクチャー即ちフレーム(例えば少なくとも16フレーム)が要求される。こ
の数は、駆動信号に含まれる音素の数よりもかなり多い。従って、次の2つの音
素間に含まれる顔の多くの中間の動きは、後にさらに詳細に示されるように決定
される必要がある。 単一のフレームの作成に関し、顔のアニメーションパラメータは特徴点から取
られることに注意すべきである。このため、ワイヤフレーム内のどの頂点が考慮
されている特徴点に対応するのかを知らなければならない。この情報は、分析段
階で使用したものと同様の方法により、即ち、主成分に関する係数ベクトルに主
成分行列を掛けることにより得られる。このようにして、FAPが頂点の動きに
変換される。ワイヤフレームが予め定められた空間方位を有すべきことをMPE
G−4規格が規定していることを考慮すると、動きへのFAP変換は、FAPが
顔の寸法に関係した計測単位にて特定されることからみて直接的である。
【0022】 一般に、顔を再生するモデルは、特徴点の数よりずっと多い数の頂点を含む。
全ての頂点の定められた動きを得るには、特徴点の動きを外挿しなければならな
い。特徴点に関連しない各頂点の動きは、特徴点の動きの凸結合となる。動かさ
れる頂点と特徴点の各々との距離に基づいて、相対係数が計算される。この目的
のため、ワイヤフレームの弧に沿った最小の距離長さ(Dijkstraの距離として知
られている)が使用される(E.Dijkstraの「A note on two problems in connec
tion with graphs」, Numerische Mathematik, Vol.1, p.269-271, Springer Ve
rlag, Berlin, 1959)。特徴点により与えられる頂点への寄与は、2点間のDijk
straの距離のn乗に逆比例する。この累乗は、動かされる頂点に近い特徴点に大
きな重要性を与える目的で決定され、ワイヤフレームの寸法とは独立である。 後者の操作は、ワイヤフレーム全体におけるバイスメの表現となる。上述の方
法の使用により、全ての特徴点が全ての頂点に作用するという利点が得られ、従
って、動かされる各頂点に対するこれらの点の部分集合の特定はもはや必要とさ
れない。相対的に簡単なモデルの場合にもワイヤフレームには多数の頂点がある
ことを考慮すると、このことにより、このようにしなければ手動で実行しなけれ
ばならない作業段階(よって、極度に高コストである)を省くことができる。 図6は、イタリア語における音素a、m、p:、u(EURO−MPPA音声
シンボル)に対応したバイスメが、テクスチャーの加えられたワイヤフレーム全
体の構造を変えることにより如何にして表されるかを示す。
【0023】 上述のように、フレーズを合成するためには時間的な展開を考慮しなければな
らない。開始点は、離散的な瞬間の公知のバイスメの系列である。可変又は固定
のフレームの周波数を任意に用いるために、モデルの動きが時間の連続関数とし
て表現される。時間の連続関数としての表現は、分析段階において説明したのと
同様の方法にて達成されるバイスメの補間により得られる。凸結合における係数
として作用するスケーリングは、各バイスメに関連する。この係数は、時間の連
続関数であり、バイスメを計算するための分析段階にて前に使用された補間ルー
チンにより計算される。効率性の理由により、好ましくは、計算は補間により実
行され、特徴点の数は頂点の数よりも少ない。連続表現は、任意にサンプリング
でき、連続して示されサウンドに同期した個々のフレームを得てコンピュータ上
にアニメーションを再生できる。 ここでの記載は、非限定的な例として与えられており、本発明の保護の範囲内
での変更が可能なのは明らかである。
【図面の簡単な説明】
【図1】 人間の顔のモデルの3つのピクチャーを示し、左のピクチャーのみワイヤーフ
レームであり、中間のピクチャーは均質な色付けと陰影付けを施したものであり
、右のピクチャーはさらにテクスチャーが施されている。
【図2】 言語固有の音声データと人間の顔のそれぞれの動きを関連付ける分析操作を示
すフローチャートである。
【図3】 音声整列の例を示す。
【図4】 一般動きの追跡期間中に使用される一組のマーカーを示す。
【図5】 合成操作を示すフローチャートであり、該合成操作では、忠実なモデルアニメ
ーションを駆動するのに使用されるテキストの音声フローを変換する。
【図6】 モデルアニメーションの例を示す。
【符号の説明】
7 マーカー 8 堅固な物体
───────────────────────────────────────────────────── フロントページの続き (72)発明者 クラウディオ・ランデ イタリア国 アイ−10148 トリノ ヴィ ア レイス ロモリ 274、クセルト−セ ントロ・ステュディ・エ・ラボラトリ・テ レコミニカチオーニ・エッセ・ピー・アー 内 (72)発明者 スクヤルグ・レプソイ イタリア国 アイ−10148 トリノ ヴィ ア レイス ロモリ 274、クセルト−セ ントロ・ステュディ・エ・ラボラトリ・テ レコミニカチオーニ・エッセ・ピー・アー 内 (72)発明者 マウロ・クアグリア イタリア国 アイ−10148 トリノ ヴィ ア レイス ロモリ 274、クセルト−セ ントロ・ステュディ・エ・ラボラトリ・テ レコミニカチオーニ・エッセ・ピー・アー 内 Fターム(参考) 5B050 AA08 BA08 BA12 EA04 EA13 EA24 FA02 FA10 5D045 AB30

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 オーディオ信号により駆動される人間の顔の合成モデルをア
    ニメ化する方法であって、分析段階と合成段階とを含み、分析段階では、バイス
    メのアルファベット、即ち、オーディオ訓練信号セットから抽出された音声単位
    に対応する話者の顔形状を表す情報セットを決定し、合成段階では、オーディオ
    駆動信号をそれぞれの時間情報に関連した音声単位の系列に変換し、一方、オー
    ディオ駆動信号に含まれる該音声単位セットに対応するバイスメの系列を分析段
    階にて決定し、そして、該バイスメ系列を再生するのに必要な変換をモデルに対
    して行う上記方法において、 前記分析段階では、アクティブ形状モデルパラメータのベクトルとして決定さ
    れるバイスメのアルファベットを与え、それに対して規格ISO/IEC144
    96による低レベル顔アニメーションのパラメータとして表されたモデルの夫々
    の変換を関連付け、 分析段階と合成段階の両方の間、オーディオ訓練信号とオーディオアニメーシ
    ョン駆動信号の音声単位にそれぞれ対応するバイスメ系列を、バイスメ補間によ
    り動きの連続表現に変換し、該バイスメ補間は、時間の連続関数である結合係数
    に関連付けられるバイスメ自体の凸結合として実行し、合成段階において実行さ
    れる結合係数が、分析段階での結合で使用されるものと同じであることを特徴と
    する上記方法。
  2. 【請求項2】 前記凸結合の係数が、次のタイプの関数: 【数1】 であることを特徴とする請求項1記載の方法。
  3. 【請求項3】 分析段階でどの顔アニメーションパラメータを決定したかに
    基づいてモデル特徴点に対応したワイヤフレームの頂点を識別し、各バイスメに
    対する特徴点の変換を行うことにより前記バイスメ補間の操作を行ってワイヤフ
    レームベースのモデルをアニメ化することを特徴とする請求項1又は2に記載の
    方法。
  4. 【請求項4】 前記合成段階でモデルが取る各位置に対し、特徴点に対応す
    るワイヤフレームの頂点にのみ変換を行い、特徴点に対応するワイヤフレームの
    頂点に行う変換の凸結合により残りの頂点に変換を拡張することを特徴とする請
    求項3記載の方法。
  5. 【請求項5】 前記バイスメを話者の顔の特徴点の座標に変換し、次に、前
    記座標を規格ISO/IEC14496に記載の前記低レベル顔アニメーション
    パラメータに変換することを特徴とする請求項1記載の方法。
  6. 【請求項6】 特徴点自体を識別する1組のマーカー(7)の動きを分析す
    ることにより、特徴点の座標を表す前記低レベル顔アニメーションパラメータを
    得ることを特徴とする請求項5記載の方法。
  7. 【請求項7】 (イ) 話者の額に付けられた堅固な物体(8)にマーカー
    の部分集合を関連させ、 (ロ) 記録の初めに、規格ISO/IEC14496で定義された中立の顔モ
    デルの位置にできるだけ対応した位置を取るように話者の顔を設定し、このよう
    な中立位置にある顔の第1フレームを得る、 という方法により顔の特徴点の座標を表すデータを標準化し、 第1フレームに続く全てのフレームに対し、前記部分集合のマーカーに対応す
    る座標が第1フレーム内の同じ部分集合のマーカーの座標と一致するように、座
    標セットを回転し平行移動することを特徴とする請求項6記載の方法。
JP2001573407A 2000-03-31 2001-03-09 音響信号により駆動される人間の顔の合成モデルのアニメ化方法 Expired - Fee Related JP4913973B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
IT2000TO000303A IT1320002B1 (it) 2000-03-31 2000-03-31 Procedimento per l'animazione di un modello sintetizzato di voltoumano pilotata da un segnale audio.
IT2000A000303 2000-03-31
ITTO2000A000303 2000-03-31
PCT/IT2001/000117 WO2001075805A1 (en) 2000-03-31 2001-03-09 Method of animating a synthesised model of a human face driven by an acoustic signal

Publications (3)

Publication Number Publication Date
JP2003529861A true JP2003529861A (ja) 2003-10-07
JP2003529861A5 JP2003529861A5 (ja) 2012-01-19
JP4913973B2 JP4913973B2 (ja) 2012-04-11

Family

ID=11457634

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001573407A Expired - Fee Related JP4913973B2 (ja) 2000-03-31 2001-03-09 音響信号により駆動される人間の顔の合成モデルのアニメ化方法

Country Status (7)

Country Link
US (1) US7123262B2 (ja)
EP (1) EP1203352B1 (ja)
JP (1) JP4913973B2 (ja)
CA (1) CA2375350C (ja)
DE (1) DE60101540T2 (ja)
IT (1) IT1320002B1 (ja)
WO (1) WO2001075805A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11610354B2 (en) 2017-10-26 2023-03-21 Snap Inc. Joint audio-video facial animation system

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9400921B2 (en) * 2001-05-09 2016-07-26 Intel Corporation Method and system using a data-driven model for monocular face tracking
CN1313979C (zh) * 2002-05-03 2007-05-02 三星电子株式会社 产生三维漫画的装置和方法
ITTO20020724A1 (it) * 2002-08-14 2004-02-15 Telecom Italia Lab Spa Procedimento e sistema per la trasmissione di messaggi su
US8421804B2 (en) 2005-02-16 2013-04-16 At&T Intellectual Property Ii, L.P. System and method of streaming 3-D wireframe animations
WO2005031654A1 (en) * 2003-09-30 2005-04-07 Koninklijke Philips Electronics, N.V. System and method for audio-visual content synthesis
US7142107B2 (en) * 2004-05-27 2006-11-28 Lawrence Kates Wireless sensor unit
TW200540732A (en) * 2004-06-04 2005-12-16 Bextech Inc System and method for automatically generating animation
JP2006004158A (ja) * 2004-06-17 2006-01-05 Olympus Corp 画像処理プログラム、画像処理方法、画像処理装置及び記録媒体
GB2423905A (en) * 2005-03-03 2006-09-06 Sean Smith Animated messaging
US7388586B2 (en) * 2005-03-31 2008-06-17 Intel Corporation Method and apparatus for animation of a human speaker
US20080158230A1 (en) * 2006-12-29 2008-07-03 Pictureal Corp. Automatic facial animation using an image of a user
CN101896836A (zh) * 2007-06-12 2010-11-24 华风天气有限责任公司 用动画式呈现体呈现个性化天气信息
US8743125B2 (en) * 2008-03-11 2014-06-03 Sony Computer Entertainment Inc. Method and apparatus for providing natural facial animation
US8180167B2 (en) * 2008-07-16 2012-05-15 Seiko Epson Corporation Model-based error resilience in data communication
US8224652B2 (en) * 2008-09-26 2012-07-17 Microsoft Corporation Speech and text driven HMM-based body animation synthesis
US8194097B2 (en) * 2008-12-12 2012-06-05 Seiko Epson Corporation Virtual masking using rigid parametric modeling
CN101488346B (zh) * 2009-02-24 2011-11-02 深圳先进技术研究院 语音可视化系统及语音可视化方法
JP5178607B2 (ja) * 2009-03-31 2013-04-10 株式会社バンダイナムコゲームス プログラム、情報記憶媒体、口形状制御方法及び口形状制御装置
JP5423379B2 (ja) * 2009-08-31 2014-02-19 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
TWI443601B (zh) * 2009-12-16 2014-07-01 Ind Tech Res Inst 擬真臉部動畫系統及其方法
US8751228B2 (en) * 2010-11-04 2014-06-10 Microsoft Corporation Minimum converted trajectory error (MCTE) audio-to-video engine
US9728203B2 (en) 2011-05-02 2017-08-08 Microsoft Technology Licensing, Llc Photo-realistic synthesis of image sequences with lip movements synchronized with speech
US9613450B2 (en) * 2011-05-03 2017-04-04 Microsoft Technology Licensing, Llc Photo-realistic synthesis of three dimensional animation with facial features synchronized with speech
TWI521469B (zh) * 2012-06-27 2016-02-11 Reallusion Inc Two - dimensional Roles Representation of Three - dimensional Action System and Method
US9113036B2 (en) * 2013-07-17 2015-08-18 Ebay Inc. Methods, systems, and apparatus for providing video communications
US9600742B2 (en) * 2015-05-05 2017-03-21 Lucasfilm Entertainment Company Ltd. Determining control values of an animation model using performance capture
US10839825B2 (en) * 2017-03-03 2020-11-17 The Governing Council Of The University Of Toronto System and method for animated lip synchronization
CN109308731B (zh) * 2018-08-24 2023-04-25 浙江大学 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
EP3664100A1 (en) * 2018-12-05 2020-06-10 Koninklijke Philips N.V. Associating non-verbal communication content with verbal communication content
CN113569790B (zh) * 2019-07-30 2022-07-29 北京市商汤科技开发有限公司 图像处理方法及装置、处理器、电子设备及存储介质
CN113592986B (zh) * 2021-01-14 2023-05-23 腾讯科技(深圳)有限公司 基于神经网络的动作生成方法、装置及计算设备
CN117877509B (zh) * 2024-03-13 2024-06-04 亚信科技(中国)有限公司 一种数字人实时交互方法及装置、电子设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0744727A (ja) * 1993-07-27 1995-02-14 Sony Corp 画像作成方法およびその装置
JPH08235384A (ja) * 1994-11-07 1996-09-13 At & T Corp 音響支援画像処理
JPH11328440A (ja) * 1998-03-16 1999-11-30 Atr Ningen Joho Tsushin Kenkyusho:Kk アニメーションシステム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5608839A (en) * 1994-03-18 1997-03-04 Lucent Technologies Inc. Sound-synchronized video system
US6232965B1 (en) * 1994-11-30 2001-05-15 California Institute Of Technology Method and apparatus for synthesizing realistic animations of a human speaking using a computer
FR2749420B1 (fr) 1996-06-03 1998-10-02 Alfonsi Philippe Procede et dispositif de formation d'images animees d'un interlocuteur
US6208356B1 (en) * 1997-03-24 2001-03-27 British Telecommunications Public Limited Company Image synthesis
US6072496A (en) * 1998-06-08 2000-06-06 Microsoft Corporation Method and system for capturing and representing 3D geometry, color and shading of facial expressions and other animated objects
US6366885B1 (en) * 1999-08-27 2002-04-02 International Business Machines Corporation Speech driven lip synthesis using viseme based hidden markov models
WO2002029784A1 (en) * 2000-10-02 2002-04-11 Clarity, Llc Audio visual speech processing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0744727A (ja) * 1993-07-27 1995-02-14 Sony Corp 画像作成方法およびその装置
JPH08235384A (ja) * 1994-11-07 1996-09-13 At & T Corp 音響支援画像処理
JPH11328440A (ja) * 1998-03-16 1999-11-30 Atr Ningen Joho Tsushin Kenkyusho:Kk アニメーションシステム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11610354B2 (en) 2017-10-26 2023-03-21 Snap Inc. Joint audio-video facial animation system

Also Published As

Publication number Publication date
WO2001075805A1 (en) 2001-10-11
IT1320002B1 (it) 2003-11-12
CA2375350C (en) 2006-07-18
CA2375350A1 (en) 2001-10-11
DE60101540D1 (de) 2004-01-29
JP4913973B2 (ja) 2012-04-11
EP1203352A1 (en) 2002-05-08
ITTO20000303A1 (it) 2001-10-01
ITTO20000303A0 (it) 2000-03-31
US7123262B2 (en) 2006-10-17
US20060012601A1 (en) 2006-01-19
EP1203352B1 (en) 2003-12-17
DE60101540T2 (de) 2004-11-04

Similar Documents

Publication Publication Date Title
JP4913973B2 (ja) 音響信号により駆動される人間の顔の合成モデルのアニメ化方法
Cao et al. Expressive speech-driven facial animation
US6654018B1 (en) Audio-visual selection process for the synthesis of photo-realistic talking-head animations
Ezzat et al. Trainable videorealistic speech animation
US7133535B2 (en) System and method for real time lip synchronization
US6662161B1 (en) Coarticulation method for audio-visual text-to-speech synthesis
US6097381A (en) Method and apparatus for synthesizing realistic animations of a human speaking using a computer
US6250928B1 (en) Talking facial display method and apparatus
US7990384B2 (en) Audio-visual selection process for the synthesis of photo-realistic talking-head animations
JP4631078B2 (ja) リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム
JP2003529861A5 (ja)
US7630897B2 (en) Coarticulation method for audio-visual text-to-speech synthesis
CN112001992A (zh) 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统
US7117155B2 (en) Coarticulation method for audio-visual text-to-speech synthesis
CN116597857A (zh) 一种语音驱动图像的方法、系统、装置及存储介质
Theobald et al. Near-videorealistic synthetic talking faces: Implementation and evaluation
JP5109038B2 (ja) リップシンクアニメーション作成装置及びコンピュータプログラム
CN116828129A (zh) 一种超清2d数字人生成方法及系统
JP4617500B2 (ja) リップシンクアニメーション作成装置、コンピュータプログラム及び顔モデル生成装置
JP2974655B1 (ja) アニメーションシステム
Morishima et al. Real-time facial action image synthesis system driven by speech and text
Brooke et al. Two-and three-dimensional audio-visual speech synthesis
Wang et al. Photo-real lips synthesis with trajectory-guided sample selection.
Morishima et al. Speech-to-image media conversion based on VQ and neural network
US7392190B1 (en) Coarticulation method for audio-visual text-to-speech synthesis

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080310

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080310

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20090908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090908

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100727

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100921

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20101206

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20101206

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110105

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110120

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110127

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110218

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110523

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110822

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110829

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20111122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120120

R150 Certificate of patent or registration of utility model

Ref document number: 4913973

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150127

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees