JP2003529861A - 音響信号により駆動される人間の顔の合成モデルのアニメ化方法 - Google Patents
音響信号により駆動される人間の顔の合成モデルのアニメ化方法Info
- Publication number
- JP2003529861A JP2003529861A JP2001573407A JP2001573407A JP2003529861A JP 2003529861 A JP2003529861 A JP 2003529861A JP 2001573407 A JP2001573407 A JP 2001573407A JP 2001573407 A JP2001573407 A JP 2001573407A JP 2003529861 A JP2003529861 A JP 2003529861A
- Authority
- JP
- Japan
- Prior art keywords
- face
- model
- animation
- coordinates
- markers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Processing Or Creating Images (AREA)
- Toys (AREA)
Abstract
Description
に、オーディオ信号により駆動される人間の顔の合成モデルをアニメ化する方法
に関する。
ルチメディアアプリケーションの開発において自然又は合成の対象物の統合につ
いての関心が増しつつあり、この意味で、マン−マシン関係を簡易にする擬人的
モデルの使用が予想される。この関心は、最近、国際標準化機構によっても認め
られた。とりわけ、ISO/IEC規格14496「Generic Coding of Audio-
Visual Objects」(一般に「MPEG−4規格」として知られており、以下この
ように称する。)は、このようなアプリケーションに対して一般的な枠組みを設
けることを目的とする。 一般にこのようなアプリケーションでは、MPEG−4規格に示された特定の
解決策に関わらず、擬人化モデルが他の情報フローを助けるものと思われ、アニ
メ化し得る対象物と考えられる。この場合、アニメーションは、例えばスピーチ
としてのオーディオ信号により駆動される。これらの信号も、音声系列、即ち「
音素」の系列として考えることができる。この場合、「音素」は、最小の言語単
位(言語中の違いを示すサウンドの概念に対応する)である。 この場合には、声自体に同期したモデルの形状と外観を変形できるアニメーシ
ョンシステムが開発され、合成顔がスピーチの典型的な表現を示す必要がある。
開発が向かう最終的な結果は、可能な限り自然に見える話す頭部又は顔である。
ージのようなインターネットのアプリケーションから、共同作業アプリケーショ
ン(例えばe−メイルブラウザ)や、映画やテレビのポストプロダクション効果
の作成のようなプロのアプリケーションや、ビデオゲームなどに範囲を広げ得る
。 一般に使用される人間の顔モデルは、一般に三次元メッシュ構造(「ワイヤフ
レーム」として公知である)から成る幾何的表現に基づいて作られる。アニメー
ションは、ワイヤフレーム(又はそれぞれの部分集合)を形成する多角形の適当
な変換を連続して行うことに基づき、要求される効果を再生する、即ち当該特定
の場合にはスピーチに関係した動きの再生を行う。 この目的のためMPEG−4規格により予想される解決策は、1組の顔のアニ
メーションパラメータの使用を示す。これは、モデルに対して独立に定義されシ
ステムの協同作業性を保証する。このパラメータセットは、3つのレベルで編成
される。すなわち、最高のレベルが、いわゆる「バイスメ(visemes)」と「表現
(expressions)」とから成り、最低のレベルが、顔の一般ポーズを可能にする基
本的変換から成る。MPEG−4規格により、バイスメは1以上の類似の音素の
視覚的等価物である。
に使用され、低レベルMPEG−4パラメータの適用により得られる。従って、
高レベルMPEG−4パラメータを参照しない。 声により駆動される顔モデルをアニメ化するための種々のシステムが、文献か
ら公知である。例えば、F.Lavagetto の「Converting Speech into Lip Movemen
ts: A Multimedia Telephone for Hard of Hearing People 」, IEEE Transacti
ons of Rehabilitation Engineering, Vol.3, N.1, March 1995; DIST, Genoa U
niversity の「Description of Algorithms for Speech-to-Facial Movements T
ransformation 」, ACTS "SPLIT" Project, November 1995; TUB、Technical Un
iversity of Berlinの「Analysis and Synthesis of Visual Speech Movements
」, ACTS "SPLIT" Project, November 1995 、なる文献を挙げることができる。
しかしながら、これらのシステムは、MPEG−4規格に応じたパラメータを実
現せず、このためあまり柔軟でない。
許出願TO98A000842に記載されている。この方法は、MPEG−4規
格により定義されたバイスメと特定言語に固有のバイスメとから成る1セットか
ら選択されたバイスメを音素又は音素群に関連付ける。本発明により、バイスメ
は、モデルの唇領域及び顎の形状及び/又は位置を特徴付けるマクロパラメータ
群に分割され、中立位置からの変化を表しかつアニメ化されたモデルの適切な自
然さを保証するそれぞれの強度値に関連付けられる。さらに、マクロパラメータ
は、MPEG−4規格で定義された低レベル顔アニメーションパラメータに分割
され、これに対しても、マクロパラメータにリンクした強度値が関連付けられ、
アニメ化されたモデルの適切な自然さを保証する。 前記方法は、異なる言語に対して使用でき、結果として得られる合成モデルの
適当な自然さを保証する。しかしながら、この方法は、現実の話者の顔を追跡し
た動きデータ分析に基づいていない。このため、アニメーションの結果は、あま
りリアルでも自然でもない。
動きとを同時分析したことに基づいている故に、アニメ化された合成モデルをさ
らに自然にしている。本発明による方法は、特許請求の範囲に記載されている。 声によりガイドされる顔モデルをアニメ化するために、いわゆる「アクティブ
形状モデル」(以下、頭字語ASMを使用する)の使用が、S.LepsoyとS.Curing
a の「Conversion of articulatory parameters into active shape model coef
ficients for lip motion representation and synthesis」, Image Communicat
ion 13 (1998)、第209〜225頁、及びS.Leosoyの「Active shape models
for lip motion synthesis」, Proceedings of the International Workshop on
Synthetic-Natural Hybrid Coding and Three Dimensional Imaging (IWSNHC3D
I 97), Rhodes (Greece)、1997年9月、第200〜203頁に示唆されてお
り、こられは特に動きの表現変換の問題を扱っている。アクティブ形状モデル法
は、空間内に点を分布するための表現技術であり、これは、少数のパラメータに
より顔や他の変換可能な対象物を記載するのに特に有効である。従って、これら
のアクティブ形状モデルは、データ量の削減を可能にする。これが、本発明の目
的のために用いられる特徴である。 アクティブ形状モデル理論についてのさらなる詳細は、例えば、T.F.Cootes,
D.Cooper, C.J.Taylor及びJ.Grahamの「Active Shape Models - Their Training
and Application, Computer Vision and Image Understanding 」, Vol.61, no
.1、1995年1月、第38〜59頁に見出せる。
る時刻は知られている。この発明は、言語に依存しないアニメーション方法を示
す。このことは、次の操作系列が、スピーチの動きが再生されるべき各言語で同
じあることを意味する。この発明により、人間の顔のそれぞれの動きを、言語に
固有の音声データに関連付けることができる。このような動きは、統計分析によ
り得られ、非常にリアルなアニメーション効果を与える。実際には、ワイヤフレ
ームに基づいて得られるモデルの場合には、アニメーションは、MPEG−4規
格で定義された無表情又は中立的な顔を表す基本モデルに対する動きとして作ら
れた1組の動きを、ワイヤフレームの頂点に適用することに存する。これらの相
対的な動きは、ある基本ベクトル(「自動変換」という)の線形結合の結果であ
る。後で説明する分析の一部が、このようなベクトルの組を見つけるのに使用さ
れる。その他の部分は、MPEG−4規格で定義された低レベルアニメーション
パラメータ(いわゆるFAP(顔アニメーションパラメータ))により表現され
た変換を各音素に関連付けるのに使用される。 次に、アニメーションすなわち合成段階は、特定の駆動テキスト中の音素に対
応するバイスメの系列を、モデルが基礎とするワイヤフレームの頂点についての
動きの系列に変換することに存する。
人間の顔モデルを図1に示す。数字1はワイヤフレーム構造を示し、数字2はテ
クスチャー(即ち、ワイヤフレーム自体の頂点と交差するワイヤフレームを満た
す表面)に関連し、数字3は実際の人のピクチャーを用いて完成されたモデルを
示す。ワイヤフレームに基づいたモデルの作成方法は本発明の一部ではないので
、ここではさらに説明しない。この作成に関するプロセスの例は、本出願人によ
るイタリア特許出願TO98A000828に記載されている。
のフレーズを発声し、該人が話している間に声と顔の動きとが適当なサウンド記
録装置5とテレビカメラ6により記録される。同時に、発声されたテキストの音
声の表記が行われてテキスト中に存在する音素を得る。 声の記録装置は、後続の音声整列を可能にする、即ち種々の音素が発声される
時刻を識別可能にするべく適切な質を与えるアナログ又はデジタル装置とできる
。このことは、時間軸が幾つかのインターバルに分割されることを意味し、その
結果、各インターバルはある音素の発声に対応する(図2中の「オーディオセグ
メンテーション」工程)。時刻は各インターバルに関連付けられ、各インターバ
ル中の時刻は、音素が隣接の音素から受ける影響が最小である。以下、上記時刻
は、音素にリンクした時刻を参照したとき理解されるであろう。 音声整列の概念を明瞭にするために図3と後の表1とが参照できる。両方とも
、フレーズ「Un trucchetto geniale gli valse l'assoluzione 」についてそれ
ぞれタイミングの取られた音声分析及び音声表記に関する。
内で発声された情報を与える。この情報により、アルファベットの各音素に対し
て顔の幾何学的等価物の推定を可能にする。 再度、図2に関し顔の動きの記録を考えると、この記録は「動き追跡」技術に
より得るのが有利である。この技術により、重要な顔の特徴(例えば、目の角、
唇と顔の縁)に位置する1組のマーカーの動きの推定に基づいた大いにもっとも
らしいアニメーションが可能になる。これらのマーカーは、図4において数字7
で示されている。マーカーに対して選択されるポイントは、「ランドマーク」又
は「特徴点」と称する。一般に、マーカーは小さい物体であり、その固有位置は
、光学的又は磁気的装置により検出できる。動き追跡技術は、当該分野において
周知であり、ここではさらなる説明は要しないであろう。有意なデータセットを
得るために、ある数のフレーズ(少なくとも百個)が各言語に対して記録される
必要がある。従って、動き追跡装置の内部記憶容量の限界及びフレーズ読み出し
におけるエラーゆえに、好ましくは、記録はいくつかの期間にて行うべきである
。これらの期間の各々は、1以上のフレーズに専用される。
より直接的な分析には適さない1組の座標から成る。これは、いくつかの撮影期
間が実行されると被験者の位置の違いが生じるからである。また、避けられない
頭部の動きをデータから削除しなければならない。本目的は、顔の自然なポーズ
に関する動きをモデル化することであり、絶対的な動きをモデル化することでは
ない。表情は使用する装置にも依存する。記録されたデータ中のエラー(例えば
、ある時間でのいくつかのマーカーの突然の動きや消失)が起こり得る。信頼の
おけるデータを得るためには、これらのエラーに対しては修正段階が必要である
。換言すれば、生のデータの修正及び標準化が必要である。 この目的のために、各記録の初めに、話者の顔はできるだけMPEG−4規格
で定義された顔の中立位置を取らなければならない。標準化(又は訓練データの
クリーニング)は、マーカー7に対応するポイントセットを中立的な顔の一般モ
デル中のそれぞれの特徴点に整列させることに存する。この顔モデルの空間方位
、位置及び寸法は知られている。この変換のパラメータは、記録における第1フ
レームに基づいて計算される。マーカー7は異なる記録中には同じ位置にはない
かもしれないので、系列中のフレームへの参照が要求される。この操作は、記録
された各系列に対して実行される。
堅固な物体の上にあり(図4ではこの物体は数字8で示されている)、記録中に
対象の頭部全体の避けられない動きを消去するのに使用される。簡単のために、
例として、最初の3つのマーカーの使用が仮定できる。従って、系列中の最初の
ものに続く全フレームにおいて、最初の3つのマーカーが最初のフレーム中の対
応するマーカーに一致するように座標セットを回転及び平行移動させる。この操
作の後、最初の3つのマーカーはもはや使用されない。また、各ピクチャーの現
実の顔の特徴点の位置が、中立的な顔として選ばれたモデルの位置と可能な限り
一致しなければならない。このことは、記録されたピクチャーをスケーリングし
てモデルの寸法にそれを適合させること、及び平行移動させることを伴う。上述
のように、この段階では、最初の3つのマーカーはもはや使用されない。 多量の動きデータを扱うため(ある実施態様では、転送されるデータ量を削減
するためにも)、動きの圧縮表現を見い出さなければならない。この圧縮では、
顔の種々の領域での動きが相関しているということを利用する。従って、上述の
ように、本発明により、動きの数値表現がいくつかの基本ベクトル(「自動変換
」という)の組み合わせとして圧縮され表現される。自動変換は、記録され変換
された系列中に含まれる顔の動きの可能な最も近い近似を可能にしなければなら
ない。強調すべきは、ここで扱う動きは中立ポーズに関するものである。圧縮の
目的は、ASMの構成部分である主成分分析(PCA)により達成される。この
分析から生じる主な成分は、自動変換と同一であり、本発明では同じ意味を有す
る。
動変換の線形結合として近似できる。これらの線形結合は、(低レベルパラメー
タにより)特徴点の位置として表されるバイスメの表現を与える。線形結合の係
数は、ASMパラメータと称される。要約すると、特徴点の座標を含んだベクト
ルxは、
て自動変換を含んだ行列であり、vはASMパラメータを有するベクトルである
。 ASMモデルは、少数のパラメータから成るベクトルによる動き追跡中に顔が
取るポーズの表現を可能にする。例示目的のため、41個のマーカーの座標が、
10個のASMパラメータを用いて満足する結果に近似され得る。また、これら
の操作は、収集システムに固有の(即ち、顔の動きとは相関しない)ノイズ成分
を抑える。
ちバイスメを決定することである。基本的な基準は、記録された動きを最高に近
似できる合成(すなわちアニメーション)を作ることである。合成段階で使用さ
れるパラメータを推定するためにこの基準が本発明において採用されていること
を強調することは重要である。このことは、動き追跡中に記録されたフレーズセ
ットに属するフレーズのみならず、どんなフレーズの動きも再生できることを意
味する。上述のように、アニメーションは、それぞれの時刻に関連した音素によ
りガイドされる。アニメーション駆動テキストの個々の音素に関連したバイスメ
が直接的に使用されないならば、音素に関連した時刻に対応した動きの表現が非
常に不連続なものになるであろう。実際、顔の動きは、連続的な現象であり、従
って、動きの連続的な(従ってより自然な)表現を与えるために、隣接するバイ
スメを補間しなければならない。 補間は、計算されるべきバイスメの凸結合であり、該結合の係数(重み)は時
間に従い定められる。全ての係数が[0,1]の区間にあり、かつ、それらの和
が1に等しい場合には、線形結合は凸と定義される。一般に、補間係数は、発声
の時刻を含む小さな区間においてのみ零とは異なる値を有する。発声の時刻では
、係数値は最大に達する。バイスメに対して補間を実施すること(補間ノードを
形成すること)が要求される場合には、全ての係数は、1に等しくしなけらばな
らない特定バイスメの係数を除いて、ある音素の時刻においては零に等しくなけ
ればならない。
慮するのに使用される。バイスメベクトルは、行列Vを形成する行にグループ化
できる。次に、凸結合の係数は、行ベクトル
む行列Cが形成できる。分析のため、動き追跡データが存在する時刻が選択され
る。積CVは、追跡データ中に含まれる自然な動きを近似できるASMベクトル
の行を含む。この工程の目的は、(観測されたフレームの)自然な動きと合成さ
れた動きとのギャップを最小にすべく、バイスメを含むV行列中の要素を決定す
ることである。有利には、記録された動きを表現する積CVの行とASMベクト
ルとの平均二乗距離は、ユークリッド・ルールにより定められるように最小化さ
れる。
MPEG−4規格で定義された特徴点の空間内での位置に移すことに存する。計
算されたバイスメがASM係数を含んだベクトルであることを考慮すると、アク
ティブ形状モデル理論において記載されているように、簡単な行列の積により変
換を得ることができる。特徴点の変換を含んだベクトルは、(列としての)AS
Mベクトルに対して自動変換行列を掛けることにより得られる。 次に、低レベルの顔アニメーションパラメータは、無表情の顔に関する特徴点
の位置を表す。従って、これらの低レベルパラメータにて特徴点の位置として表
現されたバイスメの平行移動は直接的である。 訓練セットの全フレーズに上記操作を行った後、低レベル顔アニメーションパ
ラメータを音素にリンクする表(これは合成(又はアニメーション)段階で使用
される)が作られる。
ルの合成又はアニメーションに関する操作が示されている。 ここでの「合成」は、音声情報と時間情報とに基づいてワイヤフレームの動き
を計算することを意味する。よって、変換は、サウンドに関連して合成され、綿
密に唇の動きを再生する。従って、合成とは、バイスメ系列をアニメ化される顔
を表現するワイヤフレーム座標の系列に変換するプロセスである。合成は、音素
と分析プロセスから得られた低レベルMPEG−4のFAPとの対応表に基づく
。従って、アニメーションプロセスは、アニメ化されるワイヤフレーム、再生さ
れるフレーズ中に含まれる音素、及び低レベルmi/FAP表を入力として用い
る。ワイヤフレームは、空間内の1組のポイント、前のポイントを頂点として使
用する1組の多角形、及び表面の外観に固有の情報(例えば色やテクスチャー)
により特定される。
て該フレーズを表記しなければならない。音素の各々は、表1の例に示されるよ
うに、それが発声された時刻によりラベリングされる。バイスメの離散的な系列
は、この離散的な系列に対応する。音素の系列は、再生されるフレーズのソース
に従って異なる方法にて得ることができる。スピーチの波形を発生することに加
えて、合成されたサウンドの場合には、シンセサイザーが、音声の表記とそれぞ
れの時間基準を発生する。自然の声の場合には、この情報は、オーディオ信号か
ら抽出しなければならない。一般には、この操作は、発声されたフレーズ中の音
素が知られているか否かによって、2つの異なる方法にて実行できる。一方は、
「音声整列」と称され、他方は、一般に低質の結果を与える「音声認識」と称さ
れる。これらの手順は、全て文献にて公知であるから、本発明の主題ではない。
のピクチャー即ちフレーム(例えば少なくとも16フレーム)が要求される。こ
の数は、駆動信号に含まれる音素の数よりもかなり多い。従って、次の2つの音
素間に含まれる顔の多くの中間の動きは、後にさらに詳細に示されるように決定
される必要がある。 単一のフレームの作成に関し、顔のアニメーションパラメータは特徴点から取
られることに注意すべきである。このため、ワイヤフレーム内のどの頂点が考慮
されている特徴点に対応するのかを知らなければならない。この情報は、分析段
階で使用したものと同様の方法により、即ち、主成分に関する係数ベクトルに主
成分行列を掛けることにより得られる。このようにして、FAPが頂点の動きに
変換される。ワイヤフレームが予め定められた空間方位を有すべきことをMPE
G−4規格が規定していることを考慮すると、動きへのFAP変換は、FAPが
顔の寸法に関係した計測単位にて特定されることからみて直接的である。
全ての頂点の定められた動きを得るには、特徴点の動きを外挿しなければならな
い。特徴点に関連しない各頂点の動きは、特徴点の動きの凸結合となる。動かさ
れる頂点と特徴点の各々との距離に基づいて、相対係数が計算される。この目的
のため、ワイヤフレームの弧に沿った最小の距離長さ(Dijkstraの距離として知
られている)が使用される(E.Dijkstraの「A note on two problems in connec
tion with graphs」, Numerische Mathematik, Vol.1, p.269-271, Springer Ve
rlag, Berlin, 1959)。特徴点により与えられる頂点への寄与は、2点間のDijk
straの距離のn乗に逆比例する。この累乗は、動かされる頂点に近い特徴点に大
きな重要性を与える目的で決定され、ワイヤフレームの寸法とは独立である。 後者の操作は、ワイヤフレーム全体におけるバイスメの表現となる。上述の方
法の使用により、全ての特徴点が全ての頂点に作用するという利点が得られ、従
って、動かされる各頂点に対するこれらの点の部分集合の特定はもはや必要とさ
れない。相対的に簡単なモデルの場合にもワイヤフレームには多数の頂点がある
ことを考慮すると、このことにより、このようにしなければ手動で実行しなけれ
ばならない作業段階(よって、極度に高コストである)を省くことができる。 図6は、イタリア語における音素a、m、p:、u(EURO−MPPA音声
シンボル)に対応したバイスメが、テクスチャーの加えられたワイヤフレーム全
体の構造を変えることにより如何にして表されるかを示す。
らない。開始点は、離散的な瞬間の公知のバイスメの系列である。可変又は固定
のフレームの周波数を任意に用いるために、モデルの動きが時間の連続関数とし
て表現される。時間の連続関数としての表現は、分析段階において説明したのと
同様の方法にて達成されるバイスメの補間により得られる。凸結合における係数
として作用するスケーリングは、各バイスメに関連する。この係数は、時間の連
続関数であり、バイスメを計算するための分析段階にて前に使用された補間ルー
チンにより計算される。効率性の理由により、好ましくは、計算は補間により実
行され、特徴点の数は頂点の数よりも少ない。連続表現は、任意にサンプリング
でき、連続して示されサウンドに同期した個々のフレームを得てコンピュータ上
にアニメーションを再生できる。 ここでの記載は、非限定的な例として与えられており、本発明の保護の範囲内
での変更が可能なのは明らかである。
レームであり、中間のピクチャーは均質な色付けと陰影付けを施したものであり
、右のピクチャーはさらにテクスチャーが施されている。
すフローチャートである。
ーションを駆動するのに使用されるテキストの音声フローを変換する。
Claims (7)
- 【請求項1】 オーディオ信号により駆動される人間の顔の合成モデルをア
ニメ化する方法であって、分析段階と合成段階とを含み、分析段階では、バイス
メのアルファベット、即ち、オーディオ訓練信号セットから抽出された音声単位
に対応する話者の顔形状を表す情報セットを決定し、合成段階では、オーディオ
駆動信号をそれぞれの時間情報に関連した音声単位の系列に変換し、一方、オー
ディオ駆動信号に含まれる該音声単位セットに対応するバイスメの系列を分析段
階にて決定し、そして、該バイスメ系列を再生するのに必要な変換をモデルに対
して行う上記方法において、 前記分析段階では、アクティブ形状モデルパラメータのベクトルとして決定さ
れるバイスメのアルファベットを与え、それに対して規格ISO/IEC144
96による低レベル顔アニメーションのパラメータとして表されたモデルの夫々
の変換を関連付け、 分析段階と合成段階の両方の間、オーディオ訓練信号とオーディオアニメーシ
ョン駆動信号の音声単位にそれぞれ対応するバイスメ系列を、バイスメ補間によ
り動きの連続表現に変換し、該バイスメ補間は、時間の連続関数である結合係数
に関連付けられるバイスメ自体の凸結合として実行し、合成段階において実行さ
れる結合係数が、分析段階での結合で使用されるものと同じであることを特徴と
する上記方法。 - 【請求項2】 前記凸結合の係数が、次のタイプの関数: 【数1】 であることを特徴とする請求項1記載の方法。
- 【請求項3】 分析段階でどの顔アニメーションパラメータを決定したかに
基づいてモデル特徴点に対応したワイヤフレームの頂点を識別し、各バイスメに
対する特徴点の変換を行うことにより前記バイスメ補間の操作を行ってワイヤフ
レームベースのモデルをアニメ化することを特徴とする請求項1又は2に記載の
方法。 - 【請求項4】 前記合成段階でモデルが取る各位置に対し、特徴点に対応す
るワイヤフレームの頂点にのみ変換を行い、特徴点に対応するワイヤフレームの
頂点に行う変換の凸結合により残りの頂点に変換を拡張することを特徴とする請
求項3記載の方法。 - 【請求項5】 前記バイスメを話者の顔の特徴点の座標に変換し、次に、前
記座標を規格ISO/IEC14496に記載の前記低レベル顔アニメーション
パラメータに変換することを特徴とする請求項1記載の方法。 - 【請求項6】 特徴点自体を識別する1組のマーカー(7)の動きを分析す
ることにより、特徴点の座標を表す前記低レベル顔アニメーションパラメータを
得ることを特徴とする請求項5記載の方法。 - 【請求項7】 (イ) 話者の額に付けられた堅固な物体(8)にマーカー
の部分集合を関連させ、 (ロ) 記録の初めに、規格ISO/IEC14496で定義された中立の顔モ
デルの位置にできるだけ対応した位置を取るように話者の顔を設定し、このよう
な中立位置にある顔の第1フレームを得る、 という方法により顔の特徴点の座標を表すデータを標準化し、 第1フレームに続く全てのフレームに対し、前記部分集合のマーカーに対応す
る座標が第1フレーム内の同じ部分集合のマーカーの座標と一致するように、座
標セットを回転し平行移動することを特徴とする請求項6記載の方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT2000TO000303A IT1320002B1 (it) | 2000-03-31 | 2000-03-31 | Procedimento per l'animazione di un modello sintetizzato di voltoumano pilotata da un segnale audio. |
IT2000A000303 | 2000-03-31 | ||
ITTO2000A000303 | 2000-03-31 | ||
PCT/IT2001/000117 WO2001075805A1 (en) | 2000-03-31 | 2001-03-09 | Method of animating a synthesised model of a human face driven by an acoustic signal |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003529861A true JP2003529861A (ja) | 2003-10-07 |
JP2003529861A5 JP2003529861A5 (ja) | 2012-01-19 |
JP4913973B2 JP4913973B2 (ja) | 2012-04-11 |
Family
ID=11457634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001573407A Expired - Fee Related JP4913973B2 (ja) | 2000-03-31 | 2001-03-09 | 音響信号により駆動される人間の顔の合成モデルのアニメ化方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7123262B2 (ja) |
EP (1) | EP1203352B1 (ja) |
JP (1) | JP4913973B2 (ja) |
CA (1) | CA2375350C (ja) |
DE (1) | DE60101540T2 (ja) |
IT (1) | IT1320002B1 (ja) |
WO (1) | WO2001075805A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11610354B2 (en) | 2017-10-26 | 2023-03-21 | Snap Inc. | Joint audio-video facial animation system |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9400921B2 (en) * | 2001-05-09 | 2016-07-26 | Intel Corporation | Method and system using a data-driven model for monocular face tracking |
CN1313979C (zh) * | 2002-05-03 | 2007-05-02 | 三星电子株式会社 | 产生三维漫画的装置和方法 |
ITTO20020724A1 (it) * | 2002-08-14 | 2004-02-15 | Telecom Italia Lab Spa | Procedimento e sistema per la trasmissione di messaggi su |
US8421804B2 (en) | 2005-02-16 | 2013-04-16 | At&T Intellectual Property Ii, L.P. | System and method of streaming 3-D wireframe animations |
WO2005031654A1 (en) * | 2003-09-30 | 2005-04-07 | Koninklijke Philips Electronics, N.V. | System and method for audio-visual content synthesis |
US7142107B2 (en) * | 2004-05-27 | 2006-11-28 | Lawrence Kates | Wireless sensor unit |
TW200540732A (en) * | 2004-06-04 | 2005-12-16 | Bextech Inc | System and method for automatically generating animation |
JP2006004158A (ja) * | 2004-06-17 | 2006-01-05 | Olympus Corp | 画像処理プログラム、画像処理方法、画像処理装置及び記録媒体 |
GB2423905A (en) * | 2005-03-03 | 2006-09-06 | Sean Smith | Animated messaging |
US7388586B2 (en) * | 2005-03-31 | 2008-06-17 | Intel Corporation | Method and apparatus for animation of a human speaker |
US20080158230A1 (en) * | 2006-12-29 | 2008-07-03 | Pictureal Corp. | Automatic facial animation using an image of a user |
CN101896836A (zh) * | 2007-06-12 | 2010-11-24 | 华风天气有限责任公司 | 用动画式呈现体呈现个性化天气信息 |
US8743125B2 (en) * | 2008-03-11 | 2014-06-03 | Sony Computer Entertainment Inc. | Method and apparatus for providing natural facial animation |
US8180167B2 (en) * | 2008-07-16 | 2012-05-15 | Seiko Epson Corporation | Model-based error resilience in data communication |
US8224652B2 (en) * | 2008-09-26 | 2012-07-17 | Microsoft Corporation | Speech and text driven HMM-based body animation synthesis |
US8194097B2 (en) * | 2008-12-12 | 2012-06-05 | Seiko Epson Corporation | Virtual masking using rigid parametric modeling |
CN101488346B (zh) * | 2009-02-24 | 2011-11-02 | 深圳先进技术研究院 | 语音可视化系统及语音可视化方法 |
JP5178607B2 (ja) * | 2009-03-31 | 2013-04-10 | 株式会社バンダイナムコゲームス | プログラム、情報記憶媒体、口形状制御方法及び口形状制御装置 |
JP5423379B2 (ja) * | 2009-08-31 | 2014-02-19 | ソニー株式会社 | 画像処理装置および画像処理方法、並びにプログラム |
TWI443601B (zh) * | 2009-12-16 | 2014-07-01 | Ind Tech Res Inst | 擬真臉部動畫系統及其方法 |
US8751228B2 (en) * | 2010-11-04 | 2014-06-10 | Microsoft Corporation | Minimum converted trajectory error (MCTE) audio-to-video engine |
US9728203B2 (en) | 2011-05-02 | 2017-08-08 | Microsoft Technology Licensing, Llc | Photo-realistic synthesis of image sequences with lip movements synchronized with speech |
US9613450B2 (en) * | 2011-05-03 | 2017-04-04 | Microsoft Technology Licensing, Llc | Photo-realistic synthesis of three dimensional animation with facial features synchronized with speech |
TWI521469B (zh) * | 2012-06-27 | 2016-02-11 | Reallusion Inc | Two - dimensional Roles Representation of Three - dimensional Action System and Method |
US9113036B2 (en) * | 2013-07-17 | 2015-08-18 | Ebay Inc. | Methods, systems, and apparatus for providing video communications |
US9600742B2 (en) * | 2015-05-05 | 2017-03-21 | Lucasfilm Entertainment Company Ltd. | Determining control values of an animation model using performance capture |
US10839825B2 (en) * | 2017-03-03 | 2020-11-17 | The Governing Council Of The University Of Toronto | System and method for animated lip synchronization |
CN109308731B (zh) * | 2018-08-24 | 2023-04-25 | 浙江大学 | 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 |
EP3664100A1 (en) * | 2018-12-05 | 2020-06-10 | Koninklijke Philips N.V. | Associating non-verbal communication content with verbal communication content |
CN113569790B (zh) * | 2019-07-30 | 2022-07-29 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、处理器、电子设备及存储介质 |
CN113592986B (zh) * | 2021-01-14 | 2023-05-23 | 腾讯科技(深圳)有限公司 | 基于神经网络的动作生成方法、装置及计算设备 |
CN117877509B (zh) * | 2024-03-13 | 2024-06-04 | 亚信科技(中国)有限公司 | 一种数字人实时交互方法及装置、电子设备、存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0744727A (ja) * | 1993-07-27 | 1995-02-14 | Sony Corp | 画像作成方法およびその装置 |
JPH08235384A (ja) * | 1994-11-07 | 1996-09-13 | At & T Corp | 音響支援画像処理 |
JPH11328440A (ja) * | 1998-03-16 | 1999-11-30 | Atr Ningen Joho Tsushin Kenkyusho:Kk | アニメーションシステム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5608839A (en) * | 1994-03-18 | 1997-03-04 | Lucent Technologies Inc. | Sound-synchronized video system |
US6232965B1 (en) * | 1994-11-30 | 2001-05-15 | California Institute Of Technology | Method and apparatus for synthesizing realistic animations of a human speaking using a computer |
FR2749420B1 (fr) | 1996-06-03 | 1998-10-02 | Alfonsi Philippe | Procede et dispositif de formation d'images animees d'un interlocuteur |
US6208356B1 (en) * | 1997-03-24 | 2001-03-27 | British Telecommunications Public Limited Company | Image synthesis |
US6072496A (en) * | 1998-06-08 | 2000-06-06 | Microsoft Corporation | Method and system for capturing and representing 3D geometry, color and shading of facial expressions and other animated objects |
US6366885B1 (en) * | 1999-08-27 | 2002-04-02 | International Business Machines Corporation | Speech driven lip synthesis using viseme based hidden markov models |
WO2002029784A1 (en) * | 2000-10-02 | 2002-04-11 | Clarity, Llc | Audio visual speech processing |
-
2000
- 2000-03-31 IT IT2000TO000303A patent/IT1320002B1/it active
-
2001
- 2001-03-09 EP EP01917461A patent/EP1203352B1/en not_active Expired - Lifetime
- 2001-03-09 DE DE60101540T patent/DE60101540T2/de not_active Expired - Lifetime
- 2001-03-09 JP JP2001573407A patent/JP4913973B2/ja not_active Expired - Fee Related
- 2001-03-09 WO PCT/IT2001/000117 patent/WO2001075805A1/en active IP Right Grant
- 2001-03-09 CA CA002375350A patent/CA2375350C/en not_active Expired - Lifetime
- 2001-03-09 US US09/980,373 patent/US7123262B2/en not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0744727A (ja) * | 1993-07-27 | 1995-02-14 | Sony Corp | 画像作成方法およびその装置 |
JPH08235384A (ja) * | 1994-11-07 | 1996-09-13 | At & T Corp | 音響支援画像処理 |
JPH11328440A (ja) * | 1998-03-16 | 1999-11-30 | Atr Ningen Joho Tsushin Kenkyusho:Kk | アニメーションシステム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11610354B2 (en) | 2017-10-26 | 2023-03-21 | Snap Inc. | Joint audio-video facial animation system |
Also Published As
Publication number | Publication date |
---|---|
WO2001075805A1 (en) | 2001-10-11 |
IT1320002B1 (it) | 2003-11-12 |
CA2375350C (en) | 2006-07-18 |
CA2375350A1 (en) | 2001-10-11 |
DE60101540D1 (de) | 2004-01-29 |
JP4913973B2 (ja) | 2012-04-11 |
EP1203352A1 (en) | 2002-05-08 |
ITTO20000303A1 (it) | 2001-10-01 |
ITTO20000303A0 (it) | 2000-03-31 |
US7123262B2 (en) | 2006-10-17 |
US20060012601A1 (en) | 2006-01-19 |
EP1203352B1 (en) | 2003-12-17 |
DE60101540T2 (de) | 2004-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4913973B2 (ja) | 音響信号により駆動される人間の顔の合成モデルのアニメ化方法 | |
Cao et al. | Expressive speech-driven facial animation | |
US6654018B1 (en) | Audio-visual selection process for the synthesis of photo-realistic talking-head animations | |
Ezzat et al. | Trainable videorealistic speech animation | |
US7133535B2 (en) | System and method for real time lip synchronization | |
US6662161B1 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
US6097381A (en) | Method and apparatus for synthesizing realistic animations of a human speaking using a computer | |
US6250928B1 (en) | Talking facial display method and apparatus | |
US7990384B2 (en) | Audio-visual selection process for the synthesis of photo-realistic talking-head animations | |
JP4631078B2 (ja) | リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム | |
JP2003529861A5 (ja) | ||
US7630897B2 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
CN112001992A (zh) | 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统 | |
US7117155B2 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
CN116597857A (zh) | 一种语音驱动图像的方法、系统、装置及存储介质 | |
Theobald et al. | Near-videorealistic synthetic talking faces: Implementation and evaluation | |
JP5109038B2 (ja) | リップシンクアニメーション作成装置及びコンピュータプログラム | |
CN116828129A (zh) | 一种超清2d数字人生成方法及系统 | |
JP4617500B2 (ja) | リップシンクアニメーション作成装置、コンピュータプログラム及び顔モデル生成装置 | |
JP2974655B1 (ja) | アニメーションシステム | |
Morishima et al. | Real-time facial action image synthesis system driven by speech and text | |
Brooke et al. | Two-and three-dimensional audio-visual speech synthesis | |
Wang et al. | Photo-real lips synthesis with trajectory-guided sample selection. | |
Morishima et al. | Speech-to-image media conversion based on VQ and neural network | |
US7392190B1 (en) | Coarticulation method for audio-visual text-to-speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080310 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080310 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20090908 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20090908 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20100727 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20100825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100921 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20101206 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20101217 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20101206 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110105 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20110120 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110127 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20110218 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110225 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110318 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110523 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20110822 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110829 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20111122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120106 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120120 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4913973 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150127 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |