JP2003529861A5 - - Google Patents

Download PDF

Info

Publication number
JP2003529861A5
JP2003529861A5 JP2001573407A JP2001573407A JP2003529861A5 JP 2003529861 A5 JP2003529861 A5 JP 2003529861A5 JP 2001573407 A JP2001573407 A JP 2001573407A JP 2001573407 A JP2001573407 A JP 2001573407A JP 2003529861 A5 JP2003529861 A5 JP 2003529861A5
Authority
JP
Japan
Prior art keywords
time
model parameter
phonemes
active shape
shape model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001573407A
Other languages
English (en)
Other versions
JP2003529861A (ja
JP4913973B2 (ja
Filing date
Publication date
Priority claimed from IT2000TO000303A external-priority patent/IT1320002B1/it
Application filed filed Critical
Publication of JP2003529861A publication Critical patent/JP2003529861A/ja
Publication of JP2003529861A5 publication Critical patent/JP2003529861A5/ja
Application granted granted Critical
Publication of JP4913973B2 publication Critical patent/JP4913973B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【特許請求の範囲】
【請求項1】
人間の顔の形状を表すアクティブ形状モデルパラメータ・ベクトルを求めて、前記人間の顔を合成する方法であって、前記方法は分析段階と合成段階とを含み、
前記分析段階は、
動き追跡装置とサウンド記録装置とが、同期して、話者の顔の形状を表す情報と、該話者の声を表す情報とを記録するステップと、
コンピュータが、顔の形状を表す前記情報から、複数の第1の時点の各々における顔の形状をそれぞれ表す複数の第1のアクティブ形状モデルパラメータ・ベクトルを求めるステップであって、前記複数の第1の時点は、顔の形状を表す前記情報を記録した時間の中の複数の時点である、ステップと、
コンピュータが、声を表す前記情報から、複数の音素と、それぞれ該複数の音素の各々が発声された時点である複数の第2の時点を求めるステップと、
コンピュータが、前記複数の第2の時点の各々において発声された音素にそれぞれ関連する複数の第2のアクティブ形状モデルパラメータ・ベクトルを求めるステップであって前記複数の第2のアクティブ形状モデルパラメータ・ベクトルの各々は、前記複数の第1のアクティブ形状モデルパラメータ・ベクトルの各々と複数の第3のアクティブ形状モデルパラメータ・ベクトルの各々との距離が最小となるように求められ、前記複数の第3のアクティブ形状モデルパラメータ・ベクトルの各々は、前記複数の第1の時点の各々における近似された顔の形状を表し、前記複数の第3のアクティブ形状モデルパラメータ・ベクトルは、前記複数の第2のアクティブ形状モデルパラメータ・ベクトルの凸結合である補間関数を使用して定められ、前記補間関数は、時間の関数である所定の結合係数を有する、ステップと
を含み、
前記合成段階は、
コンピュータが、オーディオ駆動信号から、複数の第3の時点を求めるステップであって、前記オーディオ駆動信号は、複数の音素を表す第1の情報と、複数の時点を表す第2の情報とを含み、前記第2の情報によって表される複数の時点の各々は、前記第1の情報によって表される前記複数の音素の各々が発声される時点であり、前記複数の第3の時点の各々は、前記第2の情報によって表される複数の時点の各々である、ステップと、
コンピュータが、複数の第4のアクティブ形状モデルパラメータ・ベクトルの凸結合である補間関数を使用して、複数の第5のアクティブ形状モデルパラメータ・ベクトルを求めるステップであって、前記複数の第4のアクティブ形状モデルパラメータ・ベクトルの各々は、求めた前記複数の第2のアクティブ形状パラメータ・ベクトルのうちの、前記第1の情報によって表される複数の音素の各々に関連するアクティブ形状パラメータ・ベクトルであり、前記複数の第5のアクティブ形状モデルパラメータ・ベクトルの各々は、前記複数の第3の時点のうちの2つの時点の間の時点における補完された顔の形状を表し、前記合成段階において使用される前記補間関数の結合係数は、前記分析段階で使用される前記結合係数と同じである、ステップと
コンピュータが、前記複数の第4のアクティブ形状モデルパラメータ・ベクトルと前記複数の第5のアクティブ形状モデルパラメータ・ベクトルとを使用して、人間の顔を合成するステップと
を含む、方法。
【請求項2】
前記結合係数は、次のタイプの関数:
【数1】
Figure 2003529861
である、請求項1記載の方法。
【請求項3】
前記分析段階で求めた前記複数の第2のアクティブ形状モデルパラメータ・ベクトルに基づいてモデル特徴点に対応したワイヤフレームの頂点をコンピュータが識別し、前記複数の第4のアクティブ形状モデルパラメータ・ベクトル及び前記複数の第5のアクティブ形状モデルパラメータ・ベクトルの各々に対してコンピュータが特徴点の変換を行うことにより顔の形状の補間の操作を行ってワイヤフレームベースのモデルをアニメ化する、請求項1又は2に記載の方法。
【請求項4】
前記合成段階で合成される顔の各々に対し、コンピュータが、特徴点に対応するワイヤフレームの頂点にのみ変換を行い、特徴点に対応するワイヤフレームの頂点に行う変換の凸結合により残りの頂点に変換を拡張する、請求項3記載の方法。
【請求項5】
コンピュータが、前記複数の第2のアクティブ形状モデルパラメータ・ベクトルを話者の顔の特徴点の座標に変換し、次に、前記座標を低レベル顔アニメーションパラメータに変換する、請求項1記載の方法。
【請求項6】
コンピュータが特徴点自体を識別する1組のマーカーの動きを分析することにより、特徴点の座標を表す前記低レベル顔アニメーションパラメータを得る、請求項5記載の方法。
【請求項7】
前記動き追跡装置が、
(イ) 話者の額に付けられた物体にマーカーの部分集合を関連させ、
(ロ) 記録の初めに、中立の顔モデルの位置にできるだけ対応した位置を取るように話者の顔を設定し、このような中立位置にある顔の第1フレームを得る、
という方法により顔の特徴点の座標を表すデータを標準化し、
コンピュータが、前記第1フレームに続く全てのフレームに対し、前記部分集合のマーカーに対応する座標が前記第1フレーム内の同じ部分集合のマーカーの座標と一致するように、座標セットを回転し平行移動する、請求項6記載の方法。
本発明の詳細な説明の前に、以下の一般的な前置きを行わなければならない。
アニメーションは音声系列により駆動され、該系列において各音素が発声される時点は知られている。この発明は、言語に依存しないアニメーション方法を示す。このことは、次の操作系列が、スピーチの動きが再生されるべき各言語で同じあることを意味する。この発明により、人間の顔のそれぞれの動きを、言語に固有の音声データに関連付けることができる。このような動きは、統計分析により得られ、非常にリアルなアニメーション効果を与える。実際には、ワイヤフレームに基づいて得られるモデルの場合には、アニメーションは、MPEG−4規格で定義された無表情又は中立的な顔を表す基本モデルに対する動きとして作られた1組の動きを、ワイヤフレームの頂点に適用することに存する。これらの相対的な動きは、ある基本ベクトル(「自動変換」という)の線形結合の結果である。後で説明する分析の一部が、このようなベクトルの組を見つけるのに使用される。その他の部分は、MPEG−4規格で定義された低レベルアニメーションパラメータ(いわゆるFAP(顔アニメーションパラメータ))により表現された変換を各音素に関連付けるのに使用される。
次に、アニメーションすなわち合成段階は、特定の駆動テキスト中の音素に対応するバイスメの系列を、モデルが基礎とするワイヤフレームの頂点についての動きの系列に変換することに存する。
図2は、本発明によるプロセスに関する分析段階をさらに詳細に示す。
話者4が1以上の期間(sessions)において1組の訓練フレーズのうちの幾つかのフレーズを発声し、該人が話している間に声と顔の動きとが適当なサウンド記録装置5とテレビカメラ6により記録される。同時に、発声されたテキストの音声の表記が行われてテキスト中に存在する音素を得る。
声の記録装置は、後続の音声整列を可能にする、即ち種々の音素が発声される複数の時点を識別可能にするべく適切な質を与えるアナログ又はデジタル装置とできる。このことは、時間軸が幾つかのインターバルに分割されることを意味し、その結果、各インターバルはある音素の発声に対応する(図2中の「オーディオセグメンテーション」工程)。ある時点は各インターバルに関連付けられ、各インターバル中の時点は、音素が隣接の音素から受ける影響が最小である。以下、上記時点は、音素にリンクした時点を参照したとき理解されるであろう。
音声整列の概念を明瞭にするために図3と後の表1とが参照できる。両方とも、フレーズ「Un trucchetto geniale gli valse l'assoluzione 」についてそれぞれタイミングの取られた音声分析及び音声表記に関する。
声と動きの情報収集の後、バイスメの計算段階が続く。
この段階の目的は、各単一の音素に関連するASMパラメータのベクトル、即ちバイスメを決定することである。基本的な基準は、記録された動きを最高に近似できる合成(すなわちアニメーション)を作ることである。合成段階で使用されるパラメータを推定するためにこの基準が本発明において採用されていることを強調することは重要である。このことは、動き追跡中に記録されたフレーズセットに属するフレーズのみならず、どんなフレーズの動きも再生できることを意味する。上述のように、アニメーションは、それぞれの時点に関連した音素によりガイドされる。アニメーション駆動テキストの個々の音素に関連したバイスメが直接的に使用されないならば、音素に関連した複数の時点に対応した動きの表現が非常に不連続なものになるであろう。実際、顔の動きは、連続的な現象であり、従って、動きの連続的な(従ってより自然な)表現を与えるために、隣接するバイスメを補間しなければならない。
補間は、計算されるべきバイスメの凸結合であり、該結合の係数(重み)は時間に従い定められる。全ての係数が[0,1]の区間にあり、かつ、それらの和が1に等しい場合には、線形結合は凸と定義される。一般に、補間係数は、発声の時点を含む小さな区間においてのみ零とは異なる値を有する。発声の時点では、係数値は最大に達する。バイスメに対して補間を実施すること(補間ノードを形成すること)が要求される場合には、全ての係数は、1に等しくしなけらばならない特定バイスメの係数を除いて、ある音素の時点においては零に等しくなければならない。
これらの係数のために使用できる関数の例は次の通りである。
Figure 2003529861
ここで、tn はn番目の音素の発声の時点である。
【0017】
以下に記載する操作は、合成された動きと共に記録された動きの近似基準を考慮するのに使用される。バイスメベクトルは、行列Vを形成する行にグループ化できる。次に、凸結合の係数は、行ベクトル
【外2】
Figure 2003529861
にグループ化できる。従って、バイスメの凸結合は、積
【外3】
Figure 2003529861
により形成される。係数のベクトルは時間の関数であり、各行がある時点の係数を含む行列Cが形成できる。分析のため、動き追跡データが存在する複数の時点が選択される。積CVは、追跡データ中に含まれる自然な動きを近似できるASMベクトルの行を含む。この工程の目的は、(観測されたフレームの)自然な動きと合成された動きとのギャップを最小にすべく、バイスメを含むV行列中の要素を決定することである。有利には、積CVの行と、記録された動きを表現するASMベクトルとの間の平均二乗距離は、ユークリッド・ルールにより定められるように最小化される。
所与の駆動信号(一般にはフレーズ)を再生するために、まず、音素系列として該フレーズを表記しなければならない。音素の各々は、表1の例に示されるように、それが発声された時点によりラベリングされる。バイスメの離散的な系列は、この離散的な系列に対応する。音素の系列は、再生されるフレーズのソースに従って異なる方法にて得ることができる。スピーチの波形を発生することに加えて、合成されたサウンドの場合には、シンセサイザーが、音声の表記とそれぞれの時間基準を発生する。自然の声の場合には、この情報は、オーディオ信号から抽出しなければならない。一般には、この操作は、発声されたフレーズ中の音素が知られているか否かによって、2つの異なる方法にて実行できる。一方は、「音声整列」と称され、他方は、一般に低質の結果を与える「音声認識」と称される。これらの手順は、全て文献にて公知であるから、本発明の主題ではない。
JP2001573407A 2000-03-31 2001-03-09 音響信号により駆動される人間の顔の合成モデルのアニメ化方法 Expired - Fee Related JP4913973B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
IT2000TO000303A IT1320002B1 (it) 2000-03-31 2000-03-31 Procedimento per l'animazione di un modello sintetizzato di voltoumano pilotata da un segnale audio.
IT2000A000303 2000-03-31
ITTO2000A000303 2000-03-31
PCT/IT2001/000117 WO2001075805A1 (en) 2000-03-31 2001-03-09 Method of animating a synthesised model of a human face driven by an acoustic signal

Publications (3)

Publication Number Publication Date
JP2003529861A JP2003529861A (ja) 2003-10-07
JP2003529861A5 true JP2003529861A5 (ja) 2012-01-19
JP4913973B2 JP4913973B2 (ja) 2012-04-11

Family

ID=11457634

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001573407A Expired - Fee Related JP4913973B2 (ja) 2000-03-31 2001-03-09 音響信号により駆動される人間の顔の合成モデルのアニメ化方法

Country Status (7)

Country Link
US (1) US7123262B2 (ja)
EP (1) EP1203352B1 (ja)
JP (1) JP4913973B2 (ja)
CA (1) CA2375350C (ja)
DE (1) DE60101540T2 (ja)
IT (1) IT1320002B1 (ja)
WO (1) WO2001075805A1 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9400921B2 (en) * 2001-05-09 2016-07-26 Intel Corporation Method and system using a data-driven model for monocular face tracking
CN1313979C (zh) * 2002-05-03 2007-05-02 三星电子株式会社 产生三维漫画的装置和方法
ITTO20020724A1 (it) * 2002-08-14 2004-02-15 Telecom Italia Lab Spa Procedimento e sistema per la trasmissione di messaggi su
US8421804B2 (en) 2005-02-16 2013-04-16 At&T Intellectual Property Ii, L.P. System and method of streaming 3-D wireframe animations
WO2005031654A1 (en) * 2003-09-30 2005-04-07 Koninklijke Philips Electronics, N.V. System and method for audio-visual content synthesis
US7142107B2 (en) * 2004-05-27 2006-11-28 Lawrence Kates Wireless sensor unit
TW200540732A (en) * 2004-06-04 2005-12-16 Bextech Inc System and method for automatically generating animation
JP2006004158A (ja) * 2004-06-17 2006-01-05 Olympus Corp 画像処理プログラム、画像処理方法、画像処理装置及び記録媒体
GB2423905A (en) * 2005-03-03 2006-09-06 Sean Smith Animated messaging
US7388586B2 (en) * 2005-03-31 2008-06-17 Intel Corporation Method and apparatus for animation of a human speaker
US20080158230A1 (en) * 2006-12-29 2008-07-03 Pictureal Corp. Automatic facial animation using an image of a user
WO2008154622A1 (en) * 2007-06-12 2008-12-18 Myweather, Llc Presentation of personalized weather information by an animated presenter
US8743125B2 (en) * 2008-03-11 2014-06-03 Sony Computer Entertainment Inc. Method and apparatus for providing natural facial animation
US8180167B2 (en) * 2008-07-16 2012-05-15 Seiko Epson Corporation Model-based error resilience in data communication
US8224652B2 (en) * 2008-09-26 2012-07-17 Microsoft Corporation Speech and text driven HMM-based body animation synthesis
US8194097B2 (en) * 2008-12-12 2012-06-05 Seiko Epson Corporation Virtual masking using rigid parametric modeling
CN101488346B (zh) * 2009-02-24 2011-11-02 深圳先进技术研究院 语音可视化系统及语音可视化方法
JP5178607B2 (ja) * 2009-03-31 2013-04-10 株式会社バンダイナムコゲームス プログラム、情報記憶媒体、口形状制御方法及び口形状制御装置
JP5423379B2 (ja) * 2009-08-31 2014-02-19 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
TWI443601B (zh) * 2009-12-16 2014-07-01 Ind Tech Res Inst 擬真臉部動畫系統及其方法
US8751228B2 (en) * 2010-11-04 2014-06-10 Microsoft Corporation Minimum converted trajectory error (MCTE) audio-to-video engine
US9728203B2 (en) 2011-05-02 2017-08-08 Microsoft Technology Licensing, Llc Photo-realistic synthesis of image sequences with lip movements synchronized with speech
US9613450B2 (en) * 2011-05-03 2017-04-04 Microsoft Technology Licensing, Llc Photo-realistic synthesis of three dimensional animation with facial features synchronized with speech
TWI521469B (zh) * 2012-06-27 2016-02-11 Reallusion Inc Two - dimensional Roles Representation of Three - dimensional Action System and Method
US9113036B2 (en) 2013-07-17 2015-08-18 Ebay Inc. Methods, systems, and apparatus for providing video communications
US9600742B2 (en) * 2015-05-05 2017-03-21 Lucasfilm Entertainment Company Ltd. Determining control values of an animation model using performance capture
US10839825B2 (en) * 2017-03-03 2020-11-17 The Governing Council Of The University Of Toronto System and method for animated lip synchronization
US10586368B2 (en) 2017-10-26 2020-03-10 Snap Inc. Joint audio-video facial animation system
CN109308731B (zh) * 2018-08-24 2023-04-25 浙江大学 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
EP3664100A1 (en) * 2018-12-05 2020-06-10 Koninklijke Philips N.V. Associating non-verbal communication content with verbal communication content
CN110399849B (zh) * 2019-07-30 2021-07-27 北京市商汤科技开发有限公司 图像处理方法及装置、处理器、电子设备及存储介质
CN113592986B (zh) * 2021-01-14 2023-05-23 腾讯科技(深圳)有限公司 基于神经网络的动作生成方法、装置及计算设备
CN116309988A (zh) * 2023-02-09 2023-06-23 华南理工大学 一种基于音频驱动的三维人脸动画生成方法、装置及介质
CN117877509B (zh) * 2024-03-13 2024-06-04 亚信科技(中国)有限公司 一种数字人实时交互方法及装置、电子设备、存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0744727A (ja) * 1993-07-27 1995-02-14 Sony Corp 画像作成方法およびその装置
US5608839A (en) * 1994-03-18 1997-03-04 Lucent Technologies Inc. Sound-synchronized video system
AU3668095A (en) 1994-11-07 1996-05-16 At & T Corporation Acoustic-assisted image processing
US6232965B1 (en) * 1994-11-30 2001-05-15 California Institute Of Technology Method and apparatus for synthesizing realistic animations of a human speaking using a computer
FR2749420B1 (fr) * 1996-06-03 1998-10-02 Alfonsi Philippe Procede et dispositif de formation d'images animees d'un interlocuteur
US6208356B1 (en) * 1997-03-24 2001-03-27 British Telecommunications Public Limited Company Image synthesis
JP2974655B1 (ja) * 1998-03-16 1999-11-10 株式会社エイ・ティ・アール人間情報通信研究所 アニメーションシステム
US6072496A (en) * 1998-06-08 2000-06-06 Microsoft Corporation Method and system for capturing and representing 3D geometry, color and shading of facial expressions and other animated objects
US6366885B1 (en) * 1999-08-27 2002-04-02 International Business Machines Corporation Speech driven lip synthesis using viseme based hidden markov models
AU2001296459A1 (en) * 2000-10-02 2002-04-15 Clarity, L.L.C. Audio visual speech processing

Similar Documents

Publication Publication Date Title
JP2003529861A5 (ja)
JP4913973B2 (ja) 音響信号により駆動される人間の顔の合成モデルのアニメ化方法
US7369992B1 (en) System and method for triphone-based unit selection for visual speech synthesis
AU716673B2 (en) Automated synchronization of video image sequences to new soundtracks
US7133535B2 (en) System and method for real time lip synchronization
JP2518683B2 (ja) 画像合成方法及びその装置
JP4631078B2 (ja) リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム
JPH10312467A (ja) 像合成のための自動スピーチ整列方法
JP2002507033A (ja) 顔合成装置および顔合成方法
JP2002328695A (ja) テキストからパーソナライズ化音声を生成する方法
JP4543263B2 (ja) アニメーションデータ作成装置及びアニメーションデータ作成プログラム
Wang et al. Synthesizing photo-real talking head via trajectory-guided sample selection
Tamura et al. Text-to-audio-visual speech synthesis based on parameter generation from HMM
Tamura et al. Visual speech synthesis based on parameter generation from HMM: Speech-driven and text-and-speech-driven approaches
Brooke et al. Two-and three-dimensional audio-visual speech synthesis
Wang et al. Photo-real lips synthesis with trajectory-guided sample selection.
Minnis et al. Modeling visual coarticulation in synthetic talking heads using a lip motion unit inventory with concatenative synthesis
JP2001517327A (ja) スピーチ合成方法
Zhuang et al. A minimum converted trajectory error (MCTE) approach to high quality speech-to-lips conversion.
Morishima et al. Speech-to-image media conversion based on VQ and neural network
Morishima et al. Facial expression synthesis based on natural voice for virtual face-to-face communication with machine
Morishima et al. A facial image synthesis system for human-machine interface
Savran et al. Speaker-independent 3D face synthesis driven by speech and text
Huang et al. Real-time Lip Synchronization Based on Hidden Markov Models
Theobald et al. A probabilistic trajectory synthesis system for synthesising visual speech.