JP2003529861A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2003529861A5 JP2003529861A5 JP2001573407A JP2001573407A JP2003529861A5 JP 2003529861 A5 JP2003529861 A5 JP 2003529861A5 JP 2001573407 A JP2001573407 A JP 2001573407A JP 2001573407 A JP2001573407 A JP 2001573407A JP 2003529861 A5 JP2003529861 A5 JP 2003529861A5
- Authority
- JP
- Japan
- Prior art keywords
- time
- model parameter
- phonemes
- active shape
- shape model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000875 corresponding Effects 0.000 description 7
- 230000002194 synthesizing Effects 0.000 description 7
- 230000001815 facial Effects 0.000 description 6
- 230000001808 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000001264 neutralization Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 230000001131 transforming Effects 0.000 description 2
- 210000000887 Face Anatomy 0.000 description 1
- 210000001061 Forehead Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Description
【特許請求の範囲】
【請求項1】
人間の顔の形状を表すアクティブ形状モデルパラメータ・ベクトルを求めて、前記人間の顔を合成する方法であって、前記方法は分析段階と合成段階とを含み、
前記分析段階は、
動き追跡装置とサウンド記録装置とが、同期して、話者の顔の形状を表す情報と、該話者の声を表す情報とを記録するステップと、
コンピュータが、顔の形状を表す前記情報から、複数の第1の時点の各々における顔の形状をそれぞれ表す複数の第1のアクティブ形状モデルパラメータ・ベクトルを求めるステップであって、前記複数の第1の時点は、顔の形状を表す前記情報を記録した時間の中の複数の時点である、ステップと、
コンピュータが、声を表す前記情報から、複数の音素と、それぞれ該複数の音素の各々が発声された時点である複数の第2の時点を求めるステップと、
コンピュータが、前記複数の第2の時点の各々において発声された音素にそれぞれ関連する複数の第2のアクティブ形状モデルパラメータ・ベクトルを求めるステップであって、前記複数の第2のアクティブ形状モデルパラメータ・ベクトルの各々は、前記複数の第1のアクティブ形状モデルパラメータ・ベクトルの各々と複数の第3のアクティブ形状モデルパラメータ・ベクトルの各々との距離が最小となるように求められ、前記複数の第3のアクティブ形状モデルパラメータ・ベクトルの各々は、前記複数の第1の時点の各々における近似された顔の形状を表し、前記複数の第3のアクティブ形状モデルパラメータ・ベクトルは、前記複数の第2のアクティブ形状モデルパラメータ・ベクトルの凸結合である補間関数を使用して定められ、前記補間関数は、時間の関数である所定の結合係数を有する、ステップと
を含み、
前記合成段階は、
コンピュータが、オーディオ駆動信号から、複数の第3の時点を求めるステップであって、前記オーディオ駆動信号は、複数の音素を表す第1の情報と、複数の時点を表す第2の情報とを含み、前記第2の情報によって表される複数の時点の各々は、前記第1の情報によって表される前記複数の音素の各々が発声される時点であり、前記複数の第3の時点の各々は、前記第2の情報によって表される複数の時点の各々である、ステップと、
コンピュータが、複数の第4のアクティブ形状モデルパラメータ・ベクトルの凸結合である補間関数を使用して、複数の第5のアクティブ形状モデルパラメータ・ベクトルを求めるステップであって、前記複数の第4のアクティブ形状モデルパラメータ・ベクトルの各々は、求めた前記複数の第2のアクティブ形状パラメータ・ベクトルのうちの、前記第1の情報によって表される複数の音素の各々に関連するアクティブ形状パラメータ・ベクトルであり、前記複数の第5のアクティブ形状モデルパラメータ・ベクトルの各々は、前記複数の第3の時点のうちの2つの時点の間の時点における補完された顔の形状を表し、前記合成段階において使用される前記補間関数の結合係数は、前記分析段階で使用される前記結合係数と同じである、ステップと
コンピュータが、前記複数の第4のアクティブ形状モデルパラメータ・ベクトルと前記複数の第5のアクティブ形状モデルパラメータ・ベクトルとを使用して、人間の顔を合成するステップと
を含む、方法。
【請求項2】
前記結合係数は、次のタイプの関数:
【数1】
である、請求項1記載の方法。
【請求項3】
前記分析段階で求めた前記複数の第2のアクティブ形状モデルパラメータ・ベクトルに基づいてモデル特徴点に対応したワイヤフレームの頂点をコンピュータが識別し、前記複数の第4のアクティブ形状モデルパラメータ・ベクトル及び前記複数の第5のアクティブ形状モデルパラメータ・ベクトルの各々に対してコンピュータが特徴点の変換を行うことにより顔の形状の補間の操作を行ってワイヤフレームベースのモデルをアニメ化する、請求項1又は2に記載の方法。
【請求項4】
前記合成段階で合成される顔の各々に対し、コンピュータが、特徴点に対応するワイヤフレームの頂点にのみ変換を行い、特徴点に対応するワイヤフレームの頂点に行う変換の凸結合により残りの頂点に変換を拡張する、請求項3記載の方法。
【請求項5】
コンピュータが、前記複数の第2のアクティブ形状モデルパラメータ・ベクトルを話者の顔の特徴点の座標に変換し、次に、前記座標を低レベル顔アニメーションパラメータに変換する、請求項1記載の方法。
【請求項6】
コンピュータが特徴点自体を識別する1組のマーカーの動きを分析することにより、特徴点の座標を表す前記低レベル顔アニメーションパラメータを得る、請求項5記載の方法。
【請求項7】
前記動き追跡装置が、
(イ) 話者の額に付けられた物体にマーカーの部分集合を関連させ、
(ロ) 記録の初めに、中立の顔モデルの位置にできるだけ対応した位置を取るように話者の顔を設定し、このような中立位置にある顔の第1フレームを得る、
という方法により顔の特徴点の座標を表すデータを標準化し、
コンピュータが、前記第1フレームに続く全てのフレームに対し、前記部分集合のマーカーに対応する座標が前記第1フレーム内の同じ部分集合のマーカーの座標と一致するように、座標セットを回転し平行移動する、請求項6記載の方法。
【請求項1】
人間の顔の形状を表すアクティブ形状モデルパラメータ・ベクトルを求めて、前記人間の顔を合成する方法であって、前記方法は分析段階と合成段階とを含み、
前記分析段階は、
動き追跡装置とサウンド記録装置とが、同期して、話者の顔の形状を表す情報と、該話者の声を表す情報とを記録するステップと、
コンピュータが、顔の形状を表す前記情報から、複数の第1の時点の各々における顔の形状をそれぞれ表す複数の第1のアクティブ形状モデルパラメータ・ベクトルを求めるステップであって、前記複数の第1の時点は、顔の形状を表す前記情報を記録した時間の中の複数の時点である、ステップと、
コンピュータが、声を表す前記情報から、複数の音素と、それぞれ該複数の音素の各々が発声された時点である複数の第2の時点を求めるステップと、
コンピュータが、前記複数の第2の時点の各々において発声された音素にそれぞれ関連する複数の第2のアクティブ形状モデルパラメータ・ベクトルを求めるステップであって、前記複数の第2のアクティブ形状モデルパラメータ・ベクトルの各々は、前記複数の第1のアクティブ形状モデルパラメータ・ベクトルの各々と複数の第3のアクティブ形状モデルパラメータ・ベクトルの各々との距離が最小となるように求められ、前記複数の第3のアクティブ形状モデルパラメータ・ベクトルの各々は、前記複数の第1の時点の各々における近似された顔の形状を表し、前記複数の第3のアクティブ形状モデルパラメータ・ベクトルは、前記複数の第2のアクティブ形状モデルパラメータ・ベクトルの凸結合である補間関数を使用して定められ、前記補間関数は、時間の関数である所定の結合係数を有する、ステップと
を含み、
前記合成段階は、
コンピュータが、オーディオ駆動信号から、複数の第3の時点を求めるステップであって、前記オーディオ駆動信号は、複数の音素を表す第1の情報と、複数の時点を表す第2の情報とを含み、前記第2の情報によって表される複数の時点の各々は、前記第1の情報によって表される前記複数の音素の各々が発声される時点であり、前記複数の第3の時点の各々は、前記第2の情報によって表される複数の時点の各々である、ステップと、
コンピュータが、複数の第4のアクティブ形状モデルパラメータ・ベクトルの凸結合である補間関数を使用して、複数の第5のアクティブ形状モデルパラメータ・ベクトルを求めるステップであって、前記複数の第4のアクティブ形状モデルパラメータ・ベクトルの各々は、求めた前記複数の第2のアクティブ形状パラメータ・ベクトルのうちの、前記第1の情報によって表される複数の音素の各々に関連するアクティブ形状パラメータ・ベクトルであり、前記複数の第5のアクティブ形状モデルパラメータ・ベクトルの各々は、前記複数の第3の時点のうちの2つの時点の間の時点における補完された顔の形状を表し、前記合成段階において使用される前記補間関数の結合係数は、前記分析段階で使用される前記結合係数と同じである、ステップと
コンピュータが、前記複数の第4のアクティブ形状モデルパラメータ・ベクトルと前記複数の第5のアクティブ形状モデルパラメータ・ベクトルとを使用して、人間の顔を合成するステップと
を含む、方法。
【請求項2】
前記結合係数は、次のタイプの関数:
【数1】
である、請求項1記載の方法。
【請求項3】
前記分析段階で求めた前記複数の第2のアクティブ形状モデルパラメータ・ベクトルに基づいてモデル特徴点に対応したワイヤフレームの頂点をコンピュータが識別し、前記複数の第4のアクティブ形状モデルパラメータ・ベクトル及び前記複数の第5のアクティブ形状モデルパラメータ・ベクトルの各々に対してコンピュータが特徴点の変換を行うことにより顔の形状の補間の操作を行ってワイヤフレームベースのモデルをアニメ化する、請求項1又は2に記載の方法。
【請求項4】
前記合成段階で合成される顔の各々に対し、コンピュータが、特徴点に対応するワイヤフレームの頂点にのみ変換を行い、特徴点に対応するワイヤフレームの頂点に行う変換の凸結合により残りの頂点に変換を拡張する、請求項3記載の方法。
【請求項5】
コンピュータが、前記複数の第2のアクティブ形状モデルパラメータ・ベクトルを話者の顔の特徴点の座標に変換し、次に、前記座標を低レベル顔アニメーションパラメータに変換する、請求項1記載の方法。
【請求項6】
コンピュータが特徴点自体を識別する1組のマーカーの動きを分析することにより、特徴点の座標を表す前記低レベル顔アニメーションパラメータを得る、請求項5記載の方法。
【請求項7】
前記動き追跡装置が、
(イ) 話者の額に付けられた物体にマーカーの部分集合を関連させ、
(ロ) 記録の初めに、中立の顔モデルの位置にできるだけ対応した位置を取るように話者の顔を設定し、このような中立位置にある顔の第1フレームを得る、
という方法により顔の特徴点の座標を表すデータを標準化し、
コンピュータが、前記第1フレームに続く全てのフレームに対し、前記部分集合のマーカーに対応する座標が前記第1フレーム内の同じ部分集合のマーカーの座標と一致するように、座標セットを回転し平行移動する、請求項6記載の方法。
本発明の詳細な説明の前に、以下の一般的な前置きを行わなければならない。
アニメーションは音声系列により駆動され、該系列において各音素が発声される時点は知られている。この発明は、言語に依存しないアニメーション方法を示す。このことは、次の操作系列が、スピーチの動きが再生されるべき各言語で同じあることを意味する。この発明により、人間の顔のそれぞれの動きを、言語に固有の音声データに関連付けることができる。このような動きは、統計分析により得られ、非常にリアルなアニメーション効果を与える。実際には、ワイヤフレームに基づいて得られるモデルの場合には、アニメーションは、MPEG−4規格で定義された無表情又は中立的な顔を表す基本モデルに対する動きとして作られた1組の動きを、ワイヤフレームの頂点に適用することに存する。これらの相対的な動きは、ある基本ベクトル(「自動変換」という)の線形結合の結果である。後で説明する分析の一部が、このようなベクトルの組を見つけるのに使用される。その他の部分は、MPEG−4規格で定義された低レベルアニメーションパラメータ(いわゆるFAP(顔アニメーションパラメータ))により表現された変換を各音素に関連付けるのに使用される。
次に、アニメーションすなわち合成段階は、特定の駆動テキスト中の音素に対応するバイスメの系列を、モデルが基礎とするワイヤフレームの頂点についての動きの系列に変換することに存する。
アニメーションは音声系列により駆動され、該系列において各音素が発声される時点は知られている。この発明は、言語に依存しないアニメーション方法を示す。このことは、次の操作系列が、スピーチの動きが再生されるべき各言語で同じあることを意味する。この発明により、人間の顔のそれぞれの動きを、言語に固有の音声データに関連付けることができる。このような動きは、統計分析により得られ、非常にリアルなアニメーション効果を与える。実際には、ワイヤフレームに基づいて得られるモデルの場合には、アニメーションは、MPEG−4規格で定義された無表情又は中立的な顔を表す基本モデルに対する動きとして作られた1組の動きを、ワイヤフレームの頂点に適用することに存する。これらの相対的な動きは、ある基本ベクトル(「自動変換」という)の線形結合の結果である。後で説明する分析の一部が、このようなベクトルの組を見つけるのに使用される。その他の部分は、MPEG−4規格で定義された低レベルアニメーションパラメータ(いわゆるFAP(顔アニメーションパラメータ))により表現された変換を各音素に関連付けるのに使用される。
次に、アニメーションすなわち合成段階は、特定の駆動テキスト中の音素に対応するバイスメの系列を、モデルが基礎とするワイヤフレームの頂点についての動きの系列に変換することに存する。
図2は、本発明によるプロセスに関する分析段階をさらに詳細に示す。
話者4が1以上の期間(sessions)において1組の訓練フレーズのうちの幾つかのフレーズを発声し、該人が話している間に声と顔の動きとが適当なサウンド記録装置5とテレビカメラ6により記録される。同時に、発声されたテキストの音声の表記が行われてテキスト中に存在する音素を得る。
声の記録装置は、後続の音声整列を可能にする、即ち種々の音素が発声される複数の時点を識別可能にするべく適切な質を与えるアナログ又はデジタル装置とできる。このことは、時間軸が幾つかのインターバルに分割されることを意味し、その結果、各インターバルはある音素の発声に対応する(図2中の「オーディオセグメンテーション」工程)。ある時点は各インターバルに関連付けられ、各インターバル中の時点は、音素が隣接の音素から受ける影響が最小である。以下、上記時点は、音素にリンクした時点を参照したとき理解されるであろう。
音声整列の概念を明瞭にするために図3と後の表1とが参照できる。両方とも、フレーズ「Un trucchetto geniale gli valse l'assoluzione 」についてそれぞれタイミングの取られた音声分析及び音声表記に関する。
話者4が1以上の期間(sessions)において1組の訓練フレーズのうちの幾つかのフレーズを発声し、該人が話している間に声と顔の動きとが適当なサウンド記録装置5とテレビカメラ6により記録される。同時に、発声されたテキストの音声の表記が行われてテキスト中に存在する音素を得る。
声の記録装置は、後続の音声整列を可能にする、即ち種々の音素が発声される複数の時点を識別可能にするべく適切な質を与えるアナログ又はデジタル装置とできる。このことは、時間軸が幾つかのインターバルに分割されることを意味し、その結果、各インターバルはある音素の発声に対応する(図2中の「オーディオセグメンテーション」工程)。ある時点は各インターバルに関連付けられ、各インターバル中の時点は、音素が隣接の音素から受ける影響が最小である。以下、上記時点は、音素にリンクした時点を参照したとき理解されるであろう。
音声整列の概念を明瞭にするために図3と後の表1とが参照できる。両方とも、フレーズ「Un trucchetto geniale gli valse l'assoluzione 」についてそれぞれタイミングの取られた音声分析及び音声表記に関する。
声と動きの情報収集の後、バイスメの計算段階が続く。
この段階の目的は、各単一の音素に関連するASMパラメータのベクトル、即ちバイスメを決定することである。基本的な基準は、記録された動きを最高に近似できる合成(すなわちアニメーション)を作ることである。合成段階で使用されるパラメータを推定するためにこの基準が本発明において採用されていることを強調することは重要である。このことは、動き追跡中に記録されたフレーズセットに属するフレーズのみならず、どんなフレーズの動きも再生できることを意味する。上述のように、アニメーションは、それぞれの時点に関連した音素によりガイドされる。アニメーション駆動テキストの個々の音素に関連したバイスメが直接的に使用されないならば、音素に関連した複数の時点に対応した動きの表現が非常に不連続なものになるであろう。実際、顔の動きは、連続的な現象であり、従って、動きの連続的な(従ってより自然な)表現を与えるために、隣接するバイスメを補間しなければならない。
補間は、計算されるべきバイスメの凸結合であり、該結合の係数(重み)は時間に従い定められる。全ての係数が[0,1]の区間にあり、かつ、それらの和が1に等しい場合には、線形結合は凸と定義される。一般に、補間係数は、発声の時点を含む小さな区間においてのみ零とは異なる値を有する。発声の時点では、係数値は最大に達する。バイスメに対して補間を実施すること(補間ノードを形成すること)が要求される場合には、全ての係数は、1に等しくしなけらばならない特定バイスメの係数を除いて、ある音素の時点においては零に等しくなければならない。
この段階の目的は、各単一の音素に関連するASMパラメータのベクトル、即ちバイスメを決定することである。基本的な基準は、記録された動きを最高に近似できる合成(すなわちアニメーション)を作ることである。合成段階で使用されるパラメータを推定するためにこの基準が本発明において採用されていることを強調することは重要である。このことは、動き追跡中に記録されたフレーズセットに属するフレーズのみならず、どんなフレーズの動きも再生できることを意味する。上述のように、アニメーションは、それぞれの時点に関連した音素によりガイドされる。アニメーション駆動テキストの個々の音素に関連したバイスメが直接的に使用されないならば、音素に関連した複数の時点に対応した動きの表現が非常に不連続なものになるであろう。実際、顔の動きは、連続的な現象であり、従って、動きの連続的な(従ってより自然な)表現を与えるために、隣接するバイスメを補間しなければならない。
補間は、計算されるべきバイスメの凸結合であり、該結合の係数(重み)は時間に従い定められる。全ての係数が[0,1]の区間にあり、かつ、それらの和が1に等しい場合には、線形結合は凸と定義される。一般に、補間係数は、発声の時点を含む小さな区間においてのみ零とは異なる値を有する。発声の時点では、係数値は最大に達する。バイスメに対して補間を実施すること(補間ノードを形成すること)が要求される場合には、全ての係数は、1に等しくしなけらばならない特定バイスメの係数を除いて、ある音素の時点においては零に等しくなければならない。
【0017】
以下に記載する操作は、合成された動きと共に記録された動きの近似基準を考慮するのに使用される。バイスメベクトルは、行列Vを形成する行にグループ化できる。次に、凸結合の係数は、行ベクトル
【外2】
にグループ化できる。従って、バイスメの凸結合は、積
【外3】
により形成される。係数のベクトルは時間の関数であり、各行がある時点の係数を含む行列Cが形成できる。分析のため、動き追跡データが存在する複数の時点が選択される。積CVは、追跡データ中に含まれる自然な動きを近似できるASMベクトルの行を含む。この工程の目的は、(観測されたフレームの)自然な動きと合成された動きとのギャップを最小にすべく、バイスメを含むV行列中の要素を決定することである。有利には、積CVの行と、記録された動きを表現するASMベクトルとの間の平均二乗距離は、ユークリッド・ルールにより定められるように最小化される。
以下に記載する操作は、合成された動きと共に記録された動きの近似基準を考慮するのに使用される。バイスメベクトルは、行列Vを形成する行にグループ化できる。次に、凸結合の係数は、行ベクトル
【外2】
にグループ化できる。従って、バイスメの凸結合は、積
【外3】
により形成される。係数のベクトルは時間の関数であり、各行がある時点の係数を含む行列Cが形成できる。分析のため、動き追跡データが存在する複数の時点が選択される。積CVは、追跡データ中に含まれる自然な動きを近似できるASMベクトルの行を含む。この工程の目的は、(観測されたフレームの)自然な動きと合成された動きとのギャップを最小にすべく、バイスメを含むV行列中の要素を決定することである。有利には、積CVの行と、記録された動きを表現するASMベクトルとの間の平均二乗距離は、ユークリッド・ルールにより定められるように最小化される。
所与の駆動信号(一般にはフレーズ)を再生するために、まず、音素系列として該フレーズを表記しなければならない。音素の各々は、表1の例に示されるように、それが発声された時点によりラベリングされる。バイスメの離散的な系列は、この離散的な系列に対応する。音素の系列は、再生されるフレーズのソースに従って異なる方法にて得ることができる。スピーチの波形を発生することに加えて、合成されたサウンドの場合には、シンセサイザーが、音声の表記とそれぞれの時間基準を発生する。自然の声の場合には、この情報は、オーディオ信号から抽出しなければならない。一般には、この操作は、発声されたフレーズ中の音素が知られているか否かによって、2つの異なる方法にて実行できる。一方は、「音声整列」と称され、他方は、一般に低質の結果を与える「音声認識」と称される。これらの手順は、全て文献にて公知であるから、本発明の主題ではない。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT2000TO000303A IT1320002B1 (it) | 2000-03-31 | 2000-03-31 | Procedimento per l'animazione di un modello sintetizzato di voltoumano pilotata da un segnale audio. |
IT2000A000303 | 2000-03-31 | ||
ITTO2000A000303 | 2000-03-31 | ||
PCT/IT2001/000117 WO2001075805A1 (en) | 2000-03-31 | 2001-03-09 | Method of animating a synthesised model of a human face driven by an acoustic signal |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003529861A JP2003529861A (ja) | 2003-10-07 |
JP2003529861A5 true JP2003529861A5 (ja) | 2012-01-19 |
JP4913973B2 JP4913973B2 (ja) | 2012-04-11 |
Family
ID=11457634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001573407A Expired - Fee Related JP4913973B2 (ja) | 2000-03-31 | 2001-03-09 | 音響信号により駆動される人間の顔の合成モデルのアニメ化方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7123262B2 (ja) |
EP (1) | EP1203352B1 (ja) |
JP (1) | JP4913973B2 (ja) |
CA (1) | CA2375350C (ja) |
DE (1) | DE60101540T2 (ja) |
IT (1) | IT1320002B1 (ja) |
WO (1) | WO2001075805A1 (ja) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9400921B2 (en) * | 2001-05-09 | 2016-07-26 | Intel Corporation | Method and system using a data-driven model for monocular face tracking |
CN1313979C (zh) * | 2002-05-03 | 2007-05-02 | 三星电子株式会社 | 产生三维漫画的装置和方法 |
ITTO20020724A1 (it) * | 2002-08-14 | 2004-02-15 | Telecom Italia Lab Spa | Procedimento e sistema per la trasmissione di messaggi su |
US8421804B2 (en) | 2005-02-16 | 2013-04-16 | At&T Intellectual Property Ii, L.P. | System and method of streaming 3-D wireframe animations |
WO2005031654A1 (en) * | 2003-09-30 | 2005-04-07 | Koninklijke Philips Electronics, N.V. | System and method for audio-visual content synthesis |
US7142107B2 (en) * | 2004-05-27 | 2006-11-28 | Lawrence Kates | Wireless sensor unit |
TW200540732A (en) * | 2004-06-04 | 2005-12-16 | Bextech Inc | System and method for automatically generating animation |
JP2006004158A (ja) * | 2004-06-17 | 2006-01-05 | Olympus Corp | 画像処理プログラム、画像処理方法、画像処理装置及び記録媒体 |
GB2423905A (en) * | 2005-03-03 | 2006-09-06 | Sean Smith | Animated messaging |
US7388586B2 (en) * | 2005-03-31 | 2008-06-17 | Intel Corporation | Method and apparatus for animation of a human speaker |
US20080158230A1 (en) * | 2006-12-29 | 2008-07-03 | Pictureal Corp. | Automatic facial animation using an image of a user |
WO2008154622A1 (en) * | 2007-06-12 | 2008-12-18 | Myweather, Llc | Presentation of personalized weather information by an animated presenter |
US8743125B2 (en) * | 2008-03-11 | 2014-06-03 | Sony Computer Entertainment Inc. | Method and apparatus for providing natural facial animation |
US8180167B2 (en) * | 2008-07-16 | 2012-05-15 | Seiko Epson Corporation | Model-based error resilience in data communication |
US8224652B2 (en) * | 2008-09-26 | 2012-07-17 | Microsoft Corporation | Speech and text driven HMM-based body animation synthesis |
US8194097B2 (en) * | 2008-12-12 | 2012-06-05 | Seiko Epson Corporation | Virtual masking using rigid parametric modeling |
CN101488346B (zh) * | 2009-02-24 | 2011-11-02 | 深圳先进技术研究院 | 语音可视化系统及语音可视化方法 |
JP5178607B2 (ja) * | 2009-03-31 | 2013-04-10 | 株式会社バンダイナムコゲームス | プログラム、情報記憶媒体、口形状制御方法及び口形状制御装置 |
JP5423379B2 (ja) * | 2009-08-31 | 2014-02-19 | ソニー株式会社 | 画像処理装置および画像処理方法、並びにプログラム |
TWI443601B (zh) * | 2009-12-16 | 2014-07-01 | Ind Tech Res Inst | 擬真臉部動畫系統及其方法 |
US8751228B2 (en) * | 2010-11-04 | 2014-06-10 | Microsoft Corporation | Minimum converted trajectory error (MCTE) audio-to-video engine |
US9728203B2 (en) | 2011-05-02 | 2017-08-08 | Microsoft Technology Licensing, Llc | Photo-realistic synthesis of image sequences with lip movements synchronized with speech |
US9613450B2 (en) * | 2011-05-03 | 2017-04-04 | Microsoft Technology Licensing, Llc | Photo-realistic synthesis of three dimensional animation with facial features synchronized with speech |
TWI521469B (zh) * | 2012-06-27 | 2016-02-11 | Reallusion Inc | Two - dimensional Roles Representation of Three - dimensional Action System and Method |
US9113036B2 (en) | 2013-07-17 | 2015-08-18 | Ebay Inc. | Methods, systems, and apparatus for providing video communications |
US9600742B2 (en) * | 2015-05-05 | 2017-03-21 | Lucasfilm Entertainment Company Ltd. | Determining control values of an animation model using performance capture |
US10839825B2 (en) * | 2017-03-03 | 2020-11-17 | The Governing Council Of The University Of Toronto | System and method for animated lip synchronization |
US10586368B2 (en) | 2017-10-26 | 2020-03-10 | Snap Inc. | Joint audio-video facial animation system |
CN109308731B (zh) * | 2018-08-24 | 2023-04-25 | 浙江大学 | 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 |
EP3664100A1 (en) * | 2018-12-05 | 2020-06-10 | Koninklijke Philips N.V. | Associating non-verbal communication content with verbal communication content |
CN110399849B (zh) * | 2019-07-30 | 2021-07-27 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、处理器、电子设备及存储介质 |
CN113592986B (zh) * | 2021-01-14 | 2023-05-23 | 腾讯科技(深圳)有限公司 | 基于神经网络的动作生成方法、装置及计算设备 |
CN116309988A (zh) * | 2023-02-09 | 2023-06-23 | 华南理工大学 | 一种基于音频驱动的三维人脸动画生成方法、装置及介质 |
CN117877509B (zh) * | 2024-03-13 | 2024-06-04 | 亚信科技(中国)有限公司 | 一种数字人实时交互方法及装置、电子设备、存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0744727A (ja) * | 1993-07-27 | 1995-02-14 | Sony Corp | 画像作成方法およびその装置 |
US5608839A (en) * | 1994-03-18 | 1997-03-04 | Lucent Technologies Inc. | Sound-synchronized video system |
AU3668095A (en) | 1994-11-07 | 1996-05-16 | At & T Corporation | Acoustic-assisted image processing |
US6232965B1 (en) * | 1994-11-30 | 2001-05-15 | California Institute Of Technology | Method and apparatus for synthesizing realistic animations of a human speaking using a computer |
FR2749420B1 (fr) * | 1996-06-03 | 1998-10-02 | Alfonsi Philippe | Procede et dispositif de formation d'images animees d'un interlocuteur |
US6208356B1 (en) * | 1997-03-24 | 2001-03-27 | British Telecommunications Public Limited Company | Image synthesis |
JP2974655B1 (ja) * | 1998-03-16 | 1999-11-10 | 株式会社エイ・ティ・アール人間情報通信研究所 | アニメーションシステム |
US6072496A (en) * | 1998-06-08 | 2000-06-06 | Microsoft Corporation | Method and system for capturing and representing 3D geometry, color and shading of facial expressions and other animated objects |
US6366885B1 (en) * | 1999-08-27 | 2002-04-02 | International Business Machines Corporation | Speech driven lip synthesis using viseme based hidden markov models |
AU2001296459A1 (en) * | 2000-10-02 | 2002-04-15 | Clarity, L.L.C. | Audio visual speech processing |
-
2000
- 2000-03-31 IT IT2000TO000303A patent/IT1320002B1/it active
-
2001
- 2001-03-09 EP EP01917461A patent/EP1203352B1/en not_active Expired - Lifetime
- 2001-03-09 CA CA002375350A patent/CA2375350C/en not_active Expired - Lifetime
- 2001-03-09 WO PCT/IT2001/000117 patent/WO2001075805A1/en active IP Right Grant
- 2001-03-09 US US09/980,373 patent/US7123262B2/en not_active Expired - Lifetime
- 2001-03-09 JP JP2001573407A patent/JP4913973B2/ja not_active Expired - Fee Related
- 2001-03-09 DE DE60101540T patent/DE60101540T2/de not_active Expired - Lifetime
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2003529861A5 (ja) | ||
JP4913973B2 (ja) | 音響信号により駆動される人間の顔の合成モデルのアニメ化方法 | |
US7369992B1 (en) | System and method for triphone-based unit selection for visual speech synthesis | |
AU716673B2 (en) | Automated synchronization of video image sequences to new soundtracks | |
US7133535B2 (en) | System and method for real time lip synchronization | |
JP2518683B2 (ja) | 画像合成方法及びその装置 | |
JP4631078B2 (ja) | リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム | |
JPH10312467A (ja) | 像合成のための自動スピーチ整列方法 | |
JP2002507033A (ja) | 顔合成装置および顔合成方法 | |
JP2002328695A (ja) | テキストからパーソナライズ化音声を生成する方法 | |
JP4543263B2 (ja) | アニメーションデータ作成装置及びアニメーションデータ作成プログラム | |
Wang et al. | Synthesizing photo-real talking head via trajectory-guided sample selection | |
Tamura et al. | Text-to-audio-visual speech synthesis based on parameter generation from HMM | |
Tamura et al. | Visual speech synthesis based on parameter generation from HMM: Speech-driven and text-and-speech-driven approaches | |
Brooke et al. | Two-and three-dimensional audio-visual speech synthesis | |
Wang et al. | Photo-real lips synthesis with trajectory-guided sample selection. | |
Minnis et al. | Modeling visual coarticulation in synthetic talking heads using a lip motion unit inventory with concatenative synthesis | |
JP2001517327A (ja) | スピーチ合成方法 | |
Zhuang et al. | A minimum converted trajectory error (MCTE) approach to high quality speech-to-lips conversion. | |
Morishima et al. | Speech-to-image media conversion based on VQ and neural network | |
Morishima et al. | Facial expression synthesis based on natural voice for virtual face-to-face communication with machine | |
Morishima et al. | A facial image synthesis system for human-machine interface | |
Savran et al. | Speaker-independent 3D face synthesis driven by speech and text | |
Huang et al. | Real-time Lip Synchronization Based on Hidden Markov Models | |
Theobald et al. | A probabilistic trajectory synthesis system for synthesising visual speech. |