JP7299572B2 - 音声信号により駆動される顔アニメーションの生成方法 - Google Patents
音声信号により駆動される顔アニメーションの生成方法 Download PDFInfo
- Publication number
- JP7299572B2 JP7299572B2 JP2021504541A JP2021504541A JP7299572B2 JP 7299572 B2 JP7299572 B2 JP 7299572B2 JP 2021504541 A JP2021504541 A JP 2021504541A JP 2021504541 A JP2021504541 A JP 2021504541A JP 7299572 B2 JP7299572 B2 JP 7299572B2
- Authority
- JP
- Japan
- Prior art keywords
- dimension
- time
- frame
- freq
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Description
本発明は、音声信号により駆動される顔アニメーションの生成方法であって、
の形状のテンソルであり、1次元目のCfreq_conv1は特徴マップ数、2次元目の
は周波数次元の長さ、3次元目のLframeは時間次元の長さを示す。
の形状のテンソルであり、1次元目のCfreq_conv2は特徴マップ数、2次元目の
は周波数次元の長さ、3次元目のLframeは時間次元の長さを示す。
式中、xtは現在の入力であり、ht-1は前のステップでの記憶ユニットの出力であり、itは入力ゲートの数値であり、Wi、biはそれぞれ入力ゲートの重み及びバイアスパラメータであり、ftは忘却ゲートの数値であり、Wf、bfはそれぞれ忘却ゲートの重み及びバイアスパラメータであり、otは出力ゲートの数値であり、Wo、boはそれぞれ出力ゲートの重み及びバイアスパラメータであり、
は現在の入力、前のステップの出力に対する投影であり、Wf、bfはそれぞれ投影の重み及びバイアスパラメータであり、St-1、Stはそれぞれ前のステップ及び現在の記憶ユニットのステートマシンの状態であり、htは現在の記憶ユニットの出力である。
であり、2つの方向の特徴マップ数の和はCfreq_LSTMであり、従って、本ステップでの2つの方向の長・短期記憶ユニットの出力は
の形状のテンソルであり、1次元目のCfreq_LSTMは特徴マップ数、2次元目の
は周波数次元の長さ、3次元目のLframeは時間次元の長さを示す。
の形状のテンソルを得、ただし、1次元目の
は特徴マップ数、2次元目のLframeは時間次元の長さを示し、特徴マップ数がCfreqである1つの完全接続層を使用して投影し、すべての周波数の情報を収集し、Cfreq×Lframeの形状のテンソルである周波数抽象化情報zfreqを得、ただし、1次元目のCfreqは特徴マップ数、2次元目のLframeは時間次元の長さを示す。ここまで、周波数次元は完全に収集され、特徴マップ次元に抽象化される。
であり、2つの方向の特徴マップ数の和はCtimeである。従って、本ステップで得られた時間的なコンテキスト情報mfreqはCtime×Lframeの形状のテンソルであり、1次元目のCtimeは特徴マップ数、2次元目のLframeは時間次元の長さを示す。
本発明は(Robert W Sumner and Jovan Popovic. Deformation transfer for triangle meshes. ACM Transactions on graphics (TOG), 23(3):399-405, 2004.)に記載されている方式を採用して顔モデルの変形勾配を算出する。顔モデルは複数の三角形パッチからなり、vi (k)及び
はそれぞれ顔モデル及び変形後の顔モデル中の第i個の三角形の3つの頂点を示す。三角形に垂直な方向の変形を処理するために、三角形に対して以下の式(2)により第4個の頂点を算出する。
はそれぞれ基準及び変形三角形の3つのベクトルを重ね合わせてなり、
である。
話す者のスタイルを制御するためのCspeaker次元ワンホットベクトルをステップ(3)で得られた時間集約情報zattと連結し、特徴マップ数がCdec0である1つの完全接続層及び負の勾配が0.2の漏洩正規化線形ユニット(Leaky ReLU、LReLU)活性化関数によってzdec(形状はCdec0である)を得る。その後、zdecはそれぞれ2つの構造が類似し並行するニューラルネットワークブランチを経由して、スケーリング/せん断及び回転パラメータを復号する。
与えられた顔モデルとテンプレート顔モデルとのトポロジー構造が異なる場合、ステップ(4)で得られた変形勾配をそのまま使用できず、まず、2つのモデル間の三角形対応関係を取得する必要があり、トポロジー構造が同じであると、そのまま使用できる。
を探索して、与えられた顔モデルをテンプレート顔モデルに最も近い状態に変形する必要がある。以下の3つのエネルギー方程式ES、EI、EC及び拘束条件でのこれらのエネルギー方程式の和Eを定義し、Eを最小化することにより、与えられた顔モデルを目標状態に変形させることができる。
は変形後の与えられた顔モデルの第i個の頂点の位置であり、ciはテンプレート顔モデルで
が最も近い頂点の位置であり、Eは前記の3つのエネルギーアイテムの和であり、
は変形後の与えられた顔モデル中のn個の頂点位置を示し、wS、wI、wCはそれぞれES、EI、ECに対応する重みであり、該エネルギー方程式はユーザーによって与えられたm個の頂点対応関係に服従し、
は第k個の頂点対応関係中の変形後の与えられた顔モデルの頂点位置であり、mkは第k個の頂点対応関係中の頂点の目標位置である。
を探索する必要があり、つまり、変形後の与えられた顔モデルの各頂点について、最も近い頂点をテンプレート顔モデルから探索し、最適化過程に伴って、頂点位置が変化し、最も近い頂点の関係も変化し、従って、最も近い頂点を探索し、上記エネルギー方程式Eを最小化するプロセスのいくつかのステップを反復する必要がある。
ステップ(4)で得られたスケーリング/せん断パラメータs及び回転パラメータrを、テンプレート顔モデルのすべての三角形の変換行列集合
(Nはテンプレート顔モデルの変換行列の数であり、その三角形の数に等しい)に復元し、ステップ(5.1)で得られた三角形対応関係に応じて、与えられた顔モデルの変換行列集合
(M'は与えられた顔モデルの変換行列の数であり、与えられた顔モデル中の1つの三角形kについて、テンプレート顔モデルに対応三角形がない場合、単位行列をkの変換行列として使用し、1つの対応三角形を有する場合、対応三角形の変換行列をkの変換行列として直接使用し、複数の対応三角形を有する場合、kを複数コピーし、それぞれそのうちの1つに対応させ、複数の対応三角形を有する場合があるため、最終的に得た変換行列の数はM'≧Mである)を構築する。
以下のエネルギー方程式(6)を最小化することにより、転移された変形勾配に対応する、与えられた顔モデルの頂点位置
を求め、
を重ね合わせてなり、Aはcと
を関連付けた1つの大規模スパース行列である。エネルギー方程式の勾配を0に設定することによって、
は以下の式(7)によって求められ、
秒の間隔で一連のオーディオウィンドウを取得し、各ウィンドウに対してステップ(1)~ステップ(5)を繰り返して完全なアニメーションを生成し、アニメーションのフレームレートはfpsフレーム/秒である。生成速度はリアルタイムとなり得て、遅延は
(Laudioはステップ(1)に記載された入力オーディオウィンドウの長さである)である。
損失関数について、発明者は教師あり学習の方法を使用してステップ(2)~ステップ(4)に係るニューラルネットワークパラメータを訓練した。音声及びアニメーションデータを組織して複数のデータペア(xt,yt)を形成し、xtは第tフレームのデータに対応する音声信号ウィンドウを示し、ytは対応する変形勾配パラメータを示す。ステップ(4)の記載に応じて、ytはさらにスケーリング/せん断部分st∈R6N及び回転部分rt∈R3Nに分けられる。訓練中、ステップ(4)の出力を
及び
と示した。2つのパラメータ部分に対して、本発明は類似するエネルギーアイテムを使用して拘束し、スケーリング/せん断部分を例とし、エネルギーアイテムは絶対数値を考慮するLd s及び数値時間導関数を考慮するLv sを含み、
Claims (5)
- 音声信号により駆動される顔アニメーションの生成方法であって、以下のステップ(1)~ステップ(6)は、コンピュータにより実行され、
前記生成方法は、
音声特徴を抽出するステップであって、前記コンピュータが、1つのウィンドウ内の音声に対してメルスペクトログラム特徴を抽出し、前記特徴は特徴マップ次元、周波数次元、時間次元からなる三次元テンソルである、前記ステップ(1)と、
周波数情報を収集するステップであって、前記コンピュータが、前記ステップ(1)で得られたメルスペクトログラムに対して、周波数次元方向に沿って、ニューラルネットワークを使用してすべての周波数情報を抽象化し収集し、周波数抽象化情報を得る、前記ステップ(2)と、
時間情報を集約するステップであって、前記コンピュータが、前記ステップ(2)で得られた周波数抽象化情報に対して、時間次元方向に沿って、ニューラルネットワークを使用して時間的なコンテキスト中の各フレームの情報の重要度を決定し、重要度に応じて集約して時間集約情報を得る、前記ステップ(3)と、
動き特徴を復号するステップであって、前記コンピュータが、前記ステップ(3)で得られた時間集約情報を、ユーザーによって入力されたスタイルを制御するワンホットベクトルと連結し、2つのニューラルネットワークブランチを経由してそれぞれスケーリング/せん断係数及び回転係数を出力し、2つのブランチの出力係数を組み合わせて、顔の動きを示す変形勾配を得る、前記ステップ(4)と、
顔モデルを駆動するステップであって、前記コンピュータが、無表情、口を閉じた状態の任意の与えられた顔モデルに対して、前記ステップ(4)で得られた変形勾配を使用して顔モデルを駆動して、対応する顔の動きを作る、前記ステップ(5)と、
信号ウィンドウをスライドさせるステップであって、前記コンピュータが、前記ステップ(1)~前記ステップ(5)を繰り返してすべての音声信号ウィンドウを処理し、完全な顔アニメーションを生成する、前記ステップ(6)と、
を含むことを特徴とする音声信号により駆動される顔アニメーションの生成方法。 - 前記ステップ(1)は、
前記コンピュータが、入力オーディオウィンドウの長さがLaudioの音声信号に対して短時間フーリエ変換(フレーム長さはLfft、フレーム間隔はLhopである。)を行い、Fmel個のメルフィルターを使用してフーリエ変換の結果をメル周波数でのものに変換し、フレーム長さがLaudioのメルスペクトログラムを得るサブステップ(1.1)と、
前記コンピュータが、時間に関するメルスペクトログラムの第1及び第2次導関数を補助特徴とし、オリジナル特徴と重ね合わせて3×Fmel×Lframeの形状のテンソルを形成し、1次元目の3は特徴マップ数、2次元目のFmelは周波数次元の長さ、3次元目のLframeは時間次元の長さを示すサブステップ(1.2)と、
を含むことを特徴とする請求項1に記載の音声信号により駆動される顔アニメーションの生成方法。 - 前記ステップ(2)は、
前記コンピュータが、前記ステップ(1)で得られたメルスペクトログラムに対して、二次元畳み込みネットワークを使用して、メルスペクトログラムの局所周波数特徴を抽出し、前記二次元畳み込みネットワークは順に第1の二次元畳み込み層、第1の二次元最大プーリング層、第2の二次元畳み込み層、及び第2の二次元最大プーリング層を含み、前記2つの二次元畳み込み層は、それぞれ周波数次元方向に沿うサイズがいずれもKfreq×1であるCfreq_conv0、Cfreq_conv1個の畳み込みカーネルによって、入力に対して畳み込み算出を行い、複数の局所特徴マップを取得し、前記局所特徴マップの数は畳み込みカーネルの数と同じであり、Kfreqは周波数次元方向のサイズ、1は時間次元方向のサイズを示し、2つの二次元畳み込み層はいずれも負の勾配が0.2の漏洩正規化線形ユニットを活性化関数として使用し、前記2つの二次元最大プーリング層は、周波数次元方向に沿うサイズがSfreq×1である領域内で局所特徴最大値を選択し、ダウンサンプリングプーリング操作を完了し、得られた局所周波数特徴は1つの
の形状のテンソルであり、1次元目のCfreq_conv1は特徴マップ数、2次元目の
は周波数次元の長さ、3次元目のLframeは時間次元の長さを示すサブステップ(2.1)と、
前記コンピュータが、前記ステップ(2.1)で得られた局所周波数特徴に対して、サイズが1×1であるCfreq_conv2個の畳み込みカーネルを使用して局所周波数特徴を投影し、負の勾配が0.2の漏洩正規化線形ユニットを活性化関数として使用し、出力は1つの
の形状のテンソルであり、1次元目のCfreq_conv2は特徴マップ数、2次元目の
は周波数次元の長さ、3次元目のLframeは時間次元の長さを示し、前記サイズが1×1であることは波数次元及び時間次元の方向のサイズがいずれも1に等しいことを示すサブステップ(2.2)と、
前記コンピュータが、前記ステップ(2.2)で得られた投影後の局所周波数特徴に対して、周波数次元の正逆2つの方向に沿って、それぞれ1つの長・短期記憶ユニットを使用して周波数次元における各特徴を循環的に処理するサブステップ(2.3)と、
前記コンピュータが、前記ステップ(2.3)における周波数次元の正逆2つの方向に沿う長・短期記憶ユニットの出力に対して、すべてを連結して1つのベクトルを形成して
の形状のテンソルを得、1次元目の
は特徴マップ数、2次元目のLframeは時間次元の長さを示し、特徴マップ数がCfreqである1つの完全接続層を使用して投影し、すべての周波数の情報を収集し、Cfreq×Lframeの形状のテンソルである周波数抽象化情報zfreqを得、1次元目のCfreqは特徴マップ数、2次元目のLframeは時間次元の長さを示し、ここまで、周波数次元は完全に収集され、特徴マップ次元に抽象化されるサブステップ(2.4)と、
を含むことを特徴とする請求項1に記載の音声信号により駆動される顔アニメーションの生成方法。 - 前記ステップ(3)は、
前記コンピュータが、前記ステップ(2)で得られた周波数抽象化情報に対して、2つの隠れ層を使用して時間次元情報を伝達し、時間的なコンテキスト情報mfreqを得、前記隠れ層のそれぞれでは、時間次元の正逆方向に沿って、それぞれ1つの長・短期記憶ユニットを使用して時間次元の各フレームを循環的に処理し、時間情報を伝達し、各方向の長・短期記憶ユニットの特徴マップ数はいずれも
であり、2つの方向の特徴マップ数の和はCtimeであり、前記時間的なコンテキスト情報mfreqはCtime×Lframeの形状のテンソルであり、1次元目のCtimeは特徴マップ数、2次元目のLframeは時間次元の長さを示すステップ(3.1)と、
前記コンピュータが、前記ステップ(3.1)で得られた時間的なコンテキスト情報に対して、隠れ層を使用してコンテキスト中の各フレーム情報の重要度重みを評価し、重み付け及び集約を行い、前記隠れ層では、時間的なコンテキスト情報mfreqの中間のKqryフレームを選択し、サイズがKqryであるCatt個の一次元畳み込みカーネルを使用して投影してクエリアイテムqattとし、時間的なコンテキスト情報mfreq全体を線形投影してキーバリューアイテムkattとし、クエリアイテムqattとキーバリューアイテムkattとの和がtanh活性化関数、線形投影及びsoftmax正規化によって、各フレームの重みを取得し、該重みを使用して時間的なコンテキスト情報mfreqに対して重み付け及び集約を行い、時間集約情報zattを得、前記クエリアイテムqattの形状はCatt×1であり、Cattは特徴マップ数であり、畳み込みカーネル数が同じであり、1は時間次元長さであり、キーバリューアイテムkattの形状はCatt×Lframeであり、Cattは特徴マップ数であり、Lframeは時間次元長さであり、前記線形投影の特徴マップ数はCattから1に投影され、前記重みの形状は1×Lframeであり、時間集約情報zattの形状はCtimeであり、Ctimeは特徴マップ数であるステップ(3.2)と、
を含むことを特徴とする請求項1に記載の音声信号により駆動される顔アニメーションの生成方法。 - 前記ステップ(4)では、変形勾配を使用して顔の動きを示し、前記変形勾配は1つのテンプレート顔モデル上で定義され、該テンプレート顔モデルは無表情、口を閉じた状態であり、N個の三角形からなる
ことを特徴とする請求項1に記載の音声信号により駆動される顔アニメーションの生成方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2019/128739 WO2021128173A1 (zh) | 2019-12-26 | 2019-12-26 | 一种语音信号驱动的脸部动画生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022518989A JP2022518989A (ja) | 2022-03-18 |
JP7299572B2 true JP7299572B2 (ja) | 2023-06-28 |
Family
ID=76573630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021504541A Active JP7299572B2 (ja) | 2019-12-26 | 2019-12-26 | 音声信号により駆動される顔アニメーションの生成方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11354841B2 (ja) |
EP (1) | EP3866117A4 (ja) |
JP (1) | JP7299572B2 (ja) |
WO (1) | WO2021128173A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11244668B2 (en) * | 2020-05-29 | 2022-02-08 | TCL Research America Inc. | Device and method for generating speech animation |
CN113781616B (zh) * | 2021-11-08 | 2022-02-08 | 江苏原力数字科技股份有限公司 | 一种基于神经网络的面部动画绑定加速方法 |
CN113822968B (zh) * | 2021-11-24 | 2022-03-04 | 北京影创信息科技有限公司 | 语音实时驱动虚拟人的方法、系统及存储介质 |
CN114155321A (zh) * | 2021-11-26 | 2022-03-08 | 天津大学 | 一种基于自监督和混合密度网络的人脸动画生成方法 |
CN115222856B (zh) * | 2022-05-20 | 2023-09-26 | 一点灵犀信息技术(广州)有限公司 | 表情动画生成方法及电子设备 |
US20230394732A1 (en) * | 2022-06-06 | 2023-12-07 | Samsung Electronics Co., Ltd. | Creating images, meshes, and talking animations from mouth shape data |
US20230410396A1 (en) * | 2022-06-17 | 2023-12-21 | Lemon Inc. | Audio or visual input interacting with video creation |
CN115883753A (zh) * | 2022-11-04 | 2023-03-31 | 网易(杭州)网络有限公司 | 视频的生成方法、装置、计算设备及存储介质 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU3668095A (en) * | 1994-11-07 | 1996-05-16 | At & T Corporation | Acoustic-assisted image processing |
EP1671277A1 (en) * | 2003-09-30 | 2006-06-21 | Koninklijke Philips Electronics N.V. | System and method for audio-visual content synthesis |
US8797328B2 (en) * | 2010-07-23 | 2014-08-05 | Mixamo, Inc. | Automatic generation of 3D character animation from 3D meshes |
US20140278403A1 (en) * | 2013-03-14 | 2014-09-18 | Toytalk, Inc. | Systems and methods for interactive synthetic character dialogue |
CN103279970B (zh) * | 2013-05-10 | 2016-12-28 | 中国科学技术大学 | 一种实时的语音驱动人脸动画的方法 |
GB2517212B (en) * | 2013-08-16 | 2018-04-25 | Toshiba Res Europe Limited | A Computer Generated Emulation of a subject |
US9898849B2 (en) * | 2014-11-05 | 2018-02-20 | Intel Corporation | Facial expression based avatar rendering in video animation and method |
US10796480B2 (en) * | 2015-08-14 | 2020-10-06 | Metail Limited | Methods of generating personalized 3D head models or 3D body models |
US10559111B2 (en) * | 2016-06-23 | 2020-02-11 | LoomAi, Inc. | Systems and methods for generating computer ready animation models of a human head from captured data images |
US10453476B1 (en) * | 2016-07-21 | 2019-10-22 | Oben, Inc. | Split-model architecture for DNN-based small corpus voice conversion |
US10249314B1 (en) * | 2016-07-21 | 2019-04-02 | Oben, Inc. | Voice conversion system and method with variance and spectrum compensation |
US11004461B2 (en) * | 2017-09-01 | 2021-05-11 | Newton Howard | Real-time vocal features extraction for automated emotional or mental state assessment |
US11462209B2 (en) * | 2018-05-18 | 2022-10-04 | Baidu Usa Llc | Spectrogram to waveform synthesis using convolutional networks |
US10755463B1 (en) * | 2018-07-20 | 2020-08-25 | Facebook Technologies, Llc | Audio-based face tracking and lip syncing for natural facial animation and lip movement |
US10593336B2 (en) * | 2018-07-26 | 2020-03-17 | Accenture Global Solutions Limited | Machine learning for authenticating voice |
CN109448083B (zh) * | 2018-09-29 | 2019-09-13 | 浙江大学 | 一种从单幅图像生成人脸动画的方法 |
US20210358496A1 (en) * | 2018-10-03 | 2021-11-18 | Visteon Global Technologies, Inc. | A voice assistant system for a vehicle cockpit system |
US10846522B2 (en) * | 2018-10-16 | 2020-11-24 | Google Llc | Speaking classification using audio-visual data |
US11238885B2 (en) * | 2018-10-29 | 2022-02-01 | Microsoft Technology Licensing, Llc | Computing system for expressive three-dimensional facial animation |
US11114086B2 (en) * | 2019-01-18 | 2021-09-07 | Snap Inc. | Text and audio-based real-time face reenactment |
CN109599113A (zh) * | 2019-01-22 | 2019-04-09 | 北京百度网讯科技有限公司 | 用于处理信息的方法和装置 |
US11049308B2 (en) * | 2019-03-21 | 2021-06-29 | Electronic Arts Inc. | Generating facial position data based on audio data |
US10885693B1 (en) * | 2019-06-21 | 2021-01-05 | Facebook Technologies, Llc | Animating avatars from headset cameras |
US10970907B1 (en) * | 2019-07-02 | 2021-04-06 | Facebook Technologies, Llc | System and method for applying an expression to an avatar |
KR102181901B1 (ko) * | 2019-07-25 | 2020-11-23 | 넷마블 주식회사 | 애니메이션 생성 방법 |
-
2019
- 2019-12-26 EP EP19945413.3A patent/EP3866117A4/en not_active Withdrawn
- 2019-12-26 JP JP2021504541A patent/JP7299572B2/ja active Active
- 2019-12-26 WO PCT/CN2019/128739 patent/WO2021128173A1/zh unknown
-
2021
- 2021-03-29 US US17/214,936 patent/US11354841B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20210233299A1 (en) | 2021-07-29 |
EP3866117A1 (en) | 2021-08-18 |
JP2022518989A (ja) | 2022-03-18 |
WO2021128173A1 (zh) | 2021-07-01 |
EP3866117A4 (en) | 2022-05-04 |
US11354841B2 (en) | 2022-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7299572B2 (ja) | 音声信号により駆動される顔アニメーションの生成方法 | |
US11847727B2 (en) | Generating facial position data based on audio data | |
CN111243065B (zh) | 一种语音信号驱动的脸部动画生成方法 | |
Taylor et al. | A deep learning approach for generalized speech animation | |
Fan et al. | Photo-real talking head with deep bidirectional LSTM | |
Fan et al. | A deep bidirectional LSTM approach for video-realistic talking head | |
Pham et al. | End-to-end learning for 3d facial animation from speech | |
CN113838174B (zh) | 一种音频驱动人脸动画生成方法、装置、设备与介质 | |
Choi et al. | Hidden Markov model inversion for audio-to-visual conversion in an MPEG-4 facial animation system | |
Deena et al. | Visual speech synthesis by modelling coarticulation dynamics using a non-parametric switching state-space model | |
Deng et al. | eFASE: expressive facial animation synthesis and editing with phoneme-isomap controls | |
Chen et al. | Transformer-s2a: Robust and efficient speech-to-animation | |
Pham et al. | End-to-end learning for 3d facial animation from raw waveforms of speech | |
JP2015038725A (ja) | 発話アニメーション生成装置、方法、及びプログラム | |
Liu et al. | Emotional facial expression transfer based on temporal restricted Boltzmann machines | |
Deena et al. | Visual speech synthesis using a variable-order switching shared Gaussian process dynamical model | |
Tang et al. | Real-time conversion from a single 2D face image to a 3D text-driven emotive audio-visual avatar | |
Liu et al. | Real-time speech-driven animation of expressive talking faces | |
Xie et al. | Investigation of stacked deep neural networks and mixture density networks for acoustic-to-articulatory inversion | |
Li et al. | A novel speech-driven lip-sync model with CNN and LSTM | |
Lan et al. | Low level descriptors based DBLSTM bottleneck feature for speech driven talking avatar | |
Deng et al. | Expressive Speech Animation Synthesis with Phoneme‐Level Controls | |
Deena et al. | Speech-driven facial animation using a shared Gaussian process latent variable model | |
Huang et al. | Visual speech emotion conversion using deep learning for 3D talking head | |
Shih et al. | Speech-driven talking face using embedded confusable system for real time mobile multimedia |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220401 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220627 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221102 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230510 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230605 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7299572 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |