JP7299572B2 - 音声信号により駆動される顔アニメーションの生成方法 - Google Patents

音声信号により駆動される顔アニメーションの生成方法 Download PDF

Info

Publication number
JP7299572B2
JP7299572B2 JP2021504541A JP2021504541A JP7299572B2 JP 7299572 B2 JP7299572 B2 JP 7299572B2 JP 2021504541 A JP2021504541 A JP 2021504541A JP 2021504541 A JP2021504541 A JP 2021504541A JP 7299572 B2 JP7299572 B2 JP 7299572B2
Authority
JP
Japan
Prior art keywords
dimension
time
frame
freq
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021504541A
Other languages
English (en)
Other versions
JP2022518989A (ja
Inventor
昆 周
宇▲進▼ 柴
彦琳 翁
律迪 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Publication of JP2022518989A publication Critical patent/JP2022518989A/ja
Application granted granted Critical
Publication of JP7299572B2 publication Critical patent/JP7299572B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Description

本発明は顔アニメーションの分野に関し、特に音声信号により駆動される顔アニメーション(音声アニメーションと略称)の生成方法に関する。
プログラム式の音声アニメーション技術(Yuyu Xu, Andrew W Feng, Stacy Marsella, and Ari Shapiro. A practical and configurable lip sync method for games. In Proceedings of Motion on Games, pages 131-140. ACM, 2013.)(Pif Edwards, Chris Landreth, Eugene Fiume, and Karan Singh. Jali: an animator-centric viseme model for expressive lip synchronization. ACM Transactions on Graphics (TOG), 35(4):127, 2016.)は、音声から発音を反映する音素シーケンス(例えば、英語の音節、中国語のピンイン)を自動で識別し、人間が発音する時の唇の形状に応じて音素をビゼームにグループ化し、且つビゼームごとにアニメーションキーフレームを作成し、所定の同時調音ルールに従ってシーケンス全体を結合して顔アニメーションを得る。これらの技術は通常、人為的に設定されたキーフレーム及び同時調音ルールに制限されてリアルな音声アニメーションを生成できないとともに、音素識別結果の正確性に制限されている。
サンプルに基づく音声アニメーション技術(Tony Ezzat, Gadi Geiger, and Tomaso Poggio. Trainable video-realistic speech animation, volume 21. ACM, 2002.)(Sarah L Taylor, Moshe Mahler, Barry-John Theobald, and Iain Matthews. Dynamic units of visual speech. In Proceedings of the ACM SIGGRAPH/Eurographics Symposium on Computer Animation, pages 275-284. Eurographics Association, 2012.)も音素シーケンスからアニメーションへのマッピングを行うが、アニメーションのリアルさを向上させるために、人為的に設定されたルールを使用せず、データサンプルから複数のアニメーションセグメントを直接抽出して接合する。これらの技術的効果は通常、サンプルの数に制限されているとともに、セグメント接合部に欠陥が生じることが多く、同様に音素識別結果の正確性に制限されている。
Wangらは隠れマルコフ連鎖モデルに基づく技術(Lijuan Wang, Wei Han, Frank Soong, and Qiang Huo. Text-driven 3d photo-realistic talking head. In INTERSPEECH 2011. International Speech Communication Association, September 2011.)を提案しており、該技術では、音声信号からメル周波数ケプストラム係数(Mel-Frequency Cepstral Coefficients、MFCC)を音声特徴として抽出し、二次元画像中の顔のランドマーク(Landmarks)の主成分分析(Principal Component Analysis、PCA)係数をアニメーション特徴として使用する。該技術は隠れマルコフ連鎖によって音声特徴とアニメーション特徴とのマッピング関係をモデリングし、2種の特徴間の自然なルールをマイニングし、サンプルに基づく技術に比べて、データの利用率を向上させる。
近年、ディープニューラルネットワークは音声アニメーション分野の技術のさらなる向上を促進している。Fanら(Bo Fan, Lei Xie, Shan Yang, Lijuan Wang, and Frank K Soong. A deep bidirectional lstm approach for video-realistic talking head. Multimedia Tools and Applications, 75(9):5287-5309, 2016.)は双方向長・短期記憶モジュール(Bidirectional LongShort-Term Memory、BiLSTM)を使用してデータから、音声からアニメーションへのマッピングを学習し、特に自然な同時調音モードを学習し、しかしながら、BiLSTMは音声全体の入力を必要とし、リアルタイム生成が不能である。これをもとに、Suwajanakornらは遅延付きの単方向長・短期記憶モジュール(Supasorn Suwajanakorn, Steven M Seitz, and Ira Kemelmacher-Shlizerman. Synthesizing obama: learning lip sync from audio. ACM Transactions on Graphics (TOG), 36(4):95, 2017.)を提案しており、それは、短い遅延によって後の情報を取得して同時調音の処理を支援し、一定の遅延で高品質の音声アニメーションをリアルタイムに生成することを実現できる。この技術は、大量のデータを必要とし、且つ特定の人物の顔ビデオを生成するしかできないという点で制限されている。
Talyorら(Sarah Taylor, Taehwan Kim, Yisong Yue, Moshe Mahler, James Krahe, Anastasio Garcia Rodriguez, Jessica Hodgins, and Iain Matthews. A deep learning approach for generalized speech animation. ACM Transactions on Graphics (TOG), 36(4):93, 2017.)はスライディングウィンドウ技術を提案しており、該技術では、ディープニューラルネットワーク(DeepNeuralNetwork、DNN)を使用して1つのウィンドウ長さ内の音素を顔のクティブアピアランスモデル(Active Appearance Model、AAM)係数にマッピングし、入力された音素ウィンドウは短いコンテキスト情報を含み、それがDNNによって自然な発音モードの学習に好適に使用できる。Karrasら(Tero Karras, Timo Aila, Samuli Laine, Antti Herva, and Jaakko Lehtinen. Audio-driven facial animation by joint end-to-end learning of pose and emotion. ACM Transactions on Graphics (TOG), 36(4):94, 2017.)はさらにスライディングウィンドウ技術を向上し、この技術では、入力は1つのウィンドウの線形予測符号(LinearPredictiveCoding、LPC)音声特徴であり、2段階の畳み込みニューラルネットワーク(特徴次元に対応するフォルマント分析段階、時間次元に対応する発音段階)、及び2層の完全接続ネットワークによって、1フレームの三次元顔モデルの頂点位置を出力する。これら2種の技術は、特に入力される音声がモデルの訓練音声と大きく異なる場合、汎用性が低い。Cudeiroら(Daniel Cudeiro, Timo Bolkart, Cassidy Laidlaw, Anurag Ranjan, and Michael Black. Capture, learning, and synthesis of 3D speaking styles. Computer Vision and Pattern Recognition (CVPR), pages 10101-10111, 2019.)はさらに改良し、従来の音声識別モジュールを利用して音声特徴を抽出し、汎用性を向上させる一方、導入された音声識別モジュールの体積が大きすぎるため、該技術によるアニメーションの生成速度が遅い。
本発明は、従来技術の欠陥に対して、音声信号により駆動される顔アニメーションの生成方法を提供することを目的とする。本発明は、メルスペクトログラムを使用して音声信号の周波数特徴を抽出し、無表情、口を閉じた顔モデルを参照して算出された変形勾配は、アニメーション中の顔の動きを示すことに使用される。本発明は3段階(ステップ(2)~(4)に対応する)のディープニューラルネットワークによって1つのウィンドウのメルスペクトログラム特徴を1フレームの変形勾配にマッピングし、変形勾配は任意の顔モデルを駆動することに使用でき、出力のスタイルはディープニューラルネットワークにおいてワンホットベクトルによって表示制御することができる。
本発明の目的は以下の技術案によって実現される。
本発明は、音声信号により駆動される顔アニメーションの生成方法であって、
1つのウィンドウ内の音声に対してメルスペクトログラム(Mel Spectrogram)特徴を抽出し、前記特徴は特徴マップ次元、周波数次元、時間次元からなる三次元テンソル(Tensor)である、音声特徴を抽出するステップ(1)と、
ステップ(1)で得られたメルスペクトログラムに対して、周波数次元方向に沿って、ニューラルネットワーク(Neural Network)を使用して、すべての周波数情報を抽象化し収集し、周波数抽象化情報を得る、周波数情報を収集するステップ(2)と、
ステップ(2)で得られた周波数抽象化情報に対して、時間次元方向に沿って、ニューラルネットワークを使用して時間的なコンテキスト中の各フレームの情報の重要度を決定し、重要度に応じて集約して時間集約情報を得る、時間情報を集約するステップ(3)と、
ステップ(3)で得られた時間集約情報を、ユーザーによって入力されたスタイルを制御するワンホット(One-Hot)ベクトルと連結し、2つの類似するニューラルネットワークブランチを経由してそれぞれスケーリング/せん断(Scaling/Shearing)係数及び回転(Rotation)係数を出力し、2つのブランチの出力係数を組み合わせて、顔の動きを示す変形勾配(Deformation Gradients)を得る、動き特徴を復号するステップ(4)と、
任意の与えられた顔モデル(無表情、口を閉じた状態)に対して、ステップ(4)で得られた変形勾配を使用して顔モデルを駆動して、対応する顔の動きを行う、顔モデルを駆動するステップ(5)と、
ステップ(1)~ステップ(5)を繰り返してすべての音声信号ウィンドウを処理し、完全な顔アニメーションを生成する、信号ウィンドウをスライドさせるステップ(6)と、を含む音声信号により駆動される顔アニメーションの生成方法。
本発明によって、以下の有益な効果が得られる。周波数情報を収集する方法であるステップ(2)は、メルスペクトログラム特性に基づいて設計されており、音声特徴をロバストに抽象化でき、時間情報を集約する方法であるステップ(3)は、子音、母音の発音原理に基づいて設計されており、人間の自然な発音モードを効率よく学習でき、ステップ(4)では音声により駆動される顔アニメーションにおいて変形勾配を使用して顔の動きを示すことが初めて提案された。これにより、顔の動きの局所的な変化をより正確に表すことができる。本方法は現在最も先進的な音声駆動の顔アニメーションの技術レベルに達し、軽量化、ロバスト性、及びリアルタイム性(一定の遅延で)という特徴を有する。本発明はVRバーチャルソーシャル、仮想音声アシスタントやゲーム等のアプリケーションで音声信号を使用して顔アニメーションの生成を駆動することができる。
図1は本発明における方法の概略フローチャートである。 図2は本発明における方法においてちステップ(2)のサブステップ(2.3)の前記記憶ユニットの動作の概略フローチャートである。 図3は本発明における方法においてステップ(3)の概略フローチャートである。 図4は音声信号を使用して顔モデルアニメーションを駆動する本発明の実施例では、人間の顔モデルが英語単語「smash」を話すように駆動するアニメーションフレームの順次抜粋である。 図5は音声信号を使用して顔モデルアニメーションを駆動する本発明の実施例では、漫画の動物の顔モデルが英語単語「smash」を話すように駆動するアニメーションフレームの順次抜粋である。
本発明の中核な技術は、周波数次元の畳み込み及び双方向長・短期記憶モジュールを利用して音声特徴を抽象化し、時間次元の双方向長・短期記憶及びアテンションモジュールを利用してウィンドウ内の時間的なコンテキスト情報を集約し、変形勾配を使用して顔の動きを示すことである。図1に示すように、該方法は主として、音声特徴を抽出するステップ、周波数情報を収集するステップ、時間情報を集約するステップ、動き特徴を復号するステップ、顔モデルを駆動するステップ、及び最後に1つの音声シーケンス上で信号ウィンドウをスライドさせて前記の5つのステップを繰り返し続けて完全なアニメーションシーケンスを取得するステップの六つのステップに分けられる。
ステップ(1):音声特徴を抽出する。即ち、1つのウィンドウ内の音声に対してメルスペクトログラム(MelSpectrogram)特徴を抽出し、前記特徴は特徴マップ次元、周波数次元、時間次元からなる三次元テンソル(Tensor)である。
ステップ(1.1):入力オーディオウィンドウの長さがLaudioの音声信号に対して短時間フーリエ変換(フレーム長さはLfft、フレーム間隔はLhop)を行い、Fmel個のメルフィルター(MelFilters)を使用してフーリエ変換の結果をメル周波数でのものに変換し、フレーム長さがLframeのメルスペクトログラムを得る。
ステップ(1.2):時間に関するメルスペクトログラムの第1及び第2次導関数を補助特徴とし、オリジナル特徴と重ね合わせて3×Fmel×Lframeの形状のテンソル(Tensor)を形成し、1次元目の3は特徴マップ数、2次元目のFmelは周波数次元の長さ、3次元目のLframeは時間次元の長さを示す。
ステップ(2):周波数情報を収集する。即ち、ステップ(1)で得られたメルスペクトログラムに対して、周波数次元方向に沿って、ニューラルネットワーク(NeuralNetwork)を使用して、すべての周波数情報を抽象化し、収集し、周波数抽象化情報を得る。
ステップ(2.1):ステップ(1)で得られたメルスペクトログラムに対して、二次元畳み込みネットワークを使用して、メルスペクトログラムの局所周波数特徴を抽出し、前記二次元畳み込みネットワークは順に第1の二次元畳み込み層、第1の二次元最大プーリング層、第2の二次元畳み込み層、及び第2の二次元最大プーリング層を含み、前記2つの二次元畳み込み層は、それぞれ周波数次元方向に沿うCfreq_conv0、Cfreq_conv1個の畳み込みカーネル(サイズはいずれもKfreq×1であり、Kfreqは周波数次元方向のサイズ、1は時間次元方向のサイズを示す)によって、入力に対して畳み込み算出を行い、複数の局所特徴マップ(数は畳み込みカーネルの数と同じ)を取得し、2つの二次元畳み込み層はいずれも負の勾配が0.2の漏洩正規化線形ユニット(Leaky ReLU、LReLU)を活性化関数として使用し、前記2つの二次元最大プーリング層は、周波数次元方向に沿う1つの領域内(サイズはいずれもSfreq×1)で局所特徴最大値を選択し、ダウンサンプリングプーリング操作を完了し、得られた局所周波数特徴は1つの
Figure 0007299572000001
の形状のテンソルであり、1次元目のCfreq_conv1は特徴マップ数、2次元目の
Figure 0007299572000002
は周波数次元の長さ、3次元目のLframeは時間次元の長さを示す。
ステップ(2.2):ステップ(2.1)で得られた局所周波数特徴に対して、サイズが1×1(周波数次元及び時間次元の方向のサイズがいずれも1に等しい)であるCfreq_conv2個の畳み込みカーネルを使用して局所周波数特徴を投影し、負の勾配が0.2の漏洩正規化線形ユニット(Leaky ReLU、LReLU)を活性化関数として使用し、出力は1つの
Figure 0007299572000003
の形状のテンソルであり、1次元目のCfreq_conv2は特徴マップ数、2次元目の
Figure 0007299572000004
は周波数次元の長さ、3次元目のLframeは時間次元の長さを示す。
ステップ(2.3):ステップ(2.2)で得られた投影後の局所周波数特徴に対して、周波数次元の正逆2つの方向に沿って、それぞれ1つの長・短期記憶ユニットを使用して周波数次元における各特徴を循環的に処理し、図2に示すように、前記長・短期記憶ユニットは1つのステートマシン(記憶ユニットの履歴情報を格納することに用いられる)及び3つのゲートを有し、入力ゲートitは各周波数特徴xt(xは入力、添字tは第t個の入力の時点を示す)及び前のステップでの記憶ユニットの出力ht-1(hは出力、添字t-1は第t-1個の入力の時点、すなわち、前のステップを示す)に作用し、新たな周波数特徴情報を記憶ユニットのステートマシンに追加することを許可するか否かを示し、数値は0~1(両端を含む)であり、入力ゲートの数値が1(すなわち、ゲート開き)である場合、新情報を追加し、0(すなわち、ゲート閉じ)である場合、ゼロベクトルを追加し、0から1までの中間数値である場合、新情報をゲート数値と乗算して追加し、忘却ゲートftは記憶ユニットのステートマシンに作用し、前のステップでステートマシンに格納された履歴周波数情報St-1(Sはステートマシンの状態、添字t-1は第t-1個の入力の時点、すなわち、前のステップを示す)を保留するか否かを示し、数値が0~1(両端を含む)であり、忘却ゲートの数値が1(すなわち、ゲート開き)である場合、格納された情報を保留し、0(すなわち、ゲート閉じ)である場合、格納された情報をゼロベクトルにリセットし、0から1までの中間数値である場合、格納された情報をゲートの数値と乗算して保留し、出力ゲートotは記憶ユニットのステートマシンに作用し、現在の記憶ユニットの状態St(Sはステートマシンの状態、添字tは第t個の入力の時点を示す)を出力とするか否かを示し、数値が0~1(両端を含む)であり、1(すなわち、ゲート開き)である場合、現在の記憶ユニットの状態を出力とし、0(すなわち、ゲート閉じ)である場合、ゼロベクトルを出力し、0から1までの中間数値である場合、現在の記憶ユニットの状態をゲートの数値と乗算したものを出力とし、3つのゲートの具体的な数値は、現在の入力xtと前のステップでの該記憶ユニットの出力ht-1を連結及び投影して得られ、具体的には、次の式に示される。
Figure 0007299572000005

式中、xtは現在の入力であり、ht-1は前のステップでの記憶ユニットの出力であり、itは入力ゲートの数値であり、Wi、biはそれぞれ入力ゲートの重み及びバイアスパラメータであり、ftは忘却ゲートの数値であり、Wf、bfはそれぞれ忘却ゲートの重み及びバイアスパラメータであり、otは出力ゲートの数値であり、Wo、boはそれぞれ出力ゲートの重み及びバイアスパラメータであり、
Figure 0007299572000006
は現在の入力、前のステップの出力に対する投影であり、Wf、bfはそれぞれ投影の重み及びバイアスパラメータであり、St-1、Stはそれぞれ前のステップ及び現在の記憶ユニットのステートマシンの状態であり、htは現在の記憶ユニットの出力である。
各方向の長・短期記憶ユニットの特徴マップ数は
Figure 0007299572000007
であり、2つの方向の特徴マップ数の和はCfreq_LSTMであり、従って、本ステップでの2つの方向の長・短期記憶ユニットの出力は
Figure 0007299572000008
の形状のテンソルであり、1次元目のCfreq_LSTMは特徴マップ数、2次元目の
Figure 0007299572000009
は周波数次元の長さ、3次元目のLframeは時間次元の長さを示す。
長・短期記憶ユニットのステートマシン及びステートマシンの周りを周回する3つのゲートによって、ある周波数特徴を分析する際に、ほかの周波数の特徴を十分に考慮でき、人間が発音する時にフォルマントが出現する自然現象に順応する。
ステップ(2.4):ステップ(2.3)における周波数次元の正逆2つの方向に沿う長・短期記憶ユニットの出力に対して、すべてを連結して1つのベクトルを形成して
Figure 0007299572000010
の形状のテンソルを得、ただし、1次元目の
Figure 0007299572000011
は特徴マップ数、2次元目のLframeは時間次元の長さを示し、特徴マップ数がCfreqである1つの完全接続層を使用して投影し、すべての周波数の情報を収集し、Cfreq×Lframeの形状のテンソルである周波数抽象化情報zfreqを得、ただし、1次元目のCfreqは特徴マップ数、2次元目のLframeは時間次元の長さを示す。ここまで、周波数次元は完全に収集され、特徴マップ次元に抽象化される。
ステップ(3):時間情報を集約する。即ち、ステップ(2)で得られた周波数抽象化情報に対して、時間次元方向に沿って、ニューラルネットワークを使用して時間的なコンテキスト中の各フレームの情報の重要度を決定し、重要度に応じて集約して時間集約情報を得る。具体的なフローは図3に示すとおりである。
ステップ(3.1):ステップ(2)で得られた周波数抽象化情報に対して、2つの隠れ層を使用して時間次元のコンテキスト情報を伝達し、前記隠れ層のそれぞれでは、時間次元の正逆方向に沿って、それぞれ1つの長・短期記憶ユニットを使用して時間次元の各フレームを循環的に処理し、時間情報を伝達し、前記長・短期記憶ユニットはステップ(2.3)のにおける前記長・短期記憶ユニットの構造原理と同じであるが、時間次元方向に作用し、1つのステートマシン(記憶ユニットの履歴情報を格納することに用いられる)及び3つのゲートを有し、入力ゲートは各フレームの時間特徴及び前のステップでの記憶ユニットの出力に作用し、新たな時間フレーム情報を記憶ユニットのステートマシンに追加することを許可するか否かを示し、数値が0~1(両端を含む)であり、入力ゲートの数値が1(すなわち、ゲート開き)である場合、新情報を追加し、0(すなわち、ゲート閉じ)である場合、ゼロベクトルを追加し、0から1までの中間数値である場合、新情報をゲートの数値と乗算して追加し、忘却ゲートは記憶ユニットのステートマシンに作用し、前のステップでステートマシンに格納された履歴時間情報を保留するか否かを示し、数値が0~1(両端を含む)であり、忘却ゲートの数値が1(すなわち、ゲート開き)である場合、格納された情報を保留し、0(すなわち、ゲート閉じ)である場合、格納された情報をゼロベクトルにリセットし、0から1までの中間数値である場合、格納された情報をゲートの数値と乗算して保留し、出力ゲートは記憶ユニットのステートマシンに作用し、現在の記憶ユニットの状態を出力とするか否かを示し、数値が0~1(両端を含む)であり、1(すなわちゲート開き)である場合、現在の記憶ユニットの状態を出力とし、0(すなわち、ゲート閉じ)である場合、ゼロベクトルを出力し、0から1までの中間数値である場合、現在の記憶ユニットの状態をゲート数値と乗算したものを出力とし、3つのゲートの具体的な数値は、現在の入力時間フレーム(又は前の隠れ層の出力)と前のステップでの該ユニットの出力を連結及び投影して得られる。
各方向の長・短期記憶ユニットの特徴マップ数はいずれも
Figure 0007299572000012
であり、2つの方向の特徴マップ数の和はCtimeである。従って、本ステップで得られた時間的なコンテキスト情報mfreqはCtime×Lframeの形状のテンソルであり、1次元目のCtimeは特徴マップ数、2次元目のLframeは時間次元の長さを示す。
ステップ(3.2):ステップ(3.1)で得られた時間的なコンテキスト情報に対して、隠れ層を使用してコンテキスト中の各フレーム情報の重要度重みを評価し、重み付け及び集約を行い、前記隠れ層では、時間的なコンテキスト情報mfreqの中間のKqryフレームを選択し、Catt個の一次元畳み込みカーネル(サイズもKqryである)を使用して投影してクエリアイテムqatt(形状はCatt×1であり、Cattは特徴マップ数であり、畳み込みカーネルの数と同じであり、1は時間次元の長さである)とし、時間的なコンテキスト情報mfreq全体を線形投影してキーバリューアイテムkatt(形状はCatt×Lframeであり、Cattは特徴マップ数であり、Lframeは時間次元の長さである)とし、クエリアイテムqattとキーバリューアイテムkattとの和がtanh活性化関数、線形投影(特徴マップ数をCattから1に投影する)及びsoftmax正規化によって、各フレームの重み(形状は1×Lframeである)を取得し、該重みを使用して時間的なコンテキスト情報mfreqに対して重み付け及び集約を行い、時間集約情報zatt(形状はCtimeであり、Ctimeは特徴マップ数である)を得、前記隠れ層は時間次元の重みによって人間の自然な発音モードを模倣する。例えば、母音の発音は時間が長いが、子音の発音は瞬間的な発音として表され且つ該子音の前後の遷移母音に関連している。
ステップ(4):動き特徴を復号する。即ち、ステップ(3)で得られた時間集約情報を、ユーザーによって入力されたスタイルを制御するワンホット(One-Hot)ベクトルと連結し、2つの類似するニューラルネットワークブランチを経由してそれぞれスケーリング/せん断(Scaling/Shearing)係数及び回転(Rotation)係数を出力し、2つのブランチの出力係数を組み合わせて、顔の動きを示す変形勾配(Deformation Gradients)を得る。
本発明は、音声により駆動される音声アニメーションでは、初めて変形勾配を使用して顔の動きを示し、従来の技術に比べて、顔の動きの局所変化をより正確に記述できる。
(4.1):変形勾配
本発明は(Robert W Sumner and Jovan Popovic. Deformation transfer for triangle meshes. ACM Transactions on graphics (TOG), 23(3):399-405, 2004.)に記載されている方式を採用して顔モデルの変形勾配を算出する。顔モデルは複数の三角形パッチからなり、vi (k)及び
Figure 0007299572000013
はそれぞれ顔モデル及び変形後の顔モデル中の第i個の三角形の3つの頂点を示す。三角形に垂直な方向の変形を処理するために、三角形に対して以下の式(2)により第4個の頂点を算出する。
Figure 0007299572000014
第i個の三角形の変形勾配は以下の式(3)を満たす変換行列Tiであり、
Figure 0007299572000015
Vi及び
Figure 0007299572000016
はそれぞれ基準及び変形三角形の3つのベクトルを重ね合わせてなり、
Figure 0007299572000017
従って、
Figure 0007299572000018
である。
本発明はさらに(Qianyi Wu, Juyong Zhang, Yu-Kun Lai, Jianmin Zheng, and Jianfei Cai. Alive caricature from 2d to 3d. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7336-7345, 2018.)に記載されている方法を採用して変換行列を極分解し、Ti=Ri Siである。Siはスケーリング/せん断変換を示し、対称行列であり、6個のパラメータで表すことができ、Riは回転変換を示し、Rodrigues' formulaを使用して3個のパラメータで表すことができる。従って、各三角形の変形勾配は9個のパラメータで示される。
本発明における変形勾配は、1つのテンプレート顔モデル上で定義され、該テンプレート顔モデルは無表情、口を閉じた状態であり、N個の三角形からなり、従って対応する変形勾配は9N=6N+3N個のパラメータを含む。
(4.2):動きの復号
話す者のスタイルを制御するためのCspeaker次元ワンホットベクトルをステップ(3)で得られた時間集約情報zattと連結し、特徴マップ数がCdec0である1つの完全接続層及び負の勾配が0.2の漏洩正規化線形ユニット(Leaky ReLU、LReLU)活性化関数によってzdec(形状はCdec0である)を得る。その後、zdecはそれぞれ2つの構造が類似し並行するニューラルネットワークブランチを経由して、スケーリング/せん断及び回転パラメータを復号する。
各ブランチでは、zdecは再びCspeaker次元ワンホット制御ベクトルと連結し、且つ3つの完全接続層によって投影を行い、第1個の完全接続層の特徴マップ数はCdec1、活性化関数は負の勾配が0.2のLReLUであり、第2個の特徴マップ数はCdec2、活性化関数はtanhであり、第3個は活性化関数がなく(スケーリング/せん断及び回転ブランチでは、特徴マップ数はそれぞれCpca_s及びCpca_rである)。ブランチの最後には、固定する線形完全接続層(スケーリング/せん断及び回転ブランチでは、特徴マップ数はそれぞれ6N及び3Nである)であり、そのパラメータは該ブランチに対応する訓練データの主成分分析基底及び平均値によって初期化され、主成分分析過程で97%のエネルギーを保留し、スケーリング/せん断及び回転ブランチでは、保留される基底数はそれぞれCpca_s及びCpca_r(上記ブランチの第3個の完全接続層の特徴マップ数と同じである)である。2つのブランチはそれぞれ復号して、スケーリング/せん断を示すパラメータs(大きさは6N)及び回転を示すパラメータr(大きさは3N)を得る。
ステップ(5):顔モデルを駆動する。即ち、任意の与えられた顔モデル(無表情、口を閉じた状態)に対して、ステップ(4)で得られた変形勾配を使用して顔モデルを駆動して、対応する顔の動きを行う。
ステップ(5.1):与えられた顔モデル(M個の三角形からなる)とテンプレート顔モデル(N個の三角形からなる)との三角形対応関係(本サブステップでは、与えられたモデルごとに1回実行すればよい)を取得する。
与えられた顔モデルとテンプレート顔モデルとのトポロジー構造が異なる場合、ステップ(4)で得られた変形勾配をそのまま使用できず、まず、2つのモデル間の三角形対応関係を取得する必要があり、トポロジー構造が同じであると、そのまま使用できる。
本発明は(Robert W Sumner and Jovan Popovic. Deformation transfer for triangle meshes. ACM Transactions on graphics (TOG), 23(3):399-405, 2004.)に記載されている方法を採用し、ユーザーが複数の頂点対応関係を与えている場合、異なるトポロジーの2つの顔モデル間の三角形対応関係を自動的に求める。
前記自動的に求める方法では、まず、一連の変換行列(スケーリング/せん断及び回転変換を含むが、並進変換(translation transformation)は除外する)
Figure 0007299572000019
を探索して、与えられた顔モデルをテンプレート顔モデルに最も近い状態に変形する必要がある。以下の3つのエネルギー方程式ES、EI、EC及び拘束条件でのこれらのエネルギー方程式の和Eを定義し、Eを最小化することにより、与えられた顔モデルを目標状態に変形させることができる。
Figure 0007299572000020
式中、ESは変形の滑らかさを拘束するエネルギーを示し、Mは与えられた顔モデル中の三角形の数であり、adj(i)は第i個の三角形の周囲に隣接する三角形の集合を示し、EIは変形程度を拘束するエネルギーを示し、Iは単位行列を示し、ECは変形後の2つのモデルの頂点距離のエネルギーを示し、nは与えられた顔モデル中の頂点の数であり、
Figure 0007299572000021
は変形後の与えられた顔モデルの第i個の頂点の位置であり、ciはテンプレート顔モデルで
Figure 0007299572000022
が最も近い頂点の位置であり、Eは前記の3つのエネルギーアイテムの和であり、
Figure 0007299572000023
は変形後の与えられた顔モデル中のn個の頂点位置を示し、wS、wI、wCはそれぞれES、EI、ECに対応する重みであり、該エネルギー方程式はユーザーによって与えられたm個の頂点対応関係に服従し、
Figure 0007299572000024
は第k個の頂点対応関係中の変形後の与えられた顔モデルの頂点位置であり、mkは第k個の頂点対応関係中の頂点の目標位置である。
上記エネルギー方程式Eを最小化する過程では、
Figure 0007299572000025
を探索する必要があり、つまり、変形後の与えられた顔モデルの各頂点について、最も近い頂点をテンプレート顔モデルから探索し、最適化過程に伴って、頂点位置が変化し、最も近い頂点の関係も変化し、従って、最も近い頂点を探索し、上記エネルギー方程式Eを最小化するプロセスのいくつかのステップを反復する必要がある。
与えられた顔モデルをテンプレート顔モデルに最も近い状態に変形させた後、テンプレート顔モデル及び変形後の与えられた顔モデル中のすべての三角形の重心を算出する。変形後の与えられた顔モデル中の各三角形について、テンプレート顔モデルから合理的な対応三角形を探索し、重心距離が所定の閾値未満で(手動で調整)且つ2つの法線ベクトルの夾角が90°未満であることを満たす必要がある。同様に、テンプレート顔モデル中の各三角形について、変形後の与えられた顔モデルから合理的な対応三角形を探索する。すべての合理的な対応関係は、2つのモデル間の三角形対応関係を構成する。
ステップ(5.2):対応するテンプレート顔モデルの変形勾配を与えられた顔モデルに転移する。
ステップ(4)で得られたスケーリング/せん断パラメータs及び回転パラメータrを、テンプレート顔モデルのすべての三角形の変換行列集合
Figure 0007299572000026
(Nはテンプレート顔モデルの変換行列の数であり、その三角形の数に等しい)に復元し、ステップ(5.1)で得られた三角形対応関係に応じて、与えられた顔モデルの変換行列集合
Figure 0007299572000027
(M'は与えられた顔モデルの変換行列の数であり、与えられた顔モデル中の1つの三角形kについて、テンプレート顔モデルに対応三角形がない場合、単位行列をkの変換行列として使用し、1つの対応三角形を有する場合、対応三角形の変換行列をkの変換行列として直接使用し、複数の対応三角形を有する場合、kを複数コピーし、それぞれそのうちの1つに対応させ、複数の対応三角形を有する場合があるため、最終的に得た変換行列の数はM'≧Mである)を構築する。
ステップ(5.3):転移された変形勾配に応じて、与えられた顔モデルの頂点位置を求める。
以下のエネルギー方程式(6)を最小化することにより、転移された変形勾配に対応する、与えられた顔モデルの頂点位置
Figure 0007299572000028
を求め、
Figure 0007299572000029
式中、cは
Figure 0007299572000030
を重ね合わせてなり、Aはcと
Figure 0007299572000031
を関連付けた1つの大規模スパース行列である。エネルギー方程式の勾配を0に設定することによって、
Figure 0007299572000032
は以下の式(7)によって求められ、
Figure 0007299572000033
Aが与えられた顔モデルのみに関連するため、A及びATAは事前算出可能であり、且つモデルごとに1回事前算出すればよい。
ステップ(6):信号ウィンドウをスライドさせる。即ち、ステップ(1)~ステップ(5)を繰り返してすべての音声信号ウィンドウを処理し、完全な顔アニメーションを生成する。
入力音声信号全体において、
Figure 0007299572000034
秒の間隔で一連のオーディオウィンドウを取得し、各ウィンドウに対してステップ(1)~ステップ(5)を繰り返して完全なアニメーションを生成し、アニメーションのフレームレートはfpsフレーム/秒である。生成速度はリアルタイムとなり得て、遅延は
Figure 0007299572000035
(Laudioはステップ(1)に記載された入力オーディオウィンドウの長さである)である。
実施例
損失関数について、発明者は教師あり学習の方法を使用してステップ(2)~ステップ(4)に係るニューラルネットワークパラメータを訓練した。音声及びアニメーションデータを組織して複数のデータペア(xt,yt)を形成し、xtは第tフレームのデータに対応する音声信号ウィンドウを示し、ytは対応する変形勾配パラメータを示す。ステップ(4)の記載に応じて、ytはさらにスケーリング/せん断部分st∈R6N及び回転部分rt∈R3Nに分けられる。訓練中、ステップ(4)の出力を
Figure 0007299572000036
及び
Figure 0007299572000037
と示した。2つのパラメータ部分に対して、本発明は類似するエネルギーアイテムを使用して拘束し、スケーリング/せん断部分を例とし、エネルギーアイテムは絶対数値を考慮するLd s及び数値時間導関数を考慮するLv sを含み、
Figure 0007299572000038
回転部分について、Ld r及びLv rの定義方式は上記式と類似する。最終的な損失関数は4個のエネルギーアイテムの重み付き和であり、重みはKarrasら(Tero Karras, Timo Aila, Samuli Laine, Antti Herva, and Jaakko Lehtinen. Audio-driven facial animation by joint end-to-end learning of pose and emotion. ACM Transactions on Graphics (TOG), 36(4):94, 2017.)によって提案されている技術を使用して自動ダイナミックバランスを行った。
訓練例について、発明者は、IntelCorei7-8700K中央処理装置(3.70GHz)、NVIDIAGTX1080Tiグラフィックプロセッサ(11GB)を配置したコンピュータで本発明の例を実施した。実施中、データベースVOCASET(Daniel Cudeiro, Timo Bolkart, Cassidy Laidlaw, Anurag Ranjan, and Michael Black. Capture, learning, and synthesis of 3D speaking styles. Computer Vision and Pattern Recognition (CVPR), pages 10101-10111, 2019.)を使用してモデルを訓練した。
モデルパラメータについて、本発明者が本発明の例を実施する時、ステップ(1)~(6)に係るパラメータは以下の通りである。
(1)音声特徴を抽出するステップにおいて、オーディオウィンドウの長さはLaudio=0.568秒、短時間フーリエ変換のフレーム長さはLfft=0.064秒、フレーム間隔はLhop=0.008秒、メルフィルターの数はFmel=128、得たメルスペクトログラムフレームの数はLframe=64であった。
(2)周波数情報を収集するステップにおいて、畳み込みカーネルの数(畳み込み後の特徴マップの数でもあった)はそれぞれCfreq_conv0=32、Cfreq_conv1=64、Cfreq_conv2=64であり、前の2層の畳み込みカーネルのサイズはKfreq=3であり、プーリング領域のサイズはSfreq=2であり、周波数次元の双方向長・短期記憶ユニットの特徴マップ数の和はCfreq_LSTM=64(すなわち、単方向特徴マップ数は32であった)であり、完全接続投影された特徴マップ数はCfreq=256であった。
(3)時間情報を集約するステップにおいて、時間次元の双方向長・短期記憶ユニットの特徴マップ数の和はCtime=512(すなわち、単方向特徴マップ数は256であった)であり、アテンションモジュールではKqry=3、Catt=128であった。
(4)動き特徴を復号するステップにおいて、テンプレート顔モデルの三角形の数はN=9976であり、話す者スタイルを制御するベクトル次元はCspeaker=8であり、第1個の完全接続層の特徴マップ数はCdec0=512であり、各ブランチにおける最初の2つの完全接続層の特徴マップ数はCdec1=512、Cdec2=256であり、スケーリング/せん断のパラメータsが保留した主成分分析基底数(スケーリング/せん断ブランチにおける第3個の完全接続層の特徴マップ数でもあった)はCpca_s=85であり、回転パラメータrが保留した主成分分析基底数(回転ブランチにおける第3個の完全接続層の特徴マップ数でもあった)はCpca_r=180であった。
(5)顔モデルを駆動するステップにおいて、Mは具体的に与えられたモデルのパラメータに応じて決定され、ステップ(5.1)で式(5)を反復して最適化する過程において、第1のステップではwS=1.0、wI=0.001、wC=0であり、その後、4つのステップを反復し、wCは1から5000になった。
(6)信号ウィンドウをスライドさせるステップにおいて、ステップ(1)~(5)を繰り返し、アニメーションのフレームレートはfps=60であった。
例にかかる時間について、VOCASETの顔モデルをテンプレート顔モデル(9976個の三角形からなる)とし、VOCASETのデータ上でモデルを50回の反復で訓練し、約5時間がかかった。入力された音声信号に対して、各ウィンドウが1フレームのアニメーションを生成する(ステップ(1)から(5)までであり、ステップ(5)ではテンプレート顔モデルを直接駆動した)ことに約10ミリ秒がかかり、速度がリアルタイムとなった。トポロジー構造がテンプレート顔モデルと異なるほかの与えられた顔モデルの場合、ステップ(5.1)に従ってモデルの三角形対応関係の設定を事前に行う必要があり、モデルの複雑さ及び実施者の熟練度に応じて、約15~40分間がかかり、任意のモデルに対して、この作業は1回行えばよいこととなった。
アニメーション抜粋について、本発明者は本発明の例を実施し、音声信号を使用して顔アニメーションを駆動した。VOCASETの顔モデルを使用して音声アニメーションを生成し、その順次抜粋フレームは図4に示され(図中の人物は英語単語「smash」を話している)、トポロジーがテンプレート顔モデルと異なる漫画の動物の顔モデルを使用して音声アニメーションを生成し、その順次抜粋フレームは図5に示された(図中の漫画の動物は英語単語「smash」を話している)。

Claims (5)

  1. 音声信号により駆動される顔アニメーションの生成方法であって、以下のステップ(1)~ステップ(6)は、コンピュータにより実行され、
    前記生成方法は、
    音声特徴を抽出するステップであって、前記コンピュータが、1つのウィンドウ内の音声に対してメルスペクトログラム特徴を抽出し、前記特徴は特徴マップ次元、周波数次元、時間次元からなる三次元テンソルである、前記ステップ(1)と、
    周波数情報を収集するステップであって、前記コンピュータが、前記ステップ(1)で得られたメルスペクトログラムに対して、周波数次元方向に沿って、ニューラルネットワークを使用してすべての周波数情報を抽象化し収集し、周波数抽象化情報を得る、前記ステップ(2)と、
    時間情報を集約するステップであって、前記コンピュータが、前記ステップ(2)で得られた周波数抽象化情報に対して、時間次元方向に沿って、ニューラルネットワークを使用して時間的なコンテキスト中の各フレームの情報の重要度を決定し、重要度に応じて集約して時間集約情報を得る、前記ステップ(3)と、
    動き特徴を復号するステップであって、前記コンピュータが、前記ステップ(3)で得られた時間集約情報を、ユーザーによって入力されたスタイルを制御するワンホットベクトルと連結し、2つのニューラルネットワークブランチを経由してそれぞれスケーリング/せん断係数及び回転係数を出力し、2つのブランチの出力係数を組み合わせて、顔の動きを示す変形勾配を得る、前記ステップ(4)と、
    顔モデルを駆動するステップであって、前記コンピュータが、無表情、口を閉じた状態の任意の与えられた顔モデルに対して、前記ステップ(4)で得られた変形勾配を使用して顔モデルを駆動して、対応する顔の動きを作る、前記ステップ(5)と、
    信号ウィンドウをスライドさせるステップであって、前記コンピュータが、前記ステップ(1)~前記ステップ(5)を繰り返してすべての音声信号ウィンドウを処理し、完全な顔アニメーションを生成する、前記ステップ(6)と、
    を含むことを特徴とする音声信号により駆動される顔アニメーションの生成方法。
  2. 前記ステップ(1)は、
    前記コンピュータが、入力オーディオウィンドウの長さがLaudioの音声信号に対して短時間フーリエ変換(フレーム長さはLfft、フレーム間隔はLhopである。)を行い、Fmel個のメルフィルターを使用してフーリエ変換の結果をメル周波数でのものに変換し、フレーム長さがLaudioのメルスペクトログラムを得るサブステップ(1.1)と、
    前記コンピュータが、時間に関するメルスペクトログラムの第1及び第2次導関数を補助特徴とし、オリジナル特徴と重ね合わせて3×Fmel×Lframeの形状のテンソルを形成し、1次元目の3は特徴マップ数、2次元目のFmelは周波数次元の長さ、3次元目のLframeは時間次元の長さを示すサブステップ(1.2)と、
    を含むことを特徴とする請求項1に記載の音声信号により駆動される顔アニメーションの生成方法。
  3. 前記ステップ(2)は、
    前記コンピュータが、前記ステップ(1)で得られたメルスペクトログラムに対して、二次元畳み込みネットワークを使用して、メルスペクトログラムの局所周波数特徴を抽出し、前記二次元畳み込みネットワークは順に第1の二次元畳み込み層、第1の二次元最大プーリング層、第2の二次元畳み込み層、及び第2の二次元最大プーリング層を含み、前記2つの二次元畳み込み層は、それぞれ周波数次元方向に沿うサイズがいずれもKfreq×1であるCfreq_conv0、Cfreq_conv1個の畳み込みカーネルによって、入力に対して畳み込み算出を行い、複数の局所特徴マップを取得し、前記局所特徴マップの数は畳み込みカーネルの数と同じであり、Kfreqは周波数次元方向のサイズ、1は時間次元方向のサイズを示し、2つの二次元畳み込み層はいずれも負の勾配が0.2の漏洩正規化線形ユニットを活性化関数として使用し、前記2つの二次元最大プーリング層は、周波数次元方向に沿うサイズがSfreq×1である領域内で局所特徴最大値を選択し、ダウンサンプリングプーリング操作を完了し、得られた局所周波数特徴は1つの
    Figure 0007299572000039
    の形状のテンソルであり、1次元目のCfreq_conv1は特徴マップ数、2次元目の
    Figure 0007299572000040
    は周波数次元の長さ、3次元目のLframeは時間次元の長さを示すサブステップ(2.1)と、
    前記コンピュータが、前記ステップ(2.1)で得られた局所周波数特徴に対して、サイズが1×1であるCfreq_conv2個の畳み込みカーネルを使用して局所周波数特徴を投影し、負の勾配が0.2の漏洩正規化線形ユニットを活性化関数として使用し、出力は1つの
    Figure 0007299572000041
    の形状のテンソルであり、1次元目のCfreq_conv2は特徴マップ数、2次元目の
    Figure 0007299572000042
    は周波数次元の長さ、3次元目のLframeは時間次元の長さを示し、前記サイズが1×1であることは波数次元及び時間次元の方向のサイズがいずれも1に等しいことを示すサブステップ(2.2)と、
    前記コンピュータが、前記ステップ(2.2)で得られた投影後の局所周波数特徴に対して、周波数次元の正逆2つの方向に沿って、それぞれ1つの長・短期記憶ユニットを使用して周波数次元における各特徴を循環的に処理するサブステップ(2.3)と、
    前記コンピュータが、前記ステップ(2.3)における周波数次元の正逆2つの方向に沿う長・短期記憶ユニットの出力に対して、すべてを連結して1つのベクトルを形成して
    Figure 0007299572000043
    の形状のテンソルを得、1次元目の
    Figure 0007299572000044
    は特徴マップ数、2次元目のLframeは時間次元の長さを示し、特徴マップ数がCfreqである1つの完全接続層を使用して投影し、すべての周波数の情報を収集し、Cfreq×Lframeの形状のテンソルである周波数抽象化情報zfreqを得、1次元目のCfreqは特徴マップ数、2次元目のLframeは時間次元の長さを示し、ここまで、周波数次元は完全に収集され、特徴マップ次元に抽象化されるサブステップ(2.4)と、
    を含むことを特徴とする請求項1に記載の音声信号により駆動される顔アニメーションの生成方法。
  4. 前記ステップ(3)は、
    前記コンピュータが、前記ステップ(2)で得られた周波数抽象化情報に対して、2つの隠れ層を使用して時間次元情報を伝達し、時間的なコンテキスト情報mfreqを得、前記隠れ層のそれぞれでは、時間次元の正逆方向に沿って、それぞれ1つの長・短期記憶ユニットを使用して時間次元の各フレームを循環的に処理し、時間情報を伝達し、各方向の長・短期記憶ユニットの特徴マップ数はいずれも
    Figure 0007299572000045
    であり、2つの方向の特徴マップ数の和はCtimeであり、前記時間的なコンテキスト情報mfreqはCtime×Lframeの形状のテンソルであり、1次元目のCtimeは特徴マップ数、2次元目のLframeは時間次元の長さを示すステップ(3.1)と、
    前記コンピュータが、前記ステップ(3.1)で得られた時間的なコンテキスト情報に対して、隠れ層を使用してコンテキスト中の各フレーム情報の重要度重みを評価し、重み付け及び集約を行い、前記隠れ層では、時間的なコンテキスト情報mfreqの中間のKqryフレームを選択し、サイズがKqryであるCatt個の一次元畳み込みカーネルを使用して投影してクエリアイテムqattとし、時間的なコンテキスト情報mfreq全体を線形投影してキーバリューアイテムkattとし、クエリアイテムqattとキーバリューアイテムkattとの和がtanh活性化関数、線形投影及びsoftmax正規化によって、各フレームの重みを取得し、該重みを使用して時間的なコンテキスト情報mfreqに対して重み付け及び集約を行い、時間集約情報zattを得、前記クエリアイテムqattの形状はCatt×1であり、Cattは特徴マップ数であり、畳み込みカーネル数が同じであり、1は時間次元長さであり、キーバリューアイテムkattの形状はCatt×Lframeであり、Cattは特徴マップ数であり、Lframeは時間次元長さであり、前記線形投影の特徴マップ数はCattから1に投影され、前記重みの形状は1×Lframeであり、時間集約情報zattの形状はCtimeであり、Ctimeは特徴マップ数であるステップ(3.2)と、
    を含むことを特徴とする請求項1に記載の音声信号により駆動される顔アニメーションの生成方法。
  5. 前記ステップ(4)では、変形勾配を使用して顔の動きを示し、前記変形勾配は1つのテンプレート顔モデル上で定義され、該テンプレート顔モデルは無表情、口を閉じた状態であり、N個の三角形からなる
    ことを特徴とする請求項1に記載の音声信号により駆動される顔アニメーションの生成方法。
JP2021504541A 2019-12-26 2019-12-26 音声信号により駆動される顔アニメーションの生成方法 Active JP7299572B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/128739 WO2021128173A1 (zh) 2019-12-26 2019-12-26 一种语音信号驱动的脸部动画生成方法

Publications (2)

Publication Number Publication Date
JP2022518989A JP2022518989A (ja) 2022-03-18
JP7299572B2 true JP7299572B2 (ja) 2023-06-28

Family

ID=76573630

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021504541A Active JP7299572B2 (ja) 2019-12-26 2019-12-26 音声信号により駆動される顔アニメーションの生成方法

Country Status (4)

Country Link
US (1) US11354841B2 (ja)
EP (1) EP3866117A4 (ja)
JP (1) JP7299572B2 (ja)
WO (1) WO2021128173A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11244668B2 (en) * 2020-05-29 2022-02-08 TCL Research America Inc. Device and method for generating speech animation
CN113781616B (zh) * 2021-11-08 2022-02-08 江苏原力数字科技股份有限公司 一种基于神经网络的面部动画绑定加速方法
CN113822968B (zh) * 2021-11-24 2022-03-04 北京影创信息科技有限公司 语音实时驱动虚拟人的方法、系统及存储介质
CN114155321A (zh) * 2021-11-26 2022-03-08 天津大学 一种基于自监督和混合密度网络的人脸动画生成方法
CN115222856B (zh) * 2022-05-20 2023-09-26 一点灵犀信息技术(广州)有限公司 表情动画生成方法及电子设备
US20230394732A1 (en) * 2022-06-06 2023-12-07 Samsung Electronics Co., Ltd. Creating images, meshes, and talking animations from mouth shape data
US20230410396A1 (en) * 2022-06-17 2023-12-21 Lemon Inc. Audio or visual input interacting with video creation
CN115883753A (zh) * 2022-11-04 2023-03-31 网易(杭州)网络有限公司 视频的生成方法、装置、计算设备及存储介质

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU3668095A (en) * 1994-11-07 1996-05-16 At & T Corporation Acoustic-assisted image processing
EP1671277A1 (en) * 2003-09-30 2006-06-21 Koninklijke Philips Electronics N.V. System and method for audio-visual content synthesis
US8797328B2 (en) * 2010-07-23 2014-08-05 Mixamo, Inc. Automatic generation of 3D character animation from 3D meshes
US20140278403A1 (en) * 2013-03-14 2014-09-18 Toytalk, Inc. Systems and methods for interactive synthetic character dialogue
CN103279970B (zh) * 2013-05-10 2016-12-28 中国科学技术大学 一种实时的语音驱动人脸动画的方法
GB2517212B (en) * 2013-08-16 2018-04-25 Toshiba Res Europe Limited A Computer Generated Emulation of a subject
US9898849B2 (en) * 2014-11-05 2018-02-20 Intel Corporation Facial expression based avatar rendering in video animation and method
US10796480B2 (en) * 2015-08-14 2020-10-06 Metail Limited Methods of generating personalized 3D head models or 3D body models
US10559111B2 (en) * 2016-06-23 2020-02-11 LoomAi, Inc. Systems and methods for generating computer ready animation models of a human head from captured data images
US10453476B1 (en) * 2016-07-21 2019-10-22 Oben, Inc. Split-model architecture for DNN-based small corpus voice conversion
US10249314B1 (en) * 2016-07-21 2019-04-02 Oben, Inc. Voice conversion system and method with variance and spectrum compensation
US11004461B2 (en) * 2017-09-01 2021-05-11 Newton Howard Real-time vocal features extraction for automated emotional or mental state assessment
US11462209B2 (en) * 2018-05-18 2022-10-04 Baidu Usa Llc Spectrogram to waveform synthesis using convolutional networks
US10755463B1 (en) * 2018-07-20 2020-08-25 Facebook Technologies, Llc Audio-based face tracking and lip syncing for natural facial animation and lip movement
US10593336B2 (en) * 2018-07-26 2020-03-17 Accenture Global Solutions Limited Machine learning for authenticating voice
CN109448083B (zh) * 2018-09-29 2019-09-13 浙江大学 一种从单幅图像生成人脸动画的方法
US20210358496A1 (en) * 2018-10-03 2021-11-18 Visteon Global Technologies, Inc. A voice assistant system for a vehicle cockpit system
US10846522B2 (en) * 2018-10-16 2020-11-24 Google Llc Speaking classification using audio-visual data
US11238885B2 (en) * 2018-10-29 2022-02-01 Microsoft Technology Licensing, Llc Computing system for expressive three-dimensional facial animation
US11114086B2 (en) * 2019-01-18 2021-09-07 Snap Inc. Text and audio-based real-time face reenactment
CN109599113A (zh) * 2019-01-22 2019-04-09 北京百度网讯科技有限公司 用于处理信息的方法和装置
US11049308B2 (en) * 2019-03-21 2021-06-29 Electronic Arts Inc. Generating facial position data based on audio data
US10885693B1 (en) * 2019-06-21 2021-01-05 Facebook Technologies, Llc Animating avatars from headset cameras
US10970907B1 (en) * 2019-07-02 2021-04-06 Facebook Technologies, Llc System and method for applying an expression to an avatar
KR102181901B1 (ko) * 2019-07-25 2020-11-23 넷마블 주식회사 애니메이션 생성 방법

Also Published As

Publication number Publication date
US20210233299A1 (en) 2021-07-29
EP3866117A1 (en) 2021-08-18
JP2022518989A (ja) 2022-03-18
WO2021128173A1 (zh) 2021-07-01
EP3866117A4 (en) 2022-05-04
US11354841B2 (en) 2022-06-07

Similar Documents

Publication Publication Date Title
JP7299572B2 (ja) 音声信号により駆動される顔アニメーションの生成方法
US11847727B2 (en) Generating facial position data based on audio data
CN111243065B (zh) 一种语音信号驱动的脸部动画生成方法
Taylor et al. A deep learning approach for generalized speech animation
Fan et al. Photo-real talking head with deep bidirectional LSTM
Fan et al. A deep bidirectional LSTM approach for video-realistic talking head
Pham et al. End-to-end learning for 3d facial animation from speech
CN113838174B (zh) 一种音频驱动人脸动画生成方法、装置、设备与介质
Choi et al. Hidden Markov model inversion for audio-to-visual conversion in an MPEG-4 facial animation system
Deena et al. Visual speech synthesis by modelling coarticulation dynamics using a non-parametric switching state-space model
Deng et al. eFASE: expressive facial animation synthesis and editing with phoneme-isomap controls
Chen et al. Transformer-s2a: Robust and efficient speech-to-animation
Pham et al. End-to-end learning for 3d facial animation from raw waveforms of speech
JP2015038725A (ja) 発話アニメーション生成装置、方法、及びプログラム
Liu et al. Emotional facial expression transfer based on temporal restricted Boltzmann machines
Deena et al. Visual speech synthesis using a variable-order switching shared Gaussian process dynamical model
Tang et al. Real-time conversion from a single 2D face image to a 3D text-driven emotive audio-visual avatar
Liu et al. Real-time speech-driven animation of expressive talking faces
Xie et al. Investigation of stacked deep neural networks and mixture density networks for acoustic-to-articulatory inversion
Li et al. A novel speech-driven lip-sync model with CNN and LSTM
Lan et al. Low level descriptors based DBLSTM bottleneck feature for speech driven talking avatar
Deng et al. Expressive Speech Animation Synthesis with Phoneme‐Level Controls
Deena et al. Speech-driven facial animation using a shared Gaussian process latent variable model
Huang et al. Visual speech emotion conversion using deep learning for 3D talking head
Shih et al. Speech-driven talking face using embedded confusable system for real time mobile multimedia

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220401

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230605

R150 Certificate of patent or registration of utility model

Ref document number: 7299572

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150