JP7299572B2

JP7299572B2 - 音声信号により駆動される顔アニメーションの生成方法

Info

Publication number: JP7299572B2
Application number: JP2021504541A
Authority: JP
Inventors: 昆周; 宇▲進▼ 柴; 彦琳翁; 律迪王
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2023-06-28
Anticipated expiration: 2039-12-26
Also published as: US20210233299A1; EP3866117A1; JP2022518989A; WO2021128173A1; EP3866117A4; US11354841B2

Description

本発明は顔アニメーションの分野に関し、特に音声信号により駆動される顔アニメーション（音声アニメーションと略称）の生成方法に関する。

プログラム式の音声アニメーション技術（ＹｕｙｕＸｕ，ＡｎｄｒｅｗＷＦｅｎｇ，ＳｔａｃｙＭａｒｓｅｌｌａ，ａｎｄＡｒｉＳｈａｐｉｒｏ．Ａｐｒａｃｔｉｃａｌａｎｄｃｏｎｆｉｇｕｒａｂｌｅｌｉｐｓｙｎｃｍｅｔｈｏｄｆｏｒｇａｍｅｓ．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆＭｏｔｉｏｎｏｎＧａｍｅｓ，ｐａｇｅｓ１３１－１４０．ＡＣＭ，２０１３．）（ＰｉｆＥｄｗａｒｄｓ，ＣｈｒｉｓＬａｎｄｒｅｔｈ，ＥｕｇｅｎｅＦｉｕｍｅ，ａｎｄＫａｒａｎＳｉｎｇｈ．Ｊａｌｉ：ａｎａｎｉｍａｔｏｒ－ｃｅｎｔｒｉｃｖｉｓｅｍｅｍｏｄｅｌｆｏｒｅｘｐｒｅｓｓｉｖｅｌｉｐｓｙｎｃｈｒｏｎｉｚａｔｉｏｎ．ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＧｒａｐｈｉｃｓ（ＴＯＧ），３５（４）：１２７，２０１６．）は、音声から発音を反映する音素シーケンス（例えば、英語の音節、中国語のピンイン）を自動で識別し、人間が発音する時の唇の形状に応じて音素をビゼームにグループ化し、且つビゼームごとにアニメーションキーフレームを作成し、所定の同時調音ルールに従ってシーケンス全体を結合して顔アニメーションを得る。これらの技術は通常、人為的に設定されたキーフレーム及び同時調音ルールに制限されてリアルな音声アニメーションを生成できないとともに、音素識別結果の正確性に制限されている。

サンプルに基づく音声アニメーション技術（ＴｏｎｙＥｚｚａｔ，ＧａｄｉＧｅｉｇｅｒ，ａｎｄＴｏｍａｓｏＰｏｇｇｉｏ．Ｔｒａｉｎａｂｌｅｖｉｄｅｏ－ｒｅａｌｉｓｔｉｃｓｐｅｅｃｈａｎｉｍａｔｉｏｎ，ｖｏｌｕｍｅ２１．ＡＣＭ，２００２．）（ＳａｒａｈＬＴａｙｌｏｒ，ＭｏｓｈｅＭａｈｌｅｒ，Ｂａｒｒｙ－ＪｏｈｎＴｈｅｏｂａｌｄ，ａｎｄＩａｉｎＭａｔｔｈｅｗｓ．Ｄｙｎａｍｉｃｕｎｉｔｓｏｆｖｉｓｕａｌｓｐｅｅｃｈ．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＣＭＳＩＧＧＲＡＰＨ／ＥｕｒｏｇｒａｐｈｉｃｓＳｙｍｐｏｓｉｕｍｏｎＣｏｍｐｕｔｅｒＡｎｉｍａｔｉｏｎ，ｐａｇｅｓ２７５－２８４．ＥｕｒｏｇｒａｐｈｉｃｓＡｓｓｏｃｉａｔｉｏｎ，２０１２．）も音素シーケンスからアニメーションへのマッピングを行うが、アニメーションのリアルさを向上させるために、人為的に設定されたルールを使用せず、データサンプルから複数のアニメーションセグメントを直接抽出して接合する。これらの技術的効果は通常、サンプルの数に制限されているとともに、セグメント接合部に欠陥が生じることが多く、同様に音素識別結果の正確性に制限されている。

Ｗａｎｇらは隠れマルコフ連鎖モデルに基づく技術（ＬｉｊｕａｎＷａｎｇ，ＷｅｉＨａｎ，ＦｒａｎｋＳｏｏｎｇ，ａｎｄＱｉａｎｇＨｕｏ．Ｔｅｘｔ－ｄｒｉｖｅｎ３ｄｐｈｏｔｏ－ｒｅａｌｉｓｔｉｃｔａｌｋｉｎｇｈｅａｄ．ＩｎＩＮＴＥＲＳＰＥＥＣＨ２０１１．ＩｎｔｅｒｎａｔｉｏｎａｌＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎＡｓｓｏｃｉａｔｉｏｎ，Ｓｅｐｔｅｍｂｅｒ２０１１．）を提案しており、該技術では、音声信号からメル周波数ケプストラム係数（Ｍｅｌ－ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ、ＭＦＣＣ）を音声特徴として抽出し、二次元画像中の顔のランドマーク（Ｌａｎｄｍａｒｋｓ）の主成分分析（ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ、ＰＣＡ）係数をアニメーション特徴として使用する。該技術は隠れマルコフ連鎖によって音声特徴とアニメーション特徴とのマッピング関係をモデリングし、２種の特徴間の自然なルールをマイニングし、サンプルに基づく技術に比べて、データの利用率を向上させる。

近年、ディープニューラルネットワークは音声アニメーション分野の技術のさらなる向上を促進している。Ｆａｎら（ＢｏＦａｎ，ＬｅｉＸｉｅ，ＳｈａｎＹａｎｇ，ＬｉｊｕａｎＷａｎｇ，ａｎｄＦｒａｎｋＫＳｏｏｎｇ．Ａｄｅｅｐｂｉｄｉｒｅｃｔｉｏｎａｌｌｓｔｍａｐｐｒｏａｃｈｆｏｒｖｉｄｅｏ－ｒｅａｌｉｓｔｉｃｔａｌｋｉｎｇｈｅａｄ．ＭｕｌｔｉｍｅｄｉａＴｏｏｌｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，７５（９）：５２８７－５３０９，２０１６．）は双方向長・短期記憶モジュール（ＢｉｄｉｒｅｃｔｉｏｎａｌＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ、ＢｉＬＳＴＭ）を使用してデータから、音声からアニメーションへのマッピングを学習し、特に自然な同時調音モードを学習し、しかしながら、ＢｉＬＳＴＭは音声全体の入力を必要とし、リアルタイム生成が不能である。これをもとに、Ｓｕｗａｊａｎａｋｏｒｎらは遅延付きの単方向長・短期記憶モジュール（ＳｕｐａｓｏｒｎＳｕｗａｊａｎａｋｏｒｎ，ＳｔｅｖｅｎＭＳｅｉｔｚ，ａｎｄＩｒａＫｅｍｅｌｍａｃｈｅｒ－Ｓｈｌｉｚｅｒｍａｎ．Ｓｙｎｔｈｅｓｉｚｉｎｇｏｂａｍａ：ｌｅａｒｎｉｎｇｌｉｐｓｙｎｃｆｒｏｍａｕｄｉｏ．ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＧｒａｐｈｉｃｓ（ＴＯＧ），３６（４）：９５，２０１７．）を提案しており、それは、短い遅延によって後の情報を取得して同時調音の処理を支援し、一定の遅延で高品質の音声アニメーションをリアルタイムに生成することを実現できる。この技術は、大量のデータを必要とし、且つ特定の人物の顔ビデオを生成するしかできないという点で制限されている。

Ｔａｌｙｏｒら（ＳａｒａｈＴａｙｌｏｒ，ＴａｅｈｗａｎＫｉｍ，ＹｉｓｏｎｇＹｕｅ，ＭｏｓｈｅＭａｈｌｅｒ，ＪａｍｅｓＫｒａｈｅ，ＡｎａｓｔａｓｉｏＧａｒｃｉａＲｏｄｒｉｇｕｅｚ，ＪｅｓｓｉｃａＨｏｄｇｉｎｓ，ａｎｄＩａｉｎＭａｔｔｈｅｗｓ．Ａｄｅｅｐｌｅａｒｎｉｎｇａｐｐｒｏａｃｈｆｏｒｇｅｎｅｒａｌｉｚｅｄｓｐｅｅｃｈａｎｉｍａｔｉｏｎ．ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＧｒａｐｈｉｃｓ（ＴＯＧ），３６（４）：９３，２０１７．）はスライディングウィンドウ技術を提案しており、該技術では、ディープニューラルネットワーク（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ、ＤＮＮ）を使用して１つのウィンドウ長さ内の音素を顔のクティブアピアランスモデル（ＡｃｔｉｖｅＡｐｐｅａｒａｎｃｅＭｏｄｅｌ、ＡＡＭ）係数にマッピングし、入力された音素ウィンドウは短いコンテキスト情報を含み、それがＤＮＮによって自然な発音モードの学習に好適に使用できる。Ｋａｒｒａｓら（ＴｅｒｏＫａｒｒａｓ，ＴｉｍｏＡｉｌａ，ＳａｍｕｌｉＬａｉｎｅ，ＡｎｔｔｉＨｅｒｖａ，ａｎｄＪａａｋｋｏＬｅｈｔｉｎｅｎ．Ａｕｄｉｏ－ｄｒｉｖｅｎｆａｃｉａｌａｎｉｍａｔｉｏｎｂｙｊｏｉｎｔｅｎｄ－ｔｏ－ｅｎｄｌｅａｒｎｉｎｇｏｆｐｏｓｅａｎｄｅｍｏｔｉｏｎ．ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＧｒａｐｈｉｃｓ（ＴＯＧ），３６（４）：９４，２０１７．）はさらにスライディングウィンドウ技術を向上し、この技術では、入力は１つのウィンドウの線形予測符号（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ、ＬＰＣ）音声特徴であり、２段階の畳み込みニューラルネットワーク（特徴次元に対応するフォルマント分析段階、時間次元に対応する発音段階）、及び２層の完全接続ネットワークによって、１フレームの三次元顔モデルの頂点位置を出力する。これら２種の技術は、特に入力される音声がモデルの訓練音声と大きく異なる場合、汎用性が低い。Ｃｕｄｅｉｒｏら（ＤａｎｉｅｌＣｕｄｅｉｒｏ，ＴｉｍｏＢｏｌｋａｒｔ，ＣａｓｓｉｄｙＬａｉｄｌａｗ，ＡｎｕｒａｇＲａｎｊａｎ，ａｎｄＭｉｃｈａｅｌＢｌａｃｋ．Ｃａｐｔｕｒｅ，ｌｅａｒｎｉｎｇ，ａｎｄｓｙｎｔｈｅｓｉｓｏｆ３Ｄｓｐｅａｋｉｎｇｓｔｙｌｅｓ．ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），ｐａｇｅｓ１０１０１－１０１１１，２０１９．）はさらに改良し、従来の音声識別モジュールを利用して音声特徴を抽出し、汎用性を向上させる一方、導入された音声識別モジュールの体積が大きすぎるため、該技術によるアニメーションの生成速度が遅い。

本発明は、従来技術の欠陥に対して、音声信号により駆動される顔アニメーションの生成方法を提供することを目的とする。本発明は、メルスペクトログラムを使用して音声信号の周波数特徴を抽出し、無表情、口を閉じた顔モデルを参照して算出された変形勾配は、アニメーション中の顔の動きを示すことに使用される。本発明は３段階（ステップ（２）～（４）に対応する）のディープニューラルネットワークによって１つのウィンドウのメルスペクトログラム特徴を１フレームの変形勾配にマッピングし、変形勾配は任意の顔モデルを駆動することに使用でき、出力のスタイルはディープニューラルネットワークにおいてワンホットベクトルによって表示制御することができる。

本発明の目的は以下の技術案によって実現される。
本発明は、音声信号により駆動される顔アニメーションの生成方法であって、

１つのウィンドウ内の音声に対してメルスペクトログラム（ＭｅｌＳｐｅｃｔｒｏｇｒａｍ）特徴を抽出し、前記特徴は特徴マップ次元、周波数次元、時間次元からなる三次元テンソル（Ｔｅｎｓｏｒ）である、音声特徴を抽出するステップ（１）と、

ステップ（１）で得られたメルスペクトログラムに対して、周波数次元方向に沿って、ニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）を使用して、すべての周波数情報を抽象化し収集し、周波数抽象化情報を得る、周波数情報を収集するステップ（２）と、

ステップ（２）で得られた周波数抽象化情報に対して、時間次元方向に沿って、ニューラルネットワークを使用して時間的なコンテキスト中の各フレームの情報の重要度を決定し、重要度に応じて集約して時間集約情報を得る、時間情報を集約するステップ（３）と、

ステップ（３）で得られた時間集約情報を、ユーザーによって入力されたスタイルを制御するワンホット（Ｏｎｅ－Ｈｏｔ）ベクトルと連結し、２つの類似するニューラルネットワークブランチを経由してそれぞれスケーリング／せん断（Ｓｃａｌｉｎｇ／Ｓｈｅａｒｉｎｇ）係数及び回転（Ｒｏｔａｔｉｏｎ）係数を出力し、２つのブランチの出力係数を組み合わせて、顔の動きを示す変形勾配（ＤｅｆｏｒｍａｔｉｏｎＧｒａｄｉｅｎｔｓ）を得る、動き特徴を復号するステップ（４）と、

任意の与えられた顔モデル（無表情、口を閉じた状態）に対して、ステップ（４）で得られた変形勾配を使用して顔モデルを駆動して、対応する顔の動きを行う、顔モデルを駆動するステップ（５）と、

ステップ（１）～ステップ（５）を繰り返してすべての音声信号ウィンドウを処理し、完全な顔アニメーションを生成する、信号ウィンドウをスライドさせるステップ（６）と、を含む音声信号により駆動される顔アニメーションの生成方法。

本発明によって、以下の有益な効果が得られる。周波数情報を収集する方法であるステップ（２）は、メルスペクトログラム特性に基づいて設計されており、音声特徴をロバストに抽象化でき、時間情報を集約する方法であるステップ（３）は、子音、母音の発音原理に基づいて設計されており、人間の自然な発音モードを効率よく学習でき、ステップ（４）では音声により駆動される顔アニメーションにおいて変形勾配を使用して顔の動きを示すことが初めて提案された。これにより、顔の動きの局所的な変化をより正確に表すことができる。本方法は現在最も先進的な音声駆動の顔アニメーションの技術レベルに達し、軽量化、ロバスト性、及びリアルタイム性（一定の遅延で）という特徴を有する。本発明はＶＲバーチャルソーシャル、仮想音声アシスタントやゲーム等のアプリケーションで音声信号を使用して顔アニメーションの生成を駆動することができる。

図１は本発明における方法の概略フローチャートである。図２は本発明における方法においてちステップ（２）のサブステップ（２．３）の前記記憶ユニットの動作の概略フローチャートである。図３は本発明における方法においてステップ（３）の概略フローチャートである。図４は音声信号を使用して顔モデルアニメーションを駆動する本発明の実施例では、人間の顔モデルが英語単語「ｓｍａｓｈ」を話すように駆動するアニメーションフレームの順次抜粋である。図５は音声信号を使用して顔モデルアニメーションを駆動する本発明の実施例では、漫画の動物の顔モデルが英語単語「ｓｍａｓｈ」を話すように駆動するアニメーションフレームの順次抜粋である。

本発明の中核な技術は、周波数次元の畳み込み及び双方向長・短期記憶モジュールを利用して音声特徴を抽象化し、時間次元の双方向長・短期記憶及びアテンションモジュールを利用してウィンドウ内の時間的なコンテキスト情報を集約し、変形勾配を使用して顔の動きを示すことである。図１に示すように、該方法は主として、音声特徴を抽出するステップ、周波数情報を収集するステップ、時間情報を集約するステップ、動き特徴を復号するステップ、顔モデルを駆動するステップ、及び最後に１つの音声シーケンス上で信号ウィンドウをスライドさせて前記の５つのステップを繰り返し続けて完全なアニメーションシーケンスを取得するステップの六つのステップに分けられる。

ステップ（１）：音声特徴を抽出する。即ち、１つのウィンドウ内の音声に対してメルスペクトログラム（ＭｅｌＳｐｅｃｔｒｏｇｒａｍ）特徴を抽出し、前記特徴は特徴マップ次元、周波数次元、時間次元からなる三次元テンソル（Ｔｅｎｓｏｒ）である。

ステップ（１．１）：入力オーディオウィンドウの長さがL_audioの音声信号に対して短時間フーリエ変換（フレーム長さはL_fft、フレーム間隔はL_hop）を行い、F_mel個のメルフィルター（ＭｅｌＦｉｌｔｅｒｓ）を使用してフーリエ変換の結果をメル周波数でのものに変換し、フレーム長さがL_frameのメルスペクトログラムを得る。

ステップ（１．２）：時間に関するメルスペクトログラムの第１及び第２次導関数を補助特徴とし、オリジナル特徴と重ね合わせて3×F_mel×L_frameの形状のテンソル（Ｔｅｎｓｏｒ）を形成し、１次元目の３は特徴マップ数、２次元目のF_melは周波数次元の長さ、３次元目のL_frameは時間次元の長さを示す。

ステップ（２）：周波数情報を収集する。即ち、ステップ（１）で得られたメルスペクトログラムに対して、周波数次元方向に沿って、ニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）を使用して、すべての周波数情報を抽象化し、収集し、周波数抽象化情報を得る。

ステップ（２．１）：ステップ（１）で得られたメルスペクトログラムに対して、二次元畳み込みネットワークを使用して、メルスペクトログラムの局所周波数特徴を抽出し、前記二次元畳み込みネットワークは順に第１の二次元畳み込み層、第１の二次元最大プーリング層、第２の二次元畳み込み層、及び第２の二次元最大プーリング層を含み、前記２つの二次元畳み込み層は、それぞれ周波数次元方向に沿うC_{freq_conv0}、C_{freq_conv1}個の畳み込みカーネル（サイズはいずれもK_freq×1であり、K_freqは周波数次元方向のサイズ、１は時間次元方向のサイズを示す）によって、入力に対して畳み込み算出を行い、複数の局所特徴マップ（数は畳み込みカーネルの数と同じ）を取得し、２つの二次元畳み込み層はいずれも負の勾配が０．２の漏洩正規化線形ユニット（ＬｅａｋｙＲｅＬＵ、ＬＲｅＬＵ）を活性化関数として使用し、前記２つの二次元最大プーリング層は、周波数次元方向に沿う１つの領域内（サイズはいずれもS_freq×1）で局所特徴最大値を選択し、ダウンサンプリングプーリング操作を完了し、得られた局所周波数特徴は１つの

の形状のテンソルであり、１次元目のC_{freq_conv1}は特徴マップ数、２次元目の

は周波数次元の長さ、３次元目のL_frameは時間次元の長さを示す。

ステップ（２．２）：ステップ（２．１）で得られた局所周波数特徴に対して、サイズが1×1（周波数次元及び時間次元の方向のサイズがいずれも１に等しい）であるC_{freq_conv2}個の畳み込みカーネルを使用して局所周波数特徴を投影し、負の勾配が０．２の漏洩正規化線形ユニット（ＬｅａｋｙＲｅＬＵ、ＬＲｅＬＵ）を活性化関数として使用し、出力は１つの

の形状のテンソルであり、１次元目のC_{freq_conv2}は特徴マップ数、２次元目の

ステップ（２．３）：ステップ（２．２）で得られた投影後の局所周波数特徴に対して、周波数次元の正逆２つの方向に沿って、それぞれ１つの長・短期記憶ユニットを使用して周波数次元における各特徴を循環的に処理し、図２に示すように、前記長・短期記憶ユニットは１つのステートマシン（記憶ユニットの履歴情報を格納することに用いられる）及び３つのゲートを有し、入力ゲートi_tは各周波数特徴x_t（xは入力、添字tは第t個の入力の時点を示す）及び前のステップでの記憶ユニットの出力h_t-1（hは出力、添字t-1は第t-1個の入力の時点、すなわち、前のステップを示す）に作用し、新たな周波数特徴情報を記憶ユニットのステートマシンに追加することを許可するか否かを示し、数値は０～１（両端を含む）であり、入力ゲートの数値が１（すなわち、ゲート開き）である場合、新情報を追加し、０（すなわち、ゲート閉じ）である場合、ゼロベクトルを追加し、０から１までの中間数値である場合、新情報をゲート数値と乗算して追加し、忘却ゲートf_tは記憶ユニットのステートマシンに作用し、前のステップでステートマシンに格納された履歴周波数情報S_t-1（Sはステートマシンの状態、添字t-1は第t-1個の入力の時点、すなわち、前のステップを示す）を保留するか否かを示し、数値が０～１（両端を含む）であり、忘却ゲートの数値が１（すなわち、ゲート開き）である場合、格納された情報を保留し、０（すなわち、ゲート閉じ）である場合、格納された情報をゼロベクトルにリセットし、０から１までの中間数値である場合、格納された情報をゲートの数値と乗算して保留し、出力ゲートo_tは記憶ユニットのステートマシンに作用し、現在の記憶ユニットの状態S_t（Sはステートマシンの状態、添字tは第t個の入力の時点を示す）を出力とするか否かを示し、数値が０～１（両端を含む）であり、１（すなわち、ゲート開き）である場合、現在の記憶ユニットの状態を出力とし、０（すなわち、ゲート閉じ）である場合、ゼロベクトルを出力し、０から１までの中間数値である場合、現在の記憶ユニットの状態をゲートの数値と乗算したものを出力とし、３つのゲートの具体的な数値は、現在の入力x_tと前のステップでの該記憶ユニットの出力h_t-1を連結及び投影して得られ、具体的には、次の式に示される。

式中、x_tは現在の入力であり、h_t-1は前のステップでの記憶ユニットの出力であり、i_tは入力ゲートの数値であり、W_i、b_iはそれぞれ入力ゲートの重み及びバイアスパラメータであり、f_tは忘却ゲートの数値であり、W_f、b_fはそれぞれ忘却ゲートの重み及びバイアスパラメータであり、o_tは出力ゲートの数値であり、W_o、b_oはそれぞれ出力ゲートの重み及びバイアスパラメータであり、

は現在の入力、前のステップの出力に対する投影であり、W_f、b_fはそれぞれ投影の重み及びバイアスパラメータであり、S_t-1、S_tはそれぞれ前のステップ及び現在の記憶ユニットのステートマシンの状態であり、h_tは現在の記憶ユニットの出力である。

各方向の長・短期記憶ユニットの特徴マップ数は

であり、２つの方向の特徴マップ数の和はC_{freq_LSTM}であり、従って、本ステップでの２つの方向の長・短期記憶ユニットの出力は

の形状のテンソルであり、１次元目のC_{freq_LSTM}は特徴マップ数、２次元目の

長・短期記憶ユニットのステートマシン及びステートマシンの周りを周回する３つのゲートによって、ある周波数特徴を分析する際に、ほかの周波数の特徴を十分に考慮でき、人間が発音する時にフォルマントが出現する自然現象に順応する。

ステップ（２．４）：ステップ（２．３）における周波数次元の正逆２つの方向に沿う長・短期記憶ユニットの出力に対して、すべてを連結して１つのベクトルを形成して

の形状のテンソルを得、ただし、１次元目の

は特徴マップ数、２次元目のL_frameは時間次元の長さを示し、特徴マップ数がC_freqである１つの完全接続層を使用して投影し、すべての周波数の情報を収集し、C_freq×L_frameの形状のテンソルである周波数抽象化情報z_freqを得、ただし、１次元目のC_freqは特徴マップ数、２次元目のL_frameは時間次元の長さを示す。ここまで、周波数次元は完全に収集され、特徴マップ次元に抽象化される。

ステップ（３）：時間情報を集約する。即ち、ステップ（２）で得られた周波数抽象化情報に対して、時間次元方向に沿って、ニューラルネットワークを使用して時間的なコンテキスト中の各フレームの情報の重要度を決定し、重要度に応じて集約して時間集約情報を得る。具体的なフローは図３に示すとおりである。

ステップ（３．１）：ステップ（２）で得られた周波数抽象化情報に対して、２つの隠れ層を使用して時間次元のコンテキスト情報を伝達し、前記隠れ層のそれぞれでは、時間次元の正逆方向に沿って、それぞれ１つの長・短期記憶ユニットを使用して時間次元の各フレームを循環的に処理し、時間情報を伝達し、前記長・短期記憶ユニットはステップ（２．３）のにおける前記長・短期記憶ユニットの構造原理と同じであるが、時間次元方向に作用し、１つのステートマシン（記憶ユニットの履歴情報を格納することに用いられる）及び３つのゲートを有し、入力ゲートは各フレームの時間特徴及び前のステップでの記憶ユニットの出力に作用し、新たな時間フレーム情報を記憶ユニットのステートマシンに追加することを許可するか否かを示し、数値が０～１（両端を含む）であり、入力ゲートの数値が１（すなわち、ゲート開き）である場合、新情報を追加し、０（すなわち、ゲート閉じ）である場合、ゼロベクトルを追加し、０から１までの中間数値である場合、新情報をゲートの数値と乗算して追加し、忘却ゲートは記憶ユニットのステートマシンに作用し、前のステップでステートマシンに格納された履歴時間情報を保留するか否かを示し、数値が０～１（両端を含む）であり、忘却ゲートの数値が１（すなわち、ゲート開き）である場合、格納された情報を保留し、０（すなわち、ゲート閉じ）である場合、格納された情報をゼロベクトルにリセットし、０から１までの中間数値である場合、格納された情報をゲートの数値と乗算して保留し、出力ゲートは記憶ユニットのステートマシンに作用し、現在の記憶ユニットの状態を出力とするか否かを示し、数値が０～１（両端を含む）であり、１（すなわちゲート開き）である場合、現在の記憶ユニットの状態を出力とし、０（すなわち、ゲート閉じ）である場合、ゼロベクトルを出力し、０から１までの中間数値である場合、現在の記憶ユニットの状態をゲート数値と乗算したものを出力とし、３つのゲートの具体的な数値は、現在の入力時間フレーム（又は前の隠れ層の出力）と前のステップでの該ユニットの出力を連結及び投影して得られる。

各方向の長・短期記憶ユニットの特徴マップ数はいずれも

であり、２つの方向の特徴マップ数の和はC_timeである。従って、本ステップで得られた時間的なコンテキスト情報m_freqはC_time×L_frameの形状のテンソルであり、１次元目のC_timeは特徴マップ数、２次元目のL_frameは時間次元の長さを示す。

ステップ（３．２）：ステップ（３．１）で得られた時間的なコンテキスト情報に対して、隠れ層を使用してコンテキスト中の各フレーム情報の重要度重みを評価し、重み付け及び集約を行い、前記隠れ層では、時間的なコンテキスト情報m_freqの中間のK_qryフレームを選択し、C_att個の一次元畳み込みカーネル（サイズもK_qryである）を使用して投影してクエリアイテムq_att（形状はC_att×1であり、C_attは特徴マップ数であり、畳み込みカーネルの数と同じであり、１は時間次元の長さである）とし、時間的なコンテキスト情報m_freq全体を線形投影してキーバリューアイテムk_att（形状はC_att×L_frameであり、C_attは特徴マップ数であり、L_frameは時間次元の長さである）とし、クエリアイテムq_attとキーバリューアイテムk_attとの和がtanh活性化関数、線形投影（特徴マップ数をC_attから１に投影する）及びsoftmax正規化によって、各フレームの重み（形状は1×L_frameである）を取得し、該重みを使用して時間的なコンテキスト情報m_freqに対して重み付け及び集約を行い、時間集約情報z_att（形状はC_timeであり、C_timeは特徴マップ数である）を得、前記隠れ層は時間次元の重みによって人間の自然な発音モードを模倣する。例えば、母音の発音は時間が長いが、子音の発音は瞬間的な発音として表され且つ該子音の前後の遷移母音に関連している。

ステップ（４）：動き特徴を復号する。即ち、ステップ（３）で得られた時間集約情報を、ユーザーによって入力されたスタイルを制御するワンホット（Ｏｎｅ－Ｈｏｔ）ベクトルと連結し、２つの類似するニューラルネットワークブランチを経由してそれぞれスケーリング／せん断（Ｓｃａｌｉｎｇ／Ｓｈｅａｒｉｎｇ）係数及び回転（Ｒｏｔａｔｉｏｎ）係数を出力し、２つのブランチの出力係数を組み合わせて、顔の動きを示す変形勾配（ＤｅｆｏｒｍａｔｉｏｎＧｒａｄｉｅｎｔｓ）を得る。

本発明は、音声により駆動される音声アニメーションでは、初めて変形勾配を使用して顔の動きを示し、従来の技術に比べて、顔の動きの局所変化をより正確に記述できる。

（４．１）：変形勾配
本発明は（ＲｏｂｅｒｔＷＳｕｍｎｅｒａｎｄＪｏｖａｎＰｏｐｏｖｉｃ．Ｄｅｆｏｒｍａｔｉｏｎｔｒａｎｓｆｅｒｆｏｒｔｒｉａｎｇｌｅｍｅｓｈｅｓ．ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎｇｒａｐｈｉｃｓ（ＴＯＧ），２３（３）：３９９－４０５，２００４．）に記載されている方式を採用して顔モデルの変形勾配を算出する。顔モデルは複数の三角形パッチからなり、v_i ^(k)及び

はそれぞれ顔モデル及び変形後の顔モデル中の第i個の三角形の３つの頂点を示す。三角形に垂直な方向の変形を処理するために、三角形に対して以下の式（２）により第４個の頂点を算出する。

第i個の三角形の変形勾配は以下の式（３）を満たす変換行列T_iであり、

Vi及び

はそれぞれ基準及び変形三角形の３つのベクトルを重ね合わせてなり、

従って、

である。

本発明はさらに（ＱｉａｎｙｉＷｕ，ＪｕｙｏｎｇＺｈａｎｇ，Ｙｕ－ＫｕｎＬａｉ，ＪｉａｎｍｉｎＺｈｅｎｇ，ａｎｄＪｉａｎｆｅｉＣａｉ．Ａｌｉｖｅｃａｒｉｃａｔｕｒｅｆｒｏｍ２ｄｔｏ３ｄ．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，ｐａｇｅｓ７３３６－７３４５，２０１８．）に記載されている方法を採用して変換行列を極分解し、T_i=R_i S_iである。S_iはスケーリング／せん断変換を示し、対称行列であり、６個のパラメータで表すことができ、R_iは回転変換を示し、Ｒｏｄｒｉｇｕｅｓ' ｆｏｒｍｕｌａを使用して３個のパラメータで表すことができる。従って、各三角形の変形勾配は９個のパラメータで示される。

本発明における変形勾配は、１つのテンプレート顔モデル上で定義され、該テンプレート顔モデルは無表情、口を閉じた状態であり、N個の三角形からなり、従って対応する変形勾配は9N=6N+3N個のパラメータを含む。

（４．２）：動きの復号
話す者のスタイルを制御するためのC_speaker次元ワンホットベクトルをステップ（３）で得られた時間集約情報z_attと連結し、特徴マップ数がC_dec0である１つの完全接続層及び負の勾配が０．２の漏洩正規化線形ユニット（ＬｅａｋｙＲｅＬＵ、ＬＲｅＬＵ）活性化関数によってz_dec（形状はC_dec0である）を得る。その後、z_decはそれぞれ２つの構造が類似し並行するニューラルネットワークブランチを経由して、スケーリング／せん断及び回転パラメータを復号する。

各ブランチでは、z_decは再びC_speaker次元ワンホット制御ベクトルと連結し、且つ３つの完全接続層によって投影を行い、第１個の完全接続層の特徴マップ数はC_dec1、活性化関数は負の勾配が０．２のＬＲｅＬＵであり、第２個の特徴マップ数はC_dec2、活性化関数はtanhであり、第３個は活性化関数がなく（スケーリング／せん断及び回転ブランチでは、特徴マップ数はそれぞれC_{pca_s}及びC_{pca_r}である）。ブランチの最後には、固定する線形完全接続層（スケーリング／せん断及び回転ブランチでは、特徴マップ数はそれぞれ6N及び3Nである）であり、そのパラメータは該ブランチに対応する訓練データの主成分分析基底及び平均値によって初期化され、主成分分析過程で９７％のエネルギーを保留し、スケーリング／せん断及び回転ブランチでは、保留される基底数はそれぞれC_{pca_s}及びC_{pca_r}（上記ブランチの第３個の完全接続層の特徴マップ数と同じである）である。２つのブランチはそれぞれ復号して、スケーリング／せん断を示すパラメータs（大きさは6N）及び回転を示すパラメータr（大きさは3Ｎ）を得る。

ステップ（５）：顔モデルを駆動する。即ち、任意の与えられた顔モデル（無表情、口を閉じた状態）に対して、ステップ（４）で得られた変形勾配を使用して顔モデルを駆動して、対応する顔の動きを行う。

ステップ（５．１）：与えられた顔モデル（M個の三角形からなる）とテンプレート顔モデル（N個の三角形からなる）との三角形対応関係（本サブステップでは、与えられたモデルごとに１回実行すればよい）を取得する。
与えられた顔モデルとテンプレート顔モデルとのトポロジー構造が異なる場合、ステップ（４）で得られた変形勾配をそのまま使用できず、まず、２つのモデル間の三角形対応関係を取得する必要があり、トポロジー構造が同じであると、そのまま使用できる。

本発明は（ＲｏｂｅｒｔＷＳｕｍｎｅｒａｎｄＪｏｖａｎＰｏｐｏｖｉｃ．Ｄｅｆｏｒｍａｔｉｏｎｔｒａｎｓｆｅｒｆｏｒｔｒｉａｎｇｌｅｍｅｓｈｅｓ．ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎｇｒａｐｈｉｃｓ（ＴＯＧ），２３（３）：３９９－４０５，２００４．）に記載されている方法を採用し、ユーザーが複数の頂点対応関係を与えている場合、異なるトポロジーの２つの顔モデル間の三角形対応関係を自動的に求める。

前記自動的に求める方法では、まず、一連の変換行列（スケーリング／せん断及び回転変換を含むが、並進変換（translation transformation）は除外する）

を探索して、与えられた顔モデルをテンプレート顔モデルに最も近い状態に変形する必要がある。以下の３つのエネルギー方程式E_S、E_I、E_C及び拘束条件でのこれらのエネルギー方程式の和Eを定義し、Eを最小化することにより、与えられた顔モデルを目標状態に変形させることができる。

式中、E_Sは変形の滑らかさを拘束するエネルギーを示し、Mは与えられた顔モデル中の三角形の数であり、adj(i)は第i個の三角形の周囲に隣接する三角形の集合を示し、E_Iは変形程度を拘束するエネルギーを示し、Iは単位行列を示し、E_Cは変形後の２つのモデルの頂点距離のエネルギーを示し、nは与えられた顔モデル中の頂点の数であり、

は変形後の与えられた顔モデルの第i個の頂点の位置であり、c_iはテンプレート顔モデルで

が最も近い頂点の位置であり、Eは前記の３つのエネルギーアイテムの和であり、

は変形後の与えられた顔モデル中のn個の頂点位置を示し、w_S、w_I、w_CはそれぞれE_S、E_I、E_Cに対応する重みであり、該エネルギー方程式はユーザーによって与えられたm個の頂点対応関係に服従し、

は第ｋ個の頂点対応関係中の変形後の与えられた顔モデルの頂点位置であり、m_kは第ｋ個の頂点対応関係中の頂点の目標位置である。

上記エネルギー方程式Eを最小化する過程では、

を探索する必要があり、つまり、変形後の与えられた顔モデルの各頂点について、最も近い頂点をテンプレート顔モデルから探索し、最適化過程に伴って、頂点位置が変化し、最も近い頂点の関係も変化し、従って、最も近い頂点を探索し、上記エネルギー方程式Eを最小化するプロセスのいくつかのステップを反復する必要がある。

与えられた顔モデルをテンプレート顔モデルに最も近い状態に変形させた後、テンプレート顔モデル及び変形後の与えられた顔モデル中のすべての三角形の重心を算出する。変形後の与えられた顔モデル中の各三角形について、テンプレート顔モデルから合理的な対応三角形を探索し、重心距離が所定の閾値未満で（手動で調整）且つ２つの法線ベクトルの夾角が90°未満であることを満たす必要がある。同様に、テンプレート顔モデル中の各三角形について、変形後の与えられた顔モデルから合理的な対応三角形を探索する。すべての合理的な対応関係は、２つのモデル間の三角形対応関係を構成する。

ステップ（５．２）：対応するテンプレート顔モデルの変形勾配を与えられた顔モデルに転移する。
ステップ（４）で得られたスケーリング／せん断パラメータs及び回転パラメータrを、テンプレート顔モデルのすべての三角形の変換行列集合

（Nはテンプレート顔モデルの変換行列の数であり、その三角形の数に等しい）に復元し、ステップ（５．１）で得られた三角形対応関係に応じて、与えられた顔モデルの変換行列集合

（M'は与えられた顔モデルの変換行列の数であり、与えられた顔モデル中の１つの三角形kについて、テンプレート顔モデルに対応三角形がない場合、単位行列をkの変換行列として使用し、１つの対応三角形を有する場合、対応三角形の変換行列をkの変換行列として直接使用し、複数の対応三角形を有する場合、kを複数コピーし、それぞれそのうちの１つに対応させ、複数の対応三角形を有する場合があるため、最終的に得た変換行列の数はM'≧Mである）を構築する。

ステップ（５．３）：転移された変形勾配に応じて、与えられた顔モデルの頂点位置を求める。
以下のエネルギー方程式（６）を最小化することにより、転移された変形勾配に対応する、与えられた顔モデルの頂点位置

を求め、

式中、cは

を重ね合わせてなり、Aはcと

を関連付けた１つの大規模スパース行列である。エネルギー方程式の勾配を０に設定することによって、

は以下の式（７）によって求められ、

Aが与えられた顔モデルのみに関連するため、A及びA^TAは事前算出可能であり、且つモデルごとに１回事前算出すればよい。

ステップ（６）：信号ウィンドウをスライドさせる。即ち、ステップ（１）～ステップ（５）を繰り返してすべての音声信号ウィンドウを処理し、完全な顔アニメーションを生成する。

入力音声信号全体において、

秒の間隔で一連のオーディオウィンドウを取得し、各ウィンドウに対してステップ（１）～ステップ（５）を繰り返して完全なアニメーションを生成し、アニメーションのフレームレートはfpsフレーム／秒である。生成速度はリアルタイムとなり得て、遅延は

（L_audioはステップ（１）に記載された入力オーディオウィンドウの長さである）である。

実施例
損失関数について、発明者は教師あり学習の方法を使用してステップ（２）～ステップ（４）に係るニューラルネットワークパラメータを訓練した。音声及びアニメーションデータを組織して複数のデータペア(x_t,y_t)を形成し、x_tは第tフレームのデータに対応する音声信号ウィンドウを示し、y_tは対応する変形勾配パラメータを示す。ステップ（４）の記載に応じて、y_tはさらにスケーリング／せん断部分s_t∈R^6N及び回転部分r_t∈R^3Nに分けられる。訓練中、ステップ（４）の出力を

及び

と示した。２つのパラメータ部分に対して、本発明は類似するエネルギーアイテムを使用して拘束し、スケーリング／せん断部分を例とし、エネルギーアイテムは絶対数値を考慮するL_d ^s及び数値時間導関数を考慮するL_v ^sを含み、

回転部分について、L_d ^r及びL_v ^rの定義方式は上記式と類似する。最終的な損失関数は４個のエネルギーアイテムの重み付き和であり、重みはＫａｒｒａｓら（ＴｅｒｏＫａｒｒａｓ，ＴｉｍｏＡｉｌａ，ＳａｍｕｌｉＬａｉｎｅ，ＡｎｔｔｉＨｅｒｖａ，ａｎｄＪａａｋｋｏＬｅｈｔｉｎｅｎ．Ａｕｄｉｏ－ｄｒｉｖｅｎｆａｃｉａｌａｎｉｍａｔｉｏｎｂｙｊｏｉｎｔｅｎｄ－ｔｏ－ｅｎｄｌｅａｒｎｉｎｇｏｆｐｏｓｅａｎｄｅｍｏｔｉｏｎ．ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＧｒａｐｈｉｃｓ（ＴＯＧ），３６（４）：９４，２０１７．）によって提案されている技術を使用して自動ダイナミックバランスを行った。

訓練例について、発明者は、ＩｎｔｅｌＣｏｒｅｉ７－８７００Ｋ中央処理装置（３．７０ＧＨｚ）、ＮＶＩＤＩＡＧＴＸ１０８０Ｔｉグラフィックプロセッサ（１１ＧＢ）を配置したコンピュータで本発明の例を実施した。実施中、データベースＶＯＣＡＳＥＴ（ＤａｎｉｅｌＣｕｄｅｉｒｏ，ＴｉｍｏＢｏｌｋａｒｔ，ＣａｓｓｉｄｙＬａｉｄｌａｗ，ＡｎｕｒａｇＲａｎｊａｎ，ａｎｄＭｉｃｈａｅｌＢｌａｃｋ．Ｃａｐｔｕｒｅ，ｌｅａｒｎｉｎｇ，ａｎｄｓｙｎｔｈｅｓｉｓｏｆ３Ｄｓｐｅａｋｉｎｇｓｔｙｌｅｓ．ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），ｐａｇｅｓ１０１０１－１０１１１，２０１９．）を使用してモデルを訓練した。

モデルパラメータについて、本発明者が本発明の例を実施する時、ステップ（１）～（６）に係るパラメータは以下の通りである。

（１）音声特徴を抽出するステップにおいて、オーディオウィンドウの長さはL_audio=0.568秒、短時間フーリエ変換のフレーム長さはL_fft=0.064秒、フレーム間隔はL_hop=0.008秒、メルフィルターの数はF_mel=128、得たメルスペクトログラムフレームの数はL_frame=64であった。

（２）周波数情報を収集するステップにおいて、畳み込みカーネルの数（畳み込み後の特徴マップの数でもあった）はそれぞれC_{freq_conv0}=32、C_{freq_conv1}=64、C_{freq_conv2}=64であり、前の２層の畳み込みカーネルのサイズはK_freq=3であり、プーリング領域のサイズはS_freq=2であり、周波数次元の双方向長・短期記憶ユニットの特徴マップ数の和はC_{freq_LSTM}=64（すなわち、単方向特徴マップ数は３２であった）であり、完全接続投影された特徴マップ数はC_freq=256であった。

（３）時間情報を集約するステップにおいて、時間次元の双方向長・短期記憶ユニットの特徴マップ数の和はC_time=512（すなわち、単方向特徴マップ数は２５６であった）であり、アテンションモジュールではK_qry=3、C_att=128であった。

（４）動き特徴を復号するステップにおいて、テンプレート顔モデルの三角形の数はN=9976であり、話す者スタイルを制御するベクトル次元はC_speaker=8であり、第１個の完全接続層の特徴マップ数はC_dec0=512であり、各ブランチにおける最初の２つの完全接続層の特徴マップ数はC_dec1=512、C_dec2=256であり、スケーリング／せん断のパラメータsが保留した主成分分析基底数（スケーリング／せん断ブランチにおける第３個の完全接続層の特徴マップ数でもあった）はC_{pca_s}=85であり、回転パラメータrが保留した主成分分析基底数（回転ブランチにおける第３個の完全接続層の特徴マップ数でもあった）はC_{pca_r}=180であった。

（５）顔モデルを駆動するステップにおいて、Mは具体的に与えられたモデルのパラメータに応じて決定され、ステップ（５．１）で式（５）を反復して最適化する過程において、第１のステップではw_S=1.0、w_I=0.001、w_C=0であり、その後、４つのステップを反復し、w_Cは１から５０００になった。

（６）信号ウィンドウをスライドさせるステップにおいて、ステップ（１）～（５）を繰り返し、アニメーションのフレームレートはfps=60であった。

例にかかる時間について、ＶＯＣＡＳＥＴの顔モデルをテンプレート顔モデル（９９７６個の三角形からなる）とし、ＶＯＣＡＳＥＴのデータ上でモデルを５０回の反復で訓練し、約５時間がかかった。入力された音声信号に対して、各ウィンドウが１フレームのアニメーションを生成する（ステップ（１）から（５）までであり、ステップ（５）ではテンプレート顔モデルを直接駆動した）ことに約１０ミリ秒がかかり、速度がリアルタイムとなった。トポロジー構造がテンプレート顔モデルと異なるほかの与えられた顔モデルの場合、ステップ（５．１）に従ってモデルの三角形対応関係の設定を事前に行う必要があり、モデルの複雑さ及び実施者の熟練度に応じて、約１５～４０分間がかかり、任意のモデルに対して、この作業は１回行えばよいこととなった。

アニメーション抜粋について、本発明者は本発明の例を実施し、音声信号を使用して顔アニメーションを駆動した。ＶＯＣＡＳＥＴの顔モデルを使用して音声アニメーションを生成し、その順次抜粋フレームは図４に示され（図中の人物は英語単語「ｓｍａｓｈ」を話している）、トポロジーがテンプレート顔モデルと異なる漫画の動物の顔モデルを使用して音声アニメーションを生成し、その順次抜粋フレームは図５に示された（図中の漫画の動物は英語単語「ｓｍａｓｈ」を話している）。

Claims

音声信号により駆動される顔アニメーションの生成方法であって、以下のステップ（１）～ステップ（６）は、コンピュータにより実行され、
前記生成方法は、
音声特徴を抽出するステップであって、前記コンピュータが、１つのウィンドウ内の音声に対してメルスペクトログラム特徴を抽出し、前記特徴は特徴マップ次元、周波数次元、時間次元からなる三次元テンソルである、前記ステップ（１）と、
周波数情報を収集するステップであって、前記コンピュータが、前記ステップ（１）で得られたメルスペクトログラムに対して、周波数次元方向に沿って、ニューラルネットワークを使用してすべての周波数情報を抽象化し収集し、周波数抽象化情報を得る、前記ステップ（２）と、
時間情報を集約するステップであって、前記コンピュータが、前記ステップ（２）で得られた周波数抽象化情報に対して、時間次元方向に沿って、ニューラルネットワークを使用して時間的なコンテキスト中の各フレームの情報の重要度を決定し、重要度に応じて集約して時間集約情報を得る、前記ステップ（３）と、
動き特徴を復号するステップであって、前記コンピュータが、前記ステップ（３）で得られた時間集約情報を、ユーザーによって入力されたスタイルを制御するワンホットベクトルと連結し、２つのニューラルネットワークブランチを経由してそれぞれスケーリング／せん断係数及び回転係数を出力し、２つのブランチの出力係数を組み合わせて、顔の動きを示す変形勾配を得る、前記ステップ（４）と、
顔モデルを駆動するステップであって、前記コンピュータが、無表情、口を閉じた状態の任意の与えられた顔モデルに対して、前記ステップ（４）で得られた変形勾配を使用して顔モデルを駆動して、対応する顔の動きを作る、前記ステップ（５）と、
信号ウィンドウをスライドさせるステップであって、前記コンピュータが、前記ステップ（１）～前記ステップ（５）を繰り返してすべての音声信号ウィンドウを処理し、完全な顔アニメーションを生成する、前記ステップ（６）と、
を含むことを特徴とする音声信号により駆動される顔アニメーションの生成方法。
前記ステップ（１）は、
前記コンピュータが、入力オーディオウィンドウの長さがＬ_{ａｕｄｉｏ}の音声信号に対して短時間フーリエ変換（フレーム長さはＬ_ｆｆｔ、フレーム間隔はＬ_ｈｏｐである。）を行い、Ｆ_ｍｅｌ個のメルフィルターを使用してフーリエ変換の結果をメル周波数でのものに変換し、フレーム長さがＬ_{ａｕｄｉｏ}のメルスペクトログラムを得るサブステップ（１．１）と、
前記コンピュータが、時間に関するメルスペクトログラムの第１及び第２次導関数を補助特徴とし、オリジナル特徴と重ね合わせて３×Ｆ_ｍｅｌ×Ｌ_{ｆｒａｍｅ}の形状のテンソルを形成し、１次元目の３は特徴マップ数、２次元目のＦ_ｍｅｌは周波数次元の長さ、３次元目のＬ_{ｆｒａｍｅ}は時間次元の長さを示すサブステップ（１．２）と、
を含むことを特徴とする請求項１に記載の音声信号により駆動される顔アニメーションの生成方法。
前記ステップ（２）は、
前記コンピュータが、前記ステップ（１）で得られたメルスペクトログラムに対して、二次元畳み込みネットワークを使用して、メルスペクトログラムの局所周波数特徴を抽出し、前記二次元畳み込みネットワークは順に第１の二次元畳み込み層、第１の二次元最大プーリング層、第２の二次元畳み込み層、及び第２の二次元最大プーリング層を含み、前記２つの二次元畳み込み層は、それぞれ周波数次元方向に沿うサイズがいずれもＫ_ｆｒｅｑ×１であるＣ_{ｆｒｅｑ＿ｃｏｎｖ０}、Ｃ_{ｆｒｅｑ＿ｃｏｎｖ１}個の畳み込みカーネルによって、入力に対して畳み込み算出を行い、複数の局所特徴マップを取得し、前記局所特徴マップの数は畳み込みカーネルの数と同じであり、Ｋ_ｆｒｅｑは周波数次元方向のサイズ、１は時間次元方向のサイズを示し、２つの二次元畳み込み層はいずれも負の勾配が０．２の漏洩正規化線形ユニットを活性化関数として使用し、前記２つの二次元最大プーリング層は、周波数次元方向に沿うサイズがＳ_ｆｒｅｑ×１である領域内で局所特徴最大値を選択し、ダウンサンプリングプーリング操作を完了し、得られた局所周波数特徴は１つの

の形状のテンソルであり、１次元目のＣ_{ｆｒｅｑ＿ｃｏｎｖ１}は特徴マップ数、２次元目の

は周波数次元の長さ、３次元目のＬ_{ｆｒａｍｅ}は時間次元の長さを示すサブステップ（２．１）と、
前記コンピュータが、前記ステップ（２．１）で得られた局所周波数特徴に対して、サイズが１×１であるＣ_{ｆｒｅｑ＿ｃｏｎｖ２}個の畳み込みカーネルを使用して局所周波数特徴を投影し、負の勾配が０．２の漏洩正規化線形ユニットを活性化関数として使用し、出力は１つの

の形状のテンソルであり、１次元目のＣ_{ｆｒｅｑ＿ｃｏｎｖ２}は特徴マップ数、２次元目の

は周波数次元の長さ、３次元目のＬ_{ｆｒａｍｅ}は時間次元の長さを示し、前記サイズが１×１であることは波数次元及び時間次元の方向のサイズがいずれも１に等しいことを示すサブステップ（２．２）と、
前記コンピュータが、前記ステップ（２．２）で得られた投影後の局所周波数特徴に対して、周波数次元の正逆２つの方向に沿って、それぞれ１つの長・短期記憶ユニットを使用して周波数次元における各特徴を循環的に処理するサブステップ（２．３）と、
前記コンピュータが、前記ステップ（２．３）における周波数次元の正逆２つの方向に沿う長・短期記憶ユニットの出力に対して、すべてを連結して１つのベクトルを形成して

の形状のテンソルを得、１次元目の

は特徴マップ数、２次元目のＬ_{ｆｒａｍｅ}は時間次元の長さを示し、特徴マップ数がＣ_ｆｒｅｑである１つの完全接続層を使用して投影し、すべての周波数の情報を収集し、Ｃ_ｆｒｅｑ×Ｌ_{ｆｒａｍｅ}の形状のテンソルである周波数抽象化情報ｚ_ｆｒｅｑを得、１次元目のＣ_ｆｒｅｑは特徴マップ数、２次元目のＬ_{ｆｒａｍｅ}は時間次元の長さを示し、ここまで、周波数次元は完全に収集され、特徴マップ次元に抽象化されるサブステップ（２．４）と、
を含むことを特徴とする請求項１に記載の音声信号により駆動される顔アニメーションの生成方法。
前記ステップ（３）は、
前記コンピュータが、前記ステップ（２）で得られた周波数抽象化情報に対して、２つの隠れ層を使用して時間次元情報を伝達し、時間的なコンテキスト情報ｍ_ｆｒｅｑを得、前記隠れ層のそれぞれでは、時間次元の正逆方向に沿って、それぞれ１つの長・短期記憶ユニットを使用して時間次元の各フレームを循環的に処理し、時間情報を伝達し、各方向の長・短期記憶ユニットの特徴マップ数はいずれも

であり、２つの方向の特徴マップ数の和はＣ_ｔｉｍｅであり、前記時間的なコンテキスト情報ｍ_ｆｒｅｑはＣ_ｔｉｍｅ×Ｌ_{ｆｒａｍｅ}の形状のテンソルであり、１次元目のＣ_ｔｉｍｅは特徴マップ数、２次元目のＬ_{ｆｒａｍｅ}は時間次元の長さを示すステップ（３．１）と、
前記コンピュータが、前記ステップ（３．１）で得られた時間的なコンテキスト情報に対して、隠れ層を使用してコンテキスト中の各フレーム情報の重要度重みを評価し、重み付け及び集約を行い、前記隠れ層では、時間的なコンテキスト情報ｍ_ｆｒｅｑの中間のＫ_ｑｒｙフレームを選択し、サイズがＫ_ｑｒｙであるＣ_ａｔｔ個の一次元畳み込みカーネルを使用して投影してクエリアイテムｑ_ａｔｔとし、時間的なコンテキスト情報ｍ_ｆｒｅｑ全体を線形投影してキーバリューアイテムｋ_ａｔｔとし、クエリアイテムｑ_ａｔｔとキーバリューアイテムｋ_ａｔｔとの和がｔａｎｈ活性化関数、線形投影及びｓｏｆｔｍａｘ正規化によって、各フレームの重みを取得し、該重みを使用して時間的なコンテキスト情報ｍ_ｆｒｅｑに対して重み付け及び集約を行い、時間集約情報ｚ_ａｔｔを得、前記クエリアイテムｑ_ａｔｔの形状はＣ_ａｔｔ×１であり、Ｃ_ａｔｔは特徴マップ数であり、畳み込みカーネル数が同じであり、１は時間次元長さであり、キーバリューアイテムｋ_ａｔｔの形状はＣ_ａｔｔ×Ｌ_{ｆｒａｍｅ}であり、Ｃ_ａｔｔは特徴マップ数であり、Ｌ_{ｆｒａｍｅ}は時間次元長さであり、前記線形投影の特徴マップ数はＣ_ａｔｔから１に投影され、前記重みの形状は１×Ｌ_{ｆｒａｍｅ}であり、時間集約情報ｚ_ａｔｔの形状はＣ_ｔｉｍｅであり、Ｃ_ｔｉｍｅは特徴マップ数であるステップ（３．２）と、
を含むことを特徴とする請求項１に記載の音声信号により駆動される顔アニメーションの生成方法。
前記ステップ（４）では、変形勾配を使用して顔の動きを示し、前記変形勾配は１つのテンプレート顔モデル上で定義され、該テンプレート顔モデルは無表情、口を閉じた状態であり、Ｎ個の三角形からなる
ことを特徴とする請求項１に記載の音声信号により駆動される顔アニメーションの生成方法。