JP4631078B2 - リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム - Google Patents
リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム Download PDFInfo
- Publication number
- JP4631078B2 JP4631078B2 JP2006201026A JP2006201026A JP4631078B2 JP 4631078 B2 JP4631078 B2 JP 4631078B2 JP 2006201026 A JP2006201026 A JP 2006201026A JP 2006201026 A JP2006201026 A JP 2006201026A JP 4631078 B2 JP4631078 B2 JP 4631078B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- face
- data
- sequence
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Description
コーエン,M.M., マッサロ,D.W. 1993年. 「視覚的に合成された発話における同時調音のモデル」,コンピュータアニメーションのモデルと技法, 139−156頁(Cohen, M. M., Massaro, D. W. 1993. "Modeling coarticulation in synthetic visual speech", Models and Techniques in Computer Animation, pp.139-156) ウォーターズ,K. 1987年. 「3次元の顔の表現をアニメーション化するための筋肉モデル」,ACM シーグラフ ’87 17−24頁(Waters, K., 1987. A muscle model for animating three-dimensional facial expressions. ACM SIGGRAPH '87 pp.17-24) エザット,T.,ガイガー,G.,ポッジョ,T. 2002年. 「学習可能なビデオリアリスティック発話アニメーション」, ACM シーグラフ 2002(Ezzat, T., Geiger,G. and Poggio, T. "Trainable Videorealistic Speech Animation", Proceedings of ACM SIGGRAPH 2002) K カキハラ,S ナカムラ,K シカノ 「HMMに基づく音声からの顔の動きの合成」, 米国電気電子学会(IEEE)マルチメディアの国際会議及び博覧会予稿集,2000年7−8月 第1巻 427−430頁(K Kakihara, S Nakamura, K Shikano, "Speech-To-Face Movement Synthesis Based on HMMs", Proceedings of IEEE International Conference on Multimedia and Expo, July-August, 2000 Vol.1, pp.427-430) 徳田 恵一、「HMMによる音声合成の基礎」、電子情報通信学会技術研究報告、第100巻第392号、SP2000−74,pp.43−50,2000年10月
図1に、本実施の形態に係る顔アニメーションの作成システム全体の構成をブロック図形式で示す。図1を参照して、この顔アニメーションの作成システム40は、キャラクタの声となる音声のデータ(以下、単に「音声データ」と呼ぶ。)42と、キャラクタの無表情な顔の形状を定義するためのデータである顔オブジェクト44とから、キャラクタの声に同期してキャラクタの表情が変化する(すなわちリップシンクする)アニメーション46を作成するシステムである。
図2に、収録システム60の構成を示す。図2を参照して、収録システム60は、発話者110による発話音声と発話時における発話者110の動画像とを収録するための録画・録音システム112と、発話時における発話者110の顔の各部位の位置及びその軌跡を計測するためのモーションキャプチャ(Motion Capture。以下「MoCap」と呼ぶ。)システム114と、録画・録音システム112により収録された音声・動画データ116及びMoCapシステム114により計測されたデータ(以下、このデータを「MoCapデータ」と呼ぶ。)118から、音声のデータ及びその発話時の顔パラメータのデータからなるデータセット120を作成し、音声−顔パラメータDB62に格納するためのデータセット作成装置122とを含む。
顔パラメータの系列154の各フレームにおいて不動点の位置データがすべて同じ値となれば、不動点の位置変化が0になる。そこで、本実施の形態では、フレームごとに、t=0のフレームにおける各不動点のマーカデータと、処理対象のフレームにおける当該不動点のマーカデータとから、当該フレームにおけるアフィン行列Mを算出する。そして、アフィン行列Mを用いて、各マーカデータをアフィン変換する。変換後のマーカデータはそれぞれ、t=0での頭の位置のまま発話を行なった状態での顔の特徴量の位置を表すものとなる。
図4に、音声−顔パラメータDB62(図1参照)に格納されるデータセット120の構成を模式的に示す。図4を参照して、データセット120は、切出された収録音声データ150と顔パラメータの系列154とを含む。顔パラメータの系列154は、複数フレーム分の顔パラメータ170A,…,170Nを含む。顔パラメータ170A,…,170Nはそれぞれ、収録音声データにより表される音声が発話されていた期間内のいずれかの時刻に対応している。すなわち、収録音声データ150と顔パラメータ170A,…,170Nとを相互参照することにより、ある特徴を持つ発話が行なわれたときの特徴点の位置変化について情報を得ることができる。
図1に示す音素HMM64は、音素ごとに設けられた音声の特徴に関するHMMである。図5に、音素HMM64の概要を示す。図5を参照して、音素HMM64は、音声の特徴を表す所定のパラメータ(以下、「音声パラメータ」と呼ぶ。)180が与えられると、音声中に対応する音素が存在する尤度を出力する機能を持つ。したがって、音素HMM64を用いることにより、音声パラメータ180から音素列182及び音素列を構成する各音素の音素継続長が推定できる。なお本実施の形態では、音声パラメータ180として、MFCC(Mel-Frequency Cepstral Coefficient)を使用するものとする。
図1に示す視覚素対応表66は、音素と視覚素との対応関係を示す表である。図6に視覚素対応表66の構成を示す。図6を参照して、視覚素対応表66は、発話中の口の形を表す10種類の視覚素と、43種類の音素との対応関係を表す。例えば視覚素「A」は、音素「a」又は「A」が発話されるときの口の形を表す。音素「h」を発話する際の口の形は、前後の音素を発話する際の口の形に依存する。そのため、この音素に対応する10種の視覚素とは別に記号「***」によって表している。
図7に、学習システム68(図1参照)の構成をブロック図で示す。図7を参照して、学習システム68は、音声−顔パラメータDB62内のデータセット120から顔パラメータHMM50の学習に用いるデータセットを生成するための前処理部202と、学習用のデータセット200を蓄積するための学習用DB204と、学習用DB204内に蓄積された学習用のデータセット200から顔パラメータHMM50の学習を行なうためのHMM学習部206とを含む。
(顔パラメータ合成部82)
図8に、顔パラメータ合成部82(図1参照)の構成をブロック図で示す。図8を参照して、顔パラメータ合成部82は、音素HMM64及び視覚素対応表66を用いて音声データ42を視覚素列に変換するための視覚素列生成部240と、音声データ42により表される音声が発話されているときの顔パラメータの系列84を、視覚素列生成部240により生成された視覚素列と顔パラメータHMM50とを用いて合成するためのHMMマッチング部242とを含む。
図9に、マッピング部90(図1参照)の構成をブロック図で示す。図9を参照して、マッピング部90は、入力装置98及び表示装置96に接続され、顔オブジェクト44上に特徴点160A,…,160M(図3参照)に対応する仮想のマーカ(以下、単に「仮想マーカ」と呼ぶ。)を、ユーザの操作にしたがい配置するための仮想マーカ配置部270と、顔オブジェクト44内の各ノードを、各ノードに近接する仮想マーカによってラベリングするためマーカラベリング部272と、マーカラベリング部272によるラベリングにより形成されたノードと仮想マーカとの対応関係を表す、マーカラベリングデータを記憶するためのマーカラベリングデータ記憶部274とを含む。
以下に、収録システム60が収録を行ない、データセット120を生成する動作について説明する。図2を参照して、発話者110の頭部の各特徴点160A,…,160M(図3参照)には事前に、マーカを予め装着しておく。その状態で、発話者は発話を行なう。音声−顔パラメータDB62を充実したものにするために、又は、各音素がバランスよく含まれるようにするために、発話の内容を事前に決めておき、発話者110にその内容で発話を行なってもらうようにしてもよい。
以下に、学習システム68が顔パラメータHMMを学習する動作について説明する。図7を参照して、音声−顔パラメータDB62内のデータセット120(図4参照)の各々は、学習システム68の前処理部202により、次のようにして学習用データセット200に変換される。
以下、図1に示すアニメーション作成システム80の動作について説明する。キャラクタの声を表す音声データ42が準備され、図8に示す顔パラメータ合成部82に与えられる。この音声データ42は、事前に、キャラクタの声を担当する発話者(又は声優)によって発話されたものを録音することにより得られる。又は、音声合成技術により合成された音声のデータであってもよい。顔パラメータ合成部82に音声データ42が入力されると、視覚素列生成部240が、音素HMM64及び視覚素対応表66を用いて、音声データ42から視覚素列及び当該視覚素列を構成する各視覚素の継続長を推定する。この動作は、学習システム68の視覚素生成部212(図7参照)の動作と同様である。これにより、音声データ42により表される音声の発話時における口の形の変化が特定される。
図9を参照して、マッピング部90に顔オブジェクト44(図4参照)が与えられると、まず、顔オブジェクト44は、仮想マーカ配置部270、マーカラベリング部272、及び顔オブジェクト変形部276に与えられる。
画像化部94は、フレームごとの変形した顔モデルを受けると、それらにテクスチャなどを付与するなど、所定のレンダリング処理を行なう。この処理により生成される画像が、アニメーション46における各フレームの画像となる。これら各フレームの画像により形成された動画像が、アニメーション46となる。
本実施の形態の顔アニメーションの作成システム40の各機能部は、収録システム60(図2参照)の録画・録音システム112及びMoCapシステム114に含まれる一部の特殊な機器を除き、いずれもコンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図13はこのコンピュータシステム500の外観を示し、図14はコンピュータシステム500の内部構成を示す。
第1の実施の形態に係る顔アニメーションの作成システム40によれば、音声から自動的にアニメーションを作成することが可能になった。しかし、以下に述べるように、それだけでは例えば口の動きが不自然になるなど、さらに改良すべき点が存在している。
ただしL(1)及びL(2)はそれぞれ、時刻tにおける速度及び加速度の算出において、時刻tの前後で考慮すべき位置ベクトル及び速度ベクトルを含む時間幅をサンプリング時間τを単位として表したものであり、w1及びw2はそれぞれ、各時刻での速度ベクトル及び加速度ベクトルを算出するために使用する、位置ベクトル及び速度ベクトルに割当てる重みを示す。本実施の形態では、L(1)=L(2)=1とし、また重みw1としては、連続する3つの重みとしてw1=[−0.5,0,0.5]という値を用い、重みw2としては同様にw2=[0.25,−0.5,0.25]を用いる。
図16を参照して、第2の実施の形態に係る顔アニメーションの作成システム640は、第1の実施の形態に係る顔アニメーションの作成システム40の収録システム60、音声−顔パラメータDB62、学習システム68、顔パラメータHMM50、アニメーション作成システム80に代えて、それぞれ上記したように顔の特徴点の位置ベクトルに加え、それらの速度ベクトル及び加速度ベクトルまでをデータとして処理する能力を持つ収録システム660、音声−顔パラメータDB662、学習システム668、顔パラメータHMM650、及びアニメーション作成システム680を含み、それによって図1に示すアニメーション46よりも自然で、かつ滑らかなアニメーション646を作成する。図16において、図1に示す顔アニメーションの作成システム40の各部品と同一の部品には同一参照符号を付してある。それらの名称及び機能も同一である。したがって、ここではそれらについての詳細な説明は繰返さない。
この第2の実施の形態に係る顔アニメーションの作成システム640の各部のうち、第1の実施の形態の顔アニメーションの作成システム40内の部品と同一か又は対応する部品の動作は、その部品と同様である。ただし、扱うデータに動的特徴量が含まれている点が異なる。以下、第1の実施の形態に係るシステム40の動作とは異なる点に重点をおき、顔アニメーションの作成システム640の動作について説明する。
図17を参照して、発話者110の頭部の各特徴点160A,…,160M(図3参照)には事前に、マーカを予め装着しておく。その状態で、発話者は発話を行なう。収録が開始され、録画・録音システム112が、発話時の音声と顔の動画像を収録する。
まず、データセット選択部810が、音声−顔パラメータDB662から処理対象のデータセット720を選択する。そして、当該データセット720に含まれる収録音声データ150と動的特徴を含む顔パラメータの系列754とをそれぞれ、視覚素列生成部212とラベリング部814とに与える。
以下、図16に示すアニメーション作成システム680の動作について説明する。キャラクタの声を表す音声データ42が準備され、図16に示す顔パラメータ合成部682に与えられる。図21を参照して、顔パラメータ合成部682に音声データ42が入力されると、視覚素列生成部240が、音素HMM64及び視覚素対応表66を用いて、音声データ42から視覚素列及び当該視覚素列を構成する各視覚素の継続長を推定する。この動作は、学習システム68の視覚素生成部212(図7参照)の動作と同様である。これにより、音声データ42により表される音声の発話時における口の形の変化が特定される。
図22は、図15に、第2の実施の形態に係る顔アニメーションの作成システム640によって合成されたアニメーションの口の動きを図22(C)として追加した図である。図22(A)(B)はそれぞれ図15(A)(B)と同一の図である。
42 音声データ
44 顔オブジェクト
46,646 アニメーション
50,650 顔パラメータHMM
60,660 収録システム
62,662 音声−顔パラメータDB
64 音素HMM
66 視覚素対応表
68,668 学習システム
80,680 アニメーション作成システム
82,682 顔パラメータ合成部
90 マッピング部
94 画像化部
110 発話者
112 録画・録音システム
114 MoCapシステム
122,722 データセット作成装置
130A,130B マイクロホン
132 カムコーダ
136 赤外線カメラ
138 データ処理装置
140 音声・動画記憶部
142 MoCapデータ記憶部
144 切出処理部
146 正規化処理部
148,748 結合部
150 収録音声データ
160A,…,160M 特徴点
170A,…,170N 顔パラメータ
202,802 前処理部
204,804 学習用DB
206,806 HMM学習部
210,810 データセット選択部
212,240 視覚素列生成部
214,814 ラベリング部
220,250 特徴量抽出部
222,252 音素列推定部
224,254 音素・視覚素変換部
242,842 HMMマッチング部
270 仮想マーカ配置部
272 マーカラベリング部
274 マーカラベリングデータ記憶部
276 顔オブジェクト変形部
746 動的特徴算出部
772A,…,772N 速度パラメータ
774A,…,774N 加速度パラメータ
780 顔パラメータHMM
846 変換部
Claims (11)
- 発話時の音声を録音することにより得られる収録音声データと当該収録音声データの収録時に同時に収録される発話者の顔の予め定める複数個の特徴点に関するモーションキャプチャデータとからなるデータセットから、リップシンクアニメーション作成用の統計確率モデルを作成するための統計確率モデル作成装置であって、
前記モーションキャプチャデータは複数のフレームを含み、前記複数のフレームの各々は当該フレームにおける前記複数個の特徴点の位置データを含み、前記複数のフレームと前記収録音声との間には時間的対応関係が付けられており、
前記統計確率モデル作成装置は、
前記音声の特徴量と音素とに関して予め準備された所定の音素統計確率モデルを用いて、前記データセットに含まれる収録音声データに含まれる音素列、及び当該音素列を構成する各音素に関する音素継続長を推定するための音素列推定手段と、
前記音素列推定手段により推定された音素列及び音素継続長に基づき、前記フレームの各々に対し、予め定義された所定のラベルセットに属するラベルによるラベリングを行なうためのラベリング手段と、
前記ラベリング手段によりラベリングされたモーションキャプチャデータからの統計的学習により、前記リップシンクアニメーション作成用の統計確率モデルとして、前記ラベル間の遷移確率と前記各特徴点の位置の出力確率とに関する統計確率モデルの学習を行なうための学習手段とを含む、統計確率モデル作成装置であって、
前記ラベルセットは、各々が発話時の口の形状を表す、複数個の所定の視覚素ラベルを含み、
前記ラベリング手段は、
音素と視覚素との間の所定の対応関係にしたがい、前記音素列推定手段により推定された前記音素列を前記視覚素ラベルの系列に変換し、前記音素継続長をもとに当該系列を構成する前記視覚素ラベルの各々の継続長を決定するための手段と、
前記決定するための手段により決定された視覚素ラベルの系列と継続長とをもとに、前記フレームの各々に対し、前記視覚素ラベルによるラベリングを行なうための視覚素ラベリング手段とを含む、統計確率モデル作成装置。 - 前記ラベルセットに含まれる視覚素ラベルの数は、前記音素列推定手段により推定される音素セットに含まれる音素の種類の数より少ない、請求項1に記載の統計確率モデル作成装置。
- 前記学習手段は、前記ラベリング手段によりラベリングされたモーションキャプチャデータから、連続する三つのラベルの組を学習単位として学習を行なうことにより、前記リップシンクアニメーション作成用の統計確率モデルとして、前記ラベル間の遷移確率と前記各特徴点の位置の出力確率とに関する統計確率モデルの学習を行なうための手段を含む、請求項1又は請求項2に記載の統計確率モデル作成装置。
- 前記統計確率モデル作成装置はさらに、前記モーションキャプチャデータ中の各フレームにおいて、当該フレームと、当該フレームに隣接するフレームとにおける前記複数個の特徴点の位置データから、前記複数個の特徴点の予め定められた動的特徴データを算出し対応する位置データに付加するための動的特徴データ算出手段を含み、
前記学習手段は、前記ラベリング手段によりラベリングされ、前記動的特徴データが付加された位置データを含むモーションキャプチャデータからの統計的学習により、前記リップシンクアニメーション作成用の統計確率モデルとして、前記ラベル間の遷移確率と前記各特徴点の位置の出力確率とに関する統計確率モデルの学習を行なうための手段を含む、請求項1〜請求項3のいずれかに記載の統計確率モデル作成装置。 - 前記動的特徴データ算出手段は、前記モーションキャプチャデータ中の各フレームにおいて、当該フレームの前記複数の特徴点の位置データと、当該フレームに隣接するフレームにおける前記複数個の特徴点の位置データとから、当該フレームにおける、前記複数個の特徴点の速度パラメータ及び加速度パラメータを前記動的特徴データとして算出し、対応する位置データに付加するための手段を含む、請求項4に記載の統計確率モデル作成装置。
- コンピュータにより実行されると、当該コンピュータを請求項1〜請求項5のいずれかに記載の統計確率モデル作成装置として動作させる、コンピュータプログラム。
- 発話時における発話者の顔の複数個の特徴点の軌跡を時系列で表すパラメータ系列を合成するためのパラメータ系列合成装置であって、
発話により発生した音声の入力を受けて、音声の特徴量と音素とに関し予め学習を行なって得られた第1の統計確率モデルに基づき、当該音声を出力する音素列と当該音素列を構成する各音素の音素継続長とを推定するための音素列推定手段と、
前記音素列推定手段により推定された音素列と音素継続長とをもとに、予め定義された所定のラベルセットに属するラベルからなる系列を生成し、当該系列を構成する当該ラベルの各々の継続長を決定するためのラベル列生成手段と、
前記ラベル間の遷移確率と前記各特徴点の位置の出力確率とに関し予め学習することにより得られた第2の統計確率モデルに基づき、前記ラベル列生成手段により生成された系列と継続長とを入力パラメータとして前記複数個の特徴点の軌跡を推定することにより、前記パラメータ系列を生成するための軌跡推定手段とを含む、パラメータ系列合成装置であって、
前記ラベルセットは、各々が発話時の口の形状を表す、複数個の所定の視覚素ラベルを含み、
前記第2の統計確率モデルは、前記視覚素ラベル間の遷移確率と前記各特徴点の位置の出力確率とに関し予め学習され、
前記ラベル列生成手段は、音素と前記視覚素ラベルとの間の所定の対応関係にしたがい、前記音素列推定手段により推定された音素列を前記視覚素ラベルの系列に変換し、前記音素継続長をもとに、当該系列を構成する各視覚素ラベルの継続長を決定するための変換手段を含む、パラメータ系列合成装置。 - 前記ラベルセットに含まれる視覚素ラベルの数は、前記音素列推定手段により推定される音素セットに含まれる音素の種類の数より少ない、請求項7に記載のパラメータ系列合成装置。
- 前記第2の統計確率モデルは、前記視覚素ラベル間の遷移確率と、前記各特徴点の位置パラメータ及び当該特徴点に関する動的特徴パラメータの出力確率とに関し予め学習された動的特徴による統計確率モデルを含み、
前記軌跡推定手段は、
前記ラベル間の遷移確率と前記各特徴点の位置パラメータ及び動的特徴パラメータの出力確率とに関し予め学習することにより得られた前記動的特徴による統計確率モデルに基づき、前記ラベル列生成手段により生成された系列と継続長とを入力パラメータとして、前記複数個の特徴点に対する前記位置パラメータ及び前記動的特徴パラメータの系列として最尤となる位置パラメータ及び動的特徴パラメータの系列を出力するための手段と、
前記位置パラメータ及び動的特徴パラメータの系列に対し、当該パラメータが得られた前記統計確率モデルに固有の変換によって、前記位置パラメータを前記動的特徴パラメータを用いて補正し、前記複数個の特徴点の各々の前記軌跡を推定するための手段とを含む、請求項7又は請求項8に記載のパラメータ系列合成装置。 - コンピュータにより実行されると、当該コンピュータを請求項7〜請求項9のいずれかに記載のパラメータ系列合成装置として動作させる、コンピュータプログラム。
- 第1の座標空間における複数のノードの座標値を用いて顔の形状を定義した所定の顔オブジェクトをもとに、音声に同期する前記顔のアニメーションを作成するためのリップシンクアニメーション作成システムであって、
請求項7〜請求項10のいずれかに記載のパラメータ系列合成装置と、
前記音声の入力に対して前記パラメータ系列合成装置により合成される、発話者の顔の複数個の特徴点の軌跡を表すパラメータ系列に基づき、前記顔オブジェクトにおける前記ノードの座標値を変更することにより、前記顔の形状を定義するオブジェクトを、前記アニメーションのフレームごとに生成するための変形オブジェクト生成手段と、
前記アニメーションの前記各フレームについて、前記変形オブジェクト生成手段により生成されるオブジェクトから、当該フレームにおける前記顔の画像を合成するための画像化手段とを含む、リップシンクアニメーション作成システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006201026A JP4631078B2 (ja) | 2005-07-27 | 2006-07-24 | リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005217860 | 2005-07-27 | ||
JP2006201026A JP4631078B2 (ja) | 2005-07-27 | 2006-07-24 | リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007058846A JP2007058846A (ja) | 2007-03-08 |
JP4631078B2 true JP4631078B2 (ja) | 2011-02-16 |
Family
ID=37922237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006201026A Expired - Fee Related JP4631078B2 (ja) | 2005-07-27 | 2006-07-24 | リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4631078B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220044463A1 (en) * | 2019-08-29 | 2022-02-10 | Tencent Technology (Shenzhen) Company Limited | Speech-driven animation method and apparatus based on artificial intelligence |
US20220115002A1 (en) * | 2020-10-14 | 2022-04-14 | Beijing Horizon Robotics Technology Research And Development Co., Ltd. | Speech recognition method, speech recognition device, and electronic equipment |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5109038B2 (ja) * | 2007-09-10 | 2012-12-26 | 株式会社国際電気通信基礎技術研究所 | リップシンクアニメーション作成装置及びコンピュータプログラム |
KR101541907B1 (ko) | 2008-10-14 | 2015-08-03 | 삼성전자 주식회사 | 음성 기반 얼굴 캐릭터 형성 장치 및 방법 |
KR101165300B1 (ko) | 2009-04-08 | 2012-07-19 | 이정훈 | 패턴애니메이션을 기반으로 하는 ucc서비스 시스템 |
CN105261058A (zh) * | 2015-10-10 | 2016-01-20 | 浙江大学 | 一种基于运动字串的运动标注方法 |
JP7421869B2 (ja) | 2019-04-26 | 2024-01-25 | 株式会社スクウェア・エニックス | 情報処理プログラム、情報処理装置、情報処理方法及び学習済モデル生成方法 |
CN110599573B (zh) * | 2019-09-03 | 2023-04-11 | 电子科技大学 | 一种基于单目相机的人脸实时交互动画的实现方法 |
JP7037159B2 (ja) * | 2019-11-08 | 2022-03-16 | 国立大学法人大阪大学 | 被験者の顎運動を測定するためのシステム、プログラム、および方法 |
CN112992120A (zh) * | 2019-12-02 | 2021-06-18 | 泛太丝亚企业管理顾问(上海)有限公司 | 语音转换虚拟脸部图像的方法 |
KR102254193B1 (ko) * | 2020-08-12 | 2021-06-02 | 주식회사 오텀리브스 | 3차원 캐릭터를 생성하는 캐릭터 생성 시스템 및 그 방법 |
CN113314094B (zh) * | 2021-05-28 | 2024-05-07 | 北京达佳互联信息技术有限公司 | 唇形模型的训练方法和装置及语音动画合成方法和装置 |
CN113971828B (zh) * | 2021-10-28 | 2023-10-31 | 北京百度网讯科技有限公司 | 虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000123192A (ja) * | 1998-10-09 | 2000-04-28 | Mitsubishi Electric Inf Technol Center America Inc | 顔面アニメ―ション生成方法 |
JP2002244689A (ja) * | 2001-02-22 | 2002-08-30 | Rikogaku Shinkokai | 平均声の合成方法及び平均声からの任意話者音声の合成方法 |
-
2006
- 2006-07-24 JP JP2006201026A patent/JP4631078B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000123192A (ja) * | 1998-10-09 | 2000-04-28 | Mitsubishi Electric Inf Technol Center America Inc | 顔面アニメ―ション生成方法 |
JP2002244689A (ja) * | 2001-02-22 | 2002-08-30 | Rikogaku Shinkokai | 平均声の合成方法及び平均声からの任意話者音声の合成方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220044463A1 (en) * | 2019-08-29 | 2022-02-10 | Tencent Technology (Shenzhen) Company Limited | Speech-driven animation method and apparatus based on artificial intelligence |
US12002138B2 (en) * | 2019-08-29 | 2024-06-04 | Tencent Technology (Shenzhen) Company Limited | Speech-driven animation method and apparatus based on artificial intelligence |
US20220115002A1 (en) * | 2020-10-14 | 2022-04-14 | Beijing Horizon Robotics Technology Research And Development Co., Ltd. | Speech recognition method, speech recognition device, and electronic equipment |
Also Published As
Publication number | Publication date |
---|---|
JP2007058846A (ja) | 2007-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4631078B2 (ja) | リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム | |
JP5344358B2 (ja) | 演技から作り出される顔アニメーション | |
Cao et al. | Expressive speech-driven facial animation | |
US7168953B1 (en) | Trainable videorealistic speech animation | |
JP3633399B2 (ja) | 顔面アニメーション生成方法 | |
Sifakis et al. | Simulating speech with a physics-based facial muscle model | |
Ezzat et al. | Trainable videorealistic speech animation | |
CA2375350C (en) | Method of animating a synthesised model of a human face driven by an acoustic signal | |
US7133535B2 (en) | System and method for real time lip synchronization | |
JP6019108B2 (ja) | 文字に基づく映像生成 | |
US6654018B1 (en) | Audio-visual selection process for the synthesis of photo-realistic talking-head animations | |
JP4543263B2 (ja) | アニメーションデータ作成装置及びアニメーションデータ作成プログラム | |
US20020024519A1 (en) | System and method for producing three-dimensional moving picture authoring tool supporting synthesis of motion, facial expression, lip synchronizing and lip synchronized voice of three-dimensional character | |
US8078466B2 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
KR20060090687A (ko) | 시청각 콘텐츠 합성을 위한 시스템 및 방법 | |
US20100057455A1 (en) | Method and System for 3D Lip-Synch Generation with Data-Faithful Machine Learning | |
Kalberer et al. | Face animation based on observed 3d speech dynamics | |
JP4379616B2 (ja) | モーションキャプチャデータ補正装置、マルチモーダルコーパス作成システム、画像合成装置、及びコンピュータプログラム | |
Železný et al. | Design, implementation and evaluation of the Czech realistic audio-visual speech synthesis | |
JP2974655B1 (ja) | アニメーションシステム | |
JP4631077B2 (ja) | アニメーション作成装置 | |
Luo et al. | Realtime speech-driven facial animation using Gaussian Mixture Models | |
Beskow et al. | Data-driven synthesis of expressive visual speech using an MPEG-4 talking head. | |
Filntisis et al. | Photorealistic adaptation and interpolation of facial expressions using HMMS and AAMS for audio-visual speech synthesis | |
Csapó | Extending text-to-speech synthesis with articulatory movement prediction using ultrasound tongue imaging |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071218 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100525 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100726 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101005 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101025 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131126 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |