JP4631078B2 - リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム - Google Patents

リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム Download PDF

Info

Publication number
JP4631078B2
JP4631078B2 JP2006201026A JP2006201026A JP4631078B2 JP 4631078 B2 JP4631078 B2 JP 4631078B2 JP 2006201026 A JP2006201026 A JP 2006201026A JP 2006201026 A JP2006201026 A JP 2006201026A JP 4631078 B2 JP4631078 B2 JP 4631078B2
Authority
JP
Japan
Prior art keywords
phoneme
face
data
sequence
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006201026A
Other languages
English (en)
Other versions
JP2007058846A (ja
Inventor
達夫 四倉
真一 川本
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2006201026A priority Critical patent/JP4631078B2/ja
Publication of JP2007058846A publication Critical patent/JP2007058846A/ja
Application granted granted Critical
Publication of JP4631078B2 publication Critical patent/JP4631078B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

本発明は、CG(Computer Graphics)を用いたアニメーションの作成技術に関し、キャラクタの発話時の表情を表現したリップシンクアニメーションを作成するための統計確率モデル作成装置、パラメータ系列合成装置、及びコンピュータプログラム、並びにそれらを用いたリップシンクアニメーション作成システムに関する。
アニメーション作品の制作にCGが用いられることが多くなり、従来のセルアニメーション等では制作者の高度な技能を要していたようなアニメーションが、単純な作業によって実現できるようになった。CGを用いる技術の中には例えば、3次元モデルを用いてアニメーションを制作する技術がある。この技術では、アニメーションの各フレームにおいて、オブジェクトの形状・位置・方向等を仮想空間上のポリゴンによって定義する。そしてその定義に基づきオブジェクトの画像を合成し、それら画像からアニメーションを構成する。オブジェクトの形状が一度定義されると、その形状について、あらゆる視点からの画像を何度でも合成できる。
フレームごとにオブジェクトを変形させて画像化することにより、キャラクタの表情の変化等も表現できる。キャラクタの声として別途音声を用意し、キャラクタの口の形及び表情などをその音声に合せて変化させると、あたかもキャラクタが発話しているようなアニメーションを制作できる。本明細書では、音声に合せてキャラクタの口の形や表情を変化させることを、「リップシンク」と呼ぶ。また、本明細書では、リップシンクが実現しているアニメーションを「リップシンクアニメーション」と呼ぶ。
リップシンクを実現するには、キャラクタの声と各フレームの画像で表現されるキャラクタの表情とを同期させなければならない。リップシンクを実現するための手法として従来から広く用いられている手法は、次の二つに分類される。すなわち一つの手法は、予め制作された映像に合せて後から音声を録音する手法(アフターレコーディング:いわゆる「アフレコ」)である。もう一つの手法は、音声を先に録音しておき、その音声に合せて映像を後から制作する方法(プレレコーディング:これを以下「プレレコ」と呼ぶ。)である。アフレコでは、アニメーションの制作者が、発話中のキャラクタの表情変化を予測しながら各フレームの画像を制作し、アニメーションを構成する。キャラクタの声を担当する発話者(又は声優)は、アニメーション上でのキャラクタの表情を見ながらタイミングを調整してセリフを発話する。これに対しプレレコでは、発話者は自由にセリフを発話する。制作者は、その音声に合せて表情を調整しながら、各フレームの画像を制作する。
CGを用いてリップシンクアニメーションを生成するための様々な技術が提案されている。後掲の非特許文献1には、キーフレーム法と呼ばれる手法によってリップシンクを実現するための技術が開示されている。この手法では、キャラクタの典型的な表情を表現したオブジェクトを予め複数用意しておく。そして、これら用意されたオブジェクトを用いて、発話中のキャラクタの表情を次のようにして指定する。まず、アニメーションを構成するフレームの中から、用意されたオブジェクトを使用してキャラクタの表情を表現するフレーム(キーフレーム)を定める。続いて、キーフレームで使用する表情のパラメータを指定する。この指定が完了すると、アニメーションの各フレームにおけるキャラクタの表情を表すオブジェクトを、フレームごとに生成する。この際、キーフレームについては、上記の指定により指定されたオブジェクトをそのまま当てはめる。二つのキーフレームの間にあるその他のフレーム(中間フレーム)については、その中間フレームの前後にある二つのキーフレームに使用されているオブジェクトからの、時間軸による線形補間によって、オブジェクトを生成する。
後掲の非特許文献2には、物理モデルに基づく顔のシミュレーションによって、リップシンクを実現する技術が開示されている。この技術では、顔の筋肉と皮膚と骨格とを3層構造のばねモデルによって物理モデル化する。発話時の筋肉の動きに基づきモデル上で筋肉を操作し、筋肉が移動・変形した場合の皮膚の動きをシミュレートする。
後掲の非特許文献3及び非特許文献4には、統計確率的な手法によって発話中における顔の動画像を合成する技術が開示されている。この手法では、予め発話時の顔の画像をデータベース(以下単に「DB」と書く。)化しておく。発話内容に適した特徴を備える画像をデータベース中の顔の画像から選び再構成する。
このうち、非特許文献3に記載の技術では、写真画像がDB化される。合成されるアニメーションは、それら写真画像を再構成したものである。したがって、大規模かつ適切なDBを用意すれば、実写の動画に近い自然な映像でリップシンクを実現できる。
非特許文献4に記載の技術では、3次元の顔のオブジェクトがDB化される。この技術では、発話中における顔の所定の複数の点についての位置計測と音声の収録とを同時に行なう。位置計測のデータについて主成分分析を行ない、顔のパラメータを生成する。顔のパラメータと音声の収録データとから、予め用意された音素隠れマルコフモデル(Hidden Markov Model:HMM)における状態に対応する顔のパラメータを選び、状態ごとに平均をとる。この平均されたパラメータを用い、音素HMMの各状態に対応するオブジェクトを生成しておく。このようにして生成されたオブジェクトと音素HMMとを用いて、プレレコでアニメーションを合成する。すなわち、まず、予め発話音声を用意しておき、当該発話音声から音素HMMを用いて音素列を合成する。この音素列に基づき、アニメーションの各フレームに対し、音素を指定する。指定された音素に対応するオブジェクトを当該フレームのオブジェクトに定め、オブジェクトの系列を作成し画像化する。
コーエン,M.M., マッサロ,D.W. 1993年. 「視覚的に合成された発話における同時調音のモデル」,コンピュータアニメーションのモデルと技法, 139−156頁(Cohen, M. M., Massaro, D. W. 1993. "Modeling coarticulation in synthetic visual speech", Models and Techniques in Computer Animation, pp.139-156) ウォーターズ,K. 1987年. 「3次元の顔の表現をアニメーション化するための筋肉モデル」,ACM シーグラフ ’87 17−24頁(Waters, K., 1987. A muscle model for animating three-dimensional facial expressions. ACM SIGGRAPH '87 pp.17-24) エザット,T.,ガイガー,G.,ポッジョ,T. 2002年. 「学習可能なビデオリアリスティック発話アニメーション」, ACM シーグラフ 2002(Ezzat, T., Geiger,G. and Poggio, T. "Trainable Videorealistic Speech Animation", Proceedings of ACM SIGGRAPH 2002) K カキハラ,S ナカムラ,K シカノ 「HMMに基づく音声からの顔の動きの合成」, 米国電気電子学会(IEEE)マルチメディアの国際会議及び博覧会予稿集,2000年7−8月 第1巻 427−430頁(K Kakihara, S Nakamura, K Shikano, "Speech-To-Face Movement Synthesis Based on HMMs", Proceedings of IEEE International Conference on Multimedia and Expo, July-August, 2000 Vol.1, pp.427-430) 徳田 恵一、「HMMによる音声合成の基礎」、電子情報通信学会技術研究報告、第100巻第392号、SP2000−74,pp.43−50,2000年10月
アフレコであれプレレコであれ、手作業でのアニメーション制作によってリップシンクを実現するには、膨大な量の作業とそのための高度な技能とを要する。アフレコでリップシンクを実現するには、発話時の各フレームにおける表情を制作者が的確に予測しなければならない。しかし、この予測にも限度がある。また、アフレコでリップシンクを実現するには、発話者が発話のタイミングを調整しなければならない。しかし、発話のタイミング等をフレーム単位で調整することは困難である。そのため、高度なリップシンクを実現するのに、制作者・発話者の双方に極めて高い技能が要求される。これに対しプレレコでは、予め収録された音声に合せて各フレームの画像が制作される。画像は音声と異なり、フレーム単位での修正が可能であるため、高精度にタイミングの調整を行なうことができる。したがって高度なリップシンクが実現可能となる。しかしながらこの方法では、アニメーション画像の制作者がフレームごとに画像を調整しなければならない。又は制作者が、音声と画像とを照合して画像を修正しなければならない。そのため、制作者に過酷な作業を強いることになる。
リップシンクを実現するための作業に関する上記のような問題は、3次元モデルを用いたCGによるアニメーション制作においても同様に発生する。3次元のオブジェクトを用いて表情などを表現するには、仮想空間上でオブジェクトを変形させなければならない。すなわち、ポリゴンの頂点(ノード)の位置についていちいち再定義しなければならない。オブジェクトの変形によってアニメーションを制作するには、フレームごとにこの作業を行なわなければならない。現在のアニメーションに用いられる形状モデルは、膨大な数のポリゴンにより構成されているため、再定義を要するノードの数もまた膨大である。そのため、制作に要する作業量及びコストは莫大なものとなる。
非特許文献1に記載の技術では、典型的な表情のオブジェクトが、そのままキーフレームにおける画像の合成に用いられる。したがって、あるキャラクタ用のオブジェクトは、他のキャラクタに転用できない。すなわち、キャラクタごとに典型的な表情のオブジェクトを用意しなければならない。また、この技術では、中間フレームにおける表情を表現するオブジェクトが予め用意されたオブジェクトの線形補間により生成される。しかし、人間の表情の変化はこのような線形的なものではない。したがって、この手法では、表情の変化を忠実に表現できず、リップシンクは不完全なものとなる。
非特許文献2に記載の技術は、顔の物理的構造を考慮した手法であり、シミュレーションを適切に行なえば、表情の変化を忠実に表現することができるかもしれない。しかし、この技術で意図した表情を表現するには、各筋肉組織の収縮量を解剖学的な知識に基づいていちいち設定しなければならない。そのため、この技術を用いてリップシンクアニメーションを作成するのは極めて困難である。
非特許文献3に記載の技術では、発話時の表情の特徴量を動画像から得ている。しかしこの技術では、次のような問題が発生する。すなわち、顔及びその表情は立体的(3次元)であるのに対し、動画像は2次元の情報である。3次元での形状変化に関する特徴量を2次元の動画像から得るのは困難である。したがってこの技術では、表情の変化についての情報を得るのが困難であるという問題が発生する。また、動画像の情報としての質はその画像を撮影するためのカメラの性能に依存する。したがって、動画像から求める特徴量に誤差が生じる恐れがあるという問題も発生する。
非特許文献4に記載の手法では、アニメーションとして作成可能な顔の表情は、DBに格納されたオブジェクトで表現される表情に限定されてしまう。多様な容貌のキャラクタの多彩な表情を表現するには、キャラクタごとに顔のオブジェクトを用意しDB化する必要がある。これは事実上不可能である。
それゆえに、本発明の目的は、任意のキャラクタについて、高度なリップシンクを実現するとともに、リップシンクアニメーションの制作作業を省力化する統計確率モデル作成装置、パラメータ系列合成装置、及びそれらを用いたリップシンクアニメーション作成システムを提供することである。
本発明の第1の局面に係る統計確率モデル作成装置は、発話時の音声を録音することにより得られる収録音声データと当該収録音声データの収録時に同時に収録される発話者の顔の予め定める複数個の特徴点に関するモーションキャプチャデータとからなるデータセットから、リップシンクアニメーション作成用の統計確率モデルを作成するための統計確率モデル作成装置である。モーションキャプチャデータは複数のフレームを含み、複数のフレームの各々は当該フレームにおける複数個の特徴点の位置データを含み、複数のフレームと収録音声との間には時間的対応関係が付けられている。統計確率モデル作成装置は、音声の特徴量と音素とに関して予め準備された所定の音素統計確率モデルを用いて、データセットに含まれる収録音声データに含まれる音素列、及び当該音素列を構成する各音素に関する音素継続長を推定するための音素列推定手段と、音素列推定手段により推定された音素列及び音素継続長に基づき、フレームの各々に対し、所定のラベルセットに属するラベルによるラベリングを行なうためのラベリング手段と、ラベリング手段によりラベリングされたモーションキャプチャデータからの統計的学習により、リップシンクアニメーション作成用の統計確率モデルとして、ラベル間の遷移確率と各特徴点の位置の出力確率とに関する統計確率モデルの学習を行なうための学習手段とを含む。
発話時の音声から音素列とその継続長が推定される。この音素列及び音素継続長に基づき、音声及びモーションキャプチャデータの各フレームについて、ラベリングが行なわれる。このラベリングがされたモーションキャプチャデータを学習データとして学習手段が統計的学習データを行なうことにより、統計確率モデルが得られる。この統計確率モデルを使用すると、音声を構成する音素についてラベリングがされた音声が与えられると、そのラベル系列に基づいて、音声に対応する顔の特徴点の位置の確率を出力できる。この確率に基づき、それらの特徴点の軌跡のうちで最尤となるものを定めることにより、音声から顔の動きを推定することができる。特徴点の軌跡が与えられるので、学習データを収録したときの発話者とは異なる顔モデルであっても、特徴点の対応付けがされていれば、音声に基づいてその顔モデルの動きを推定することができる。そのために、莫大な労力を要する作業は不要である。その結果、任意のキャラクタについて、高度なリップシンクを実現するとともに、リップシンクアニメーションの制作作業を省力化する統計確率モデル作成装置を提供することができる。
ラベルセットは、各々発話時の口の形状を表す、複数個の所定の視覚素ラベルを含んでもよい。ラベリング手段は、音素と視覚素との間の所定の対応関係にしたがい、音素列推定手段により推定された音素列を視覚素ラベルの系列に変換し、音素継続長をもとに当該系列を構成する視覚素ラベルの各々の継続長を決定するための手段と、決定するための手段により決定された視覚素ラベルの系列と継続長とをもとに、フレームの各々に対し、視覚素ラベルによるラベリングを行なうための視覚素ラベリング手段とを含む。
音声から視覚素への変換がされ、その視覚素とモーションキャプチャデータとを学習データとしてモデルの学習が行なわれる。モデルから推定される特徴点の軌跡は、視覚素という形で予め定められたラベルセットとの関連で推定されるので、推定を効率的に行なうことができる。
ラベルセットに含まれる視覚素ラベルの数は、音素列推定手段により推定される音素セットに含まれる音素の種類の数より少なくてもよい。
音素の種類より視覚素ラベルの数が少ないので、最終的な特徴点の位置の推定が効率的に行なえる。
ラベルセットは、各々が一つの音素を表す複数個の音素ラベルを含んでもよい。ラベリング手段は、音素列推定手段により推定された音素列をもとに、音素ラベルの系列を生成し、音素継続長をもとに音素ラベルの各々の継続長を決定するための手段と、決定するための手段により決定された音素ラベルの系列と継続長とをもとに、フレームの各々に対し、音素ラベルによるラベリングを行なうための音素ラベリング手段とを含む。
音声から得られた音素ラベルをそのまま学習に使用する。モデルから顔の特徴点の位置データの系列を推定する場合、その組み合わせは膨大となるが、出力として音素ラベルの形をとれば、組み合わせが音素ラベルの数によって限定される。その結果、このモデルを用いた顔の形状の推定が効率的に行なえる。
学習手段は、ラベリング手段によりラベリングされたモーションキャプチャデータから、連続する三つのラベルの組を学習単位として学習を行なうことにより、リップシンクアニメーション作成用の統計確率モデルとして、ラベル間の遷移確率と各特徴点の位置の出力確率とに関する統計確率モデルの学習を行なうための手段を含んでもよい。
顔の表情は、発話中の音素だけではなく、その前後の音素にも影響される。そこで、このように連続する三つのラベルの組を学習単位とすることにより、モデルによる顔特徴点の位置データの系列を推定する際に、実際の音声の連続に合致した形での推定を行なうことができ、アニメーションの動きが自然なものになる。
統計確率モデル作成装置はさらに、モーションキャプチャデータ中の各フレームにおいて、当該フレームと、当該フレームに隣接するフレームとにおける複数個の特徴点の位置データから、複数個の特徴点の予め定められた動的特徴データを算出し対応する位置データに付加するための動的特徴データ算出手段を含み、学習手段は、ラベリング手段によりラベリングされ、動的特徴データが付加された位置データを含むモーションキャプチャデータからの統計的学習により、リップシンクアニメーション作成用の統計確率モデルとして、ラベル間の遷移確率と各特徴点の位置の出力確率とに関する統計確率モデルの学習を行なうための手段を含む。
このように動的特徴データを学習に用い、音声から顔の特徴点の位置を推定する際にも同様の動的特徴データを使用するようにすると、特徴点の軌跡が実際の軌跡に類似した、滑らかなものとなる。
動的特徴データ算出手段は、モーションキャプチャデータ中の各フレームにおいて、当該フレームの複数の特徴点の位置データと、当該フレームに隣接するフレームにおける複数個の特徴点の位置データとから、当該フレームにおける、複数個の特徴点の速度パラメータ及び加速度パラメータを動的特徴データとして算出し、対応する位置データに付加するための手段を含んでもよい。
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを本発明の第1の局面に係るいずれかの統計確率モデル作成装置として動作させる。
本発明の第3の局面に係るパラメータ系列合成装置は、発話時における発話者の顔の複数個の特徴点の軌跡を時系列で表すパラメータ系列を合成するためのパラメータ系列合成装置である。パラメータ系列合成装置は、発話により発生した音声の入力を受けて、音声の特徴量と音素とに関し予め学習を行なって得られた第1の統計確率モデルに基づき、当該音声を出力する音素列と当該音素列を構成する各音素の音素継続長とを推定するための音素列推定手段と、音素列推定手段により推定された音素列と音素継続長とをもとに、予め定義されたラベルセットに属する所定のラベルからなる系列を生成し、当該系列を構成する当該ラベルの各々の継続長を決定するためのラベル列生成手段と、ラベル間の遷移確率と各特徴点の位置の出力確率とに関し予め学習することにより得られた第2の統計確率モデルに基づき、ラベル列生成手段により生成された系列と継続長とを入力パラメータとして、複数個の特徴点の軌跡を推定することにより、パラメータ系列を生成するための軌跡推定手段とを含む。
音声に含まれる音素列から所定のラベル列への変換がされ、そのラベル列とモーションキャプチャデータとを学習データとしてモデルの学習が行なわれる。モデルから推定される特徴点の軌跡は、予め定められたラベルセット内のラベルにより限定されるので、推定を効率的に行なうことができる。
ラベルセットは、各々が発話時の口の形状を表す、複数個の所定の視覚素ラベルを含んでもよい。第2の統計確率モデルは、視覚素ラベル間の遷移確率と各特徴点の位置の出力確率とに関し予め学習される。ラベル列生成手段は、音素と視覚素ラベルとの所定の対応関係にしたがい、音素列推定手段により推定された音素列を視覚素ラベルの系列に変換し、音素継続長をもとに、当該系列を構成する各視覚素ラベルの継続長を決定するための変換手段を含む。
ラベルセットに含まれる視覚素ラベルの数は、音素列推定手段により推定される音素セットに含まれる音素の種類の数より少ないとよい。
音素の種類より視覚素ラベルの数が少ないので、最終的な特徴点の位置の推定が効率的に行なえる。
ラベルセットは、各々が一つの音素を表す複数個の音素ラベルを含んでもよい。第2の統計確率モデルは、音素ラベル間の遷移確率と各特徴点の位置の出力確率とに関し予め学習することにより得られる。ラベル列生成手段は、音素列推定手段により推定された音素列をもとに、音素ラベルの系列を生成し、音素継続長をもとに当該系列を構成する音素ラベルの各々の継続長を決定するための手段を含む。
モデルから顔の特徴点の位置データの系列を推定する場合、その組み合わせは膨大となるが、出力として音素ラベルの形をとれば、組合せが音素ラベルの数によって限定される。その結果、このモデルを用いた顔の形状の推定時にも、音素ラベル系列を得るようにすることで、推定が効率的に行なえる。
第2の統計確率モデルは、視覚素ラベル間の遷移確率と、各特徴点の位置パラメータ及び当該特徴点に関する動的特徴パラメータの出力確率とに関し予め学習された動的特徴による統計確率モデルを含んでもよい。軌跡推定手段は、ラベル間の遷移確率と各特徴点の位置パラメータ及び動的特徴パラメータの出力確率とに関し予め学習することにより得られた前記動的特徴による統計確率モデルに基づき、前記ラベル列生成手段により生成された系列と継続長とを入力パラメータとして、複数個の特徴点に対する位置パラメータ及び動的特徴パラメータの系列として最尤となる位置パラメータ及び動的特徴パラメータの系列を出力するための手段と、位置パラメータ及び動的特徴パラメータの系列に対し、当該パラメータが得られた統計確率モデルに固有の変換によって、位置パラメータを動的特徴パラメータを用いて補正し、複数個の特徴点の各々の軌跡を推定するための手段とを含む。
このように動的特徴パラメータまで含んで学習したモデルを用い、位置パラメータ系列と動的特徴パラメータの系列とを得た後に、位置パラメータ系列を動的特徴パラメータ系列を用いて補正すると、推定された後の特徴点の動きは滑らかでかつ自然なものとなる。
本発明の第4の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを本発明の第3の局面に係るいずれかのパラメータ系列合成装置として動作させる。
本発明の第5の局面に係るリップシンクアニメーション作成システムは、第1の座標空間における複数のノードの座標値を用いて顔の形状を定義した所定の顔オブジェクトをもとに、音声に同期する顔のアニメーションを作成するためのリップシンクアニメーション作成システムである。リップシンクアニメーション作成システムは、本発明の第3の局面に係るいずれかのパラメータ系列合成装置と、音声の入力に対してパラメータ系列合成装置により合成される、発話者の顔の複数個の特徴点の軌跡を表すパラメータ系列に基づき、顔オブジェクトにおけるノードの座標値を変更することにより、顔の形状を定義するオブジェクトを、アニメーションのフレームごとに生成するための変形オブジェクト生成手段と、アニメーションの各フレームについて、変形オブジェクト生成手段により生成されるオブジェクトから、当該フレームにおける顔の画像を合成するための画像化手段とを含む。
以下、図面を参照しつつ、本発明の実施の形態に係る顔アニメーションの作成システムついて説明する。なお、以下の説明に用いる図面では、同一の部品及びデータ等には同一の符号を付してある。それらの名称及び機能も同一である。したがって、それらについての説明は繰返さない。
<第1の実施の形態>
[構成]
図1に、本実施の形態に係る顔アニメーションの作成システム全体の構成をブロック図形式で示す。図1を参照して、この顔アニメーションの作成システム40は、キャラクタの声となる音声のデータ(以下、単に「音声データ」と呼ぶ。)42と、キャラクタの無表情な顔の形状を定義するためのデータである顔オブジェクト44とから、キャラクタの声に同期してキャラクタの表情が変化する(すなわちリップシンクする)アニメーション46を作成するシステムである。
顔アニメーションの作成システム40は、学習用の音声の収録とその音声の発話中に発話者の顔の各器官に生じる位置変化(以下、この位置を「顔パラメータ」と呼ぶ。)の計測とを同時に行なうための収録システム60と、収録システム60により収録された学習用のデータを蓄積するための音声−顔パラメータDB62と、音声と音素との関係をモデル化した音素HMM64と、発話時の口の形状を表す最小単位である視覚素(viseme)と音素との対応関係を表す視覚素対応表66とを含む。
顔アニメーションの作成システム40はさらに、音素HMM64及び視覚素対応表66を用いて、音声−顔パラメータDB62から、発話時の口の形状(視覚素)と顔パラメータとの関係をモデル化した統計確率モデルの学習を行なうための学習システム68と、学習システム68による学習の結果得られる統計確率モデルである顔パラメータHMM50と、音声データ42及び顔オブジェクト44をもとに、音素HMM64、視覚素対応表66、及び顔パラメータHMM50を用いてアニメーション46を作成するためのアニメーション作成システム80とを含む。顔アニメーションの作成システム40はさらに、ユーザがアニメーション作成システム80を操作するための表示装置96及び入力装置98を含む。
アニメーション作成システム80は、音声データ42をもとに、音素HMM64、視覚素対応表66、及び顔パラメータHMM50を用いて音声データ42に対応する顔パラメータの系列84を合成するための顔パラメータ合成部82と、合成された顔パラメータの系列84及び顔オブジェクト44をもとに、発話時のキャラクタの顔の形状モデル92をフレームごとに生成するためのマッピング部90と、マッピング部90により生成されたフレームごとの形状モデル92を画像に変換して、アニメーション46を生成するための画像化部94とを含む。
〈収録システム60〉
図2に、収録システム60の構成を示す。図2を参照して、収録システム60は、発話者110による発話音声と発話時における発話者110の動画像とを収録するための録画・録音システム112と、発話時における発話者110の顔の各部位の位置及びその軌跡を計測するためのモーションキャプチャ(Motion Capture。以下「MoCap」と呼ぶ。)システム114と、録画・録音システム112により収録された音声・動画データ116及びMoCapシステム114により計測されたデータ(以下、このデータを「MoCapデータ」と呼ぶ。)118から、音声のデータ及びその発話時の顔パラメータのデータからなるデータセット120を作成し、音声−顔パラメータDB62に格納するためのデータセット作成装置122とを含む。
録画・録音システム112は、発話者110により発せられた音声を受けて音声信号に変換するためのマイクロホン130A及び130Bと、発話者110の動画像を撮影しその映像信号とマイクロホン130A及び130Bからの音声信号とを同時に記録して音声・動画データ116を生成するためのカムコーダ132とを含む。
カムコーダ132は、MoCapシステム114に対してタイムコード134を供給する機能を持つ。カムコーダ132は、音声信号及び映像信号を所定の形式でデータ化し、さらにタイムコード134と同じタイムコードを付与して図示しない記録媒体に記録する機能を持つ。
本実施の形態に係るMoCapシステム114は、高再帰性光学反射マーカ(以下、単に「マーカ」と呼ぶ。)の反射光を利用して計測対象の位置を計測する光学式のシステムを含む。MoCapシステム114は、発話者110の頭部の予め定める多数の箇所にそれぞれ装着されるマーカからの赤外線反射光の映像を、所定の時間間隔のフレームごとに撮影するための複数の赤外線カメラ136A,…,136Fと、赤外線カメラ136A,…,136Fからの映像信号をもとにフレームごとに各マーカの位置を計測し、カムコーダ132からのタイムコード134を付与して出力するためのデータ処理装置138とを含む。
図3に、発話者110に装着されるマーカの装着位置を模式的に示す。図3を参照して、発話者110の顔、首、及び耳の多数の箇所160A,…,160Mにそれぞれマーカが装着される。マーカの形状は半球状又は球状であり、その表面は光を再帰反射するよう加工されている。マーカの大きさは数mm程度である。音声−顔パラメータDB62を充実したものにするには、複数日にわたり又は複数の発話者110について計測を行なうことが必要となる。そのため、マーカの装着順序を予め定めておき、装着位置として、顔器官の特徴的な位置又は装着済みのマーカとの相対的な関係によって定められる位置を予め定めておく。こうして定められる装着位置を、本明細書では「特徴点」と呼ぶ。図3に示す例では、181箇所の特徴点160A,…,160Mにそれぞれマーカが配置される。
顔の物理的な構造上、発話者110の顔の表面上には、頭自体の動きに追従して移動するが発話者110の表情変化の影響をほとんど受けない、という特徴を持つ箇所がある。例えばこめかみ,鼻の先端がこのような特徴を持つ。本実施の形態では、このような箇所も特徴点として定めておく。以下、このような特徴点を不動点と呼ぶ。後述する正規化処理のために4点以上の不動点を定めることが望ましい。
再び図2を参照して、データ処理装置138は、各マーカの位置の計測データ(以下、「マーカデータ」と呼ぶ。)をフレームごとにまとめてMoCapデータ118を生成し、データセット作成装置122に出力する。MoCapシステム114には、市販の光学式MoCapシステムを利用できる。市販の光学式MoCapシステムにおける赤外線カメラ及びデータ処理装置の機能及び動作については周知であるので、これらについての詳細な説明はここでは繰返さない。
データセット作成装置122は、音声・動画データ116を取込んで記憶するための音声・動画記憶部140と、MoCapデータ118を取込んで記憶するためのMoCapデータ記憶部142と、音声・動画データ116及びMoCapデータ118をそれらに付されたタイムコードに基づいて切出し、互いに同期する音声のデータ(以下、「収録音声データ」と呼ぶ。)150及びMoCapデータ152を出力するための切出処理部144とを含む。
データセット作成装置122はさらに、切出されたMoCapデータ152における頭の動きの成分をキャンセルするように当該MoCapデータ152を正規化して、顔の各器官の変化を表す顔パラメータの系列154に変換するための正規化処理部146と、収録音声データ150及び顔パラメータの系列154を同期させて結合してデータセット120を生成し、音声−顔パラメータDB62に格納するための結合部148とを含む。
正規化処理部146は、切出されたMoCapデータ152の各フレームにおいて、前述の不動点の位置変化が0になるよう、当該フレームの各マーカデータを変換することによって、当該フレームの顔パラメータを生成する機能を持つ。本実施の形態では、この変換にアフィン変換を用いる。
ここに、時刻t=0のフレームのMoCapデータ152におけるマーカデータを同次座標系でP=〈Px,Py,Pz,1〉と表現する。また時刻t≠0におけるマーカデータをP'=〈P'x,P'y,P'z,1〉と表現する。マーカデータPとマーカデータP’との関係は、アフィン行列Mを用いて次の式(1)のように表現される。
Figure 0004631078

顔パラメータの系列154の各フレームにおいて不動点の位置データがすべて同じ値となれば、不動点の位置変化が0になる。そこで、本実施の形態では、フレームごとに、t=0のフレームにおける各不動点のマーカデータと、処理対象のフレームにおける当該不動点のマーカデータとから、当該フレームにおけるアフィン行列Mを算出する。そして、アフィン行列Mを用いて、各マーカデータをアフィン変換する。変換後のマーカデータはそれぞれ、t=0での頭の位置のまま発話を行なった状態での顔の特徴量の位置を表すものとなる。
〈音声−顔パラメータDB62〉
図4に、音声−顔パラメータDB62(図1参照)に格納されるデータセット120の構成を模式的に示す。図4を参照して、データセット120は、切出された収録音声データ150と顔パラメータの系列154とを含む。顔パラメータの系列154は、複数フレーム分の顔パラメータ170A,…,170Nを含む。顔パラメータ170A,…,170Nはそれぞれ、収録音声データにより表される音声が発話されていた期間内のいずれかの時刻に対応している。すなわち、収録音声データ150と顔パラメータ170A,…,170Nとを相互参照することにより、ある特徴を持つ発話が行なわれたときの特徴点の位置変化について情報を得ることができる。
〈音素HMM64〉
図1に示す音素HMM64は、音素ごとに設けられた音声の特徴に関するHMMである。図5に、音素HMM64の概要を示す。図5を参照して、音素HMM64は、音声の特徴を表す所定のパラメータ(以下、「音声パラメータ」と呼ぶ。)180が与えられると、音声中に対応する音素が存在する尤度を出力する機能を持つ。したがって、音素HMM64を用いることにより、音声パラメータ180から音素列182及び音素列を構成する各音素の音素継続長が推定できる。なお本実施の形態では、音声パラメータ180として、MFCC(Mel-Frequency Cepstral Coefficient)を使用するものとする。
〈視覚素対応表66〉
図1に示す視覚素対応表66は、音素と視覚素との対応関係を示す表である。図6に視覚素対応表66の構成を示す。図6を参照して、視覚素対応表66は、発話中の口の形を表す10種類の視覚素と、43種類の音素との対応関係を表す。例えば視覚素「A」は、音素「a」又は「A」が発話されるときの口の形を表す。音素「h」を発話する際の口の形は、前後の音素を発話する際の口の形に依存する。そのため、この音素に対応する10種の視覚素とは別に記号「***」によって表している。
〈学習システム68〉
図7に、学習システム68(図1参照)の構成をブロック図で示す。図7を参照して、学習システム68は、音声−顔パラメータDB62内のデータセット120から顔パラメータHMM50の学習に用いるデータセットを生成するための前処理部202と、学習用のデータセット200を蓄積するための学習用DB204と、学習用DB204内に蓄積された学習用のデータセット200から顔パラメータHMM50の学習を行なうためのHMM学習部206とを含む。
前処理部202は、音声−顔パラメータDB62から処理対象のデータセット120を選択するためのデータセット選択部210と、データセット選択部210により選択されたデータセット120内の収録音声データ150(図4参照)から、データセット120が収録された際の発話内容に対応する視覚素の系列と各視覚素の継続長とを、音素HMM64及び視覚素対応表66を用いて推定するための視覚素列生成部212と、選択されたデータセット120内の顔パラメータの系列154に含まれる顔パラメータ170A,…,170N(図4参照)に、視覚素を表すラベルによるラベルリングを行ない、学習用のデータセット200を生成するためのラベリング部214とを含む。
視覚素列生成部212は、収録音声データ150から、音声パラメータ180(図5参照)を抽出するための特徴量抽出部220と、抽出された音声パラメータ180をもとに、発話に対応する音素として最尤のものをフレームごとに、音素HMM64を用いて推定するための音素列推定部222と、音素列推定部222により推定された音素列182を構成する各音素を視覚素対応表66に基づき視覚素に変換するための音素・視覚素変換部224とを含む。
特徴量抽出部220は、収録音声データから、音声パラメータ180として各フレームにおけるMFCCベクトルを抽出する機能を持つ。音素列推定部222は、音素HMM64から、最尤の音素列182及び音素継続長を推定する機能を持つ。本実施の形態の音素列推定部222は、この推定にビタビアルゴリズムを用いる。すなわち、音素列推定部222は、与えられたMFCCベクトルの系列を出力する音素のビタビ系列を推定する。音素・視覚素変換部224は、推定された音素のビタビ系列を構成する音素をそれぞれ、視覚素に変換する機能を持つ。ラベリング部214は、発話時の視覚素の時間変化と顔パラメータとの対応付けを、データセット120の各々について行なう。
HMM学習部206は、視覚素によりラベリングされた顔パラメータ170A,…,170Nを用いて、所定の視覚素列が与えられた場合の顔パラメータ170A,…,170Nの系列とその尤度とを学習する機能を持つ。ただし、発話中の表情は、音素と音声パラメータとの関係における調音結合と同様に、前後の視覚素に依存して変化することがある。音声認識用の音素HMMの学習においては、調音結合に対処すべくトライフォンを認識の処理単位として用いることがある。そこで、本実施の形態では、三つの視覚素を1組とする三つ組視覚素(TriViseme)を処理単位として、顔パラメータHMM50の学習を行なう。
〈アニメーション作成システム80〉
(顔パラメータ合成部82)
図8に、顔パラメータ合成部82(図1参照)の構成をブロック図で示す。図8を参照して、顔パラメータ合成部82は、音素HMM64及び視覚素対応表66を用いて音声データ42を視覚素列に変換するための視覚素列生成部240と、音声データ42により表される音声が発話されているときの顔パラメータの系列84を、視覚素列生成部240により生成された視覚素列と顔パラメータHMM50とを用いて合成するためのHMMマッチング部242とを含む。
視覚素列生成部240は、特徴量抽出部250と、音素列推定部252と、音素・視覚素変換部254とを含む。これらの機能は、特徴量抽出部250が音声データ42の入力を受ける点を除き、それぞれ、図7に示す学習システム68の特徴量抽出部220、音素列推定部222、及び音素・視覚素変換部224の機能と同一である。したがってこれらの機能の詳細については、説明は繰返さない。
HMMマッチング部242は、視覚素列生成部240より視覚素列とその継続長とを受け、当該視覚素列と継続長とにより表される発話全体で尤度最大となる顔パラメータの系列84を、顔パラメータHMM50を用いて合成する機能を持つ。
(マッピング部90)
図9に、マッピング部90(図1参照)の構成をブロック図で示す。図9を参照して、マッピング部90は、入力装置98及び表示装置96に接続され、顔オブジェクト44上に特徴点160A,…,160M(図3参照)に対応する仮想のマーカ(以下、単に「仮想マーカ」と呼ぶ。)を、ユーザの操作にしたがい配置するための仮想マーカ配置部270と、顔オブジェクト44内の各ノードを、各ノードに近接する仮想マーカによってラベリングするためマーカラベリング部272と、マーカラベリング部272によるラベリングにより形成されたノードと仮想マーカとの対応関係を表す、マーカラベリングデータを記憶するためのマーカラベリングデータ記憶部274とを含む。
マッピング部90はさらに、マーカラベリングデータ記憶部274に記憶されたマーカラベリングデータと顔パラメータ合成部82により合成された顔パラメータの系列84とを用いて、顔オブジェクト44が表現する顔の形状から、変形した顔オブジェクト92を順次作成するための顔オブジェクト変形部276を含む。
仮想マーカ配置部270は、入力装置98及び表示装置96を用いてユーザにより行なわれる仮想マーカの配置操作にしたがい、顔オブジェクト44を規定する座標系上での各特徴点の座標を設定する。このようにして特徴点の座標が設定されることにより、各特徴点の各マーカデータを顔オブジェクト44上の各仮想マーカの位置に割当てることができる。なおこの際、顔パラメータの座標系と顔オブジェクトの座標系との間の変換も行なわれる。
図10に、顔オブジェクト44及び仮想マーカの一例を示す。図10を参照して、顔オブジェクト44は、この図における黒い線分でそれぞれ示すエッジにより囲まれた多数の多角形(ポリゴン)によって、静止状態における所定の顔の形状を表現した形状モデルである。ポリゴンの頂点(エッジ同士の交点)が、顔オブジェクト44におけるノードである。一般に顔には、目・口・鼻の穴のように顔面を構成しない切れ目がある。これらの切れ目は一般に、顔オブジェクト44の一部としてモデリングされることはない。すなわち切れ目にポリゴンを定義しない。又は顔オブジェクト44とは別のオブジェクトとして定義される。よって、切れ目と顔面との間は境界エッジで仕切られている。
顔オブジェクト44により表現される顔の形状は、ユーザにより創作される任意のものでよい。ただし、顔パラメータを用いて顔オブジェクト44に表情を付与するには、顔オブジェクト44により表現される形状のどの部分が顔の各器官であるかを定義する必要がある。そのために、仮想マーカ配置部270(図9参照)は、顔オブジェクト44上に、仮想マーカ300A,…,300Mをそれぞれ、ユーザの操作にしたがって配置する。
この際、収録システム60(図2参照)におけるモーションキャプチャデータの収録に用いられたマーカの装着順序に従い仮想マーカ300A,…,300Mが配置されるよう、ユーザに対し誘導を行なう。したがって、ユーザの主観を反映しつつ、適切な位置に仮想マーカを配置することができる。図9に示す仮想マーカ配置部270は、顔オブジェクト44を規定する座標系における各仮想マーカの座標をマーカラベリング部272に出力する。
マーカラベリング部272は、顔オブジェクト44のノードの中から、処理の対象となるノードを選択し、選択したノード(以下、「選択ノード」と呼ぶ。)からの距離が最も近い仮想マーカを、仮想マーカの座標に基づき選択する。そして、選択された仮想マーカ(以下、「選択マーカ」と呼ぶ)が、この選択ノードに対応付ける仮想マーカとして適切であるかを判定する。適切であれば選択マーカを選択ノードの対応マーカとして採用し、不適切であれば棄却する。このような処理を繰返し、所定数n(例えばn=3)の仮想マーカを採用する。本明細書では、あるノードに対し採用された仮想マーカを、当該ノードの「対応マーカ」と呼ぶ。
本実施の形態では、選択マーカの対応マーカとしての適/不適を判断する際の基準に、顔オブジェクトの境界エッジを利用する。
図11に、マーカラベリング部272により実行されるマーカラベリング処理の構造をフローチャートで示す。図11を参照して、処理が開始されると、ステップ340Aとステップ340Bとで囲まれた、ステップ342からステップ354までの処理を、顔オブジェクト44における各ノードに対して実行する。
ステップ342では、選択ノードから仮想マーカまでの距離をそれぞれ算出する。さらに仮想マーカをこの距離の昇順でソートしたものをリストにする。ステップ344では、以下の繰返しを制御するための変数i及び採用された対応マーカの数を表す変数jに0を代入する。ステップ346では、変数iに1を加算する。
ステップ347では、変数iの値が仮想マーカの数Mmaxを超えているか否かを判定する。変数iの値がMmaxを超えていればエラーとし、処理を終了する。普通このようなことはないが、念のためにこのようなエラー処理を設けておく。変数iの値がMmax以下であれば制御はステップ348に進む。
ステップ348では、リストの先頭から変数iで示される位置に存在する仮想マーカ(以下これを「マーカ(i)」と呼ぶ。)と選択ノードとを結ぶ線分が、顔オブジェクト44におけるいずれの境界エッジも横切らない、という制約条件を充足しているか否かを判定する。当該線分が境界エッジのいずれかを横切るものであれば、ステップ344に戻る。さもなければステップ350に進む。
ステップ350では、この時点でのマーカ(i)を選択ノードの対応マーカの一つに指定する。すなわちマーカ(i)を示す情報を、選択ノードのマーカ・ノード対応情報として保存する。この後制御はステップ352に進む。ステップ352では、変数jに1を加算する。ステップ354では、変数jの値が3となっているか否かを判定する。変数jの値が3であればステップ340Bに進む。さもなければステップ344に進む。
上記したように、選択ノードと仮想マーカとを結ぶ線分が顔オブジェクトの境界エッジを横切るものは、ノードに対応する仮想マーカから除外される。これは以下の理由による。例えば上唇と下唇とのように、間に境界エッジが存在する場合がある。この場合、上唇に位置するノードと、下唇に位置するノードとは互いに異なる動きをする。したがって、例えば上唇のノードの移動量を算出する際に、下唇に存在するマーカの移動量を用いることは適当ではない。線分がある境界エッジを横切っているか否かは、例えば、その境界エッジが顔オブジェクトを構成するポリゴンのうち二つによって共有されているか、一つのみに属しているかによって判定する。
図12に、顔オブジェクト44における唇周辺のポリゴンと仮想マーカとを示す。以下、図12を参照しつつ、当該ノードの対応マーカを特定する方法について具体例を用いて説明する。図12を参照して、顔オブジェクト44の唇周辺には、多数の三角形ポリゴンが存在する。各ポリゴンは、三つのエッジに囲まれている。そして上唇と下唇の間には境界エッジ400が存在する。境界エッジは、顔オブジェクト44と切れ目との接線、又は顔オブジェクト44の外縁にあたる。そのため、境界エッジ以外のエッジは二つのポリゴンに共有されるが、境界エッジ400に該当するエッジは共有されない。
マーカラベリング部272はまず、顔オブジェクト44を構成するノードの中からノードを一つ選択する。このノードが選択ノードである。ここに、図12に示すノード410が選択ノードであるものとする。選択ノード410の近隣には、仮想マーカ412A,…,412Eが存在する。マーカラベリング部272は、ノード410の座標と、仮想マーカの座標とをもとに、選択ノード410と仮想マーカとの間の距離をそれぞれ算出する。そして、仮想マーカの中から、ノード410に最も近い位置にある仮想マーカ412Aを選択する。
続いて、マーカラベリング部272は、選択ノード410と仮想マーカ412Aとを結ぶ線分414Aが境界エッジ400を横切るか否かを検査する。この線分414Aは、境界エッジ400を横切らない。そのためマーカラベリング部272は、仮想マーカ412Aを選択ノード410の対応マーカの一つとする。そして、仮想マーカの中から、仮想マーカ412Aの次にノード410に近い位置にある仮想マーカ412Bを選択し検査を行なう。選択ノード410と仮想マーカ412Bとを結ぶ線分414Bは、境界エッジ400を横切っている。そのため、仮想マーカ412Bは選択ノード410の対応マーカからは除外される。
マーカラベリング部272は、以上のような動作を所定数(3個)の対応マーカが選択されるまで繰返し、ノード410の対応マーカ(図12に示す例では仮想マーカ412A、412D、及び412E)を選択する。
再び図9を参照して、顔オブジェクト変形部276は、あるフレームの顔パラメータにおける各マーカデータをそれぞれ仮想マーカに付与する。さらに顔オブジェクト変形部276は、マーカラベリングデータ記憶部274のマーカラベリングデータに基づき、顔オブジェクト44の各ノードに、対応する仮想マーカの変化量から所定の内挿式により算出される変化量ベクトルvを割当てることにより、顔オブジェクト44の変形を行なう。そして、変形後の顔オブジェクト44を、形状モデル92として出力する。顔オブジェクト44のノードの座標をN、当該ノードと対応関係にある仮想マーカの座標をMi、変形後の顔オブジェクトである形状モデル92におけるマーカの座標をM'iとすると、顔オブジェクト変形部276は、ノードの座標の変化量ベクトルvを次の内挿式(2)によって算出する。
Figure 0004631078
[動作]
本実施の形態に係る顔アニメーションの作成システム40は以下のように動作する。
〈収録システムの動作〉
以下に、収録システム60が収録を行ない、データセット120を生成する動作について説明する。図2を参照して、発話者110の頭部の各特徴点160A,…,160M(図3参照)には事前に、マーカを予め装着しておく。その状態で、発話者は発話を行なう。音声−顔パラメータDB62を充実したものにするために、又は、各音素がバランスよく含まれるようにするために、発話の内容を事前に決めておき、発話者110にその内容で発話を行なってもらうようにしてもよい。
収録が開始され、発話者110が発話すると、録画・録音システム112が、発話時の音声と顔の動画像を次のようにして収録する。すなわち、マイクロホン130A及び130Bは、発話者110の音声を受音して音声信号を発生する。カムコーダ132は、発話中の発話者110の動画像を撮影し、その映像信号をマイクロホン130A及び130Bからの音声信号を同時に記録して音声・動画データ116を生成する。この際、カムコーダ132は、MoCapシステム114に対してタイムコード134を供給するとともに、音声・動画データ116に、タイムコード134と同じタイムコードを付与する。
この際、同時に、発話時における特徴点160A,…,160Mの位置が、MoCapシステム114により次のようにして計測される。マーカはそれぞれ、対応する特徴点の動きに追従して移動する。赤外線カメラ136A,…,136Fはそれぞれ、マーカによる赤外線反射光を、所定のフレームレート(例えば毎秒120フレーム)で撮影しその映像信号をデータ処理装置138に出力する。データ処理装置138は、それらの映像信号の各フレームにタイムコード134を付与し、当該映像信号をもとに、各マーカの位置をフレームごとに算出する。データ処理装置138は、各マーカの位置のデータをフレームごとにまとめてMoCapデータ118として蓄積する。
以上の収録プロセスにより収録された音声・動画データ116及びMoCapデータ118は、データセット作成装置122に与えられる。データセット作成装置122は、音声・動画データ116を音声・動画記憶部140に蓄積し、MoCapデータ118を、MoCapデータ記憶部142に蓄積する。
切出処理部144はまず、MoCapデータ記憶部142から、t=0のフレームにおけるMoCapデータを読出して正規化処理部146に与える。このフレームのデータは、正規化処理部146による正規化に用いられる。続いて切出処理部144は、音声・動画記憶部140に記憶される音声・動画データ116から、1発話分など所定の単位で収録音声データ150を切出す。そして、切出した収録音声データ150に付与されているタイムコードを参照して、収録音声データ150の当該タイムコード上での位置を特定し、収録音声データ150を結合部148に与える。続いて切出処理部144は、MoCapデータ118から、タイムコード上、収録音声データ150の位置と同じ位置でMoCapデータ152を切出し、正規化処理部146に与える。
正規化処理部146は、MoCapデータ152の各フレームにおいて、当該フレームの不動点のマーカデータと、予め与えられているt=0のフレームにおける不動点のマーカデータとから、アフィン行列を求め、当該アフィン行列を用いて、各マーカデータをアフィン変換する。この変換により、変換後のマーカデータはそれぞれ、頭をt=0での頭の位置のまま発話を行なった状態での顔の特徴量の位置を表すものとなる。その結果、MoCapデータ152は、顔パラメータの系列154になる。顔パラメータの系列154は、結合部148に与えられる。
結合部148は、収録音声データ150及び顔パラメータの系列154を同期させて結合してデータセット120(図4参照)を生成し、音声−顔パラメータDB62に格納する。
〈顔パラメータHMM50の学習〉
以下に、学習システム68が顔パラメータHMMを学習する動作について説明する。図7を参照して、音声−顔パラメータDB62内のデータセット120(図4参照)の各々は、学習システム68の前処理部202により、次のようにして学習用データセット200に変換される。
すなわちまず、データセット選択部210が、音声−顔パラメータDB62から処理対象のデータセット120(図4参照)を選択する。そして、当該データセット120に含まれる収録音声データ150と顔パラメータの系列154とをそれぞれ、視覚素列生成部212とラベリング部214とに与える。
視覚素列生成部212に収録音声データ150が与えられると、特徴量抽出部220が、収録音声データ150から、その音声の特徴量のベクトル系列180として、フレームごとにMFCCを抽出する。音素列推定部222は、抽出されたMFCCベクトルの系列に対応する音素列182(図5参照)を、音素HMM64に基づきビタビアルゴリズムによって推定する。すなわち、与えられたベクトル系列から、発話全体で尤度最大となる音素列182及び当該音素列182を構成する各音素の音素継続長を推定する。音素・視覚素変換部224は、推定された音素列182を構成する音素をそれぞれ、視覚素に変換する。これにより43種類の音素は、10種類の視覚素にグループ化される。したがって、視覚素変換部224により出力される視覚素列208として可能な組合せの数は、視覚素変換部224に入力されうる音素列182の組合せの数より少なくなる。音素・視覚素変換部224により出力されるデータは、データセット120の各時刻において発話者110が発話する際の口の形に対応する視覚素を表す。
ラベリング部214は、この視覚素列に基づき、顔パラメータの系列154内の各顔パラメータ170A,…,170Nに対するラベリングを行なう。発話時の視覚素の時間変化と顔パラメータとの対応付けを、データセット120の各々について行なうことになる。ラベリング部214は、視覚素によりラベリングされた顔パラメータ170A,…,170Nからなる学習用データセット200を生成し、これを学習用DB204に格納する。
HMM学習部206は、作成された学習用DB204に格納された、学習用データセット200を用いて、顔パラメータHMM50の学習を行なう。この際HMM学習部206は、三つの視覚素を1組とする三つ組視覚素を処理単位として、顔パラメータHMM50の学習を行ない、視覚素間の遷移確率と、顔パラメータ170A,…,170Nの出力確率に関する学習を行ない、顔パラメータHMM50を形成する。
以上のようにして顔パラメータHMM50を学習することにより、顔パラメータHMM50に基づき、視覚素列から顔パラメータの系列を合成することが可能になる。顔パラメータは、各フレームにおける顔の多数の特徴点160A,…,160M(図3参照)の位置を表すものである。また、視覚素は発話時の口の形を表すものである。そのため、アニメーション上でのキャラクタの声に対応する各フレームのキャラクタの視覚素が特定されれば、当該視覚素からなる視覚素列と、顔パラメータHMM50とを用いて、各フレームにおける顔の多数の特徴点160A,…,160Mの位置情報を合成することが可能になる。すなわち、視覚素列から、発話時の特徴点160A,…,160Mの軌跡を推定することができる。よって、発話時の口の形のみならず顔の表情の変化に関して、情報を得ることが可能になる。
また、視覚素の種類は音素の種類より少ない。したがって、音素ごとに状態が設けられたHMMより、視覚素ごとに状態が設けられたHMMの方が、少ない状態数のモデルとなる。発話中の発話者の表情は、音素よりむしろ発話中の口の形に依存して変化すると考えられる。そのため、視覚素列から学習された顔パラメータHMM50の品質が、音素列から、又はMFCCの系列から学習された顔パラメータHMM50の品質より劣ることはない。同一の量の学習データからの学習を行なう場合、状態数の少ないモデルを学習する方が、データのスパースネスな学習の問題(一部の領域で学習に用いるデータが不足しているため、正確な推定を行なうことが不可能となる問題)も生じず、効率的である。したがって、視覚素列から顔パラメータHMM50を学習することにより、効率的で高い品質の顔パラメータHMMを得ることができる。さらに、三つ組視覚素を処理単位として、HMM学習を行なうため、前後の視覚素に依存した顔の表情の変化に対しても精度の高い学習を行なうことができる。
(顔パラメータの合成)
以下、図1に示すアニメーション作成システム80の動作について説明する。キャラクタの声を表す音声データ42が準備され、図8に示す顔パラメータ合成部82に与えられる。この音声データ42は、事前に、キャラクタの声を担当する発話者(又は声優)によって発話されたものを録音することにより得られる。又は、音声合成技術により合成された音声のデータであってもよい。顔パラメータ合成部82に音声データ42が入力されると、視覚素列生成部240が、音素HMM64及び視覚素対応表66を用いて、音声データ42から視覚素列及び当該視覚素列を構成する各視覚素の継続長を推定する。この動作は、学習システム68の視覚素生成部212(図7参照)の動作と同様である。これにより、音声データ42により表される音声の発話時における口の形の変化が特定される。
HMMマッチング部242は、視覚素列生成部240により生成された視覚素列と顔パラメータHMM50とのマッチングを行ない、発話全体で最尤の顔パラメータの系列84を合成する。
以上のようにして顔パラメータ合成部82により合成された顔パラメータの系列84は、音声データ42により表現される音声の発話中における口の形の変化から得られたものである。よってこの系列84は、当該音声の発話時における顔の特徴点160A,…,160Mの軌跡を表すものとなる。したがって、発話時の口の形のみならず顔の各特徴点の位置の非線形的な変化を、合成された顔パラメータの系列84によって特定できる。
また顔パラメータ合成部82は、音声データ42から、音素HMM64と顔パラメータHMM50とに用いた2段階の推定により顔パラメータの系列84を合成する。すなわち、音声データ42の音声パラメータ180の入力に対し出力されうる顔パラメータの系列84は、音素HMM64に基づく音素列182の推定により絞込まれることになる。さらに、音素を視覚素に変換することにより、出力され得る顔パラメータの系列84は、さらに絞込まれる。そのため、特徴点が多数存在する場合であっても、効率的に顔パラメータの系列84を合成することができる。
ただし、上記の顔パラメータ合成部82により合成される顔パラメータは、図1に示す音声−顔パラメータDB62に格納された顔パラメータの系列154に基づき合成されるものである。すなわち、音声データ42により表される音声と等価な音声を、図2に示す収録システム60における発話者110が発話した場合の顔の表情変化を表すものである。そこで、本実施の形態に係るマッピング部90は、キャラクタの顔の形状を表す顔オブジェクト44と顔パラメータの系列84とから、発話時の各フレームに対応する形状モデル92を、以下のようにして生成する。
(マッピングによる形状モデル92の生成)
図9を参照して、マッピング部90に顔オブジェクト44(図4参照)が与えられると、まず、顔オブジェクト44は、仮想マーカ配置部270、マーカラベリング部272、及び顔オブジェクト変形部276に与えられる。
仮想マーカ配置部270は、顔オブジェクト44に仮想マーカ300A,…,Mを、ユーザの操作にしたがい配置する。これにより、無表情な状態での顔オブジェクト44における、当該顔オブジェクト44の座標系上での特徴点160A,…,160M(図3参照)の位置が特定される。すなわち、仮想マーカ配置部270は、まず顔オブジェクト44を画像化して表示装置96に出力し、さらにユーザから当該初期顔モデル上における仮想マーカの位置の指定を入力装置98を介して受ける。顔オブジェクト44での仮想マーカの位置は、収録システム60における発話者へのマーカの配置と同様のルールにしたがって指定される。そのため、顔オブジェクト44と各仮想マーカとの位置関係は、発話者110(図2参照)の顔と当該発話者110に装着されたマーカとの位置関係に対応する。
仮想マーカ配置部270は、各マーカのマーカデータに対しモーションキャプチャデータの座標系から顔モデルの座標系に対する座標変換を行ない、初期顔モデルの座標系における各仮想マーカの座標を特定する。仮想マーカ配置部270は、当該各仮想マーカの座標を、マーカラベリング部272に与える。
マーカラベリング部272は、顔オブジェクト44と仮想マーカの座標とを受けて、顔オブジェクト44の各ノードに対して、当該ノードの3個の対応マーカを図11及び図12を参照して前述したようにして特定する。マーカラベリング部272は、全てのノードに対して対応マーカを決定し、ノードに対する対応マーカを表すマーカラベリングデータを作成し、各仮想マーカの座標とともに、マーカラベリングデータ記憶部274に記憶させる。
顔オブジェクト変形部276は、顔パラメータの系列84と、顔オブジェクト44と、マーカラベリングデータとをもとに、次のようにして、各フレームにおける形状モデル92を作成する。
顔オブジェクト変形部276は、顔パラメータの系列から84の1フレーム分が与えられると、マーカラベリングデータ記憶部274からマーカラベリングデータを読出し、当該顔パラメータにおける各特徴点の位置に基づき、当該フレームの形状モデル92における各ノードの位置を次のようにして算出する。
すなわち、顔オブジェクト変形部276はまず、顔オブジェクト44上における仮想マーカの座標を、マーカラベリングデータ記憶部274から取得する。仮想マーカはそれぞれ、顔パラメータにおける特徴点と対応関係にある。そこで、顔オブジェクト変形部276は、顔パラメータの系列84における1フレーム分のデータをもとに、仮想マーカの各々に、当該仮想マーカに対応する特徴点の位置を付与し、当該1フレーム分の変化後の各仮想マーカの座標を算出する。
さらに顔オブジェクト変形部276は、一つのノードの変化量を、ノードに対し指定されたn個の対応マーカの座標をもとに、上記の内挿式(2)によって算出する。顔オブジェクト変形部276は、フレームごとに、顔オブジェクト44の各ノードに対しこの処理を実行する。これにより、各ノードの座標は変更され、変形した顔の形状モデル92がフレームごとに生成される。顔オブジェクト変形部276は、変形した顔の形状モデル92の各々を、画像化部94に与える。
(画像化によるアニメーションの作成)
画像化部94は、フレームごとの変形した顔モデルを受けると、それらにテクスチャなどを付与するなど、所定のレンダリング処理を行なう。この処理により生成される画像が、アニメーション46における各フレームの画像となる。これら各フレームの画像により形成された動画像が、アニメーション46となる。
以上のように、本実施の形態に係るマッピング部90は、発話者の顔の多数の特徴点と、顔オブジェクト44の各ノードとを対応付ける。さらに、各特徴点についての計測データをもとに、顔オブジェクト44の軌跡を算出する。したがって、ノードの集合としての顔オブジェクトの時間的変化が顔パラメータの系列84として得られ、これにより、アニメーション46を作成することができる。顔パラメータの系列84は、音声データ42により表される音声が発話されるときの顔の各特徴点の非線形的な軌跡を表現する。したがって、発話中の表情の非線形的な変化を忠実に再現した、自然なアニメーションを作成することができる。
本実施の形態のアニメーション作成システム80は、モデルベースでアニメーションを作成する。ユーザは、キャラクタの声に相当する音声データ42と、静止状態でのキャラクタの顔の形状を定義した顔オブジェクト44とを用意し、顔オブジェクト44上に特徴点をルールにしたがい指定するだけで、キャラクタの声に合せて表情の変化する自然なリップシンクアニメーションを作成できる。また、キャラクタの顔のデザインが制限されることなく、顔オブジェクト44が表すキャラクタの顔の形状は任意のものでよい。そのため、ユーザによるアニメーション制作のバリエーションを狭めることなく、リップシンクアニメーションを作成できる。
[コンピュータによる実現及び動作]
本実施の形態の顔アニメーションの作成システム40の各機能部は、収録システム60(図2参照)の録画・録音システム112及びMoCapシステム114に含まれる一部の特殊な機器を除き、いずれもコンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図13はこのコンピュータシステム500の外観を示し、図14はコンピュータシステム500の内部構成を示す。
図13を参照して、このコンピュータシステム500は、FD(フレキシブルディスク)ドライブ522及びCD−ROM(コンパクトディスク読出専用メモリ)ドライブ520を有するコンピュータ510と、キーボード516と、マウス518と、モニタ512とを含む。
図14を参照して、コンピュータ510は、FDドライブ522及びCD−ROMドライブ520に加えて、ハードディスク524と、CPU(中央処理装置)526と、CPU526、ハードディスク524、FDドライブ522、及びCD−ROMドライブ520に接続されたバス536と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)528と、バス536に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)530とを含む。コンピュータシステム500はさらに、プリンタ514を含んでいる。
ここでは示さないが、コンピュータ510はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
コンピュータシステム500に顔アニメーションの作成システム40の各機能部を実現させるためのコンピュータプログラムは、CD−ROMドライブ520又はFDドライブ522に挿入されるCD−ROM532又はFD534に記憶され、さらにハードディスク524に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ510に送信されハードディスク524に記憶されてもよい。プログラムは実行の際にRAM530にロードされる。CD−ROM532から、FD534から、又はネットワークを介して、直接にRAM530にプログラムをロードしてもよい。
このプログラムは、コンピュータ510にこの実施の形態の顔アニメーションの作成システム40の各機能部を実現させるための複数の命令を含む。この機能を実現させるのに必要な基本的機能のいくつかは、コンピュータ510にインストールされる各種ツールキットのモジュール、又はコンピュータ510上で動作するオペレーティングシステム(OS)若しくはサードパーティのプログラムにより提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又は「ツール」を呼出すことにより、上記した顔アニメーションの作成システム40の各機能部が行なう処理を実行する命令のみを含んでいればよい。コンピュータシステム500の動作は周知であるので、ここでは繰返さない。
なお、上記の実施の形態では、学習システム68(図7参照)において、ラベリング部214は、音素・視覚素変換部224により変換された視覚素列及び各視覚素の継続長に基づくラベリングを行なった。しかし、本発明はこのような実施の形態には限定されない。例えば、ラベリング部214は、音素列推定部222により推定される音素列182及び音素継続長に基づくラベリングを行なうようにしてもよい。この場合、HMM学習部206は、音素列182及び音素継続長から、顔パラメータHMMの学習を行なうことになる。また、この場合、図8に示す顔パラメータ合成部82のHMMマッチング部242は、顔パラメータ合成部82の音素列推定部252により推定される音素列182及び音素継続長をもとに、顔パラメータHMM50とのマッチングを行なうことになる。
また、本実施の形態に係るシステムにおいて、顔の特徴点160A,…,160Mの位置及び数は、図3に示すようなものには限定されない。ただし、マッピングに用いる特徴点の数が多くなるほど、アニメーション46における顔の表情変化を正確かつ自然に表現するものとなる。また、特徴点の数が多くなるほど、リップシンクの同期性も向上する。アニメーション作成システム80は、アニメーション46を出力する代わりに、各フレームにおける形状モデル92を出力するようにしてもよい。このようにすると、形状モデル92と別のオブジェクト等とを組合わせてアニメーションを生成することも可能になる。
<第2の実施の形態>
第1の実施の形態に係る顔アニメーションの作成システム40によれば、音声から自動的にアニメーションを作成することが可能になった。しかし、以下に述べるように、それだけでは例えば口の動きが不自然になるなど、さらに改良すべき点が存在している。
図15(A)に、発話時の顔の画像から得た本来の口の動きを示し、図15(B)に、第1の実施の形態に係る顔アニメーションの作成システム40を用いて顔の画像のアニメーションを自動的に作成したときの口の動きを示す。図15(A)では、口の動きは滑らかである。一方、図15(B)に示すアニメーションでの口の動きは、図15(A)に示すものと概略で一致しているものの、詳細な点では多くのステップ状の段差が存在していることが分かる。これは、アニメーション画像上では口の開き方がステップ状に変化していることを示す。そのため、このアニメーションを見た場合、やや不自然な感じを受ける。こうした問題は、顔パラメータHMM50によって得られる顔の画像の各位置を決めるベクトルが、マッチングにより定まる顔パラメータHMM50の各状態における平均ベクトルからなるために生ずると考えられる。
このようなステップ状のアニメーション画像の動きをより滑らかにするために、例えば顔の画像のパラメータ系列にローパスフィルタを適用したり、パラメータ系列にスプライン曲線による近似を行なったりすることも考えられる。しかしそのような方策をとる場合、得られる画像からはメリハリが失われてしまい、やはり自然な動きが得られないという問題がある。
第2の実施の形態では、こうした問題を解決するために、顔の特徴点の位置だけではなく、それらの速度及び加速度という、動的特徴パラメータをも用いて顔パラメータHMMの学習を行なう。後に示すように、このように動的特徴パラメータまで含めて学習した顔パラメータHMMを用いることにより、元の顔の画像の動きによく似た、スムーズでメリハリがあり、かつ自然な顔の動きが得られる。なお、動的特徴パラメータは、音声認識の分野では広く用いられている特徴量である。
以下、第2の実施の形態における顔パラメータHMMの学習の原理と、その顔パラメータHMMを用いた顔の画像の各特徴点の位置の決定方法とについて説明する。なお、以下に記載した、動的特徴を用いるHMMの学習及びHMMによるマッチング後の位置ベクトルの算出方法は、非特許文献5に教示されたものと同様である。
学習に用いる顔の特徴点として、第1の実施の形態に用いたものと同数の特徴点を採用する場合、位置ベクトルに加えて速度及び加速度の情報を用いるので、一つの特徴点当たりのパラメータ数(ベクトル数)は第1の実施の形態におけるベクトル数の3倍となる。ある時刻tにおける、ある特徴点の静的位置ベクトル(無表情な顔における特徴点の位置を基準としたもの)をc、サンプリング間隔をτとする。この場合、時刻tにおけるこの特徴点の速度ベクトルΔc及び加速度ベクトルΔは一般に以下のように近似される。
Figure 0004631078

ただしL(1)及びL(2)はそれぞれ、時刻tにおける速度及び加速度の算出において、時刻tの前後で考慮すべき位置ベクトル及び速度ベクトルを含む時間幅をサンプリング時間τを単位として表したものであり、w及びwはそれぞれ、各時刻での速度ベクトル及び加速度ベクトルを算出するために使用する、位置ベクトル及び速度ベクトルに割当てる重みを示す。本実施の形態では、L(1)=L(2)=1とし、また重みwとしては、連続する3つの重みとしてw=[−0.5,0,0.5]という値を用い、重みwとしては同様にw=[0.25,−0.5,0.25]を用いる。
また、このとき、HMMの出力ベクトルoを次のように表すものとし、出力ベクトルoの系列をOで表すものとする。
Figure 0004631078
式(1)(2)は、行列形式で表すと次のように書くことができる。
Figure 0004631078
ベクトルcがM次元とすれば、C,Oはそれぞれ、TM次元及び3TM次元である。行列Wは、3TM行TM列の重み行列である。行列Wの要素の一部は係数1、w(τ)、及びw(τ)であり、他の大部分の要素は0である。
ここでは式(3)の条件の下で、出力ベクトルoからなる出力ベクトル系列Oが得られる確率を最大にするような行列Cを求めることが目的となる。一般に、そのようなCは、次の線形方程式を解く事により定められることが分かっている。
Figure 0004631078
ただし、行列M、Uはそれぞれ、以下のように表される。
Figure 0004631078
μqtとUqtとはそれぞれ、HMMの状態qの平均ベクトルと共分散行列とである。
式(4)はコレスキー分解又はQR分解を用いてO(TM)の演算量で解くことができる。ただし、ここではL=1である。
このようにして、出力ベクトルoの系列OからCを算出する演算式を求めることにより、出力ベクトルの系列が得られれば、それに対応する静的ベクトルC、すなわち顔の特徴点の位置ベクトルを得ることができる。この位置ベクトルの値の算出には、元の顔の画像の位置ベクトルだけでなく、速度ベクトル及び加速度ベクトルという動的特徴が使用されているため、後述するように第1の実施の形態と比較してより滑らかな顔の画像を得ることができる。
[構成]
図16を参照して、第2の実施の形態に係る顔アニメーションの作成システム640は、第1の実施の形態に係る顔アニメーションの作成システム40の収録システム60、音声−顔パラメータDB62、学習システム68、顔パラメータHMM50、アニメーション作成システム80に代えて、それぞれ上記したように顔の特徴点の位置ベクトルに加え、それらの速度ベクトル及び加速度ベクトルまでをデータとして処理する能力を持つ収録システム660、音声−顔パラメータDB662、学習システム668、顔パラメータHMM650、及びアニメーション作成システム680を含み、それによって図1に示すアニメーション46よりも自然で、かつ滑らかなアニメーション646を作成する。図16において、図1に示す顔アニメーションの作成システム40の各部品と同一の部品には同一参照符号を付してある。それらの名称及び機能も同一である。したがって、ここではそれらについての詳細な説明は繰返さない。
図16から分かるように、アニメーション作成システム680が図1に示すアニメーション作成システム80と異なるのは、図1の顔パラメータ合成部82に代えて、音声データ42をもとに、音素HMM64、視覚素対応表66、及び顔パラメータHMM650を用いて、音声データ42に対応する顔パラメータであって、速度ベクトル及び加速度ベクトルまで考慮して定められたパラメータの系列684を合成しマッピング部90に与えるための顔パラメータ合成部682を含むことである。その他の点においては、アニメーション作成システム680は、図1に示すアニメーション作成システム80と同様の構成を持っている。
図17に、第2の実施の形態における収録システム660の詳細な構成を示す。図17を参照して、収録システム660は、図2に示す収録システム60と同様の構成を有する。異なるのは、図2のデータセット作成装置122に代えて、録画・録音システム112により収録された音声・動画データ116及びMoCapシステム114により計測されたMoCapデータ118から、音声のデータ及びその発話時の動的特徴パラメータを含む顔パラメータのデータからなるデータセット720を作成し、音声−顔パラメータDB662に格納するためのデータセット作成装置722を含む点である。
データセット作成装置722の構成も、図2に示すデータセット作成装置122の構成とほぼ同一である。ただしデータセット作成装置722は、図2に示す正規化処理部146の後に、正規化処理部146の出力する顔パラメータの系列154を受け、顔パラメータの系列154に含まれる各時刻における各特徴点の静止位置ベクトルから、各時刻における各特徴点の速度ベクトル及び加速度ベクトルを前述した重みw1及びw2を用いて算出し、動的特徴を含む顔パラメータの系列754を出力する動的特徴算出部746を含む点と、図2に示す結合部148に代えて、動的特徴算出部746から動的特徴を含む顔パラメータの系列754を受け、切出処理部144から受ける収録音声データ150と、動的特徴算出部746から受ける動的特徴を含む顔パラメータの系列754とを同期させて結合して動的特徴を含むデータセット720を生成し、音声−顔パラメータDB662に格納するための結合部748を含む点とにおいて、データセット作成装置122とは異なっている。
図18に、結合部748が出力する動的特徴を含むデータセット720の構成を概略的に示す。図18を参照して、動的特徴を含むデータセット720は、図4に示す単なる顔パラメータの系列154に代えて、動的特徴と顔パラメータの系列とを組合せた動的特徴を含む顔パラメータの系列754を含む点でデータセット120と異なる。
動的特徴を含む顔パラメータの系列754は、図4に示す複数フレーム分の顔パラメータ170A,…,170Nに加え、これらフレームの顔パラメータから算出される速度ベクトルパラメータ(以下「速度パラメータ」と呼ぶ。)772A,…,772Nと、同じくこれらフレームの顔パラメータから算出される加速度ベクトルパラメータ(以下「加速度パラメータ」と呼ぶ。)774A,…,774Nとを含む。これら複数フレーム分の顔パラメータ170A,…,170N、速度パラメータ772A,…,772N、及び加速度パラメータ774A,…,774Nは、各フレームごとに対応付けられている。これらは図4のデータセット120においてと同様、収録音声データ150と同期されている。すなわち、収録音声データ150と顔パラメータ170A,…,170N、速度パラメータ772A,…,772N、及び加速度パラメータ774A,…,774Nとを相互参照することにより、ある特徴を持つ発話が行なわれたときの特徴点の位置、その速度、及び加速度についての情報を得ることができる。
図19に、学習システム668のブロック図を示す。図19を参照して、学習システム668は、概略、図7に示す学習システム68と同様の構成を持つ。異なるのは、図7に示す前処理部202に代えて、前処理部202と同様ではあるが、動的特徴を含むデータセット720を処理して学習用のデータセット700を出力することができる前処理部802を含む点と、図7の学習用DB204に代えて、動的特徴を含む学習用のデータセット700を蓄積するための学習用DB804を含む点と、図7に示すHMM学習部206に代えて、学習用DB804に格納された動的特徴を含む学習用のデータセットを用い、顔パラメータHMM650の学習を行なうためのHMM学習部806を含む点とである。
前処理部802は、図7に示す前処理部202と同様の構成を持つが、データセット選択部210に代えて、音声−顔パラメータDB662から処理対象のデータセット720を選択する機能を持つデータセット選択部810を含む点と、選択されたデータセット720内の動的特徴を含む顔パラメータの系列754に含まれる顔パラメータ170A,…,170N、速度パラメータ772A,…,772N及び加速度パラメータ774A,…,774N(図18参照)に対し、音素・視覚素変換部224が出力する視覚素のラベルによるラベルリングを行ない、学習用のデータセット800を生成するためのラベリング部814を含む点とで前処理部202と異なっている。
図20に、HMM学習部80による学習が行なわれた後の、一つの視覚素に対応する顔パラメータHMM780の構成を簡単に示す。図20に示すように、この顔パラメータHMM780は3状態S1〜S3のHMMであって、各状態S1〜S3はそれぞれ、出力o=(c、Δc、Δ)(i=1〜3)の出力確率を与える確率分布と、遷移確率を与える確率分布とを含んでいる。与えられる出力oの系列と、顔パラメータHMM780とのマッチングによって、そうした出力系列を与える尤度が最大となるような顔パラメータHMM780の系列を求めることにより、各時刻における顔パラメータが、その時刻に対応するHMMによって定まる。その顔パラメータから、前述した式(4)を用いて行列Cを算出することで、動的特徴量を考慮した、滑らかな変化をする顔の特徴点の座標を得ることができる。
図21に、図16に示す顔パラメータ合成部682のより詳細な構成を示す。図21を参照して、顔パラメータ合成部682は、図8に示す第1の実施の形態の顔パラメータ合成部82とよく似た構成を持つ。異なる点は、図8のHMMマッチング部242に代えて、視覚素列生成部240により生成された視覚素列と顔パラメータHMM650とをマッチングすることにより、音声データ42により表される音声が発話されているときの、顔パラメータHMM650からの出力パラメータの系列844を生成し出力するためのHMMマッチング部842を含む点と、HMMマッチング部842から出力される動的特徴量を含む出力パラメータの系列844に対し、前述した式(4)を用いた変換を行ない、動きベクトル及び加速度ベクトルまで考慮した特徴点の位置ベクトル系列、すなわち顔パラメータの系列684(式(4)における行列C)を出力するための変換部846をさらに含む点とである。
HMMマッチング部842は、視覚素列生成部240より視覚素列とその継続長とを受け、当該視覚素列と継続長とにより表される発話全体で尤度最大となるような、動的特徴量を含む出力パラメータの系列844を、顔パラメータHMM650を用いて合成する機能を持つ。
[動作]
この第2の実施の形態に係る顔アニメーションの作成システム640の各部のうち、第1の実施の形態の顔アニメーションの作成システム40内の部品と同一か又は対応する部品の動作は、その部品と同様である。ただし、扱うデータに動的特徴量が含まれている点が異なる。以下、第1の実施の形態に係るシステム40の動作とは異なる点に重点をおき、顔アニメーションの作成システム640の動作について説明する。
〈収録システムの動作〉
図17を参照して、発話者110の頭部の各特徴点160A,…,160M(図3参照)には事前に、マーカを予め装着しておく。その状態で、発話者は発話を行なう。収録が開始され、録画・録音システム112が、発話時の音声と顔の動画像を収録する。
以上の収録プロセスにより収録された音声・動画データ116及びMoCapデータ118は、データセット作成装置722に与えられる。データセット作成装置722は、音声・動画データ116を音声・動画記憶部140に蓄積し、MoCapデータ118を、MoCapデータ記憶部142に蓄積する。
切出処理部144はまず、MoCapデータ記憶部142から、t=0のフレームにおけるMoCapデータを読出して正規化処理部146に与える。このフレームのデータは、正規化処理部146による正規化に用いられる。続いて切出処理部144は、音声・動画記憶部140に記憶される音声・動画データ116から、1発話分など所定の単位で収録音声データ150を切出す。そして、切出した収録音声データ150に付与されているタイムコードを参照して、収録音声データ150の当該タイムコード上での位置を特定し、収録音声データ150を結合部748に与える。続いて切出処理部144は、MoCapデータ118から、タイムコード上、収録音声データ150の位置と同じ位置でMoCapデータ152を切出し、正規化処理部146に与える。
正規化処理部146は、MoCapデータ152の各フレームにおいて、当該フレームの不動点のマーカデータと、予め与えられているt=0のフレームにおける不動点のマーカデータとから、アフィン行列を求め、当該アフィン行列を用いて、各マーカデータをアフィン変換する。この変換により、変換後のマーカデータはそれぞれ、頭の位置をt=0での位置に保ったまま発話を行なった状態での顔の特徴量の位置を表すものとなる。その結果、MoCapデータ152は、顔パラメータの系列154になる。顔パラメータの系列154は、動的特徴算出部746に与えられる。
動的特徴算出部746は、前述した式(1)(2)と、重みw1=[−0.5,0,0.5]、及び重みw=[0.25,−0.5,0.25]とを使用して、各時刻における動的特徴量(速度ベクトル及び加速度ベクトル)を算出して顔パラメータの系列154とあわせ、動的特徴を含む顔パラメータの系列754を結合部148に与える。
結合部748は、収録音声データ150及び動的特徴を含む顔パラメータの系列754を同期させて結合して動的特徴を含むデータセット720を生成し、音声−顔パラメータDB662に格納する。
〈顔パラメータHMM650の学習〉
まず、データセット選択部810が、音声−顔パラメータDB662から処理対象のデータセット720を選択する。そして、当該データセット720に含まれる収録音声データ150と動的特徴を含む顔パラメータの系列754とをそれぞれ、視覚素列生成部212とラベリング部814とに与える。
視覚素列生成部212は、第1の実施の形態の場合と同様に動作し、音声に対応する音素列を推定し、さらに各音素に対応する視覚素からなる視覚素列208を生成し、ラベリング部814に与える。ラベリング部814は、視覚素列208に基づき、動的特徴を含む顔パラメータの系列754内の各顔パラメータ170A,…,170N,速度パラメータ772A,…,772N、及び加速度パラメータ774A,…,774Nに対するラベリングを行なう。発話時の視覚素の時間変化と動的特徴を含む顔パラメータとの対応付けを、データセット720の各々について行なうことになる。ラベリング部814は、視覚素によりラベリングされた学習用のデータセット800を生成し、これを学習用DB804に格納する。
HMM学習部806は、作成された学習用DB804に格納された学習用データセット800を用いて、顔パラメータHMM650の学習を行なう。この際HMM学習部806が、三つの視覚素を1組とする三つ組視覚素を処理単位として、顔パラメータHMM650の学習を行なう点は第1の実施の形態の場合と同様である。
以上のようにして顔パラメータHMM650の学習を行なうことにより、顔パラメータHM650に基づき、視覚素列から動的特徴を含む顔パラメータの系列を合成することが可能になる。
(顔パラメータの合成)
以下、図16に示すアニメーション作成システム680の動作について説明する。キャラクタの声を表す音声データ42が準備され、図16に示す顔パラメータ合成部682に与えられる。図21を参照して、顔パラメータ合成部682に音声データ42が入力されると、視覚素列生成部240が、音素HMM64及び視覚素対応表66を用いて、音声データ42から視覚素列及び当該視覚素列を構成する各視覚素の継続長を推定する。この動作は、学習システム68の視覚素生成部212(図7参照)の動作と同様である。これにより、音声データ42により表される音声の発話時における口の形の変化が特定される。
HMMマッチング部842は、視覚素列生成部240により生成された視覚素列と顔パラメータHMM650とのマッチングを行ない、発話全体で最尤の顔パラメータの系列844を合成する。顔パラメータの系列844には、各顔パラメータの出力の際にHMMマッチング部842によるマッチングで選択されたHMMの各状態の平均ベクトルと共分散行列とが付され、変換部846に与えられる。
変換部846は、与えられた顔パラメータの系列844に含まれる顔パラメータに対し、その顔パラメータに付随している平均ベクトル及び共分散行列とを用いて、式(4)による演算を行なって、換算後の顔パラメータの行列Cを算出し、換算後の顔パラメータの系列684を出力する。
以上のようにして顔パラメータ合成部682により合成された顔パラメータの系列684は、音声データ42により表現される音声の発話中における口の形の変化から得られたものである。またこの系列684は、第1の実施の形態の場合と異なり、顔の特徴点の位置ベクトルだけでなく、その速度ベクトル及び加速度ベクトルをも用いて学習したHMMから合成されたものである。したがって顔パラメータの系列684によって、第1の実施の形態に係る顔アニメーションの作成システム40により合成されたアニメーションよりも滑らかにアニメーションを作成できると考えられ、現実にそうした効果が得られることが後述するように確認できた。
顔パラメータの系列684が作成されれば、図16に示すマッピング部90、及び画像化部94によるアニメーション646の作成は第1の実施の形態と同様に行なえる。
<第2の実施の形態による効果>
図22は、図15に、第2の実施の形態に係る顔アニメーションの作成システム640によって合成されたアニメーションの口の動きを図22(C)として追加した図である。図22(A)(B)はそれぞれ図15(A)(B)と同一の図である。
図22(C)と図22(B)とを比較すると、図22(C)では図22(B)に存在していたステップ上の変化が除去されて全体として滑らかなグラフとなっていること、しかもグラフが単になまっているわけではなく、図22(A)に非常によく似た形のピークを持つグラフが得られていることが分かる。
すなわち、本実施の形態のように、発話時の顔の特徴点の位置ベクトルだけでなく、その速度ベクトル及び加速度ベクトルという動的特徴までも含めて学習を行なった顔パラメータHMM780を使用することにより、音声からその発話者の顔のアニメーションを作成でき、しかもその動きが滑らかで実際の発話者の顔の動きに忠実なアニメーションが作成できることが分かる。
この第2の実施の形態では、学習時の顔の特徴点の速度ベクトル及び加速度ベクトルを算出する際に、特徴点の位置ベクトルの差分を用いている。しかし本発明はそのような実施の形態には限定されない。仮に速度ベクトルを精度よく測定できる装置が利用可能であれば、速度ベクトルを位置ベクトルから算出するのではなく、直接測定するようにしてもよい。この場合、加速度ベクトルは速度ベクトルの差分から算出することができる。
加速度ベクトルも速度ベクトルと同様、直接測定できるような装置があればそれを利用し、直接測定するようにしてもよい。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
本発明の実施の形態に係るシステム全体の構成を示すブロック図である。 収録システム60の構成を示す図である。 発話者110における特徴点の位置を示す概略図である。 データセット120の構成を示す概略図である。 音素HMMの概要を示す図である。 視覚素対応表66の一例を示す図である。 学習システム68の構成を示すブロック図である。 顔パラメータ合成部82の構成を示すブロック図である。 マッピング部90の構成を示すブロック図である。 顔オブジェクト44及び仮想マーカの一例を示す図である。 仮想マーカ配置部270が各ノードの仮想マーカによるラベリングを行なう処理の構造を示すフローチャートである。 顔オブジェクト44における選択ノードと、境界エッジ及び対応マーカとの関係を模式的に示す図である。 本発明の実施の形態に係る学習システム68及びアニメーション作成システム80の機能を実現するコンピュータシステムの外観の一例を示す図である。 図13に示すコンピュータシステムのブロック図である。 本発明の第1の実施の形態に係るシステムにより合成されたアニメーションによる口の動きを、実際の口の動きと対比して示す図である。 本発明の第2の実施の形態に係る顔アニメーションの作成システム640の全体の構成を示すブロック図である。 収録システム660の概略構成を示すブロック図である。 収録システム660のデータセット作成装置722により作成されるデータセット720の構成を示す図である。 図16に示す学習システム668の構成を示すブロック図である 顔パラメータHMM780の概略構成と各状態における出力パラメータとの関係を示す図である。 図16に示す顔パラメータ合成部682のより詳細な構成を示すブロック図である。 第2の実施の形態に係る顔アニメーションの作成システム640により合成された顔のアニメーションにおける口の動きを、実際の口の動き、及び第1の実施の形態に係る顔アニメーションの作成システム40により合成されたアニメーションにおける口の動きと対比して示す図である。
符号の説明
40,640 アニメーション作成システム
42 音声データ
44 顔オブジェクト
46,646 アニメーション
50,650 顔パラメータHMM
60,660 収録システム
62,662 音声−顔パラメータDB
64 音素HMM
66 視覚素対応表
68,668 学習システム
80,680 アニメーション作成システム
82,682 顔パラメータ合成部
90 マッピング部
94 画像化部
110 発話者
112 録画・録音システム
114 MoCapシステム
122,722 データセット作成装置
130A,130B マイクロホン
132 カムコーダ
136 赤外線カメラ
138 データ処理装置
140 音声・動画記憶部
142 MoCapデータ記憶部
144 切出処理部
146 正規化処理部
148,748 結合部
150 収録音声データ
160A,…,160M 特徴点
170A,…,170N 顔パラメータ
202,802 前処理部
204,804 学習用DB
206,806 HMM学習部
210,810 データセット選択部
212,240 視覚素列生成部
214,814 ラベリング部
220,250 特徴量抽出部
222,252 音素列推定部
224,254 音素・視覚素変換部
242,842 HMMマッチング部
270 仮想マーカ配置部
272 マーカラベリング部
274 マーカラベリングデータ記憶部
276 顔オブジェクト変形部
746 動的特徴算出部
772A,…,772N 速度パラメータ
774A,…,774N 加速度パラメータ
780 顔パラメータHMM
846 変換部

Claims (11)

  1. 発話時の音声を録音することにより得られる収録音声データと当該収録音声データの収録時に同時に収録される発話者の顔の予め定める複数個の特徴点に関するモーションキャプチャデータとからなるデータセットから、リップシンクアニメーション作成用の統計確率モデルを作成するための統計確率モデル作成装置であって、
    前記モーションキャプチャデータは複数のフレームを含み、前記複数のフレームの各々は当該フレームにおける前記複数個の特徴点の位置データを含み、前記複数のフレームと前記収録音声との間には時間的対応関係が付けられており、
    前記統計確率モデル作成装置は、
    前記音声の特徴量と音素とに関して予め準備された所定の音素統計確率モデルを用いて、前記データセットに含まれる収録音声データに含まれる音素列、及び当該音素列を構成する各音素に関する音素継続長を推定するための音素列推定手段と、
    前記音素列推定手段により推定された音素列及び音素継続長に基づき、前記フレームの各々に対し、予め定義された所定のラベルセットに属するラベルによるラベリングを行なうためのラベリング手段と、
    前記ラベリング手段によりラベリングされたモーションキャプチャデータからの統計的学習により、前記リップシンクアニメーション作成用の統計確率モデルとして、前記ラベル間の遷移確率と前記各特徴点の位置の出力確率とに関する統計確率モデルの学習を行なうための学習手段とを含む、統計確率モデル作成装置であって、
    前記ラベルセットは、各々が発話時の口の形状を表す、複数個の所定の視覚素ラベルを含み、
    前記ラベリング手段は、
    音素と視覚素との間の所定の対応関係にしたがい、前記音素列推定手段により推定された前記音素列を前記視覚素ラベルの系列に変換し、前記音素継続長をもとに当該系列を構成する前記視覚素ラベルの各々の継続長を決定するための手段と、
    前記決定するための手段により決定された視覚素ラベルの系列と継続長とをもとに、前記フレームの各々に対し、前記視覚素ラベルによるラベリングを行なうための視覚素ラベリング手段とを含む、統計確率モデル作成装置
  2. 前記ラベルセットに含まれる視覚素ラベルの数は、前記音素列推定手段により推定される音素セットに含まれる音素の種類の数より少ない、請求項に記載の統計確率モデル作成装置。
  3. 前記学習手段は、前記ラベリング手段によりラベリングされたモーションキャプチャデータから、連続する三つのラベルの組を学習単位として学習を行なうことにより、前記リップシンクアニメーション作成用の統計確率モデルとして、前記ラベル間の遷移確率と前記各特徴点の位置の出力確率とに関する統計確率モデルの学習を行なうための手段を含む、請求項1又は請求項に記載の統計確率モデル作成装置。
  4. 前記統計確率モデル作成装置はさらに、前記モーションキャプチャデータ中の各フレームにおいて、当該フレームと、当該フレームに隣接するフレームとにおける前記複数個の特徴点の位置データから、前記複数個の特徴点の予め定められた動的特徴データを算出し対応する位置データに付加するための動的特徴データ算出手段を含み、
    前記学習手段は、前記ラベリング手段によりラベリングされ、前記動的特徴データが付加された位置データを含むモーションキャプチャデータからの統計的学習により、前記リップシンクアニメーション作成用の統計確率モデルとして、前記ラベル間の遷移確率と前記各特徴点の位置の出力確率とに関する統計確率モデルの学習を行なうための手段を含む、請求項1〜請求項のいずれかに記載の統計確率モデル作成装置。
  5. 前記動的特徴データ算出手段は、前記モーションキャプチャデータ中の各フレームにおいて、当該フレームの前記複数の特徴点の位置データと、当該フレームに隣接するフレームにおける前記複数個の特徴点の位置データとから、当該フレームにおける、前記複数個の特徴点の速度パラメータ及び加速度パラメータを前記動的特徴データとして算出し、対応する位置データに付加するための手段を含む、請求項に記載の統計確率モデル作成装置。
  6. コンピュータにより実行されると、当該コンピュータを請求項1〜請求項のいずれかに記載の統計確率モデル作成装置として動作させる、コンピュータプログラム。
  7. 発話時における発話者の顔の複数個の特徴点の軌跡を時系列で表すパラメータ系列を合成するためのパラメータ系列合成装置であって、
    発話により発生した音声の入力を受けて、音声の特徴量と音素とに関し予め学習を行なって得られた第1の統計確率モデルに基づき、当該音声を出力する音素列と当該音素列を構成する各音素の音素継続長とを推定するための音素列推定手段と、
    前記音素列推定手段により推定された音素列と音素継続長とをもとに、予め定義された所定のラベルセットに属するラベルからなる系列を生成し、当該系列を構成する当該ラベルの各々の継続長を決定するためのラベル列生成手段と、
    前記ラベル間の遷移確率と前記各特徴点の位置の出力確率とに関し予め学習することにより得られた第2の統計確率モデルに基づき、前記ラベル列生成手段により生成された系列と継続長とを入力パラメータとして前記複数個の特徴点の軌跡を推定することにより、前記パラメータ系列を生成するための軌跡推定手段とを含む、パラメータ系列合成装置であって、
    前記ラベルセットは、各々が発話時の口の形状を表す、複数個の所定の視覚素ラベルを含み、
    前記第2の統計確率モデルは、前記視覚素ラベル間の遷移確率と前記各特徴点の位置の出力確率とに関し予め学習され、
    前記ラベル列生成手段は、音素と前記視覚素ラベルとの間の所定の対応関係にしたがい、前記音素列推定手段により推定された音素列を前記視覚素ラベルの系列に変換し、前記音素継続長をもとに、当該系列を構成する各視覚素ラベルの継続長を決定するための変換手段を含む、パラメータ系列合成装置
  8. 前記ラベルセットに含まれる視覚素ラベルの数は、前記音素列推定手段により推定される音素セットに含まれる音素の種類の数より少ない、請求項に記載のパラメータ系列合成装置。
  9. 前記第2の統計確率モデルは、前記視覚素ラベル間の遷移確率と、前記各特徴点の位置パラメータ及び当該特徴点に関する動的特徴パラメータの出力確率とに関し予め学習された動的特徴による統計確率モデルを含み、
    前記軌跡推定手段は、
    前記ラベル間の遷移確率と前記各特徴点の位置パラメータ及び動的特徴パラメータの出力確率とに関し予め学習することにより得られた前記動的特徴による統計確率モデルに基づき、前記ラベル列生成手段により生成された系列と継続長とを入力パラメータとして、前記複数個の特徴点に対する前記位置パラメータ及び前記動的特徴パラメータの系列として最尤となる位置パラメータ及び動的特徴パラメータの系列を出力するための手段と、
    前記位置パラメータ及び動的特徴パラメータの系列に対し、当該パラメータが得られた前記統計確率モデルに固有の変換によって、前記位置パラメータを前記動的特徴パラメータを用いて補正し、前記複数個の特徴点の各々の前記軌跡を推定するための手段とを含む、請求項7又は請求項8に記載のパラメータ系列合成装置。
  10. コンピュータにより実行されると、当該コンピュータを請求項〜請求項のいずれかに記載のパラメータ系列合成装置として動作させる、コンピュータプログラム。
  11. 第1の座標空間における複数のノードの座標値を用いて顔の形状を定義した所定の顔オブジェクトをもとに、音声に同期する前記顔のアニメーションを作成するためのリップシンクアニメーション作成システムであって、
    請求項〜請求項10のいずれかに記載のパラメータ系列合成装置と、
    前記音声の入力に対して前記パラメータ系列合成装置により合成される、発話者の顔の複数個の特徴点の軌跡を表すパラメータ系列に基づき、前記顔オブジェクトにおける前記ノードの座標値を変更することにより、前記顔の形状を定義するオブジェクトを、前記アニメーションのフレームごとに生成するための変形オブジェクト生成手段と、
    前記アニメーションの前記各フレームについて、前記変形オブジェクト生成手段により生成されるオブジェクトから、当該フレームにおける前記顔の画像を合成するための画像化手段とを含む、リップシンクアニメーション作成システム。
JP2006201026A 2005-07-27 2006-07-24 リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム Expired - Fee Related JP4631078B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006201026A JP4631078B2 (ja) 2005-07-27 2006-07-24 リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005217860 2005-07-27
JP2006201026A JP4631078B2 (ja) 2005-07-27 2006-07-24 リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2007058846A JP2007058846A (ja) 2007-03-08
JP4631078B2 true JP4631078B2 (ja) 2011-02-16

Family

ID=37922237

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006201026A Expired - Fee Related JP4631078B2 (ja) 2005-07-27 2006-07-24 リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP4631078B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220044463A1 (en) * 2019-08-29 2022-02-10 Tencent Technology (Shenzhen) Company Limited Speech-driven animation method and apparatus based on artificial intelligence
US20220115002A1 (en) * 2020-10-14 2022-04-14 Beijing Horizon Robotics Technology Research And Development Co., Ltd. Speech recognition method, speech recognition device, and electronic equipment

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5109038B2 (ja) * 2007-09-10 2012-12-26 株式会社国際電気通信基礎技術研究所 リップシンクアニメーション作成装置及びコンピュータプログラム
KR101541907B1 (ko) 2008-10-14 2015-08-03 삼성전자 주식회사 음성 기반 얼굴 캐릭터 형성 장치 및 방법
KR101165300B1 (ko) 2009-04-08 2012-07-19 이정훈 패턴애니메이션을 기반으로 하는 ucc서비스 시스템
CN105261058A (zh) * 2015-10-10 2016-01-20 浙江大学 一种基于运动字串的运动标注方法
JP7421869B2 (ja) 2019-04-26 2024-01-25 株式会社スクウェア・エニックス 情報処理プログラム、情報処理装置、情報処理方法及び学習済モデル生成方法
CN110599573B (zh) * 2019-09-03 2023-04-11 电子科技大学 一种基于单目相机的人脸实时交互动画的实现方法
JP7037159B2 (ja) * 2019-11-08 2022-03-16 国立大学法人大阪大学 被験者の顎運動を測定するためのシステム、プログラム、および方法
CN112992120A (zh) * 2019-12-02 2021-06-18 泛太丝亚企业管理顾问(上海)有限公司 语音转换虚拟脸部图像的方法
KR102254193B1 (ko) * 2020-08-12 2021-06-02 주식회사 오텀리브스 3차원 캐릭터를 생성하는 캐릭터 생성 시스템 및 그 방법
CN113314094B (zh) * 2021-05-28 2024-05-07 北京达佳互联信息技术有限公司 唇形模型的训练方法和装置及语音动画合成方法和装置
CN113971828B (zh) * 2021-10-28 2023-10-31 北京百度网讯科技有限公司 虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000123192A (ja) * 1998-10-09 2000-04-28 Mitsubishi Electric Inf Technol Center America Inc 顔面アニメ―ション生成方法
JP2002244689A (ja) * 2001-02-22 2002-08-30 Rikogaku Shinkokai 平均声の合成方法及び平均声からの任意話者音声の合成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000123192A (ja) * 1998-10-09 2000-04-28 Mitsubishi Electric Inf Technol Center America Inc 顔面アニメ―ション生成方法
JP2002244689A (ja) * 2001-02-22 2002-08-30 Rikogaku Shinkokai 平均声の合成方法及び平均声からの任意話者音声の合成方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220044463A1 (en) * 2019-08-29 2022-02-10 Tencent Technology (Shenzhen) Company Limited Speech-driven animation method and apparatus based on artificial intelligence
US12002138B2 (en) * 2019-08-29 2024-06-04 Tencent Technology (Shenzhen) Company Limited Speech-driven animation method and apparatus based on artificial intelligence
US20220115002A1 (en) * 2020-10-14 2022-04-14 Beijing Horizon Robotics Technology Research And Development Co., Ltd. Speech recognition method, speech recognition device, and electronic equipment

Also Published As

Publication number Publication date
JP2007058846A (ja) 2007-03-08

Similar Documents

Publication Publication Date Title
JP4631078B2 (ja) リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム
JP5344358B2 (ja) 演技から作り出される顔アニメーション
Cao et al. Expressive speech-driven facial animation
US7168953B1 (en) Trainable videorealistic speech animation
JP3633399B2 (ja) 顔面アニメーション生成方法
Sifakis et al. Simulating speech with a physics-based facial muscle model
Ezzat et al. Trainable videorealistic speech animation
CA2375350C (en) Method of animating a synthesised model of a human face driven by an acoustic signal
US7133535B2 (en) System and method for real time lip synchronization
JP6019108B2 (ja) 文字に基づく映像生成
US6654018B1 (en) Audio-visual selection process for the synthesis of photo-realistic talking-head animations
JP4543263B2 (ja) アニメーションデータ作成装置及びアニメーションデータ作成プログラム
US20020024519A1 (en) System and method for producing three-dimensional moving picture authoring tool supporting synthesis of motion, facial expression, lip synchronizing and lip synchronized voice of three-dimensional character
US8078466B2 (en) Coarticulation method for audio-visual text-to-speech synthesis
KR20060090687A (ko) 시청각 콘텐츠 합성을 위한 시스템 및 방법
US20100057455A1 (en) Method and System for 3D Lip-Synch Generation with Data-Faithful Machine Learning
Kalberer et al. Face animation based on observed 3d speech dynamics
JP4379616B2 (ja) モーションキャプチャデータ補正装置、マルチモーダルコーパス作成システム、画像合成装置、及びコンピュータプログラム
Železný et al. Design, implementation and evaluation of the Czech realistic audio-visual speech synthesis
JP2974655B1 (ja) アニメーションシステム
JP4631077B2 (ja) アニメーション作成装置
Luo et al. Realtime speech-driven facial animation using Gaussian Mixture Models
Beskow et al. Data-driven synthesis of expressive visual speech using an MPEG-4 talking head.
Filntisis et al. Photorealistic adaptation and interpolation of facial expressions using HMMS and AAMS for audio-visual speech synthesis
Csapó Extending text-to-speech synthesis with articulatory movement prediction using ultrasound tongue imaging

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101005

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101025

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131126

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees