JP2007058846A - Statistic probability model creation apparatus for lip sync animation creation, parameter series compound apparatus, lip sync animation creation system, and computer program - Google Patents
Statistic probability model creation apparatus for lip sync animation creation, parameter series compound apparatus, lip sync animation creation system, and computer program Download PDFInfo
- Publication number
- JP2007058846A JP2007058846A JP2006201026A JP2006201026A JP2007058846A JP 2007058846 A JP2007058846 A JP 2007058846A JP 2006201026 A JP2006201026 A JP 2006201026A JP 2006201026 A JP2006201026 A JP 2006201026A JP 2007058846 A JP2007058846 A JP 2007058846A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- sequence
- face
- data
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、CG(Computer Graphics)を用いたアニメーションの作成技術に関し、キャラクタの発話時の表情を表現したリップシンクアニメーションを作成するための統計確率モデル作成装置、パラメータ系列合成装置、及びコンピュータプログラム、並びにそれらを用いたリップシンクアニメーション作成システムに関する。 The present invention relates to an animation creation technique using CG (Computer Graphics), a statistical probability model creation device, a parameter sequence synthesis device, and a computer program for creating a lip-sync animation that expresses a facial expression when a character speaks. In addition, the present invention relates to a lip sync animation creation system using them.
アニメーション作品の制作にCGが用いられることが多くなり、従来のセルアニメーション等では制作者の高度な技能を要していたようなアニメーションが、単純な作業によって実現できるようになった。CGを用いる技術の中には例えば、3次元モデルを用いてアニメーションを制作する技術がある。この技術では、アニメーションの各フレームにおいて、オブジェクトの形状・位置・方向等を仮想空間上のポリゴンによって定義する。そしてその定義に基づきオブジェクトの画像を合成し、それら画像からアニメーションを構成する。オブジェクトの形状が一度定義されると、その形状について、あらゆる視点からの画像を何度でも合成できる。 CG is often used for the production of animation works, and animations that require advanced skills of creators in conventional cell animations can be realized by simple work. Among the techniques using CG, for example, there is a technique for producing an animation using a three-dimensional model. In this technique, the shape, position, direction, etc. of an object are defined by polygons in a virtual space in each frame of the animation. Then, based on the definition, the images of the object are synthesized and an animation is constructed from the images. Once the shape of an object is defined, images from all viewpoints can be combined any number of times for that shape.
フレームごとにオブジェクトを変形させて画像化することにより、キャラクタの表情の変化等も表現できる。キャラクタの声として別途音声を用意し、キャラクタの口の形及び表情などをその音声に合せて変化させると、あたかもキャラクタが発話しているようなアニメーションを制作できる。本明細書では、音声に合せてキャラクタの口の形や表情を変化させることを、「リップシンク」と呼ぶ。また、本明細書では、リップシンクが実現しているアニメーションを「リップシンクアニメーション」と呼ぶ。 By transforming an object into an image for each frame, it is possible to express changes in the character's facial expression. By preparing a separate voice as the character's voice and changing the mouth shape and facial expression of the character according to the voice, it is possible to produce an animation as if the character is speaking. In this specification, changing the shape and expression of a character's mouth in accordance with the voice is called “lip sync”. In this specification, an animation realized by lip sync is referred to as “lip sync animation”.
リップシンクを実現するには、キャラクタの声と各フレームの画像で表現されるキャラクタの表情とを同期させなければならない。リップシンクを実現するための手法として従来から広く用いられている手法は、次の二つに分類される。すなわち一つの手法は、予め制作された映像に合せて後から音声を録音する手法(アフターレコーディング:いわゆる「アフレコ」)である。もう一つの手法は、音声を先に録音しておき、その音声に合せて映像を後から制作する方法(プレレコーディング:これを以下「プレレコ」と呼ぶ。)である。アフレコでは、アニメーションの制作者が、発話中のキャラクタの表情変化を予測しながら各フレームの画像を制作し、アニメーションを構成する。キャラクタの声を担当する発話者(又は声優)は、アニメーション上でのキャラクタの表情を見ながらタイミングを調整してセリフを発話する。これに対しプレレコでは、発話者は自由にセリフを発話する。制作者は、その音声に合せて表情を調整しながら、各フレームの画像を制作する。 In order to realize the lip sync, the voice of the character and the facial expression of the character expressed by the image of each frame must be synchronized. Conventionally used techniques for realizing lip sync are classified into the following two methods. That is, one method is a method (after-recording: so-called “after-recording”) in which audio is recorded later in accordance with a video produced in advance. Another method is a method in which audio is recorded first and a video is produced later according to the audio (pre-recording: this is hereinafter referred to as “pre-recording”). In post-recording, animation creators create images for each frame while predicting changes in the facial expression of the character being uttered. The speaker (or voice actor) who is in charge of the character's voice utters the speech by adjusting the timing while watching the expression of the character on the animation. On the other hand, in Pre-Reco, the speaker speaks freely. The producer creates an image of each frame while adjusting the facial expression according to the sound.
CGを用いてリップシンクアニメーションを生成するための様々な技術が提案されている。後掲の非特許文献1には、キーフレーム法と呼ばれる手法によってリップシンクを実現するための技術が開示されている。この手法では、キャラクタの典型的な表情を表現したオブジェクトを予め複数用意しておく。そして、これら用意されたオブジェクトを用いて、発話中のキャラクタの表情を次のようにして指定する。まず、アニメーションを構成するフレームの中から、用意されたオブジェクトを使用してキャラクタの表情を表現するフレーム(キーフレーム)を定める。続いて、キーフレームで使用する表情のパラメータを指定する。この指定が完了すると、アニメーションの各フレームにおけるキャラクタの表情を表すオブジェクトを、フレームごとに生成する。この際、キーフレームについては、上記の指定により指定されたオブジェクトをそのまま当てはめる。二つのキーフレームの間にあるその他のフレーム(中間フレーム)については、その中間フレームの前後にある二つのキーフレームに使用されているオブジェクトからの、時間軸による線形補間によって、オブジェクトを生成する。
Various techniques for generating a lip sync animation using CG have been proposed. Non-Patent
後掲の非特許文献2には、物理モデルに基づく顔のシミュレーションによって、リップシンクを実現する技術が開示されている。この技術では、顔の筋肉と皮膚と骨格とを3層構造のばねモデルによって物理モデル化する。発話時の筋肉の動きに基づきモデル上で筋肉を操作し、筋肉が移動・変形した場合の皮膚の動きをシミュレートする。 Non-Patent Document 2 described below discloses a technique for realizing lip sync through face simulation based on a physical model. In this technique, facial muscles, skin, and skeleton are physically modeled by a three-layered spring model. Manipulate the muscle on the model based on the movement of the muscle at the time of utterance, and simulate the movement of the skin when the muscle moves / deforms.
後掲の非特許文献3及び非特許文献4には、統計確率的な手法によって発話中における顔の動画像を合成する技術が開示されている。この手法では、予め発話時の顔の画像をデータベース(以下単に「DB」と書く。)化しておく。発話内容に適した特徴を備える画像をデータベース中の顔の画像から選び再構成する。
このうち、非特許文献3に記載の技術では、写真画像がDB化される。合成されるアニメーションは、それら写真画像を再構成したものである。したがって、大規模かつ適切なDBを用意すれば、実写の動画に近い自然な映像でリップシンクを実現できる。
Among these, in the technique described in
非特許文献4に記載の技術では、3次元の顔のオブジェクトがDB化される。この技術では、発話中における顔の所定の複数の点についての位置計測と音声の収録とを同時に行なう。位置計測のデータについて主成分分析を行ない、顔のパラメータを生成する。顔のパラメータと音声の収録データとから、予め用意された音素隠れマルコフモデル(Hidden Markov Model:HMM)における状態に対応する顔のパラメータを選び、状態ごとに平均をとる。この平均されたパラメータを用い、音素HMMの各状態に対応するオブジェクトを生成しておく。このようにして生成されたオブジェクトと音素HMMとを用いて、プレレコでアニメーションを合成する。すなわち、まず、予め発話音声を用意しておき、当該発話音声から音素HMMを用いて音素列を合成する。この音素列に基づき、アニメーションの各フレームに対し、音素を指定する。指定された音素に対応するオブジェクトを当該フレームのオブジェクトに定め、オブジェクトの系列を作成し画像化する。
アフレコであれプレレコであれ、手作業でのアニメーション制作によってリップシンクを実現するには、膨大な量の作業とそのための高度な技能とを要する。アフレコでリップシンクを実現するには、発話時の各フレームにおける表情を制作者が的確に予測しなければならない。しかし、この予測にも限度がある。また、アフレコでリップシンクを実現するには、発話者が発話のタイミングを調整しなければならない。しかし、発話のタイミング等をフレーム単位で調整することは困難である。そのため、高度なリップシンクを実現するのに、制作者・発話者の双方に極めて高い技能が要求される。これに対しプレレコでは、予め収録された音声に合せて各フレームの画像が制作される。画像は音声と異なり、フレーム単位での修正が可能であるため、高精度にタイミングの調整を行なうことができる。したがって高度なリップシンクが実現可能となる。しかしながらこの方法では、アニメーション画像の制作者がフレームごとに画像を調整しなければならない。又は制作者が、音声と画像とを照合して画像を修正しなければならない。そのため、制作者に過酷な作業を強いることになる。 Regardless of whether it is post-recording or pre-recording, lip-syncing by manual animation production requires an enormous amount of work and advanced skills. In order to achieve lip-sync with post-recording, the producer must accurately predict the facial expression in each frame at the time of utterance. However, there are limits to this prediction. In addition, in order to realize lip sync with post-recording, the speaker must adjust the timing of the utterance. However, it is difficult to adjust the utterance timing and the like in units of frames. Therefore, in order to realize advanced lip sync, both producers and speakers are required to have extremely high skills. On the other hand, in pre-recording, an image of each frame is produced in accordance with prerecorded audio. Unlike sound, images can be corrected in units of frames, so that timing can be adjusted with high accuracy. Therefore, advanced lip sync can be realized. However, this method requires the creator of the animation image to adjust the image frame by frame. Alternatively, the producer must correct the image by comparing the sound and the image. For this reason, the creator is forced to perform harsh work.
リップシンクを実現するための作業に関する上記のような問題は、3次元モデルを用いたCGによるアニメーション制作においても同様に発生する。3次元のオブジェクトを用いて表情などを表現するには、仮想空間上でオブジェクトを変形させなければならない。すなわち、ポリゴンの頂点(ノード)の位置についていちいち再定義しなければならない。オブジェクトの変形によってアニメーションを制作するには、フレームごとにこの作業を行なわなければならない。現在のアニメーションに用いられる形状モデルは、膨大な数のポリゴンにより構成されているため、再定義を要するノードの数もまた膨大である。そのため、制作に要する作業量及びコストは莫大なものとなる。 The above-described problems related to the work for realizing the lip sync similarly occur in animation production by CG using a three-dimensional model. In order to express a facial expression or the like using a three-dimensional object, the object must be deformed in a virtual space. That is, the position of the vertex (node) of the polygon must be redefined. To create an animation by deforming an object, you must do this for each frame. Since the shape model used for the current animation is composed of an enormous number of polygons, the number of nodes that need to be redefined is also enormous. Therefore, the amount of work and cost required for production are enormous.
非特許文献1に記載の技術では、典型的な表情のオブジェクトが、そのままキーフレームにおける画像の合成に用いられる。したがって、あるキャラクタ用のオブジェクトは、他のキャラクタに転用できない。すなわち、キャラクタごとに典型的な表情のオブジェクトを用意しなければならない。また、この技術では、中間フレームにおける表情を表現するオブジェクトが予め用意されたオブジェクトの線形補間により生成される。しかし、人間の表情の変化はこのような線形的なものではない。したがって、この手法では、表情の変化を忠実に表現できず、リップシンクは不完全なものとなる。
In the technique described in
非特許文献2に記載の技術は、顔の物理的構造を考慮した手法であり、シミュレーションを適切に行なえば、表情の変化を忠実に表現することができるかもしれない。しかし、この技術で意図した表情を表現するには、各筋肉組織の収縮量を解剖学的な知識に基づいていちいち設定しなければならない。そのため、この技術を用いてリップシンクアニメーションを作成するのは極めて困難である。 The technique described in Non-Patent Document 2 is a technique that takes into account the physical structure of the face, and if the simulation is performed appropriately, it may be possible to faithfully express changes in facial expressions. However, in order to express the facial expression intended by this technique, the contraction amount of each muscle tissue must be set based on anatomical knowledge. Therefore, it is extremely difficult to create a lip sync animation using this technique.
非特許文献3に記載の技術では、発話時の表情の特徴量を動画像から得ている。しかしこの技術では、次のような問題が発生する。すなわち、顔及びその表情は立体的(3次元)であるのに対し、動画像は2次元の情報である。3次元での形状変化に関する特徴量を2次元の動画像から得るのは困難である。したがってこの技術では、表情の変化についての情報を得るのが困難であるという問題が発生する。また、動画像の情報としての質はその画像を撮影するためのカメラの性能に依存する。したがって、動画像から求める特徴量に誤差が生じる恐れがあるという問題も発生する。
In the technique described in
非特許文献4に記載の手法では、アニメーションとして作成可能な顔の表情は、DBに格納されたオブジェクトで表現される表情に限定されてしまう。多様な容貌のキャラクタの多彩な表情を表現するには、キャラクタごとに顔のオブジェクトを用意しDB化する必要がある。これは事実上不可能である。 In the method described in Non-Patent Document 4, facial expressions that can be created as animations are limited to those expressed by objects stored in the DB. In order to express various expressions of characters having various appearances, it is necessary to prepare a face object for each character and create a database. This is virtually impossible.
それゆえに、本発明の目的は、任意のキャラクタについて、高度なリップシンクを実現するとともに、リップシンクアニメーションの制作作業を省力化する統計確率モデル作成装置、パラメータ系列合成装置、及びそれらを用いたリップシンクアニメーション作成システムを提供することである。 SUMMARY OF THE INVENTION Therefore, an object of the present invention is to provide a statistical probability model creation device, a parameter sequence synthesis device, and a lip using the same, which realize advanced lip sync for any character and save labor for the production of lip sync animation. It is to provide a sync animation creation system.
本発明の第1の局面に係る統計確率モデル作成装置は、発話時の音声を録音することにより得られる収録音声データと当該収録音声データの収録時に同時に収録される発話者の顔の予め定める複数個の特徴点に関するモーションキャプチャデータとからなるデータセットから、リップシンクアニメーション作成用の統計確率モデルを作成するための統計確率モデル作成装置である。モーションキャプチャデータは複数のフレームを含み、複数のフレームの各々は当該フレームにおける複数個の特徴点の位置データを含み、複数のフレームと収録音声との間には時間的対応関係が付けられている。統計確率モデル作成装置は、音声の特徴量と音素とに関して予め準備された所定の音素統計確率モデルを用いて、データセットに含まれる収録音声データに含まれる音素列、及び当該音素列を構成する各音素に関する音素継続長を推定するための音素列推定手段と、音素列推定手段により推定された音素列及び音素継続長に基づき、フレームの各々に対し、所定のラベルセットに属するラベルによるラベリングを行なうためのラベリング手段と、ラベリング手段によりラベリングされたモーションキャプチャデータからの統計的学習により、リップシンクアニメーション作成用の統計確率モデルとして、ラベル間の遷移確率と各特徴点の位置の出力確率とに関する統計確率モデルの学習を行なうための学習手段とを含む。 The statistical probability model creation device according to the first aspect of the present invention includes a plurality of predetermined voice data recorded by recording a voice at the time of utterance and a face of a speaker who is recorded at the same time when the recorded voice data is recorded. This is a statistical probability model creation device for creating a statistical probability model for creating a lip sync animation from a data set composed of motion capture data relating to individual feature points. The motion capture data includes a plurality of frames, each of the plurality of frames includes position data of a plurality of feature points in the frame, and a temporal correspondence relationship is provided between the plurality of frames and the recorded audio. . The statistical probability model creation device uses a predetermined phoneme statistical probability model prepared in advance with respect to speech feature values and phonemes, and configures a phoneme sequence included in recorded speech data included in the data set, and the phoneme sequence. Based on the phoneme sequence estimation means for estimating the phoneme duration for each phoneme, and the phoneme sequence and phoneme duration estimated by the phoneme sequence estimation means, labeling each frame with a label belonging to a predetermined label set is performed. As a statistical probability model for creating a lip sync animation by statistical learning from the labeling means to perform and the motion capture data labeled by the labeling means, the transition probability between labels and the output probability of the position of each feature point Learning means for learning a statistical probability model.
発話時の音声から音素列とその継続長が推定される。この音素列及び音素継続長に基づき、音声及びモーションキャプチャデータの各フレームについて、ラベリングが行なわれる。このラベリングがされたモーションキャプチャデータを学習データとして学習手段が統計的学習データを行なうことにより、統計確率モデルが得られる。この統計確率モデルを使用すると、音声を構成する音素についてラベリングがされた音声が与えられると、そのラベル系列に基づいて、音声に対応する顔の特徴点の位置の確率を出力できる。この確率に基づき、それらの特徴点の軌跡のうちで最尤となるものを定めることにより、音声から顔の動きを推定することができる。特徴点の軌跡が与えられるので、学習データを収録したときの発話者とは異なる顔モデルであっても、特徴点の対応付けがされていれば、音声に基づいてその顔モデルの動きを推定することができる。そのために、莫大な労力を要する作業は不要である。その結果、任意のキャラクタについて、高度なリップシンクを実現するとともに、リップシンクアニメーションの制作作業を省力化する統計確率モデル作成装置を提供することができる。 The phoneme string and its duration are estimated from the speech at the time of utterance. Based on this phoneme sequence and phoneme duration, labeling is performed for each frame of speech and motion capture data. A statistical probability model is obtained when the learning means performs statistical learning data using the labeled motion capture data as learning data. By using this statistical probability model, when a voice that is labeled with respect to phonemes constituting the voice is given, the probability of the position of the feature point of the face corresponding to the voice can be output based on the label sequence. Based on this probability, the movement of the face can be estimated from the voice by determining the maximum likelihood of the trajectories of those feature points. Since the trajectory of feature points is given, even if the face model is different from the speaker when learning data is recorded, if the feature points are associated, the movement of the face model is estimated based on the speech can do. Therefore, the work which requires enormous labor is unnecessary. As a result, it is possible to provide a statistical probability model creating apparatus that realizes advanced lip sync for any character and saves labor in creating lip sync animation.
ラベルセットは、各々発話時の口の形状を表す、複数個の所定の視覚素ラベルを含んでもよい。ラベリング手段は、音素と視覚素との間の所定の対応関係にしたがい、音素列推定手段により推定された音素列を視覚素ラベルの系列に変換し、音素継続長をもとに当該系列を構成する視覚素ラベルの各々の継続長を決定するための手段と、決定するための手段により決定された視覚素ラベルの系列と継続長とをもとに、フレームの各々に対し、視覚素ラベルによるラベリングを行なうための視覚素ラベリング手段とを含む。 The label set may include a plurality of predetermined visual element labels each representing a mouth shape at the time of speaking. The labeling unit converts the phoneme sequence estimated by the phoneme sequence estimation unit into a visual element label sequence according to a predetermined correspondence between the phoneme and the visual unit, and configures the sequence based on the phoneme duration. Based on the means for determining the continuation length of each visual element label and the sequence and the continuation length of the visual element label determined by the means for determining, a visual element label is used for each of the frames. Visual element labeling means for performing labeling.
音声から視覚素への変換がされ、その視覚素とモーションキャプチャデータとを学習データとしてモデルの学習が行なわれる。モデルから推定される特徴点の軌跡は、視覚素という形で予め定められたラベルセットとの関連で推定されるので、推定を効率的に行なうことができる。 The speech is converted into the visual element, and the model is learned using the visual element and the motion capture data as learning data. Since the trajectory of the feature points estimated from the model is estimated in relation to a predetermined label set in the form of a visual element, the estimation can be performed efficiently.
ラベルセットに含まれる視覚素ラベルの数は、音素列推定手段により推定される音素セットに含まれる音素の種類の数より少なくてもよい。 The number of visual element labels included in the label set may be smaller than the number of phoneme types included in the phoneme set estimated by the phoneme string estimation means.
音素の種類より視覚素ラベルの数が少ないので、最終的な特徴点の位置の推定が効率的に行なえる。 Since the number of visual element labels is smaller than the number of phonemes, the final feature point position can be estimated efficiently.
ラベルセットは、各々が一つの音素を表す複数個の音素ラベルを含んでもよい。ラベリング手段は、音素列推定手段により推定された音素列をもとに、音素ラベルの系列を生成し、音素継続長をもとに音素ラベルの各々の継続長を決定するための手段と、決定するための手段により決定された音素ラベルの系列と継続長とをもとに、フレームの各々に対し、音素ラベルによるラベリングを行なうための音素ラベリング手段とを含む。 The label set may include a plurality of phoneme labels, each representing one phoneme. The labeling means generates a phoneme label sequence based on the phoneme string estimated by the phoneme string estimation means, and determines the duration of each phoneme label based on the phoneme duration. Phoneme labeling means for labeling each frame based on the phoneme label based on the phoneme label sequence determined by the means and the duration.
音声から得られた音素ラベルをそのまま学習に使用する。モデルから顔の特徴点の位置データの系列を推定する場合、その組み合わせは膨大となるが、出力として音素ラベルの形をとれば、組み合わせが音素ラベルの数によって限定される。その結果、このモデルを用いた顔の形状の推定が効率的に行なえる。 Phoneme labels obtained from speech are used as they are for learning. When a series of position data of facial feature points is estimated from a model, the number of combinations is enormous, but if the form of phoneme labels is taken as an output, the combinations are limited by the number of phoneme labels. As a result, it is possible to efficiently estimate the shape of the face using this model.
学習手段は、ラベリング手段によりラベリングされたモーションキャプチャデータから、連続する三つのラベルの組を学習単位として学習を行なうことにより、リップシンクアニメーション作成用の統計確率モデルとして、ラベル間の遷移確率と各特徴点の位置の出力確率とに関する統計確率モデルの学習を行なうための手段を含んでもよい。 The learning means learns from the motion capture data labeled by the labeling means as a learning unit using a set of three consecutive labels as a statistical probability model for creating a lip sync animation, Means for learning a statistical probability model related to the output probability of the position of the feature point may be included.
顔の表情は、発話中の音素だけではなく、その前後の音素にも影響される。そこで、このように連続する三つのラベルの組を学習単位とすることにより、モデルによる顔特徴点の位置データの系列を推定する際に、実際の音声の連続に合致した形での推定を行なうことができ、アニメーションの動きが自然なものになる。 The facial expression is influenced not only by the phoneme being uttered, but also by the phonemes before and after it. Therefore, by using a set of three consecutive labels as a learning unit in this way, when estimating a sequence of facial feature point position data based on a model, estimation is performed in a form that matches the actual continuity of speech. And the animation moves naturally.
統計確率モデル作成装置はさらに、モーションキャプチャデータ中の各フレームにおいて、当該フレームと、当該フレームに隣接するフレームとにおける複数個の特徴点の位置データから、複数個の特徴点の予め定められた動的特徴データを算出し対応する位置データに付加するための動的特徴データ算出手段を含み、学習手段は、ラベリング手段によりラベリングされ、動的特徴データが付加された位置データを含むモーションキャプチャデータからの統計的学習により、リップシンクアニメーション作成用の統計確率モデルとして、ラベル間の遷移確率と各特徴点の位置の出力確率とに関する統計確率モデルの学習を行なうための手段を含む。 The statistical probability model creation device further includes, for each frame in the motion capture data, a predetermined motion of a plurality of feature points from position data of a plurality of feature points in the frame and a frame adjacent to the frame. Dynamic feature data calculating means for calculating the characteristic feature data and adding it to the corresponding position data. The learning means is labeled from the motion capture data including the position data labeled with the dynamic feature data and labeled by the labeling means. As a statistical probability model for creating a lip sync animation, a means for learning a statistical probability model related to the transition probability between labels and the output probability of the position of each feature point is included.
このように動的特徴データを学習に用い、音声から顔の特徴点の位置を推定する際にも同様の動的特徴データを使用するようにすると、特徴点の軌跡が実際の軌跡に類似した、滑らかなものとなる。 When dynamic feature data is used for learning and the same dynamic feature data is used when estimating the position of a facial feature point from speech, the feature point trajectory resembles the actual trajectory. It will be smooth.
動的特徴データ算出手段は、モーションキャプチャデータ中の各フレームにおいて、当該フレームの複数の特徴点の位置データと、当該フレームに隣接するフレームにおける複数個の特徴点の位置データとから、当該フレームにおける、複数個の特徴点の速度パラメータ及び加速度パラメータを動的特徴データとして算出し、対応する位置データに付加するための手段を含んでもよい。 In each frame in the motion capture data, the dynamic feature data calculation means calculates the position of the frame from the position data of the plurality of feature points of the frame and the position data of the plurality of feature points in the frame adjacent to the frame. A means for calculating velocity parameters and acceleration parameters of a plurality of feature points as dynamic feature data and adding them to corresponding position data may be included.
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを本発明の第1の局面に係るいずれかの統計確率モデル作成装置として動作させる。 When the computer program according to the second aspect of the present invention is executed by a computer, it causes the computer to operate as any one of the statistical probability model creation apparatuses according to the first aspect of the present invention.
本発明の第3の局面に係るパラメータ系列合成装置は、発話時における発話者の顔の複数個の特徴点の軌跡を時系列で表すパラメータ系列を合成するためのパラメータ系列合成装置である。パラメータ系列合成装置は、発話により発生した音声の入力を受けて、音声の特徴量と音素とに関し予め学習を行なって得られた第1の統計確率モデルに基づき、当該音声を出力する音素列と当該音素列を構成する各音素の音素継続長とを推定するための音素列推定手段と、音素列推定手段により推定された音素列と音素継続長とをもとに、予め定義されたラベルセットに属する所定のラベルからなる系列を生成し、当該系列を構成する当該ラベルの各々の継続長を決定するためのラベル列生成手段と、ラベル間の遷移確率と各特徴点の位置の出力確率とに関し予め学習することにより得られた第2の統計確率モデルに基づき、ラベル列生成手段により生成された系列と継続長とを入力パラメータとして、複数個の特徴点の軌跡を推定することにより、パラメータ系列を生成するための軌跡推定手段とを含む。 A parameter sequence synthesizer according to a third aspect of the present invention is a parameter sequence synthesizer for synthesizing a parameter sequence representing a trajectory of a plurality of feature points of a speaker's face at the time of utterance. The parameter sequence synthesizer receives a speech generated by utterance, and based on a first statistical probability model obtained by performing learning in advance on a speech feature and a phoneme, A phoneme sequence estimation means for estimating the phoneme duration of each phoneme constituting the phoneme sequence, and a label set defined in advance based on the phoneme sequence and the phoneme duration estimated by the phoneme sequence estimation means Label sequence generating means for determining a duration of each of the labels constituting the sequence, and a transition probability between labels and an output probability of the position of each feature point Based on the second statistical probability model obtained by learning in advance, the trajectories of a plurality of feature points are estimated using the sequence generated by the label string generation means and the duration as input parameters. By including a track estimating means for generating a parameter sequence.
音声に含まれる音素列から所定のラベル列への変換がされ、そのラベル列とモーションキャプチャデータとを学習データとしてモデルの学習が行なわれる。モデルから推定される特徴点の軌跡は、予め定められたラベルセット内のラベルにより限定されるので、推定を効率的に行なうことができる。 The phoneme sequence included in the speech is converted into a predetermined label sequence, and the model is learned using the label sequence and motion capture data as learning data. Since the trajectory of the feature points estimated from the model is limited by the labels in a predetermined label set, the estimation can be performed efficiently.
ラベルセットは、各々が発話時の口の形状を表す、複数個の所定の視覚素ラベルを含んでもよい。第2の統計確率モデルは、視覚素ラベル間の遷移確率と各特徴点の位置の出力確率とに関し予め学習される。ラベル列生成手段は、音素と視覚素ラベルとの所定の対応関係にしたがい、音素列推定手段により推定された音素列を視覚素ラベルの系列に変換し、音素継続長をもとに、当該系列を構成する各視覚素ラベルの継続長を決定するための変換手段を含む。 The label set may include a plurality of predetermined visual elementary labels, each representing the shape of the mouth when speaking. The second statistical probability model is learned in advance regarding the transition probability between visual elementary labels and the output probability of the position of each feature point. The label sequence generation unit converts the phoneme sequence estimated by the phoneme sequence estimation unit into a sequence of visual unit labels according to a predetermined correspondence between the phoneme and the visual unit label, and based on the phoneme continuation length, Conversion means for determining the duration of each visual element label constituting the.
ラベルセットに含まれる視覚素ラベルの数は、音素列推定手段により推定される音素セットに含まれる音素の種類の数より少ないとよい。 The number of visual element labels included in the label set may be smaller than the number of phoneme types included in the phoneme set estimated by the phoneme string estimation means.
音素の種類より視覚素ラベルの数が少ないので、最終的な特徴点の位置の推定が効率的に行なえる。 Since the number of visual element labels is smaller than the number of phonemes, the final feature point position can be estimated efficiently.
ラベルセットは、各々が一つの音素を表す複数個の音素ラベルを含んでもよい。第2の統計確率モデルは、音素ラベル間の遷移確率と各特徴点の位置の出力確率とに関し予め学習することにより得られる。ラベル列生成手段は、音素列推定手段により推定された音素列をもとに、音素ラベルの系列を生成し、音素継続長をもとに当該系列を構成する音素ラベルの各々の継続長を決定するための手段を含む。 The label set may include a plurality of phoneme labels, each representing one phoneme. The second statistical probability model is obtained by previously learning the transition probability between phoneme labels and the output probability of the position of each feature point. The label sequence generation unit generates a sequence of phoneme labels based on the phoneme sequence estimated by the phoneme sequence estimation unit, and determines the duration of each phoneme label constituting the sequence based on the phoneme duration. Means for doing so.
モデルから顔の特徴点の位置データの系列を推定する場合、その組み合わせは膨大となるが、出力として音素ラベルの形をとれば、組合せが音素ラベルの数によって限定される。その結果、このモデルを用いた顔の形状の推定時にも、音素ラベル系列を得るようにすることで、推定が効率的に行なえる。 When estimating a series of facial feature point position data from a model, the number of combinations is enormous, but if the form of phoneme labels is taken as an output, the combinations are limited by the number of phoneme labels. As a result, even when estimating the shape of the face using this model, the estimation can be performed efficiently by obtaining the phoneme label sequence.
第2の統計確率モデルは、視覚素ラベル間の遷移確率と、各特徴点の位置パラメータ及び当該特徴点に関する動的特徴パラメータの出力確率とに関し予め学習された動的特徴による統計確率モデルを含んでもよい。軌跡推定手段は、ラベル間の遷移確率と各特徴点の位置パラメータ及び動的特徴パラメータの出力確率とに関し予め学習することにより得られた前記動的特徴による統計確率モデルに基づき、前記ラベル列生成手段により生成された系列と継続長とを入力パラメータとして、複数個の特徴点に対する位置パラメータ及び動的特徴パラメータの系列として最尤となる位置パラメータ及び動的特徴パラメータの系列を出力するための手段と、位置パラメータ及び動的特徴パラメータの系列に対し、当該パラメータが得られた統計確率モデルに固有の変換によって、位置パラメータを動的特徴パラメータを用いて補正し、複数個の特徴点の各々の軌跡を推定するための手段とを含む。 The second statistical probability model includes a statistical probability model based on dynamic features previously learned with respect to transition probabilities between visual element labels, position parameters of each feature point, and output probabilities of dynamic feature parameters related to the feature points. But you can. The trajectory estimation means generates the label sequence based on the statistical probability model based on the dynamic features obtained by learning in advance regarding the transition probability between labels, the position parameters of each feature point, and the output probability of the dynamic feature parameters. Means for outputting a sequence of position parameters and dynamic feature parameters that is the maximum likelihood as a sequence of position parameters and dynamic feature parameters for a plurality of feature points using the sequence generated by the means and the duration as input parameters And the position parameter and the dynamic feature parameter series are corrected using the dynamic feature parameter by a conversion specific to the statistical probability model from which the parameter is obtained, and each of the plurality of feature points is corrected. Means for estimating the trajectory.
このように動的特徴パラメータまで含んで学習したモデルを用い、位置パラメータ系列と動的特徴パラメータの系列とを得た後に、位置パラメータ系列を動的特徴パラメータ系列を用いて補正すると、推定された後の特徴点の動きは滑らかでかつ自然なものとなる。 It was estimated that the position parameter series and dynamic feature parameter series were obtained using the model learned including dynamic feature parameters in this way, and then the position parameter series was corrected using the dynamic feature parameter series. Later feature point movements are smooth and natural.
本発明の第4の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを本発明の第3の局面に係るいずれかのパラメータ系列合成装置として動作させる。 When executed by a computer, the computer program according to the fourth aspect of the present invention causes the computer to operate as any one of the parameter series synthesis devices according to the third aspect of the present invention.
本発明の第5の局面に係るリップシンクアニメーション作成システムは、第1の座標空間における複数のノードの座標値を用いて顔の形状を定義した所定の顔オブジェクトをもとに、音声に同期する顔のアニメーションを作成するためのリップシンクアニメーション作成システムである。リップシンクアニメーション作成システムは、本発明の第3の局面に係るいずれかのパラメータ系列合成装置と、音声の入力に対してパラメータ系列合成装置により合成される、発話者の顔の複数個の特徴点の軌跡を表すパラメータ系列に基づき、顔オブジェクトにおけるノードの座標値を変更することにより、顔の形状を定義するオブジェクトを、アニメーションのフレームごとに生成するための変形オブジェクト生成手段と、アニメーションの各フレームについて、変形オブジェクト生成手段により生成されるオブジェクトから、当該フレームにおける顔の画像を合成するための画像化手段とを含む。 The lip-sync animation creation system according to the fifth aspect of the present invention synchronizes with audio based on a predetermined face object that defines the shape of the face using the coordinate values of a plurality of nodes in the first coordinate space. A lip-sync animation creation system for creating facial animation. The lip-sync animation creation system includes a plurality of feature points of a speaker's face synthesized by any one of the parameter series synthesizer according to the third aspect of the present invention and the parameter series synthesizer for speech input. A deformed object generating means for generating an object defining the shape of the face for each frame of the animation by changing the coordinate value of the node in the face object based on the parameter series representing the trajectory of the frame, and each frame of the animation And an imaging means for synthesizing a face image in the frame from the object generated by the deformed object generating means.
以下、図面を参照しつつ、本発明の実施の形態に係る顔アニメーションの作成システムついて説明する。なお、以下の説明に用いる図面では、同一の部品及びデータ等には同一の符号を付してある。それらの名称及び機能も同一である。したがって、それらについての説明は繰返さない。 Hereinafter, a face animation creation system according to an embodiment of the present invention will be described with reference to the drawings. In the drawings used for the following description, the same parts and data are denoted by the same reference numerals. Their names and functions are also the same. Therefore, description thereof will not be repeated.
<第1の実施の形態> <First Embodiment>
[構成]
図1に、本実施の形態に係る顔アニメーションの作成システム全体の構成をブロック図形式で示す。図1を参照して、この顔アニメーションの作成システム40は、キャラクタの声となる音声のデータ(以下、単に「音声データ」と呼ぶ。)42と、キャラクタの無表情な顔の形状を定義するためのデータである顔オブジェクト44とから、キャラクタの声に同期してキャラクタの表情が変化する(すなわちリップシンクする)アニメーション46を作成するシステムである。
[Constitution]
FIG. 1 is a block diagram showing the overall configuration of a face animation creation system according to the present embodiment. Referring to FIG. 1, this face animation creation system 40 defines voice data (hereinafter simply referred to as “voice data”) 42 as a character's voice and the shape of the character's expressionless face. This is a system for creating an
顔アニメーションの作成システム40は、学習用の音声の収録とその音声の発話中に発話者の顔の各器官に生じる位置変化(以下、この位置を「顔パラメータ」と呼ぶ。)の計測とを同時に行なうための収録システム60と、収録システム60により収録された学習用のデータを蓄積するための音声−顔パラメータDB62と、音声と音素との関係をモデル化した音素HMM64と、発話時の口の形状を表す最小単位である視覚素(viseme)と音素との対応関係を表す視覚素対応表66とを含む。
The face animation creation system 40 records the learning voice and measures the position change (hereinafter referred to as “face parameter”) that occurs in each organ of the speaker's face during the speech.
顔アニメーションの作成システム40はさらに、音素HMM64及び視覚素対応表66を用いて、音声−顔パラメータDB62から、発話時の口の形状(視覚素)と顔パラメータとの関係をモデル化した統計確率モデルの学習を行なうための学習システム68と、学習システム68による学習の結果得られる統計確率モデルである顔パラメータHMM50と、音声データ42及び顔オブジェクト44をもとに、音素HMM64、視覚素対応表66、及び顔パラメータHMM50を用いてアニメーション46を作成するためのアニメーション作成システム80とを含む。顔アニメーションの作成システム40はさらに、ユーザがアニメーション作成システム80を操作するための表示装置96及び入力装置98を含む。
The face animation creation system 40 further uses a phoneme HMM 64 and a visual element correspondence table 66 to calculate a statistical probability that models the relationship between the mouth shape (visual element) at the time of speech and the face parameter from the speech-
アニメーション作成システム80は、音声データ42をもとに、音素HMM64、視覚素対応表66、及び顔パラメータHMM50を用いて音声データ42に対応する顔パラメータの系列84を合成するための顔パラメータ合成部82と、合成された顔パラメータの系列84及び顔オブジェクト44をもとに、発話時のキャラクタの顔の形状モデル92をフレームごとに生成するためのマッピング部90と、マッピング部90により生成されたフレームごとの形状モデル92を画像に変換して、アニメーション46を生成するための画像化部94とを含む。
The animation creation system 80 uses a phoneme HMM 64, a visual element correspondence table 66, and a face parameter HMM 50 to synthesize a
〈収録システム60〉
図2に、収録システム60の構成を示す。図2を参照して、収録システム60は、発話者110による発話音声と発話時における発話者110の動画像とを収録するための録画・録音システム112と、発話時における発話者110の顔の各部位の位置及びその軌跡を計測するためのモーションキャプチャ(Motion Capture。以下「MoCap」と呼ぶ。)システム114と、録画・録音システム112により収録された音声・動画データ116及びMoCapシステム114により計測されたデータ(以下、このデータを「MoCapデータ」と呼ぶ。)118から、音声のデータ及びその発話時の顔パラメータのデータからなるデータセット120を作成し、音声−顔パラメータDB62に格納するためのデータセット作成装置122とを含む。
<
FIG. 2 shows the configuration of the
録画・録音システム112は、発話者110により発せられた音声を受けて音声信号に変換するためのマイクロホン130A及び130Bと、発話者110の動画像を撮影しその映像信号とマイクロホン130A及び130Bからの音声信号とを同時に記録して音声・動画データ116を生成するためのカムコーダ132とを含む。
The recording /
カムコーダ132は、MoCapシステム114に対してタイムコード134を供給する機能を持つ。カムコーダ132は、音声信号及び映像信号を所定の形式でデータ化し、さらにタイムコード134と同じタイムコードを付与して図示しない記録媒体に記録する機能を持つ。
The
本実施の形態に係るMoCapシステム114は、高再帰性光学反射マーカ(以下、単に「マーカ」と呼ぶ。)の反射光を利用して計測対象の位置を計測する光学式のシステムを含む。MoCapシステム114は、発話者110の頭部の予め定める多数の箇所にそれぞれ装着されるマーカからの赤外線反射光の映像を、所定の時間間隔のフレームごとに撮影するための複数の赤外線カメラ136A,…,136Fと、赤外線カメラ136A,…,136Fからの映像信号をもとにフレームごとに各マーカの位置を計測し、カムコーダ132からのタイムコード134を付与して出力するためのデータ処理装置138とを含む。
The
図3に、発話者110に装着されるマーカの装着位置を模式的に示す。図3を参照して、発話者110の顔、首、及び耳の多数の箇所160A,…,160Mにそれぞれマーカが装着される。マーカの形状は半球状又は球状であり、その表面は光を再帰反射するよう加工されている。マーカの大きさは数mm程度である。音声−顔パラメータDB62を充実したものにするには、複数日にわたり又は複数の発話者110について計測を行なうことが必要となる。そのため、マーカの装着順序を予め定めておき、装着位置として、顔器官の特徴的な位置又は装着済みのマーカとの相対的な関係によって定められる位置を予め定めておく。こうして定められる装着位置を、本明細書では「特徴点」と呼ぶ。図3に示す例では、181箇所の特徴点160A,…,160Mにそれぞれマーカが配置される。
FIG. 3 schematically shows the mounting position of the marker mounted on the
顔の物理的な構造上、発話者110の顔の表面上には、頭自体の動きに追従して移動するが発話者110の表情変化の影響をほとんど受けない、という特徴を持つ箇所がある。例えばこめかみ,鼻の先端がこのような特徴を持つ。本実施の形態では、このような箇所も特徴点として定めておく。以下、このような特徴点を不動点と呼ぶ。後述する正規化処理のために4点以上の不動点を定めることが望ましい。
Due to the physical structure of the face, there is a portion on the face of the
再び図2を参照して、データ処理装置138は、各マーカの位置の計測データ(以下、「マーカデータ」と呼ぶ。)をフレームごとにまとめてMoCapデータ118を生成し、データセット作成装置122に出力する。MoCapシステム114には、市販の光学式MoCapシステムを利用できる。市販の光学式MoCapシステムにおける赤外線カメラ及びデータ処理装置の機能及び動作については周知であるので、これらについての詳細な説明はここでは繰返さない。
Referring again to FIG. 2, the
データセット作成装置122は、音声・動画データ116を取込んで記憶するための音声・動画記憶部140と、MoCapデータ118を取込んで記憶するためのMoCapデータ記憶部142と、音声・動画データ116及びMoCapデータ118をそれらに付されたタイムコードに基づいて切出し、互いに同期する音声のデータ(以下、「収録音声データ」と呼ぶ。)150及びMoCapデータ152を出力するための切出処理部144とを含む。
The data
データセット作成装置122はさらに、切出されたMoCapデータ152における頭の動きの成分をキャンセルするように当該MoCapデータ152を正規化して、顔の各器官の変化を表す顔パラメータの系列154に変換するための正規化処理部146と、収録音声データ150及び顔パラメータの系列154を同期させて結合してデータセット120を生成し、音声−顔パラメータDB62に格納するための結合部148とを含む。
The data
正規化処理部146は、切出されたMoCapデータ152の各フレームにおいて、前述の不動点の位置変化が0になるよう、当該フレームの各マーカデータを変換することによって、当該フレームの顔パラメータを生成する機能を持つ。本実施の形態では、この変換にアフィン変換を用いる。
The
ここに、時刻t=0のフレームのMoCapデータ152におけるマーカデータを同次座標系でP=〈Px,Py,Pz,1〉と表現する。また時刻t≠0におけるマーカデータをP'=〈P'x,P'y,P'z,1〉と表現する。マーカデータPとマーカデータP’との関係は、アフィン行列Mを用いて次の式(1)のように表現される。
Here, the marker data in the
顔パラメータの系列154の各フレームにおいて不動点の位置データがすべて同じ値となれば、不動点の位置変化が0になる。そこで、本実施の形態では、フレームごとに、t=0のフレームにおける各不動点のマーカデータと、処理対象のフレームにおける当該不動点のマーカデータとから、当該フレームにおけるアフィン行列Mを算出する。そして、アフィン行列Mを用いて、各マーカデータをアフィン変換する。変換後のマーカデータはそれぞれ、t=0での頭の位置のまま発話を行なった状態での顔の特徴量の位置を表すものとなる。
If the fixed point position data are all the same in each frame of the
〈音声−顔パラメータDB62〉
図4に、音声−顔パラメータDB62(図1参照)に格納されるデータセット120の構成を模式的に示す。図4を参照して、データセット120は、切出された収録音声データ150と顔パラメータの系列154とを含む。顔パラメータの系列154は、複数フレーム分の顔パラメータ170A,…,170Nを含む。顔パラメータ170A,…,170Nはそれぞれ、収録音声データにより表される音声が発話されていた期間内のいずれかの時刻に対応している。すなわち、収録音声データ150と顔パラメータ170A,…,170Nとを相互参照することにより、ある特徴を持つ発話が行なわれたときの特徴点の位置変化について情報を得ることができる。
<Speech-
FIG. 4 schematically shows the configuration of the
〈音素HMM64〉
図1に示す音素HMM64は、音素ごとに設けられた音声の特徴に関するHMMである。図5に、音素HMM64の概要を示す。図5を参照して、音素HMM64は、音声の特徴を表す所定のパラメータ(以下、「音声パラメータ」と呼ぶ。)180が与えられると、音声中に対応する音素が存在する尤度を出力する機能を持つ。したがって、音素HMM64を用いることにより、音声パラメータ180から音素列182及び音素列を構成する各音素の音素継続長が推定できる。なお本実施の形態では、音声パラメータ180として、MFCC(Mel-Frequency Cepstral Coefficient)を使用するものとする。
<Phoneme HMM64>
A phoneme HMM 64 shown in FIG. 1 is an HMM related to the characteristics of speech provided for each phoneme. FIG. 5 shows an outline of the phoneme HMM 64. Referring to FIG. 5, phoneme HMM 64 outputs a likelihood that a corresponding phoneme exists in the speech when given a predetermined parameter (hereinafter referred to as “speech parameter”) 180 representing the feature of speech. Has function. Accordingly, by using the phoneme HMM 64, the
〈視覚素対応表66〉
図1に示す視覚素対応表66は、音素と視覚素との対応関係を示す表である。図6に視覚素対応表66の構成を示す。図6を参照して、視覚素対応表66は、発話中の口の形を表す10種類の視覚素と、43種類の音素との対応関係を表す。例えば視覚素「A」は、音素「a」又は「A」が発話されるときの口の形を表す。音素「h」を発話する際の口の形は、前後の音素を発話する際の口の形に依存する。そのため、この音素に対応する10種の視覚素とは別に記号「***」によって表している。
<Visual Element Correspondence Table 66>
The visual element correspondence table 66 shown in FIG. 1 is a table showing the correspondence between phonemes and visual elements. FIG. 6 shows the structure of the visual element correspondence table 66. Referring to FIG. 6, the visual element correspondence table 66 represents a correspondence relationship between 10 types of visual elements representing the shape of the mouth during speech and 43 types of phonemes. For example, the visual element “A” represents the shape of the mouth when the phoneme “a” or “A” is spoken. The shape of the mouth when speaking the phoneme “h” depends on the shape of the mouth when speaking the preceding and following phonemes. Therefore, it is represented by the symbol “***” separately from the 10 types of visual elements corresponding to this phoneme.
〈学習システム68〉
図7に、学習システム68(図1参照)の構成をブロック図で示す。図7を参照して、学習システム68は、音声−顔パラメータDB62内のデータセット120から顔パラメータHMM50の学習に用いるデータセットを生成するための前処理部202と、学習用のデータセット200を蓄積するための学習用DB204と、学習用DB204内に蓄積された学習用のデータセット200から顔パラメータHMM50の学習を行なうためのHMM学習部206とを含む。
<
FIG. 7 is a block diagram showing the configuration of the learning system 68 (see FIG. 1). Referring to FIG. 7, the
前処理部202は、音声−顔パラメータDB62から処理対象のデータセット120を選択するためのデータセット選択部210と、データセット選択部210により選択されたデータセット120内の収録音声データ150(図4参照)から、データセット120が収録された際の発話内容に対応する視覚素の系列と各視覚素の継続長とを、音素HMM64及び視覚素対応表66を用いて推定するための視覚素列生成部212と、選択されたデータセット120内の顔パラメータの系列154に含まれる顔パラメータ170A,…,170N(図4参照)に、視覚素を表すラベルによるラベルリングを行ない、学習用のデータセット200を生成するためのラベリング部214とを含む。
The
視覚素列生成部212は、収録音声データ150から、音声パラメータ180(図5参照)を抽出するための特徴量抽出部220と、抽出された音声パラメータ180をもとに、発話に対応する音素として最尤のものをフレームごとに、音素HMM64を用いて推定するための音素列推定部222と、音素列推定部222により推定された音素列182を構成する各音素を視覚素対応表66に基づき視覚素に変換するための音素・視覚素変換部224とを含む。
The visual element
特徴量抽出部220は、収録音声データから、音声パラメータ180として各フレームにおけるMFCCベクトルを抽出する機能を持つ。音素列推定部222は、音素HMM64から、最尤の音素列182及び音素継続長を推定する機能を持つ。本実施の形態の音素列推定部222は、この推定にビタビアルゴリズムを用いる。すなわち、音素列推定部222は、与えられたMFCCベクトルの系列を出力する音素のビタビ系列を推定する。音素・視覚素変換部224は、推定された音素のビタビ系列を構成する音素をそれぞれ、視覚素に変換する機能を持つ。ラベリング部214は、発話時の視覚素の時間変化と顔パラメータとの対応付けを、データセット120の各々について行なう。
The feature
HMM学習部206は、視覚素によりラベリングされた顔パラメータ170A,…,170Nを用いて、所定の視覚素列が与えられた場合の顔パラメータ170A,…,170Nの系列とその尤度とを学習する機能を持つ。ただし、発話中の表情は、音素と音声パラメータとの関係における調音結合と同様に、前後の視覚素に依存して変化することがある。音声認識用の音素HMMの学習においては、調音結合に対処すべくトライフォンを認識の処理単位として用いることがある。そこで、本実施の形態では、三つの視覚素を1組とする三つ組視覚素(TriViseme)を処理単位として、顔パラメータHMM50の学習を行なう。
The HMM learning
〈アニメーション作成システム80〉
(顔パラメータ合成部82)
図8に、顔パラメータ合成部82(図1参照)の構成をブロック図で示す。図8を参照して、顔パラメータ合成部82は、音素HMM64及び視覚素対応表66を用いて音声データ42を視覚素列に変換するための視覚素列生成部240と、音声データ42により表される音声が発話されているときの顔パラメータの系列84を、視覚素列生成部240により生成された視覚素列と顔パラメータHMM50とを用いて合成するためのHMMマッチング部242とを含む。
<Animation creation system 80>
(Face parameter synthesis unit 82)
FIG. 8 is a block diagram showing the configuration of the face parameter synthesis unit 82 (see FIG. 1). Referring to FIG. 8, the face
視覚素列生成部240は、特徴量抽出部250と、音素列推定部252と、音素・視覚素変換部254とを含む。これらの機能は、特徴量抽出部250が音声データ42の入力を受ける点を除き、それぞれ、図7に示す学習システム68の特徴量抽出部220、音素列推定部222、及び音素・視覚素変換部224の機能と同一である。したがってこれらの機能の詳細については、説明は繰返さない。
The visual element
HMMマッチング部242は、視覚素列生成部240より視覚素列とその継続長とを受け、当該視覚素列と継続長とにより表される発話全体で尤度最大となる顔パラメータの系列84を、顔パラメータHMM50を用いて合成する機能を持つ。
The HMM matching
(マッピング部90)
図9に、マッピング部90(図1参照)の構成をブロック図で示す。図9を参照して、マッピング部90は、入力装置98及び表示装置96に接続され、顔オブジェクト44上に特徴点160A,…,160M(図3参照)に対応する仮想のマーカ(以下、単に「仮想マーカ」と呼ぶ。)を、ユーザの操作にしたがい配置するための仮想マーカ配置部270と、顔オブジェクト44内の各ノードを、各ノードに近接する仮想マーカによってラベリングするためマーカラベリング部272と、マーカラベリング部272によるラベリングにより形成されたノードと仮想マーカとの対応関係を表す、マーカラベリングデータを記憶するためのマーカラベリングデータ記憶部274とを含む。
(Mapping unit 90)
FIG. 9 is a block diagram showing the configuration of the mapping unit 90 (see FIG. 1). 9, the
マッピング部90はさらに、マーカラベリングデータ記憶部274に記憶されたマーカラベリングデータと顔パラメータ合成部82により合成された顔パラメータの系列84とを用いて、顔オブジェクト44が表現する顔の形状から、変形した顔オブジェクト92を順次作成するための顔オブジェクト変形部276を含む。
The
仮想マーカ配置部270は、入力装置98及び表示装置96を用いてユーザにより行なわれる仮想マーカの配置操作にしたがい、顔オブジェクト44を規定する座標系上での各特徴点の座標を設定する。このようにして特徴点の座標が設定されることにより、各特徴点の各マーカデータを顔オブジェクト44上の各仮想マーカの位置に割当てることができる。なおこの際、顔パラメータの座標系と顔オブジェクトの座標系との間の変換も行なわれる。
The virtual
図10に、顔オブジェクト44及び仮想マーカの一例を示す。図10を参照して、顔オブジェクト44は、この図における黒い線分でそれぞれ示すエッジにより囲まれた多数の多角形(ポリゴン)によって、静止状態における所定の顔の形状を表現した形状モデルである。ポリゴンの頂点(エッジ同士の交点)が、顔オブジェクト44におけるノードである。一般に顔には、目・口・鼻の穴のように顔面を構成しない切れ目がある。これらの切れ目は一般に、顔オブジェクト44の一部としてモデリングされることはない。すなわち切れ目にポリゴンを定義しない。又は顔オブジェクト44とは別のオブジェクトとして定義される。よって、切れ目と顔面との間は境界エッジで仕切られている。
FIG. 10 shows an example of the
顔オブジェクト44により表現される顔の形状は、ユーザにより創作される任意のものでよい。ただし、顔パラメータを用いて顔オブジェクト44に表情を付与するには、顔オブジェクト44により表現される形状のどの部分が顔の各器官であるかを定義する必要がある。そのために、仮想マーカ配置部270(図9参照)は、顔オブジェクト44上に、仮想マーカ300A,…,300Mをそれぞれ、ユーザの操作にしたがって配置する。
The shape of the face expressed by the
この際、収録システム60(図2参照)におけるモーションキャプチャデータの収録に用いられたマーカの装着順序に従い仮想マーカ300A,…,300Mが配置されるよう、ユーザに対し誘導を行なう。したがって、ユーザの主観を反映しつつ、適切な位置に仮想マーカを配置することができる。図9に示す仮想マーカ配置部270は、顔オブジェクト44を規定する座標系における各仮想マーカの座標をマーカラベリング部272に出力する。
At this time, the user is guided so that the virtual markers 300A,..., 300M are arranged according to the mounting order of the markers used for recording the motion capture data in the recording system 60 (see FIG. 2). Therefore, the virtual marker can be arranged at an appropriate position while reflecting the user's subjectivity. The virtual
マーカラベリング部272は、顔オブジェクト44のノードの中から、処理の対象となるノードを選択し、選択したノード(以下、「選択ノード」と呼ぶ。)からの距離が最も近い仮想マーカを、仮想マーカの座標に基づき選択する。そして、選択された仮想マーカ(以下、「選択マーカ」と呼ぶ)が、この選択ノードに対応付ける仮想マーカとして適切であるかを判定する。適切であれば選択マーカを選択ノードの対応マーカとして採用し、不適切であれば棄却する。このような処理を繰返し、所定数n(例えばn=3)の仮想マーカを採用する。本明細書では、あるノードに対し採用された仮想マーカを、当該ノードの「対応マーカ」と呼ぶ。
The
本実施の形態では、選択マーカの対応マーカとしての適/不適を判断する際の基準に、顔オブジェクトの境界エッジを利用する。 In the present embodiment, the boundary edge of the face object is used as a reference when determining whether the selected marker is appropriate as a corresponding marker.
図11に、マーカラベリング部272により実行されるマーカラベリング処理の構造をフローチャートで示す。図11を参照して、処理が開始されると、ステップ340Aとステップ340Bとで囲まれた、ステップ342からステップ354までの処理を、顔オブジェクト44における各ノードに対して実行する。
FIG. 11 is a flowchart showing the structure of the marker labeling process executed by the
ステップ342では、選択ノードから仮想マーカまでの距離をそれぞれ算出する。さらに仮想マーカをこの距離の昇順でソートしたものをリストにする。ステップ344では、以下の繰返しを制御するための変数i及び採用された対応マーカの数を表す変数jに0を代入する。ステップ346では、変数iに1を加算する。
In
ステップ347では、変数iの値が仮想マーカの数Mmaxを超えているか否かを判定する。変数iの値がMmaxを超えていればエラーとし、処理を終了する。普通このようなことはないが、念のためにこのようなエラー処理を設けておく。変数iの値がMmax以下であれば制御はステップ348に進む。
In
ステップ348では、リストの先頭から変数iで示される位置に存在する仮想マーカ(以下これを「マーカ(i)」と呼ぶ。)と選択ノードとを結ぶ線分が、顔オブジェクト44におけるいずれの境界エッジも横切らない、という制約条件を充足しているか否かを判定する。当該線分が境界エッジのいずれかを横切るものであれば、ステップ344に戻る。さもなければステップ350に進む。
In
ステップ350では、この時点でのマーカ(i)を選択ノードの対応マーカの一つに指定する。すなわちマーカ(i)を示す情報を、選択ノードのマーカ・ノード対応情報として保存する。この後制御はステップ352に進む。ステップ352では、変数jに1を加算する。ステップ354では、変数jの値が3となっているか否かを判定する。変数jの値が3であればステップ340Bに進む。さもなければステップ344に進む。
In
上記したように、選択ノードと仮想マーカとを結ぶ線分が顔オブジェクトの境界エッジを横切るものは、ノードに対応する仮想マーカから除外される。これは以下の理由による。例えば上唇と下唇とのように、間に境界エッジが存在する場合がある。この場合、上唇に位置するノードと、下唇に位置するノードとは互いに異なる動きをする。したがって、例えば上唇のノードの移動量を算出する際に、下唇に存在するマーカの移動量を用いることは適当ではない。線分がある境界エッジを横切っているか否かは、例えば、その境界エッジが顔オブジェクトを構成するポリゴンのうち二つによって共有されているか、一つのみに属しているかによって判定する。 As described above, the line segment connecting the selected node and the virtual marker that crosses the boundary edge of the face object is excluded from the virtual marker corresponding to the node. This is due to the following reason. For example, there may be a boundary edge between the upper lip and the lower lip. In this case, the node located on the upper lip and the node located on the lower lip move differently. Therefore, for example, when calculating the movement amount of the upper lip node, it is not appropriate to use the movement amount of the marker existing on the lower lip. Whether or not the line segment crosses a certain boundary edge is determined by, for example, whether the boundary edge is shared by two polygons constituting the face object or belongs to only one.
図12に、顔オブジェクト44における唇周辺のポリゴンと仮想マーカとを示す。以下、図12を参照しつつ、当該ノードの対応マーカを特定する方法について具体例を用いて説明する。図12を参照して、顔オブジェクト44の唇周辺には、多数の三角形ポリゴンが存在する。各ポリゴンは、三つのエッジに囲まれている。そして上唇と下唇の間には境界エッジ400が存在する。境界エッジは、顔オブジェクト44と切れ目との接線、又は顔オブジェクト44の外縁にあたる。そのため、境界エッジ以外のエッジは二つのポリゴンに共有されるが、境界エッジ400に該当するエッジは共有されない。
FIG. 12 shows polygons around the lips and a virtual marker in the
マーカラベリング部272はまず、顔オブジェクト44を構成するノードの中からノードを一つ選択する。このノードが選択ノードである。ここに、図12に示すノード410が選択ノードであるものとする。選択ノード410の近隣には、仮想マーカ412A,…,412Eが存在する。マーカラベリング部272は、ノード410の座標と、仮想マーカの座標とをもとに、選択ノード410と仮想マーカとの間の距離をそれぞれ算出する。そして、仮想マーカの中から、ノード410に最も近い位置にある仮想マーカ412Aを選択する。
First, the
続いて、マーカラベリング部272は、選択ノード410と仮想マーカ412Aとを結ぶ線分414Aが境界エッジ400を横切るか否かを検査する。この線分414Aは、境界エッジ400を横切らない。そのためマーカラベリング部272は、仮想マーカ412Aを選択ノード410の対応マーカの一つとする。そして、仮想マーカの中から、仮想マーカ412Aの次にノード410に近い位置にある仮想マーカ412Bを選択し検査を行なう。選択ノード410と仮想マーカ412Bとを結ぶ線分414Bは、境界エッジ400を横切っている。そのため、仮想マーカ412Bは選択ノード410の対応マーカからは除外される。
Subsequently, the
マーカラベリング部272は、以上のような動作を所定数(3個)の対応マーカが選択されるまで繰返し、ノード410の対応マーカ(図12に示す例では仮想マーカ412A、412D、及び412E)を選択する。
The
再び図9を参照して、顔オブジェクト変形部276は、あるフレームの顔パラメータにおける各マーカデータをそれぞれ仮想マーカに付与する。さらに顔オブジェクト変形部276は、マーカラベリングデータ記憶部274のマーカラベリングデータに基づき、顔オブジェクト44の各ノードに、対応する仮想マーカの変化量から所定の内挿式により算出される変化量ベクトルvを割当てることにより、顔オブジェクト44の変形を行なう。そして、変形後の顔オブジェクト44を、形状モデル92として出力する。顔オブジェクト44のノードの座標をN、当該ノードと対応関係にある仮想マーカの座標をMi、変形後の顔オブジェクトである形状モデル92におけるマーカの座標をM'iとすると、顔オブジェクト変形部276は、ノードの座標の変化量ベクトルvを次の内挿式(2)によって算出する。
Referring to FIG. 9 again, face
本実施の形態に係る顔アニメーションの作成システム40は以下のように動作する。
The face animation creation system 40 according to the present embodiment operates as follows.
〈収録システムの動作〉
以下に、収録システム60が収録を行ない、データセット120を生成する動作について説明する。図2を参照して、発話者110の頭部の各特徴点160A,…,160M(図3参照)には事前に、マーカを予め装着しておく。その状態で、発話者は発話を行なう。音声−顔パラメータDB62を充実したものにするために、又は、各音素がバランスよく含まれるようにするために、発話の内容を事前に決めておき、発話者110にその内容で発話を行なってもらうようにしてもよい。
<Operation of recording system>
Hereinafter, an operation in which the
収録が開始され、発話者110が発話すると、録画・録音システム112が、発話時の音声と顔の動画像を次のようにして収録する。すなわち、マイクロホン130A及び130Bは、発話者110の音声を受音して音声信号を発生する。カムコーダ132は、発話中の発話者110の動画像を撮影し、その映像信号をマイクロホン130A及び130Bからの音声信号を同時に記録して音声・動画データ116を生成する。この際、カムコーダ132は、MoCapシステム114に対してタイムコード134を供給するとともに、音声・動画データ116に、タイムコード134と同じタイムコードを付与する。
When the recording starts and the
この際、同時に、発話時における特徴点160A,…,160Mの位置が、MoCapシステム114により次のようにして計測される。マーカはそれぞれ、対応する特徴点の動きに追従して移動する。赤外線カメラ136A,…,136Fはそれぞれ、マーカによる赤外線反射光を、所定のフレームレート(例えば毎秒120フレーム)で撮影しその映像信号をデータ処理装置138に出力する。データ処理装置138は、それらの映像信号の各フレームにタイムコード134を付与し、当該映像信号をもとに、各マーカの位置をフレームごとに算出する。データ処理装置138は、各マーカの位置のデータをフレームごとにまとめてMoCapデータ118として蓄積する。
At the same time, the positions of the feature points 160A,..., 160M at the time of utterance are measured by the
以上の収録プロセスにより収録された音声・動画データ116及びMoCapデータ118は、データセット作成装置122に与えられる。データセット作成装置122は、音声・動画データ116を音声・動画記憶部140に蓄積し、MoCapデータ118を、MoCapデータ記憶部142に蓄積する。
The audio / moving
切出処理部144はまず、MoCapデータ記憶部142から、t=0のフレームにおけるMoCapデータを読出して正規化処理部146に与える。このフレームのデータは、正規化処理部146による正規化に用いられる。続いて切出処理部144は、音声・動画記憶部140に記憶される音声・動画データ116から、1発話分など所定の単位で収録音声データ150を切出す。そして、切出した収録音声データ150に付与されているタイムコードを参照して、収録音声データ150の当該タイムコード上での位置を特定し、収録音声データ150を結合部148に与える。続いて切出処理部144は、MoCapデータ118から、タイムコード上、収録音声データ150の位置と同じ位置でMoCapデータ152を切出し、正規化処理部146に与える。
The cut-
正規化処理部146は、MoCapデータ152の各フレームにおいて、当該フレームの不動点のマーカデータと、予め与えられているt=0のフレームにおける不動点のマーカデータとから、アフィン行列を求め、当該アフィン行列を用いて、各マーカデータをアフィン変換する。この変換により、変換後のマーカデータはそれぞれ、頭をt=0での頭の位置のまま発話を行なった状態での顔の特徴量の位置を表すものとなる。その結果、MoCapデータ152は、顔パラメータの系列154になる。顔パラメータの系列154は、結合部148に与えられる。
In each frame of the
結合部148は、収録音声データ150及び顔パラメータの系列154を同期させて結合してデータセット120(図4参照)を生成し、音声−顔パラメータDB62に格納する。
The combining
〈顔パラメータHMM50の学習〉
以下に、学習システム68が顔パラメータHMMを学習する動作について説明する。図7を参照して、音声−顔パラメータDB62内のデータセット120(図4参照)の各々は、学習システム68の前処理部202により、次のようにして学習用データセット200に変換される。
<Learning of face parameter HMM50>
Hereinafter, an operation in which the
すなわちまず、データセット選択部210が、音声−顔パラメータDB62から処理対象のデータセット120(図4参照)を選択する。そして、当該データセット120に含まれる収録音声データ150と顔パラメータの系列154とをそれぞれ、視覚素列生成部212とラベリング部214とに与える。
That is, first, the data
視覚素列生成部212に収録音声データ150が与えられると、特徴量抽出部220が、収録音声データ150から、その音声の特徴量のベクトル系列180として、フレームごとにMFCCを抽出する。音素列推定部222は、抽出されたMFCCベクトルの系列に対応する音素列182(図5参照)を、音素HMM64に基づきビタビアルゴリズムによって推定する。すなわち、与えられたベクトル系列から、発話全体で尤度最大となる音素列182及び当該音素列182を構成する各音素の音素継続長を推定する。音素・視覚素変換部224は、推定された音素列182を構成する音素をそれぞれ、視覚素に変換する。これにより43種類の音素は、10種類の視覚素にグループ化される。したがって、視覚素変換部224により出力される視覚素列208として可能な組合せの数は、視覚素変換部224に入力されうる音素列182の組合せの数より少なくなる。音素・視覚素変換部224により出力されるデータは、データセット120の各時刻において発話者110が発話する際の口の形に対応する視覚素を表す。
When the recorded
ラベリング部214は、この視覚素列に基づき、顔パラメータの系列154内の各顔パラメータ170A,…,170Nに対するラベリングを行なう。発話時の視覚素の時間変化と顔パラメータとの対応付けを、データセット120の各々について行なうことになる。ラベリング部214は、視覚素によりラベリングされた顔パラメータ170A,…,170Nからなる学習用データセット200を生成し、これを学習用DB204に格納する。
The
HMM学習部206は、作成された学習用DB204に格納された、学習用データセット200を用いて、顔パラメータHMM50の学習を行なう。この際HMM学習部206は、三つの視覚素を1組とする三つ組視覚素を処理単位として、顔パラメータHMM50の学習を行ない、視覚素間の遷移確率と、顔パラメータ170A,…,170Nの出力確率に関する学習を行ない、顔パラメータHMM50を形成する。
The HMM learning
以上のようにして顔パラメータHMM50を学習することにより、顔パラメータHMM50に基づき、視覚素列から顔パラメータの系列を合成することが可能になる。顔パラメータは、各フレームにおける顔の多数の特徴点160A,…,160M(図3参照)の位置を表すものである。また、視覚素は発話時の口の形を表すものである。そのため、アニメーション上でのキャラクタの声に対応する各フレームのキャラクタの視覚素が特定されれば、当該視覚素からなる視覚素列と、顔パラメータHMM50とを用いて、各フレームにおける顔の多数の特徴点160A,…,160Mの位置情報を合成することが可能になる。すなわち、視覚素列から、発話時の特徴点160A,…,160Mの軌跡を推定することができる。よって、発話時の口の形のみならず顔の表情の変化に関して、情報を得ることが可能になる。 By learning the face parameter HMM 50 as described above, it is possible to synthesize a series of face parameters from a visual element sequence based on the face parameter HMM 50. The face parameter represents the position of many face feature points 160A,..., 160M (see FIG. 3) in each frame. The visual element represents the shape of the mouth when speaking. Therefore, if the visual element of each frame character corresponding to the voice of the character on the animation is specified, a large number of faces in each frame are obtained using the visual element sequence composed of the visual element and the face parameter HMM50. The position information of the feature points 160A,..., 160M can be synthesized. That is, it is possible to estimate the trajectory of the feature points 160A,. Therefore, it becomes possible to obtain information regarding not only the shape of the mouth at the time of speech but also the change in facial expression.
また、視覚素の種類は音素の種類より少ない。したがって、音素ごとに状態が設けられたHMMより、視覚素ごとに状態が設けられたHMMの方が、少ない状態数のモデルとなる。発話中の発話者の表情は、音素よりむしろ発話中の口の形に依存して変化すると考えられる。そのため、視覚素列から学習された顔パラメータHMM50の品質が、音素列から、又はMFCCの系列から学習された顔パラメータHMM50の品質より劣ることはない。同一の量の学習データからの学習を行なう場合、状態数の少ないモデルを学習する方が、データのスパースネスな学習の問題(一部の領域で学習に用いるデータが不足しているため、正確な推定を行なうことが不可能となる問題)も生じず、効率的である。したがって、視覚素列から顔パラメータHMM50を学習することにより、効率的で高い品質の顔パラメータHMMを得ることができる。さらに、三つ組視覚素を処理単位として、HMM学習を行なうため、前後の視覚素に依存した顔の表情の変化に対しても精度の高い学習を行なうことができる。 Moreover, there are fewer types of visual elements than phonemes. Therefore, an HMM in which a state is provided for each visual element is a model having a smaller number of states than an HMM in which a state is provided for each phoneme. It is considered that the expression of the speaker who is speaking changes depending on the shape of the mouth that speaks rather than the phoneme. Therefore, the quality of the face parameter HMM50 learned from the visual element sequence is not inferior to the quality of the face parameter HMM50 learned from the phoneme sequence or from the MFCC sequence. When learning from the same amount of learning data, it is more accurate to learn a model with a small number of states because there is not enough data for learning in some areas. The problem that it is impossible to estimate) does not occur and is efficient. Therefore, by learning the face parameter HMM 50 from the visual element sequence, an efficient and high-quality face parameter HMM can be obtained. Furthermore, since the HMM learning is performed using the triple visual element as a processing unit, it is possible to perform highly accurate learning with respect to changes in facial expressions depending on the preceding and subsequent visual elements.
(顔パラメータの合成)
以下、図1に示すアニメーション作成システム80の動作について説明する。キャラクタの声を表す音声データ42が準備され、図8に示す顔パラメータ合成部82に与えられる。この音声データ42は、事前に、キャラクタの声を担当する発話者(又は声優)によって発話されたものを録音することにより得られる。又は、音声合成技術により合成された音声のデータであってもよい。顔パラメータ合成部82に音声データ42が入力されると、視覚素列生成部240が、音素HMM64及び視覚素対応表66を用いて、音声データ42から視覚素列及び当該視覚素列を構成する各視覚素の継続長を推定する。この動作は、学習システム68の視覚素生成部212(図7参照)の動作と同様である。これにより、音声データ42により表される音声の発話時における口の形の変化が特定される。
(Composition of face parameters)
The operation of the animation creation system 80 shown in FIG. 1 will be described below.
HMMマッチング部242は、視覚素列生成部240により生成された視覚素列と顔パラメータHMM50とのマッチングを行ない、発話全体で最尤の顔パラメータの系列84を合成する。
The HMM matching
以上のようにして顔パラメータ合成部82により合成された顔パラメータの系列84は、音声データ42により表現される音声の発話中における口の形の変化から得られたものである。よってこの系列84は、当該音声の発話時における顔の特徴点160A,…,160Mの軌跡を表すものとなる。したがって、発話時の口の形のみならず顔の各特徴点の位置の非線形的な変化を、合成された顔パラメータの系列84によって特定できる。
The
また顔パラメータ合成部82は、音声データ42から、音素HMM64と顔パラメータHMM50とに用いた2段階の推定により顔パラメータの系列84を合成する。すなわち、音声データ42の音声パラメータ180の入力に対し出力されうる顔パラメータの系列84は、音素HMM64に基づく音素列182の推定により絞込まれることになる。さらに、音素を視覚素に変換することにより、出力され得る顔パラメータの系列84は、さらに絞込まれる。そのため、特徴点が多数存在する場合であっても、効率的に顔パラメータの系列84を合成することができる。
The face
ただし、上記の顔パラメータ合成部82により合成される顔パラメータは、図1に示す音声−顔パラメータDB62に格納された顔パラメータの系列154に基づき合成されるものである。すなわち、音声データ42により表される音声と等価な音声を、図2に示す収録システム60における発話者110が発話した場合の顔の表情変化を表すものである。そこで、本実施の形態に係るマッピング部90は、キャラクタの顔の形状を表す顔オブジェクト44と顔パラメータの系列84とから、発話時の各フレームに対応する形状モデル92を、以下のようにして生成する。
However, the face parameters synthesized by the face
(マッピングによる形状モデル92の生成)
図9を参照して、マッピング部90に顔オブジェクト44(図4参照)が与えられると、まず、顔オブジェクト44は、仮想マーカ配置部270、マーカラベリング部272、及び顔オブジェクト変形部276に与えられる。
(Generation of
Referring to FIG. 9, when face object 44 (see FIG. 4) is given to
仮想マーカ配置部270は、顔オブジェクト44に仮想マーカ300A,…,Mを、ユーザの操作にしたがい配置する。これにより、無表情な状態での顔オブジェクト44における、当該顔オブジェクト44の座標系上での特徴点160A,…,160M(図3参照)の位置が特定される。すなわち、仮想マーカ配置部270は、まず顔オブジェクト44を画像化して表示装置96に出力し、さらにユーザから当該初期顔モデル上における仮想マーカの位置の指定を入力装置98を介して受ける。顔オブジェクト44での仮想マーカの位置は、収録システム60における発話者へのマーカの配置と同様のルールにしたがって指定される。そのため、顔オブジェクト44と各仮想マーカとの位置関係は、発話者110(図2参照)の顔と当該発話者110に装着されたマーカとの位置関係に対応する。
The virtual
仮想マーカ配置部270は、各マーカのマーカデータに対しモーションキャプチャデータの座標系から顔モデルの座標系に対する座標変換を行ない、初期顔モデルの座標系における各仮想マーカの座標を特定する。仮想マーカ配置部270は、当該各仮想マーカの座標を、マーカラベリング部272に与える。
The virtual
マーカラベリング部272は、顔オブジェクト44と仮想マーカの座標とを受けて、顔オブジェクト44の各ノードに対して、当該ノードの3個の対応マーカを図11及び図12を参照して前述したようにして特定する。マーカラベリング部272は、全てのノードに対して対応マーカを決定し、ノードに対する対応マーカを表すマーカラベリングデータを作成し、各仮想マーカの座標とともに、マーカラベリングデータ記憶部274に記憶させる。
The
顔オブジェクト変形部276は、顔パラメータの系列84と、顔オブジェクト44と、マーカラベリングデータとをもとに、次のようにして、各フレームにおける形状モデル92を作成する。
The face
顔オブジェクト変形部276は、顔パラメータの系列から84の1フレーム分が与えられると、マーカラベリングデータ記憶部274からマーカラベリングデータを読出し、当該顔パラメータにおける各特徴点の位置に基づき、当該フレームの形状モデル92における各ノードの位置を次のようにして算出する。
When the face
すなわち、顔オブジェクト変形部276はまず、顔オブジェクト44上における仮想マーカの座標を、マーカラベリングデータ記憶部274から取得する。仮想マーカはそれぞれ、顔パラメータにおける特徴点と対応関係にある。そこで、顔オブジェクト変形部276は、顔パラメータの系列84における1フレーム分のデータをもとに、仮想マーカの各々に、当該仮想マーカに対応する特徴点の位置を付与し、当該1フレーム分の変化後の各仮想マーカの座標を算出する。
That is, the face
さらに顔オブジェクト変形部276は、一つのノードの変化量を、ノードに対し指定されたn個の対応マーカの座標をもとに、上記の内挿式(2)によって算出する。顔オブジェクト変形部276は、フレームごとに、顔オブジェクト44の各ノードに対しこの処理を実行する。これにより、各ノードの座標は変更され、変形した顔の形状モデル92がフレームごとに生成される。顔オブジェクト変形部276は、変形した顔の形状モデル92の各々を、画像化部94に与える。
Furthermore, the face
(画像化によるアニメーションの作成)
画像化部94は、フレームごとの変形した顔モデルを受けると、それらにテクスチャなどを付与するなど、所定のレンダリング処理を行なう。この処理により生成される画像が、アニメーション46における各フレームの画像となる。これら各フレームの画像により形成された動画像が、アニメーション46となる。
(Create animation by imaging)
When receiving the deformed face model for each frame, the
以上のように、本実施の形態に係るマッピング部90は、発話者の顔の多数の特徴点と、顔オブジェクト44の各ノードとを対応付ける。さらに、各特徴点についての計測データをもとに、顔オブジェクト44の軌跡を算出する。したがって、ノードの集合としての顔オブジェクトの時間的変化が顔パラメータの系列84として得られ、これにより、アニメーション46を作成することができる。顔パラメータの系列84は、音声データ42により表される音声が発話されるときの顔の各特徴点の非線形的な軌跡を表現する。したがって、発話中の表情の非線形的な変化を忠実に再現した、自然なアニメーションを作成することができる。
As described above, the
本実施の形態のアニメーション作成システム80は、モデルベースでアニメーションを作成する。ユーザは、キャラクタの声に相当する音声データ42と、静止状態でのキャラクタの顔の形状を定義した顔オブジェクト44とを用意し、顔オブジェクト44上に特徴点をルールにしたがい指定するだけで、キャラクタの声に合せて表情の変化する自然なリップシンクアニメーションを作成できる。また、キャラクタの顔のデザインが制限されることなく、顔オブジェクト44が表すキャラクタの顔の形状は任意のものでよい。そのため、ユーザによるアニメーション制作のバリエーションを狭めることなく、リップシンクアニメーションを作成できる。
The animation creation system 80 of this embodiment creates an animation on a model basis. The user simply prepares
[コンピュータによる実現及び動作]
本実施の形態の顔アニメーションの作成システム40の各機能部は、収録システム60(図2参照)の録画・録音システム112及びMoCapシステム114に含まれる一部の特殊な機器を除き、いずれもコンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図13はこのコンピュータシステム500の外観を示し、図14はコンピュータシステム500の内部構成を示す。
[Realization and operation by computer]
Each functional unit of the face animation creation system 40 according to the present embodiment is a computer except for some special devices included in the recording /
図13を参照して、このコンピュータシステム500は、FD(フレキシブルディスク)ドライブ522及びCD−ROM(コンパクトディスク読出専用メモリ)ドライブ520を有するコンピュータ510と、キーボード516と、マウス518と、モニタ512とを含む。
Referring to FIG. 13, a
図14を参照して、コンピュータ510は、FDドライブ522及びCD−ROMドライブ520に加えて、ハードディスク524と、CPU(中央処理装置)526と、CPU526、ハードディスク524、FDドライブ522、及びCD−ROMドライブ520に接続されたバス536と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)528と、バス536に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)530とを含む。コンピュータシステム500はさらに、プリンタ514を含んでいる。
14, in addition to the FD drive 522 and the CD-
ここでは示さないが、コンピュータ510はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
Although not shown here, the
コンピュータシステム500に顔アニメーションの作成システム40の各機能部を実現させるためのコンピュータプログラムは、CD−ROMドライブ520又はFDドライブ522に挿入されるCD−ROM532又はFD534に記憶され、さらにハードディスク524に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ510に送信されハードディスク524に記憶されてもよい。プログラムは実行の際にRAM530にロードされる。CD−ROM532から、FD534から、又はネットワークを介して、直接にRAM530にプログラムをロードしてもよい。
A computer program for causing the
このプログラムは、コンピュータ510にこの実施の形態の顔アニメーションの作成システム40の各機能部を実現させるための複数の命令を含む。この機能を実現させるのに必要な基本的機能のいくつかは、コンピュータ510にインストールされる各種ツールキットのモジュール、又はコンピュータ510上で動作するオペレーティングシステム(OS)若しくはサードパーティのプログラムにより提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又は「ツール」を呼出すことにより、上記した顔アニメーションの作成システム40の各機能部が行なう処理を実行する命令のみを含んでいればよい。コンピュータシステム500の動作は周知であるので、ここでは繰返さない。
This program includes a plurality of instructions for causing the
なお、上記の実施の形態では、学習システム68(図7参照)において、ラベリング部214は、音素・視覚素変換部224により変換された視覚素列及び各視覚素の継続長に基づくラベリングを行なった。しかし、本発明はこのような実施の形態には限定されない。例えば、ラベリング部214は、音素列推定部222により推定される音素列182及び音素継続長に基づくラベリングを行なうようにしてもよい。この場合、HMM学習部206は、音素列182及び音素継続長から、顔パラメータHMMの学習を行なうことになる。また、この場合、図8に示す顔パラメータ合成部82のHMMマッチング部242は、顔パラメータ合成部82の音素列推定部252により推定される音素列182及び音素継続長をもとに、顔パラメータHMM50とのマッチングを行なうことになる。
In the above embodiment, in the learning system 68 (see FIG. 7), the
また、本実施の形態に係るシステムにおいて、顔の特徴点160A,…,160Mの位置及び数は、図3に示すようなものには限定されない。ただし、マッピングに用いる特徴点の数が多くなるほど、アニメーション46における顔の表情変化を正確かつ自然に表現するものとなる。また、特徴点の数が多くなるほど、リップシンクの同期性も向上する。アニメーション作成システム80は、アニメーション46を出力する代わりに、各フレームにおける形状モデル92を出力するようにしてもよい。このようにすると、形状モデル92と別のオブジェクト等とを組合わせてアニメーションを生成することも可能になる。
Further, in the system according to the present embodiment, the positions and numbers of the facial feature points 160A,..., 160M are not limited to those shown in FIG. However, as the number of feature points used for mapping increases, the facial expression change in the
<第2の実施の形態>
第1の実施の形態に係る顔アニメーションの作成システム40によれば、音声から自動的にアニメーションを作成することが可能になった。しかし、以下に述べるように、それだけでは例えば口の動きが不自然になるなど、さらに改良すべき点が存在している。
<Second Embodiment>
According to the face animation creation system 40 according to the first embodiment, it is possible to automatically create an animation from sound. However, as described below, there are points to be further improved, for example, mouth movement becomes unnatural.
図15(A)に、発話時の顔の画像から得た本来の口の動きを示し、図15(B)に、第1の実施の形態に係る顔アニメーションの作成システム40を用いて顔の画像のアニメーションを自動的に作成したときの口の動きを示す。図15(A)では、口の動きは滑らかである。一方、図15(B)に示すアニメーションでの口の動きは、図15(A)に示すものと概略で一致しているものの、詳細な点では多くのステップ状の段差が存在していることが分かる。これは、アニメーション画像上では口の開き方がステップ状に変化していることを示す。そのため、このアニメーションを見た場合、やや不自然な感じを受ける。こうした問題は、顔パラメータHMM50によって得られる顔の画像の各位置を決めるベクトルが、マッチングにより定まる顔パラメータHMM50の各状態における平均ベクトルからなるために生ずると考えられる。 FIG. 15 (A) shows the original mouth movement obtained from the face image at the time of speech, and FIG. 15 (B) shows the facial motion using the face animation creation system 40 according to the first embodiment. Shows mouth movements when automatically creating an animation of an image. In FIG. 15A, the movement of the mouth is smooth. On the other hand, the movement of the mouth in the animation shown in FIG. 15 (B) roughly matches that shown in FIG. 15 (A), but there are many stepped steps in detail. I understand. This indicates that how to open the mouth changes in a step shape on the animation image. Therefore, when you see this animation, you feel a little unnatural. Such a problem is considered to occur because a vector that determines each position of the face image obtained by the face parameter HMM50 is an average vector in each state of the face parameter HMM50 determined by matching.
このようなステップ状のアニメーション画像の動きをより滑らかにするために、例えば顔の画像のパラメータ系列にローパスフィルタを適用したり、パラメータ系列にスプライン曲線による近似を行なったりすることも考えられる。しかしそのような方策をとる場合、得られる画像からはメリハリが失われてしまい、やはり自然な動きが得られないという問題がある。 In order to make the motion of the step-like animation image smoother, for example, a low-pass filter may be applied to the parameter series of the face image, or approximation by a spline curve may be performed on the parameter series. However, when such measures are taken, there is a problem that sharpness is lost from the obtained image and natural movement cannot be obtained.
第2の実施の形態では、こうした問題を解決するために、顔の特徴点の位置だけではなく、それらの速度及び加速度という、動的特徴パラメータをも用いて顔パラメータHMMの学習を行なう。後に示すように、このように動的特徴パラメータまで含めて学習した顔パラメータHMMを用いることにより、元の顔の画像の動きによく似た、スムーズでメリハリがあり、かつ自然な顔の動きが得られる。なお、動的特徴パラメータは、音声認識の分野では広く用いられている特徴量である。 In the second embodiment, in order to solve such a problem, learning of the face parameter HMM is performed using not only the position of the facial feature point but also dynamic feature parameters such as velocity and acceleration thereof. As will be described later, by using the face parameter HMM learned including the dynamic feature parameters in this way, smooth, sharp and natural face movements resembling the movement of the original face image are obtained. can get. The dynamic feature parameter is a feature amount widely used in the field of speech recognition.
以下、第2の実施の形態における顔パラメータHMMの学習の原理と、その顔パラメータHMMを用いた顔の画像の各特徴点の位置の決定方法とについて説明する。なお、以下に記載した、動的特徴を用いるHMMの学習及びHMMによるマッチング後の位置ベクトルの算出方法は、非特許文献5に教示されたものと同様である。 The principle of learning the face parameter HMM in the second embodiment and the method for determining the position of each feature point of the face image using the face parameter HMM will be described below. Note that the HMM learning using dynamic features and the method for calculating the position vector after matching by the HMM described below are the same as those taught in Non-Patent Document 5.
学習に用いる顔の特徴点として、第1の実施の形態に用いたものと同数の特徴点を採用する場合、位置ベクトルに加えて速度及び加速度の情報を用いるので、一つの特徴点当たりのパラメータ数(ベクトル数)は第1の実施の形態におけるベクトル数の3倍となる。ある時刻tにおける、ある特徴点の静的位置ベクトル(無表情な顔における特徴点の位置を基準としたもの)をct、サンプリング間隔をτとする。この場合、時刻tにおけるこの特徴点の速度ベクトルΔct及び加速度ベクトルΔ2ctは一般に以下のように近似される。 When the same number of feature points as those used in the first embodiment are used as the facial feature points used for learning, information on speed and acceleration is used in addition to the position vector, so parameters per feature point are used. The number (vector number) is three times the number of vectors in the first embodiment. Let c t be a static position vector (based on the position of a feature point in an expressionless face) at a certain time t, and τ be a sampling interval. In this case, the velocity vector .DELTA.c t and the acceleration vector delta 2 c t of the feature point at time t is approximated generally as follows.
ただしL(1)及びL(2)はそれぞれ、時刻tにおける速度及び加速度の算出において、時刻tの前後で考慮すべき位置ベクトル及び速度ベクトルを含む時間幅をサンプリング時間τを単位として表したものであり、w1及びw2はそれぞれ、各時刻での速度ベクトル及び加速度ベクトルを算出するために使用する、位置ベクトル及び速度ベクトルに割当てる重みを示す。本実施の形態では、L(1)=L(2)=1とし、また重みw1としては、連続する3つの重みとしてw1=[−0.5,0,0.5]という値を用い、重みw2としては同様にw2=[0.25,−0.5,0.25]を用いる。
However, L (1) and L (2) respectively represent the time width including the position vector and the velocity vector to be taken into consideration before and after the time t in the calculation of the velocity and acceleration at the time t in units of the sampling time τ. And w 1 and w 2 indicate weights assigned to the position vector and the velocity vector, respectively, used to calculate the velocity vector and the acceleration vector at each time. In this embodiment, L (1) = L (2) = 1, and the weight w 1 has a value of w 1 = [− 0.5, 0, 0.5] as three consecutive weights. used, likewise w 2 = [0.25, -0.5,0.25] used as the weight w 2.
また、このとき、HMMの出力ベクトルotを次のように表すものとし、出力ベクトルotの系列をOで表すものとする。 At this time, it is assumed to represent the output vector o t of the HMM as follows: a sequence of output vector o t is intended to refer at O.
ここでは式(3)の条件の下で、出力ベクトルotからなる出力ベクトル系列Oが得られる確率を最大にするような行列Cを求めることが目的となる。一般に、そのようなCは、次の線形方程式を解く事により定められることが分かっている。 Wherein under the condition of formula (3), the probability that the output vector series O consisting output vector o t is obtained to determine the matrix C that maximizes the objective. In general, it has been found that such C can be determined by solving the following linear equation.
式(4)はコレスキー分解又はQR分解を用いてO(TM3L2)の演算量で解くことができる。ただし、ここではL=1である。 Equation (4) can be solved with a computation amount of O (TM 3 L 2 ) using Cholesky decomposition or QR decomposition. However, L = 1 here.
このようにして、出力ベクトルotの系列OからCを算出する演算式を求めることにより、出力ベクトルの系列が得られれば、それに対応する静的ベクトルC、すなわち顔の特徴点の位置ベクトルを得ることができる。この位置ベクトルの値の算出には、元の顔の画像の位置ベクトルだけでなく、速度ベクトル及び加速度ベクトルという動的特徴が使用されているため、後述するように第1の実施の形態と比較してより滑らかな顔の画像を得ることができる。 In this way, by obtaining the arithmetic expression for calculating the C from the series O output vector o t, as long obtained sequences of output vector, static vector C corresponding thereto, i.e., the position vector of the feature point of the face Obtainable. In calculating the value of the position vector, not only the position vector of the original face image but also dynamic features such as a velocity vector and an acceleration vector are used, so that it is compared with the first embodiment as will be described later. As a result, a smoother face image can be obtained.
[構成]
図16を参照して、第2の実施の形態に係る顔アニメーションの作成システム640は、第1の実施の形態に係る顔アニメーションの作成システム40の収録システム60、音声−顔パラメータDB62、学習システム68、顔パラメータHMM50、アニメーション作成システム80に代えて、それぞれ上記したように顔の特徴点の位置ベクトルに加え、それらの速度ベクトル及び加速度ベクトルまでをデータとして処理する能力を持つ収録システム660、音声−顔パラメータDB662、学習システム668、顔パラメータHMM650、及びアニメーション作成システム680を含み、それによって図1に示すアニメーション46よりも自然で、かつ滑らかなアニメーション646を作成する。図16において、図1に示す顔アニメーションの作成システム40の各部品と同一の部品には同一参照符号を付してある。それらの名称及び機能も同一である。したがって、ここではそれらについての詳細な説明は繰返さない。
[Constitution]
Referring to FIG. 16, a face
図16から分かるように、アニメーション作成システム680が図1に示すアニメーション作成システム80と異なるのは、図1の顔パラメータ合成部82に代えて、音声データ42をもとに、音素HMM64、視覚素対応表66、及び顔パラメータHMM650を用いて、音声データ42に対応する顔パラメータであって、速度ベクトル及び加速度ベクトルまで考慮して定められたパラメータの系列684を合成しマッピング部90に与えるための顔パラメータ合成部682を含むことである。その他の点においては、アニメーション作成システム680は、図1に示すアニメーション作成システム80と同様の構成を持っている。
As can be seen from FIG. 16, the
図17に、第2の実施の形態における収録システム660の詳細な構成を示す。図17を参照して、収録システム660は、図2に示す収録システム60と同様の構成を有する。異なるのは、図2のデータセット作成装置122に代えて、録画・録音システム112により収録された音声・動画データ116及びMoCapシステム114により計測されたMoCapデータ118から、音声のデータ及びその発話時の動的特徴パラメータを含む顔パラメータのデータからなるデータセット720を作成し、音声−顔パラメータDB662に格納するためのデータセット作成装置722を含む点である。
FIG. 17 shows a detailed configuration of the
データセット作成装置722の構成も、図2に示すデータセット作成装置122の構成とほぼ同一である。ただしデータセット作成装置722は、図2に示す正規化処理部146の後に、正規化処理部146の出力する顔パラメータの系列154を受け、顔パラメータの系列154に含まれる各時刻における各特徴点の静止位置ベクトルから、各時刻における各特徴点の速度ベクトル及び加速度ベクトルを前述した重みw1及びw2を用いて算出し、動的特徴を含む顔パラメータの系列754を出力する動的特徴算出部746を含む点と、図2に示す結合部148に代えて、動的特徴算出部746から動的特徴を含む顔パラメータの系列754を受け、切出処理部144から受ける収録音声データ150と、動的特徴算出部746から受ける動的特徴を含む顔パラメータの系列754とを同期させて結合して動的特徴を含むデータセット720を生成し、音声−顔パラメータDB662に格納するための結合部748を含む点とにおいて、データセット作成装置122とは異なっている。
The configuration of the data
図18に、結合部748が出力する動的特徴を含むデータセット720の構成を概略的に示す。図18を参照して、動的特徴を含むデータセット720は、図4に示す単なる顔パラメータの系列154に代えて、動的特徴と顔パラメータの系列とを組合せた動的特徴を含む顔パラメータの系列754を含む点でデータセット120と異なる。
FIG. 18 schematically shows a configuration of a
動的特徴を含む顔パラメータの系列754は、図4に示す複数フレーム分の顔パラメータ170A,…,170Nに加え、これらフレームの顔パラメータから算出される速度ベクトルパラメータ(以下「速度パラメータ」と呼ぶ。)772A,…,772Nと、同じくこれらフレームの顔パラメータから算出される加速度ベクトルパラメータ(以下「加速度パラメータ」と呼ぶ。)774A,…,774Nとを含む。これら複数フレーム分の顔パラメータ170A,…,170N、速度パラメータ772A,…,772N、及び加速度パラメータ774A,…,774Nは、各フレームごとに対応付けられている。これらは図4のデータセット120においてと同様、収録音声データ150と同期されている。すなわち、収録音声データ150と顔パラメータ170A,…,170N、速度パラメータ772A,…,772N、及び加速度パラメータ774A,…,774Nとを相互参照することにより、ある特徴を持つ発話が行なわれたときの特徴点の位置、その速度、及び加速度についての情報を得ることができる。
In addition to the face parameters 170A,..., 170N for a plurality of frames shown in FIG. 4, the
図19に、学習システム668のブロック図を示す。図19を参照して、学習システム668は、概略、図7に示す学習システム68と同様の構成を持つ。異なるのは、図7に示す前処理部202に代えて、前処理部202と同様ではあるが、動的特徴を含むデータセット720を処理して学習用のデータセット700を出力することができる前処理部802を含む点と、図7の学習用DB204に代えて、動的特徴を含む学習用のデータセット700を蓄積するための学習用DB804を含む点と、図7に示すHMM学習部206に代えて、学習用DB804に格納された動的特徴を含む学習用のデータセットを用い、顔パラメータHMM650の学習を行なうためのHMM学習部806を含む点とである。
FIG. 19 shows a block diagram of the
前処理部802は、図7に示す前処理部202と同様の構成を持つが、データセット選択部210に代えて、音声−顔パラメータDB662から処理対象のデータセット720を選択する機能を持つデータセット選択部810を含む点と、選択されたデータセット720内の動的特徴を含む顔パラメータの系列754に含まれる顔パラメータ170A,…,170N、速度パラメータ772A,…,772N及び加速度パラメータ774A,…,774N(図18参照)に対し、音素・視覚素変換部224が出力する視覚素のラベルによるラベルリングを行ない、学習用のデータセット800を生成するためのラベリング部814を含む点とで前処理部202と異なっている。
The
図20に、HMM学習部80による学習が行なわれた後の、一つの視覚素に対応する顔パラメータHMM780の構成を簡単に示す。図20に示すように、この顔パラメータHMM780は3状態S1〜S3のHMMであって、各状態S1〜S3はそれぞれ、出力oi=(ci、Δci、Δ2ci)(i=1〜3)の出力確率を与える確率分布と、遷移確率を与える確率分布とを含んでいる。与えられる出力oiの系列と、顔パラメータHMM780とのマッチングによって、そうした出力系列を与える尤度が最大となるような顔パラメータHMM780の系列を求めることにより、各時刻における顔パラメータが、その時刻に対応するHMMによって定まる。その顔パラメータから、前述した式(4)を用いて行列Cを算出することで、動的特徴量を考慮した、滑らかな変化をする顔の特徴点の座標を得ることができる。 FIG. 20 simply shows the configuration of the face parameter HMM 780 corresponding to one visual element after learning by the HMM learning unit 80 is performed. As shown in FIG. 20, this face parameter HMM 780 is an HMM of three states S1 to S3, and each of the states S1 to S3 has outputs o i = (c i , Δc i , Δ 2 c i ) (i = 1-3) and a probability distribution giving a transition probability. By obtaining a sequence of face parameters HMM780 that maximizes the likelihood of giving such an output sequence by matching the sequence of given outputs o i and the face parameter HMM780, the face parameters at each time are obtained at that time. Determined by the corresponding HMM. By calculating the matrix C from the face parameters using the above-described equation (4), it is possible to obtain the coordinates of facial feature points that smoothly change in consideration of dynamic feature amounts.
図21に、図16に示す顔パラメータ合成部682のより詳細な構成を示す。図21を参照して、顔パラメータ合成部682は、図8に示す第1の実施の形態の顔パラメータ合成部82とよく似た構成を持つ。異なる点は、図8のHMMマッチング部242に代えて、視覚素列生成部240により生成された視覚素列と顔パラメータHMM650とをマッチングすることにより、音声データ42により表される音声が発話されているときの、顔パラメータHMM650からの出力パラメータの系列844を生成し出力するためのHMMマッチング部842を含む点と、HMMマッチング部842から出力される動的特徴量を含む出力パラメータの系列844に対し、前述した式(4)を用いた変換を行ない、動きベクトル及び加速度ベクトルまで考慮した特徴点の位置ベクトル系列、すなわち顔パラメータの系列684(式(4)における行列C)を出力するための変換部846をさらに含む点とである。
FIG. 21 shows a more detailed configuration of the face
HMMマッチング部842は、視覚素列生成部240より視覚素列とその継続長とを受け、当該視覚素列と継続長とにより表される発話全体で尤度最大となるような、動的特徴量を含む出力パラメータの系列844を、顔パラメータHMM650を用いて合成する機能を持つ。
The HMM matching
[動作]
この第2の実施の形態に係る顔アニメーションの作成システム640の各部のうち、第1の実施の形態の顔アニメーションの作成システム40内の部品と同一か又は対応する部品の動作は、その部品と同様である。ただし、扱うデータに動的特徴量が含まれている点が異なる。以下、第1の実施の形態に係るシステム40の動作とは異なる点に重点をおき、顔アニメーションの作成システム640の動作について説明する。
[Operation]
Of each part of the face
〈収録システムの動作〉
図17を参照して、発話者110の頭部の各特徴点160A,…,160M(図3参照)には事前に、マーカを予め装着しておく。その状態で、発話者は発話を行なう。収録が開始され、録画・録音システム112が、発話時の音声と顔の動画像を収録する。
<Operation of recording system>
Referring to FIG. 17, a marker is previously attached to each
以上の収録プロセスにより収録された音声・動画データ116及びMoCapデータ118は、データセット作成装置722に与えられる。データセット作成装置722は、音声・動画データ116を音声・動画記憶部140に蓄積し、MoCapデータ118を、MoCapデータ記憶部142に蓄積する。
The audio /
切出処理部144はまず、MoCapデータ記憶部142から、t=0のフレームにおけるMoCapデータを読出して正規化処理部146に与える。このフレームのデータは、正規化処理部146による正規化に用いられる。続いて切出処理部144は、音声・動画記憶部140に記憶される音声・動画データ116から、1発話分など所定の単位で収録音声データ150を切出す。そして、切出した収録音声データ150に付与されているタイムコードを参照して、収録音声データ150の当該タイムコード上での位置を特定し、収録音声データ150を結合部748に与える。続いて切出処理部144は、MoCapデータ118から、タイムコード上、収録音声データ150の位置と同じ位置でMoCapデータ152を切出し、正規化処理部146に与える。
The cut-
正規化処理部146は、MoCapデータ152の各フレームにおいて、当該フレームの不動点のマーカデータと、予め与えられているt=0のフレームにおける不動点のマーカデータとから、アフィン行列を求め、当該アフィン行列を用いて、各マーカデータをアフィン変換する。この変換により、変換後のマーカデータはそれぞれ、頭の位置をt=0での位置に保ったまま発話を行なった状態での顔の特徴量の位置を表すものとなる。その結果、MoCapデータ152は、顔パラメータの系列154になる。顔パラメータの系列154は、動的特徴算出部746に与えられる。
In each frame of the
動的特徴算出部746は、前述した式(1)(2)と、重みw1=[−0.5,0,0.5]、及び重みw2=[0.25,−0.5,0.25]とを使用して、各時刻における動的特徴量(速度ベクトル及び加速度ベクトル)を算出して顔パラメータの系列154とあわせ、動的特徴を含む顔パラメータの系列754を結合部148に与える。
The dynamic feature calculation unit 746 calculates the weights w1 = [− 0.5, 0, 0.5] and the weights w 2 = [0.25, −0.5, 0.25] is used to calculate the dynamic feature amount (velocity vector and acceleration vector) at each time and is combined with the
結合部748は、収録音声データ150及び動的特徴を含む顔パラメータの系列754を同期させて結合して動的特徴を含むデータセット720を生成し、音声−顔パラメータDB662に格納する。
The combining
〈顔パラメータHMM650の学習〉
まず、データセット選択部810が、音声−顔パラメータDB662から処理対象のデータセット720を選択する。そして、当該データセット720に含まれる収録音声データ150と動的特徴を含む顔パラメータの系列754とをそれぞれ、視覚素列生成部212とラベリング部814とに与える。
<Learning of face parameter HMM650>
First, the data
視覚素列生成部212は、第1の実施の形態の場合と同様に動作し、音声に対応する音素列を推定し、さらに各音素に対応する視覚素からなる視覚素列208を生成し、ラベリング部814に与える。ラベリング部814は、視覚素列208に基づき、動的特徴を含む顔パラメータの系列754内の各顔パラメータ170A,…,170N,速度パラメータ772A,…,772N、及び加速度パラメータ774A,…,774Nに対するラベリングを行なう。発話時の視覚素の時間変化と動的特徴を含む顔パラメータとの対応付けを、データセット720の各々について行なうことになる。ラベリング部814は、視覚素によりラベリングされた学習用のデータセット800を生成し、これを学習用DB804に格納する。
The visual element
HMM学習部806は、作成された学習用DB804に格納された学習用データセット800を用いて、顔パラメータHMM650の学習を行なう。この際HMM学習部806が、三つの視覚素を1組とする三つ組視覚素を処理単位として、顔パラメータHMM650の学習を行なう点は第1の実施の形態の場合と同様である。
The HMM learning
以上のようにして顔パラメータHMM650の学習を行なうことにより、顔パラメータHM650に基づき、視覚素列から動的特徴を含む顔パラメータの系列を合成することが可能になる。
By learning the face parameter HMM 650 as described above, it is possible to synthesize a series of face parameters including dynamic features from the visual element sequence based on the
(顔パラメータの合成)
以下、図16に示すアニメーション作成システム680の動作について説明する。キャラクタの声を表す音声データ42が準備され、図16に示す顔パラメータ合成部682に与えられる。図21を参照して、顔パラメータ合成部682に音声データ42が入力されると、視覚素列生成部240が、音素HMM64及び視覚素対応表66を用いて、音声データ42から視覚素列及び当該視覚素列を構成する各視覚素の継続長を推定する。この動作は、学習システム68の視覚素生成部212(図7参照)の動作と同様である。これにより、音声データ42により表される音声の発話時における口の形の変化が特定される。
(Composition of face parameters)
Hereinafter, the operation of the
HMMマッチング部842は、視覚素列生成部240により生成された視覚素列と顔パラメータHMM650とのマッチングを行ない、発話全体で最尤の顔パラメータの系列844を合成する。顔パラメータの系列844には、各顔パラメータの出力の際にHMMマッチング部842によるマッチングで選択されたHMMの各状態の平均ベクトルと共分散行列とが付され、変換部846に与えられる。
The HMM matching
変換部846は、与えられた顔パラメータの系列844に含まれる顔パラメータに対し、その顔パラメータに付随している平均ベクトル及び共分散行列とを用いて、式(4)による演算を行なって、換算後の顔パラメータの行列Cを算出し、換算後の顔パラメータの系列684を出力する。
The
以上のようにして顔パラメータ合成部682により合成された顔パラメータの系列684は、音声データ42により表現される音声の発話中における口の形の変化から得られたものである。またこの系列684は、第1の実施の形態の場合と異なり、顔の特徴点の位置ベクトルだけでなく、その速度ベクトル及び加速度ベクトルをも用いて学習したHMMから合成されたものである。したがって顔パラメータの系列684によって、第1の実施の形態に係る顔アニメーションの作成システム40により合成されたアニメーションよりも滑らかにアニメーションを作成できると考えられ、現実にそうした効果が得られることが後述するように確認できた。
The
顔パラメータの系列684が作成されれば、図16に示すマッピング部90、及び画像化部94によるアニメーション646の作成は第1の実施の形態と同様に行なえる。
If the
<第2の実施の形態による効果>
図22は、図15に、第2の実施の形態に係る顔アニメーションの作成システム640によって合成されたアニメーションの口の動きを図22(C)として追加した図である。図22(A)(B)はそれぞれ図15(A)(B)と同一の図である。
<Effects of Second Embodiment>
FIG. 22 is a diagram in which the mouth movement of the animation synthesized by the face
図22(C)と図22(B)とを比較すると、図22(C)では図22(B)に存在していたステップ上の変化が除去されて全体として滑らかなグラフとなっていること、しかもグラフが単になまっているわけではなく、図22(A)に非常によく似た形のピークを持つグラフが得られていることが分かる。 Comparing FIG. 22C and FIG. 22B, in FIG. 22C, the change on the step that existed in FIG. 22B is removed, and the graph is smooth as a whole. In addition, the graph is not simply rounded, and it can be seen that a graph having a peak shape very similar to FIG. 22A is obtained.
すなわち、本実施の形態のように、発話時の顔の特徴点の位置ベクトルだけでなく、その速度ベクトル及び加速度ベクトルという動的特徴までも含めて学習を行なった顔パラメータHMM780を使用することにより、音声からその発話者の顔のアニメーションを作成でき、しかもその動きが滑らかで実際の発話者の顔の動きに忠実なアニメーションが作成できることが分かる。 That is, by using the face parameter HMM780 that has been learned including not only the position vector of the facial feature point at the time of utterance but also the dynamic features of the velocity vector and the acceleration vector as in the present embodiment. It can be seen that an animation of the speaker's face can be created from the voice, and an animation that is smooth and faithful to the actual movement of the speaker's face can be created.
この第2の実施の形態では、学習時の顔の特徴点の速度ベクトル及び加速度ベクトルを算出する際に、特徴点の位置ベクトルの差分を用いている。しかし本発明はそのような実施の形態には限定されない。仮に速度ベクトルを精度よく測定できる装置が利用可能であれば、速度ベクトルを位置ベクトルから算出するのではなく、直接測定するようにしてもよい。この場合、加速度ベクトルは速度ベクトルの差分から算出することができる。 In the second embodiment, the difference between the feature point position vectors is used when calculating the velocity vector and acceleration vector of the facial feature points during learning. However, the present invention is not limited to such an embodiment. If an apparatus capable of measuring a velocity vector with high accuracy is available, the velocity vector may be directly measured instead of being calculated from the position vector. In this case, the acceleration vector can be calculated from the difference between the velocity vectors.
加速度ベクトルも速度ベクトルと同様、直接測定できるような装置があればそれを利用し、直接測定するようにしてもよい。 Similarly to the velocity vector, the acceleration vector may be directly measured by using an apparatus that can directly measure the acceleration vector.
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
40,640 アニメーション作成システム
42 音声データ
44 顔オブジェクト
46,646 アニメーション
50,650 顔パラメータHMM
60,660 収録システム
62,662 音声−顔パラメータDB
64 音素HMM
66 視覚素対応表
68,668 学習システム
80,680 アニメーション作成システム
82,682 顔パラメータ合成部
90 マッピング部
94 画像化部
110 発話者
112 録画・録音システム
114 MoCapシステム
122,722 データセット作成装置
130A,130B マイクロホン
132 カムコーダ
136 赤外線カメラ
138 データ処理装置
140 音声・動画記憶部
142 MoCapデータ記憶部
144 切出処理部
146 正規化処理部
148,748 結合部
150 収録音声データ
160A,…,160M 特徴点
170A,…,170N 顔パラメータ
202,802 前処理部
204,804 学習用DB
206,806 HMM学習部
210,810 データセット選択部
212,240 視覚素列生成部
214,814 ラベリング部
220,250 特徴量抽出部
222,252 音素列推定部
224,254 音素・視覚素変換部
242,842 HMMマッチング部
270 仮想マーカ配置部
272 マーカラベリング部
274 マーカラベリングデータ記憶部
276 顔オブジェクト変形部
746 動的特徴算出部
772A,…,772N 速度パラメータ
774A,…,774N 加速度パラメータ
780 顔パラメータHMM
846 変換部
40,640
60,660 Recording system 62,662 Voice-face parameter DB
64 phoneme HMM
66 Visual Element Correspondence Table 68, 668
206, 806 HMM learning
846 Conversion unit
Claims (15)
前記モーションキャプチャデータは複数のフレームを含み、前記複数のフレームの各々は当該フレームにおける前記複数個の特徴点の位置データを含み、前記複数のフレームと前記収録音声との間には時間的対応関係が付けられており、
前記統計確率モデル作成装置は、
前記音声の特徴量と音素とに関して予め準備された所定の音素統計確率モデルを用いて、前記データセットに含まれる収録音声データに含まれる音素列、及び当該音素列を構成する各音素に関する音素継続長を推定するための音素列推定手段と、
前記音素列推定手段により推定された音素列及び音素継続長に基づき、前記フレームの各々に対し、予め定義された所定のラベルセットに属するラベルによるラベリングを行なうためのラベリング手段と、
前記ラベリング手段によりラベリングされたモーションキャプチャデータからの統計的学習により、前記リップシンクアニメーション作成用の統計確率モデルとして、前記ラベル間の遷移確率と前記各特徴点の位置の出力確率とに関する統計確率モデルの学習を行なうための学習手段とを含む、統計確率モデル作成装置。 From the data set consisting of recorded voice data obtained by recording the voice at the time of utterance and motion capture data regarding a plurality of predetermined feature points of the utterer's face recorded at the time of recording the recorded voice data, A statistical probability model creation device for creating a statistical probability model for creating a sync animation,
The motion capture data includes a plurality of frames, each of the plurality of frames includes position data of the plurality of feature points in the frame, and a temporal correspondence relationship between the plurality of frames and the recorded audio. Is attached,
The statistical probability model creation device includes:
Using a predetermined phoneme statistical probability model prepared in advance with respect to the feature amount and phoneme of the speech, the phoneme sequence included in the recorded speech data included in the data set, and the phoneme continuation regarding each phoneme constituting the phoneme sequence Phoneme sequence estimation means for estimating the length;
Labeling means for labeling each of the frames with a label belonging to a predetermined label set, based on the phoneme string and the phoneme duration estimated by the phoneme string estimation means;
As a statistical probability model for creating the lip sync animation by statistical learning from the motion capture data labeled by the labeling means, a statistical probability model relating to the transition probability between the labels and the output probability of the position of each feature point And a statistical probability model creating apparatus including learning means for performing learning.
前記ラベリング手段は、
音素と視覚素との間の所定の対応関係にしたがい、前記音素列推定手段により推定された前記音素列を前記視覚素ラベルの系列に変換し、前記音素継続長をもとに当該系列を構成する前記視覚素ラベルの各々の継続長を決定するための手段と、
前記決定するための手段により決定された視覚素ラベルの系列と継続長とをもとに、前記フレームの各々に対し、前記視覚素ラベルによるラベリングを行なうための視覚素ラベリング手段とを含む、請求項1に記載の統計確率モデル作成装置。 The label set includes a plurality of predetermined visual element labels, each representing a mouth shape at the time of speaking,
The labeling means is
In accordance with a predetermined correspondence between phonemes and visual elements, the phoneme string estimated by the phoneme string estimating means is converted into the visual element label series, and the series is constructed based on the phoneme duration. Means for determining the duration of each of said visual element labels;
Visual element labeling means for labeling each of the frames with the visual element label based on the sequence and duration of the visual element labels determined by the determining means. Item 2. The statistical probability model creation device according to Item 1.
前記ラベリング手段は、
前記音素列推定手段により推定された音素列をもとに、前記音素ラベルの系列を生成し、前記音素継続長をもとに前記音素ラベルの各々の継続長を決定するための手段と、
前記決定するための手段により決定された音素ラベルの系列と継続長とをもとに、前記フレームの各々に対し、前記音素ラベルによるラベリングを行なうための音素ラベリング手段とを含む、請求項1に記載の統計確率モデル作成装置。 The label set includes a plurality of phoneme labels, each representing one phoneme,
The labeling means is
Means for generating a sequence of the phoneme labels based on the phoneme sequence estimated by the phoneme sequence estimation means, and determining the duration of each of the phoneme labels based on the phoneme duration;
The phoneme labeling means for labeling each of the frames with the phoneme label based on the phoneme label sequence and duration determined by the means for determining. The statistical probability model creation device described.
前記学習手段は、前記ラベリング手段によりラベリングされ、前記動的特徴データが付加された位置データを含むモーションキャプチャデータからの統計的学習により、前記リップシンクアニメーション作成用の統計確率モデルとして、前記ラベル間の遷移確率と前記各特徴点の位置の出力確率とに関する統計確率モデルの学習を行なうための手段を含む、請求項1〜請求項5のいずれかに記載の統計確率モデル作成装置。 The statistical probability model creation device further includes, in each frame in the motion capture data, pre-determining the plurality of feature points from position data of the plurality of feature points in the frame and a frame adjacent to the frame. Dynamic feature data calculation means for calculating and adding the determined dynamic feature data to the corresponding position data,
The learning means is a statistical probability model for creating the lip-sync animation as a statistical probability model for creating the lip sync animation by statistical learning from the motion capture data including the position data labeled with the dynamic feature data and labeled by the labeling means. The statistical probability model creation apparatus according to any one of claims 1 to 5, further comprising means for learning a statistical probability model related to a transition probability and an output probability of the position of each feature point.
発話により発生した音声の入力を受けて、音声の特徴量と音素とに関し予め学習を行なって得られた第1の統計確率モデルに基づき、当該音声を出力する音素列と当該音素列を構成する各音素の音素継続長とを推定するための音素列推定手段と、
前記音素列推定手段により推定された音素列と音素継続長とをもとに、予め定義された所定のラベルセットに属するラベルからなる系列を生成し、当該系列を構成する当該ラベルの各々の継続長を決定するためのラベル列生成手段と、
前記ラベル間の遷移確率と前記各特徴点の位置の出力確率とに関し予め学習することにより得られた第2の統計確率モデルに基づき、前記ラベル列生成手段により生成された系列と継続長とを入力パラメータとして前記複数個の特徴点の軌跡を推定することにより、前記パラメータ系列を生成するための軌跡推定手段とを含む、パラメータ系列合成装置。 A parameter sequence synthesizer for synthesizing a parameter sequence representing a trajectory of a plurality of feature points of a speaker's face at the time of utterance,
Based on the first statistical probability model obtained by receiving in advance the speech generated by utterance and learning the speech feature and phoneme in advance, the phoneme sequence for outputting the speech and the phoneme sequence are configured. Phoneme string estimation means for estimating the phoneme duration of each phoneme;
Based on the phoneme sequence estimated by the phoneme sequence estimation means and the phoneme duration, a sequence composed of labels belonging to a predetermined label set defined in advance is generated, and the continuation of each of the labels constituting the sequence Label sequence generation means for determining the length;
Based on the second statistical probability model obtained by previously learning the transition probability between the labels and the output probability of the position of each feature point, the sequence generated by the label sequence generation means and the duration A parameter sequence synthesizing apparatus, comprising: a trajectory estimating means for generating the parameter sequence by estimating trajectories of the plurality of feature points as input parameters.
前記第2の統計確率モデルは、前記視覚素ラベル間の遷移確率と前記各特徴点の位置の出力確率とに関し予め学習され、
前記ラベル列生成手段は、音素と前記視覚素ラベルとの間の所定の対応関係にしたがい、前記音素列推定手段により推定された音素列を前記視覚素ラベルの系列に変換し、前記音素継続長をもとに、当該系列を構成する各視覚素ラベルの継続長を決定するための変換手段を含む、請求項9に記載のパラメータ系列合成装置。 The label set includes a plurality of predetermined visual element labels, each representing a mouth shape at the time of speaking,
The second statistical probability model is learned in advance with respect to the transition probability between the visual elementary labels and the output probability of the position of each feature point;
The label sequence generation unit converts the phoneme sequence estimated by the phoneme sequence estimation unit into a sequence of the visual unit labels according to a predetermined correspondence between the phoneme and the visual unit label, and the phoneme duration length 10. The parameter sequence synthesizing device according to claim 9, further comprising conversion means for determining a continuation length of each visual element label constituting the sequence based on the above.
前記第2の統計確率モデルは、音素ラベル間の遷移確率と前記各特徴点の位置の出力確率とに関し予め学習することにより得られ、
前記ラベル列生成手段は、前記音素列推定手段により推定された音素列をもとに、前記音素ラベルの系列を生成し、前記音素継続長をもとに当該系列を構成する前記音素ラベルの各々の継続長を決定するための手段を含む、請求項9に記載のパラメータ系列合成装置。 The label set includes a plurality of phoneme labels, each representing one phoneme,
The second statistical probability model is obtained by previously learning the transition probability between phoneme labels and the output probability of the position of each feature point,
The label sequence generation unit generates a sequence of the phoneme labels based on the phoneme sequence estimated by the phoneme sequence estimation unit, and each of the phoneme labels constituting the sequence based on the phoneme duration 10. The parameter sequence synthesizer according to claim 9, further comprising means for determining a continuation length of.
前記軌跡推定手段は、
前記ラベル間の遷移確率と前記各特徴点の位置パラメータ及び動的特徴パラメータの出力確率とに関し予め学習することにより得られた前記動的特徴による統計確率モデルに基づき、前記ラベル列生成手段により生成された系列と継続長とを入力パラメータとして、前記複数個の特徴点に対する前記位置パラメータ及び前記動的特徴パラメータの系列として最尤となる位置パラメータ及び動的特徴パラメータの系列を出力するための手段と、
前記位置パラメータ及び動的特徴パラメータの系列に対し、当該パラメータが得られた前記統計確率モデルに固有の変換によって、前記位置パラメータを前記動的特徴パラメータを用いて補正し、前記複数個の特徴点の各々の前記軌跡を推定するための手段とを含む、請求項12に記載のパラメータ系列合成装置。 The second statistical probability model includes statistical probabilities based on dynamic features learned in advance with respect to transition probabilities between the visual element labels, positional parameters of the feature points, and output probabilities of dynamic feature parameters related to the feature points. Including models,
The trajectory estimation means includes
Generated by the label sequence generation unit based on a statistical probability model based on the dynamic features obtained by learning in advance regarding the transition probability between the labels, the position parameter of each feature point, and the output probability of the dynamic feature parameter Means for outputting a sequence of position parameters and dynamic feature parameters that is a maximum likelihood as a sequence of the position parameters and the dynamic feature parameters for the plurality of feature points using the sequence and duration as input parameters When,
The position parameter and the dynamic feature parameter series are corrected using the dynamic feature parameter by a conversion specific to the statistical probability model from which the parameter is obtained, and the plurality of feature points 13. The parameter sequence synthesizer according to claim 12, comprising means for estimating each of said trajectories.
請求項9〜請求項13のいずれかに記載のパラメータ系列合成装置と、
前記音声の入力に対して前記パラメータ系列合成装置により合成される、発話者の顔の複数個の特徴点の軌跡を表すパラメータ系列に基づき、前記顔オブジェクトにおける前記ノードの座標値を変更することにより、前記顔の形状を定義するオブジェクトを、前記アニメーションのフレームごとに生成するための変形オブジェクト生成手段と、
前記アニメーションの前記各フレームについて、前記変形オブジェクト生成手段により生成されるオブジェクトから、当該フレームにおける前記顔の画像を合成するための画像化手段とを含む、リップシンクアニメーション作成システム。 A lip-sync animation creation system for creating the face animation synchronized with voice based on a predetermined face object in which a face shape is defined using coordinate values of a plurality of nodes in a first coordinate space. And
A parameter sequence synthesizer according to any one of claims 9 to 13,
By changing the coordinate value of the node in the face object based on a parameter series representing a trajectory of a plurality of feature points of a speaker's face synthesized by the parameter series synthesis device with respect to the voice input , Deformed object generating means for generating an object defining the shape of the face for each frame of the animation;
A lip-sync animation creating system, comprising: an imaging unit for synthesizing the face image in the frame from the object generated by the deformed object generating unit for each frame of the animation.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006201026A JP4631078B2 (en) | 2005-07-27 | 2006-07-24 | Statistical probability model creation device, parameter sequence synthesis device, lip sync animation creation system, and computer program for creating lip sync animation |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005217860 | 2005-07-27 | ||
JP2006201026A JP4631078B2 (en) | 2005-07-27 | 2006-07-24 | Statistical probability model creation device, parameter sequence synthesis device, lip sync animation creation system, and computer program for creating lip sync animation |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007058846A true JP2007058846A (en) | 2007-03-08 |
JP4631078B2 JP4631078B2 (en) | 2011-02-16 |
Family
ID=37922237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006201026A Expired - Fee Related JP4631078B2 (en) | 2005-07-27 | 2006-07-24 | Statistical probability model creation device, parameter sequence synthesis device, lip sync animation creation system, and computer program for creating lip sync animation |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4631078B2 (en) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009087328A (en) * | 2007-09-10 | 2009-04-23 | Advanced Telecommunication Research Institute International | Lip sync animation creating apparatus, computer program, and facial model creating system |
KR101165300B1 (en) | 2009-04-08 | 2012-07-19 | 이정훈 | UCC service system based on pattern-animation |
US8306824B2 (en) | 2008-10-14 | 2012-11-06 | Samsung Electronics Co., Ltd. | Method and apparatus for creating face character based on voice |
CN105261058A (en) * | 2015-10-10 | 2016-01-20 | 浙江大学 | Motion labeling method based on motion character strings |
CN110599573A (en) * | 2019-09-03 | 2019-12-20 | 电子科技大学 | Method for realizing real-time human face interactive animation based on monocular camera |
JP2020184100A (en) * | 2019-04-26 | 2020-11-12 | 株式会社スクウェア・エニックス | Information processing program, information processing apparatus, information processing method and learned model generation method |
WO2021090921A1 (en) * | 2019-11-08 | 2021-05-14 | 国立大学法人大阪大学 | System, program, and method for measuring jaw movement of subject |
KR102254193B1 (en) * | 2020-08-12 | 2021-06-02 | 주식회사 오텀리브스 | System of generating animation character and Method thereof |
CN112992120A (en) * | 2019-12-02 | 2021-06-18 | 泛太丝亚企业管理顾问(上海)有限公司 | Method for converting voice into virtual face image |
CN113314094A (en) * | 2021-05-28 | 2021-08-27 | 北京达佳互联信息技术有限公司 | Lip-shaped model training method and device and voice animation synthesis method and device |
CN113971828A (en) * | 2021-10-28 | 2022-01-25 | 北京百度网讯科技有限公司 | Virtual object lip driving method, model training method, related device and electronic equipment |
US20220044463A1 (en) * | 2019-08-29 | 2022-02-10 | Tencent Technology (Shenzhen) Company Limited | Speech-driven animation method and apparatus based on artificial intelligence |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112435653B (en) * | 2020-10-14 | 2024-07-30 | 北京地平线机器人技术研发有限公司 | Voice recognition method and device and electronic equipment |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000123192A (en) * | 1998-10-09 | 2000-04-28 | Mitsubishi Electric Inf Technol Center America Inc | Face animation generating method |
JP2002244689A (en) * | 2001-02-22 | 2002-08-30 | Rikogaku Shinkokai | Synthesizing method for averaged voice and method for synthesizing arbitrary-speaker's voice from averaged voice |
-
2006
- 2006-07-24 JP JP2006201026A patent/JP4631078B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000123192A (en) * | 1998-10-09 | 2000-04-28 | Mitsubishi Electric Inf Technol Center America Inc | Face animation generating method |
JP2002244689A (en) * | 2001-02-22 | 2002-08-30 | Rikogaku Shinkokai | Synthesizing method for averaged voice and method for synthesizing arbitrary-speaker's voice from averaged voice |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009087328A (en) * | 2007-09-10 | 2009-04-23 | Advanced Telecommunication Research Institute International | Lip sync animation creating apparatus, computer program, and facial model creating system |
US8306824B2 (en) | 2008-10-14 | 2012-11-06 | Samsung Electronics Co., Ltd. | Method and apparatus for creating face character based on voice |
KR101165300B1 (en) | 2009-04-08 | 2012-07-19 | 이정훈 | UCC service system based on pattern-animation |
CN105261058A (en) * | 2015-10-10 | 2016-01-20 | 浙江大学 | Motion labeling method based on motion character strings |
JP2020184100A (en) * | 2019-04-26 | 2020-11-12 | 株式会社スクウェア・エニックス | Information processing program, information processing apparatus, information processing method and learned model generation method |
JP7421869B2 (en) | 2019-04-26 | 2024-01-25 | 株式会社スクウェア・エニックス | Information processing program, information processing device, information processing method, and learned model generation method |
US20220044463A1 (en) * | 2019-08-29 | 2022-02-10 | Tencent Technology (Shenzhen) Company Limited | Speech-driven animation method and apparatus based on artificial intelligence |
US12002138B2 (en) * | 2019-08-29 | 2024-06-04 | Tencent Technology (Shenzhen) Company Limited | Speech-driven animation method and apparatus based on artificial intelligence |
JP7312853B2 (en) | 2019-08-29 | 2023-07-21 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | AI-BASED VOICE-DRIVEN ANIMATION METHOD AND APPARATUS, DEVICE AND COMPUTER PROGRAM |
JP2022537011A (en) * | 2019-08-29 | 2022-08-23 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | AI-BASED VOICE-DRIVEN ANIMATION METHOD AND APPARATUS, DEVICE AND COMPUTER PROGRAM |
CN110599573A (en) * | 2019-09-03 | 2019-12-20 | 电子科技大学 | Method for realizing real-time human face interactive animation based on monocular camera |
JPWO2021090921A1 (en) * | 2019-11-08 | 2021-11-25 | 国立大学法人大阪大学 | Systems, programs, and methods for measuring a subject's jaw movements |
JP7037159B2 (en) | 2019-11-08 | 2022-03-16 | 国立大学法人大阪大学 | Systems, programs, and methods for measuring a subject's jaw movements |
WO2021090921A1 (en) * | 2019-11-08 | 2021-05-14 | 国立大学法人大阪大学 | System, program, and method for measuring jaw movement of subject |
CN112992120A (en) * | 2019-12-02 | 2021-06-18 | 泛太丝亚企业管理顾问(上海)有限公司 | Method for converting voice into virtual face image |
KR102254193B1 (en) * | 2020-08-12 | 2021-06-02 | 주식회사 오텀리브스 | System of generating animation character and Method thereof |
CN113314094A (en) * | 2021-05-28 | 2021-08-27 | 北京达佳互联信息技术有限公司 | Lip-shaped model training method and device and voice animation synthesis method and device |
CN113314094B (en) * | 2021-05-28 | 2024-05-07 | 北京达佳互联信息技术有限公司 | Lip model training method and device and voice animation synthesis method and device |
CN113971828A (en) * | 2021-10-28 | 2022-01-25 | 北京百度网讯科技有限公司 | Virtual object lip driving method, model training method, related device and electronic equipment |
JP2022133409A (en) * | 2021-10-28 | 2022-09-13 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Virtual object lip driving method, model training method, related apparatus, and electronic device |
CN113971828B (en) * | 2021-10-28 | 2023-10-31 | 北京百度网讯科技有限公司 | Virtual object lip driving method, model training method, related device and electronic equipment |
JP7401606B2 (en) | 2021-10-28 | 2023-12-19 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Virtual object lip driving method, model training method, related equipment and electronic equipment |
Also Published As
Publication number | Publication date |
---|---|
JP4631078B2 (en) | 2011-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4631078B2 (en) | Statistical probability model creation device, parameter sequence synthesis device, lip sync animation creation system, and computer program for creating lip sync animation | |
JP5344358B2 (en) | Face animation created from acting | |
Cao et al. | Expressive speech-driven facial animation | |
US7168953B1 (en) | Trainable videorealistic speech animation | |
CA2375350C (en) | Method of animating a synthesised model of a human face driven by an acoustic signal | |
JP3633399B2 (en) | Facial animation generation method | |
US6662161B1 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
Sifakis et al. | Simulating speech with a physics-based facial muscle model | |
US7133535B2 (en) | System and method for real time lip synchronization | |
JP4543263B2 (en) | Animation data creation device and animation data creation program | |
US20020024519A1 (en) | System and method for producing three-dimensional moving picture authoring tool supporting synthesis of motion, facial expression, lip synchronizing and lip synchronized voice of three-dimensional character | |
US8078466B2 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
KR20060090687A (en) | System and method for audio-visual content synthesis | |
US20100057455A1 (en) | Method and System for 3D Lip-Synch Generation with Data-Faithful Machine Learning | |
Kalberer et al. | Face animation based on observed 3d speech dynamics | |
US7117155B2 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
JP4379616B2 (en) | Motion capture data correction device, multimodal corpus creation system, image composition device, and computer program | |
Brooke et al. | Two-and three-dimensional audio-visual speech synthesis | |
Luo et al. | Realtime speech-driven facial animation using Gaussian Mixture Models | |
JP2974655B1 (en) | Animation system | |
Beskow et al. | Data-driven synthesis of expressive visual speech using an MPEG-4 talking head. | |
Ding et al. | Lip animation synthesis: a unified framework for speaking and laughing virtual agent. | |
Csapó | Extending text-to-speech synthesis with articulatory movement prediction using ultrasound tongue imaging | |
US7392190B1 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
Edge et al. | Model-based synthesis of visual speech movements from 3D video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071218 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100525 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100726 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101005 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101025 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131126 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |