JP4617500B2 - Lip sync animation creation device, computer program, and face model creation device - Google Patents
Lip sync animation creation device, computer program, and face model creation device Download PDFInfo
- Publication number
- JP4617500B2 JP4617500B2 JP2007180505A JP2007180505A JP4617500B2 JP 4617500 B2 JP4617500 B2 JP 4617500B2 JP 2007180505 A JP2007180505 A JP 2007180505A JP 2007180505 A JP2007180505 A JP 2007180505A JP 4617500 B2 JP4617500 B2 JP 4617500B2
- Authority
- JP
- Japan
- Prior art keywords
- key frame
- visual element
- key
- sequence
- blend
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
Description
この発明は音声からアニメーションを作成するアニメーション作成装置に関し、特に、発話音声にあわせて口等の形が変わる顔画像等のアニメーションを自動的に生成する装置に関する。 The present invention relates to an animation creating apparatus that creates an animation from voice, and more particularly to an apparatus that automatically generates an animation such as a face image that changes the shape of a mouth or the like in accordance with an uttered voice.
コンピュータ技術の発達により、以前は大部分が手作業で行なわれていた仕事がコンピュータによる作業に置き換えられるケースが多くなっている。その代表的なものに、アニメーションの作成がある。 Due to the development of computer technology, work that has been mostly done manually has been replaced by computer work. A typical example is the creation of animation.
以前は、アニメーションといえば次のような手法で作成されることが一般的であった。登場するキャラクタをアニメーションの演出家が決め、絵コンテと呼ばれる、主要なシーンのラフな原画を作成する。これら絵コンテに基づき、アニメーションの各フレームの絵をアニメータと呼ばれる作業者が作成する。それら絵を仕上げ担当者がセル画に仕上げる。セル画を順にフィルムに写し、所定のフレームレートで再生すればアニメーションの画像の部分が出来上がる。 Previously, animations were generally created by the following method. The animation director decides the characters to appear, and creates a rough original picture of the main scene called a storyboard. Based on these storyboards, a picture of each frame of animation is created by an operator called an animator. The person in charge finishes these pictures into cel drawings. If the cell images are sequentially copied onto the film and played back at a predetermined frame rate, an animation image portion is completed.
このアニメーションの画像を再生しながら、声優がアニメーションの台本に基づいて台詞をつけていく。いわゆる「アフレコ」である。 While playing this animation image, the voice actor adds a line based on the script of the animation. This is so-called “post-recording”.
このような作業で最も人手がかかるのはセル画の作成である。一方、原画をCG(コンピュータ・グラフィックス)で作成する場合、原画を加工してセル画を作成するのは比較的単純な作業である。一枚一枚撮影する必要もない。そのため、この部分については原画のCG化とあわせてかなりコンピュータ化されている。 It is the creation of cel images that requires the most work in such work. On the other hand, when creating an original picture with CG (computer graphics), it is a relatively simple task to create a cell picture by processing the original picture. There is no need to shoot one by one. Therefore, this part is considerably computerized together with the CG conversion of the original picture.
一方、残りの作業のうちで比較的むずかしいのは、アフレコの作業である。アニメーションの動きにあわせて、なおかつ状況にあわせた声で台詞をしゃべる必要があるため、アフレコの作業にはそれなりの時間がかかり、習熟も必要である。 On the other hand, the remaining task is relatively difficult. Because it is necessary to speak dialogue with the voice of the situation according to the movement of the animation, the post-recording work takes a certain amount of time, and learning is also necessary.
そこで、アフレコの逆に、先に音声を収録し、その音声にあわせてアニメーションを作成する手法が考えられた。これは「プレスコ」又は「プレレコ」(以下「プレスコ等」と呼ぶ。)と呼ばれる。これはもともと米国等で手作業でアニメーションを作成する際に採用されていた手法である。この手法でアニメーションを作成する場合には、次のような作業手順となる。 Therefore, conversely to post-recording, a method of recording audio first and creating an animation according to the audio was considered. This is called "Presco" or "Pre-Reco" (hereinafter referred to as "Presco etc."). This is a technique that was originally used when creating animations manually in the United States. When an animation is created by this method, the work procedure is as follows.
まず、アニメーションに登場するキャラクタを決める。絵コンテも従来と同様に作成する。声優が、絵コンテと台本に基づいて発話し、それを音声として収録する。この音声にあわせて、アニメーションを作成する。 First, determine the character that will appear in the animation. Create storyboards as before. A voice actor speaks based on a storyboard and script and records it as audio. An animation is created according to this sound.
このプレスコ等の手法によるアニメーション作成をコンピュータで実現する場合には、音声からアニメーションをいかにして自動的に作成するか、という点が問題となる。特に、人物等のアニメーションの口の動きを、予め録音した声優の音声にあわせて自然な形で生成するのは難しく、これを自動的に行なう手法が求められている。 When the animation creation by the technique such as Presco is realized by a computer, the problem is how to automatically create the animation from the voice. In particular, it is difficult to generate the movement of the mouth of an animation such as a person in a natural form in accordance with the voice of a voice actor that has been recorded in advance, and there is a need for a method that automatically performs this.
このための一手法として提案されたものに、特許文献1に記載された手法がある。特許文献1に記載された手法では、口形状の基本パターンを予め複数個用意しておく。そして、任意の音声に対応する口形状を、これら基本パターンの加重和により求める。そのために、声優の音声の所定の特徴量から、各基本パターンの加重パラメータに変換するための変換関数を、重回帰分析によって予め求めておく。台本に沿って録音された声優の音声の所定の特徴量をこの変換関数で加重パラメータに変換し、その加重パラメータを用いて口形状の基本パターンの加重和を算出することで、声優の音声に対応する口形状及び顔画像を作成する。こうした処理をアニメーションの各フレームに相当する時刻に行なうことで、アニメーションのフレームシーケンスを作成する。
One method proposed for this purpose is the method described in
図1に、このような従来のアニメーション作成装置の前提となるアニメーション作成過程30の概略を示す。図1を参照して、アニメーション作成過程30においては、話者40が台本44に基づき台詞を発話すると、その音声信号42に対し、音声認識装置による音素セグメンテーション(発話から、発話を構成する音素列を生成すること)が行なわれる。
FIG. 1 shows an outline of an
予め、主要な音素については、その音素を発音するときの口の形状を含む顔画像60〜68が準備されており、音声認識の結果得られる各音素50〜58に対し、これら顔画像を割当ててアニメーション化する。
For main phonemes, face
なお、個々の音素に対して発話画像を一つずつ割当てても滑らかな画像が得られないため、特許文献1にも記載のように、主要な画像の間の加重和により、中間の画像を作成する。例えば、主要な顔画像として「あ(/a/)」「い(/i/)」「う(/u/)」「え(/e/)」「お(/o/)」という5つの音素に対する5つの顔画像、及び音素「ん/N/」に対する顔画像の、合計6つの顔画像を準備する。「ん/N/」に対する顔画像は後述するように他の顔画像の基本となる画像であり、本明細書では「無表情の顔画像」とも呼ぶ。「あ」〜「お」の5つの音素はそれぞれ対応の顔画像に割当て、残りの音素についてはそれぞれ上記した6つの顔画像のいずれかに割当てる。これを以下、音素から顔画像へのマッピングと呼ぶ。
In addition, since a smooth image cannot be obtained even if one speech image is assigned to each phoneme, an intermediate image is obtained by a weighted sum between main images as described in
図2に、使用される顔画像の例を示す。顔画像は、他の全ての顔画像の基本となる無表情の顔画像80と、前述した「あ」〜「お」までの顔画像60〜68とを含む。顔画像60〜68は、ワイアフレーム画像に予め準備した顔のテクスチャを貼り付けることで生成する。顔画像60〜68及び80のワイアフレーム画像は、いずれもワイアフレームを構成する各頂点の3次元座標により定義される。ただし、基本となる無表情の顔画像80については各頂点の座標が予め定義されるが、顔画像60〜68の各頂点の座標は、無表情の顔画像80に対する相対座標により定義される。顔画像60〜68及び80を構成する各頂点の座標の集合からなる顔モデルを以下「視覚素」と呼ぶ。
FIG. 2 shows an example of a face image used. The face image includes an
このように準備した顔画像に基づいてアニメーションを作成する場合、従来は以下のような手作業による手順を採っている。すなわち、音声を聞きながら、ある時点での「あ」の音声の発話時に「あ」の顔画像を割当て、「お」の音声の発話時に「お」の顔画像を割当てる、という作業を、そのような割当が必要と思われるフレームの全てに対して手作業で行なう。このように特定の音声の発話時の顔画像が割当てられたフレームを「キーフレーム」と呼ぶ。 In the case of creating an animation based on the face image prepared as described above, the following manual procedure has been conventionally employed. In other words, while listening to the voice, assigning the face image of “A” at the time of uttering the voice of “A” at a certain time, and assigning the face image of “O” when uttering the voice of “O” This is done manually for all such frames that may need to be assigned. A frame to which a face image at the time of uttering a specific voice is assigned is called a “key frame”.
次に、このようにして割当てられたキーフレームに基づき、キーフレームの間の任意の時点の顔画像を、その時点をはさむ二つのキーフレームに割当てられた顔画像の間のブレンドによって合成する。 Next, based on the key frames assigned in this manner, a face image at an arbitrary time point between the key frames is synthesized by blending between the face images assigned to the two key frames sandwiching the time point.
図3に、キーフレームの割当例を示す。図3に示す例では、「あ」を表す顔画像60については、縦棒100及び102で示されるように、二つのキーフレームに割当てられている。同様に、顔画像62については縦棒110により、顔画像64については縦棒120により、顔画像66については縦棒130により、そして顔画像68については縦棒140により、それぞれ示されるように、一つのフレームに割当てられている。
FIG. 3 shows an example of key frame allocation. In the example shown in FIG. 3, the
これらフレーム(キーフレーム)での顔画像は、指定された顔画像と一致するように作成されるが、それ以外のフレームでは、そのフレームをはさむ二つのキーフレームの顔画像の間のブレンドにより作成される。特許文献1でいう「加重和」がこれに相当する概念である。図3のグラフ104、112、122、132、及び142は、それぞれ顔画像60〜68のブレンド率を表したものである。ブレンド率=0の区間ではその顔画像はアニメーション作成に使用されない。ブレンド率≠0の区間では、その顔画像とブレンド率とを掛け合わせたものを、他の顔画像とそのブレンド率とを掛け合わせたものと加算して顔画像を作成する。
Face images in these frames (key frames) are created to match the specified face image, but in other frames, they are created by blending between the face images of two key frames that sandwich the frame. Is done. The “weighted sum” referred to in
ブレンド率とは、特定の顔画像を100%、顔画像/N/を0%として、顔画像/N/から特定の顔画像に至るまでの特徴点の移動量の割合で中間の顔画像を表すものである。従って、顔画像/A/,/I/,/U/,/E/,/O/をそのまま音素に割当てた場合、そのブレンド率はいずれも100%となる。ブレンド率50%の顔画像/A/とは、顔画像/N/からの特徴点の移動量の割合が、顔画像/A/の特徴点の移動量の50%となっているような顔画像のことをいう。顔画像/N/での位置を始点とするベクトルで顔画像の特徴点の移動量を表せば、ブレンド率B%の顔画像とは、各特徴点を表すベクトルが、方向はブレンド率100%の顔画像のベクトルと等しく、長さがブレンド率B%に相当するだけ縮小されたものとなっている顔画像に相当する。
The blend ratio is defined as 100% for a specific face image and 0% for the face image / N /, and the intermediate face image at the ratio of the amount of movement of the feature points from the face image / N / to the specific face image. It represents. Accordingly, when the face images / A /, / I /, / U /, / E /, / O / are assigned to phonemes as they are, the blend ratio is 100%. A face image / A / with a blend rate of 50% is a face whose ratio of the amount of movement of feature points from the face image / N / is 50% of the amount of movement of feature points of the face image / A /. Refers to the image. If the movement amount of the feature point of the face image is represented by a vector starting from the position of the face image / N /, the face image with the blend rate B% is a vector representing each feature point, and the direction is the
図4に、このようにしてブレンドにより作成された顔画像の例を示す。図4(A)には、/a/の顔画像に対するブレンド率が100%のときの顔画像を示す。図4(D)には、/i/の顔画像に対するブレンド率が100%のときの顔画像を示す。図4(B)には、/a/のブレンド率65%、/i/のブレンド率35%のときの顔画像を、図4(C)には、/a/のブレンド率35%、/i/のブレンド率65%のときの顔画像を、それぞれ示す。 FIG. 4 shows an example of a face image created by blending in this way. FIG. 4A shows a face image when the blend ratio for the / a / face image is 100%. FIG. 4D shows a face image when the blend ratio for the / i / face image is 100%. FIG. 4B shows a face image at a blending ratio of 65% for / a / and a blending ratio of 35% for / i /, and FIG. 4C shows a blending ratio of 35% for / a /, The face images when the blend ratio of i / is 65% are shown.
図4(A)〜(D)から分かるように、ブレンド率を変化させて二つの顔画像をモデル上でブレンドして新たな顔画像を作成することにより、二つの顔画像の中間的な顔画像を作成できる。 As can be seen from FIGS. 4A to 4D, by changing the blend ratio and blending the two face images on the model to create a new face image, an intermediate face between the two face images is obtained. You can create an image.
上記した従来技術によって自動的に顔画像のアニメーションを作成する場合、どこにキーフレームを設定するか、及びそのブレンド率をどのように設定するかが問題となる。従来はいずれも人間が手作業で行なっており、その結果得られるアニメーションはかなり高い品質となっている。しかし、キーフレームとそのブレンド率とを自動的に設定することができ、かつ人間の手作業による結果と同様に滑らかなアニメーションを作成できる技術については、従来は知られていない。 When an animation of a face image is automatically created by the above-described conventional technique, the problem is where to set a key frame and how to set the blend rate. In the past, humans performed all of them manually, and the resulting animation has a fairly high quality. However, a technique that can automatically set a key frame and a blend ratio thereof and can create a smooth animation similar to a result of human manual work has not been known.
キーフレームの設定及びブレンド率の設定は、上記したブレンドによるアニメーションの作成において最も重要で、かつ熟練を要する作業であり、この作業を自動化する技術が望まれている。 Setting the key frame and setting the blend rate are the most important and skill-intensive work in creating an animation by blending as described above, and a technique for automating this work is desired.
また、アニメーションは、映画とは異なり、単に滑らかな映像が得られれば良い、というものではない。例えば、従来の手作業によるアニメーションでは、単位時間あたりのフレーム数が少ないため、動きがぎこちない、という問題があったが、こうした弱点を逆にアニメーションの魅力であると感じる人もいる。リップシンクアニメーションでも、必要であればこのように手作業によるアニメーションのような動きを実現できることが望ましい。 Also, unlike movies, animation does not simply mean that smooth images can be obtained. For example, the conventional manual animation has a problem that the movement is awkward because the number of frames per unit time is small. However, there are some people who feel that the weak point is the appeal of animation. Even in lip sync animation, it is desirable to be able to realize movement like manual animation in this way if necessary.
さらに、文化のグローバル化に伴い、外国で日本語のアニメーションが作成されることも多くなってきたが、今後は日本語で作成したアニメーションを外国での放送用に変更することも考えられる。従来は、映画と同じようにいわゆる吹替えによってこれを実現しているが、吹替えの場合にはどうしても口の動きと音声とが一致しない。リップシンクアニメーションを使用すると、先に音声を収録してからその音声にあわせてアニメーションを作成するので、こうした問題にはうまく対処することができる。しかしその場合には、それぞれの言語で使用される音声にあわせてアニメーション作成に必要な資源を準備する必要がある。そのような準備作業は、できるだけ少なくすることが望ましい。 Furthermore, with the globalization of culture, animations in Japanese are often created in foreign countries, but in the future, animations created in Japanese may be changed for broadcasting in foreign countries. Conventionally, this is realized by so-called dubbing as in the case of a movie. However, in the case of dubbing, the movement of the mouth and the sound do not coincide. With lip sync animation, you can deal well with these problems by first recording the audio and then creating the animation for that audio. However, in that case, it is necessary to prepare resources necessary for animation creation according to the sound used in each language. It is desirable to minimize such preparation work.
したがって本発明の目的は、人間の発話の音声データから顔画像のアニメーションを作成する際に、滑らかで自然なアニメーションが得られるようにキーフレーム及びそのブレンド率を自動的に設定できるリップシンクアニメーション作成装置を提供することである。 Therefore, an object of the present invention is to create a lip sync animation that can automatically set key frames and blend ratios so that a smooth and natural animation can be obtained when creating an animation of a facial image from voice data of human speech. Is to provide a device.
本発明の他の目的は、人間の発話の音声データから顔画像のアニメーションを作成する際に、滑らかで自然なアニメーションも、ぎこちない動きのアニメーションも、必要に応じて得られるようにキーフレーム及びそのブレンド率を自動的に設定できるリップシンクアニメーション作成装置を提供することである。 Another object of the present invention is to create a key image and its animation so that a smooth and natural animation and an awkward movement animation can be obtained as necessary when creating an animation of a facial image from voice data of human speech. The object is to provide a lip-sync animation creation device capable of automatically setting a blend rate.
本発明のさらに他の目的は、多言語の人間の発話の音声データから、それぞれの言語の音声に合致した顔画像のアニメーションを作成する際に、できるだけ作業量を少なくしながら、滑らかで自然なアニメーションが得られるようにキーフレーム及びそのブレンド率を自動的に設定できるリップシンクアニメーション作成装置を提供することである。 Still another object of the present invention is to create a smooth and natural image while reducing the amount of work as much as possible when creating an animation of a facial image that matches the speech of each language from speech data of multilingual human utterances. It is an object of the present invention to provide a lip-sync animation creation device capable of automatically setting key frames and their blend ratios so that animation can be obtained.
本発明の第1の局面に係るリップシンクアニメーション作成装置は、予め準備された統計的音響モデルと、予め準備された音素及び視覚素の間のマッピング定義と、視覚素に対応する、予め準備された複数個の顔画像の顔モデルとを用い、入力される発話データからリップシンクアニメーションを作成するためのリップシンクアニメーション作成装置であって、発話データに対するトランスクリプションが利用可能である。このリップシンクアニメーション作成装置は、統計的音響モデル、マッピング定義、及びトランスクリプションを使用して、発話データに含まれる音素及び対応する視覚素を求め、デフォルトのブレンド率が付与された継続長付きの視覚素シーケンスを作成するための視覚素シーケンス作成手段を含む。視覚素シーケンスの継続長内の所定位置にはキーフレームが定義され、視覚素シーケンスの各視覚素の継続長内に定義されるキーフレームによりキーフレームシーケンスが定義される。リップシンクアニメーション作成装置はさらに、キーフレームシーケンス内のキーフレームのうち、隣接するキーフレームとの間で、視覚素に対応する顔モデルとの間の変化の速さが最も大きいものから順番に、所定の割合のキーフレームを削除するためのキーフレーム削除手段と、キーフレーム削除手段により一部のキーフレームが削除されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成するためのブレンド処理手段とを含む。 The lip-sync animation creating apparatus according to the first aspect of the present invention is prepared in advance, corresponding to a statistical acoustic model prepared in advance, mapping definitions between phonemes and visual elements prepared in advance, and visual elements. A lip-sync animation creation apparatus for creating a lip-sync animation from input speech data using a plurality of face models of face images, and transcription for speech data can be used. This lip-sync animation creation device uses statistical acoustic models, mapping definitions, and transcriptions to find phonemes and corresponding visual elements contained in speech data, with a default blend rate and duration Visual element sequence creating means for creating a visual element sequence. A key frame is defined at a predetermined position within the duration of the visual element sequence, and a key frame sequence is defined by a key frame defined within the duration of each visual element of the visual element sequence. The lip sync animation creating device further includes, in order from the fastest change between the face model corresponding to the visual element, between the key frames in the key frame sequence and the adjacent key frames. An animation of a face image is created by blending between key frames based on a key frame deleting means for deleting a predetermined percentage of key frames and a key frame sequence in which some key frames are deleted by the key frame deleting means. Blending processing means.
視覚素シーケンス作成手段は、統計的音響モデル、マッピング定義、及びトランスクリプションを使用して、発話データから視覚素シーケンスを作成する。この視覚素シーケンスには継続長が付されている。視覚素シーケンスの継続長内の所定位置にはキーフレームが定義され、視覚素シーケンスの各視覚素の継続長内に定義されるキーフレームによりキーフレームシーケンスが定義される。これらのキーフレームからブレンドによりアニメーションを作成することもできるが、そうすると作成されるアニメーションの動きは不自然になる。そこで、キーフレーム削除手段によって、キーフレームシーケンス内のキーフレームのうち、隣接するキーフレームとの間で顔モデルの変化の速さが最も大きいものから順番に、所定の割合のキーフレームを削除する。動きが速くなる部分のキーフレームを削除することにより、デフォルトのブレンド率を使用しても、作成されるアニメーションの動きは自然なものとなる。その結果、滑らかで自然なアニメーションが得られるようにキーフレーム及びそのブレンド率を自動的に設定できるリップシンクアニメーション作成装置を提供できる。この割合は、調整可能としてもよい。 The visual element sequence creating means creates a visual element sequence from the speech data using a statistical acoustic model, a mapping definition, and a transcription. This visual element sequence has a duration. A key frame is defined at a predetermined position within the duration of the visual element sequence, and a key frame sequence is defined by a key frame defined within the duration of each visual element of the visual element sequence. Although animation can be created from these keyframes by blending, the resulting animation will be unnatural. Therefore, the key frame deletion means deletes a predetermined percentage of key frames in order from the largest one of the key frames in the key frame sequence with the fastest change of the face model. . By removing the keyframes where the movement is faster, the resulting animation will be natural even when using the default blend ratio. As a result, it is possible to provide a lip sync animation creation device that can automatically set key frames and blend ratios thereof so that a smooth and natural animation can be obtained. This ratio may be adjustable.
好ましくは、キーフレーム削除手段は、キーフレームシーケンス内のキーフレームのうち、当該キーフレームの視覚素に対応する顔モデルを構成する各特徴点と、隣接するキーフレームの視覚素に対応する顔モデルを構成する、対応する各特徴点との間の変化の速さが最も大きいものから順番に、所定の割合のキーフレームを削除するための手段を含む。 Preferably, the key frame deleting means includes, in the key frames in the key frame sequence, each feature point constituting the face model corresponding to the visual element of the key frame and the face model corresponding to the visual element of the adjacent key frame. , And a means for deleting a predetermined percentage of key frames in order from the one with the highest speed of change between corresponding feature points.
顔モデルを構成する各特徴点について、隣接するキーフレームとの間での変化の速さを算出することにより、計算量は大きくなるが計算結果に含まれる誤差が少なくなり、自然なアニメーションを作成できる。 For each feature point that makes up the face model, calculating the speed of change between adjacent key frames increases the amount of calculation but reduces the error contained in the calculation result, creating a natural animation it can.
より好ましくは、リップシンクアニメーション作成装置は、複数個の顔モデルの内から選ばれる2個の顔モデルの組合せの全てに対し、顔モデルを構成する特徴点の間の動きベクトルを算出するための動きベクトル算出手段と、2個の顔モデルの特徴点を、動きベクトル算出手段により算出された動きベクトルに対する所定のクラスタリング方法によってクラスタ化し、各クラスタの代表ベクトルを算出することにより、クラスタ化された顔モデルを作成するための手段と、クラスタ化された顔モデルを記憶するためのクラスタ化顔モデル記憶手段とをさらに含む。キーフレーム削除手段は、キーフレームシーケンス内のキーフレームの各々に対し、当該キーフレームの視覚素と、隣接するキーフレームの視覚素との組合せに対応するクラスタ化された顔モデルをクラスタ化顔モデル記憶手段から読出し、各クラスタに属する特徴点のキーフレーム間の変化の速さを当該クラスタの代表ベクトルを用いて算出するための移動量算出手段と、移動量算出手段により算出された変化の速さが最も大きいものから順番に、所定の割合のキーフレームをキーフレームシーケンスから削除するための手段とを含む。 More preferably, the lip-sync animation creation device calculates a motion vector between feature points constituting the face model for all combinations of two face models selected from the plurality of face models. The feature points of the motion vector calculation means and the two face models are clustered by a predetermined clustering method with respect to the motion vector calculated by the motion vector calculation means, and the representative vectors of each cluster are calculated, thereby being clustered. Further comprising means for creating a face model and clustered face model storage means for storing the clustered face model. For each key frame in the key frame sequence, the key frame deletion means generates a clustered face model corresponding to a combination of a visual element of the key frame and a visual element of an adjacent key frame. A moving amount calculating means for calculating a speed of change between key frames of feature points belonging to each cluster using a representative vector of the cluster, and a speed of change calculated by the moving amount calculating means; Means for deleting a predetermined percentage of key frames from the key frame sequence in order from the largest.
予め、顔モデルの組合せの全てについて、動きベクトルを求め、それら動きベクトルに対する所定のクラスタリング、例えばベクトル量子化クラスタリングによって各特徴点をクラスタに分類する。クラスタ化された顔モデルを作成するための手段は、各クラスタについて、代表ベクトルを算出する。移動量算出手段は、キーフレームシーケンス内のキーフレームの各々に対し、当該キーフレームの視覚素と、隣接するキーフレームの視覚素との組合せに対応するクラスタ化された顔モデルをクラスタ化顔モデル記憶手段から読出し、各クラスタに属する特徴点のキーフレーム間の変化の速さを当該クラスタの代表ベクトルを用いて算出する。算出された変化の速さが最も大きいものから順番に、所定の割合のキーフレームがキーフレームシーケンスから削除される。各特徴点の変化の速さを算出する代わりに、一つのクラスタに属する特徴点を一つの代表点で代表させてそれらの変化の速さを算出するので、演算に要する時間が短縮できる。 In advance, motion vectors are obtained for all combinations of face models, and each feature point is classified into clusters by predetermined clustering for the motion vectors, for example, vector quantization clustering. The means for creating a clustered face model calculates a representative vector for each cluster. For each key frame in the key frame sequence, the movement amount calculation means calculates a clustered face model corresponding to a combination of a visual element of the key frame and a visual element of an adjacent key frame. Reading from the storage means, the speed of change between key frames of feature points belonging to each cluster is calculated using the representative vector of the cluster. A predetermined percentage of key frames are deleted from the key frame sequence in order from the highest calculated change rate. Instead of calculating the speed of change of each feature point, the feature points belonging to one cluster are represented by one representative point, and the speed of change is calculated, so that the time required for calculation can be shortened.
さらに好ましくは、リップシンクアニメーション作成装置は、キーフレーム削除手段により一部のキーフレームが削除されたキーフレームシーケンスを受け、当該キーフレームシーケンス内のキーフレームの視覚素に対応する音素の発話パワーを発話データから算出するための発話パワー算出手段と、キーフレームシーケンス内の各キーフレームに対し、発話パワー算出手段により、当該キーフレームを含む視覚素の継続長について算出された平均発話パワーが小さければ小さいほどブレンド率が小さくなるような所定の関数により、ブレンド率を調整するための、発話パワーによるブレンド率調整手段とをさらに含む。ブレンド処理手段は、発話パワーによるブレンド率調整手段によってブレンド率が調整されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成する。 More preferably, the lip-sync animation creating device receives a key frame sequence in which some key frames are deleted by the key frame deleting unit, and generates a speech power of a phoneme corresponding to a visual element of the key frame in the key frame sequence. If the average utterance power calculated by the utterance power calculating means for calculating from the utterance data and the duration of the visual element including the key frame is small for each key frame in the key frame sequence by the utterance power calculating means It further includes blend rate adjustment means based on utterance power for adjusting the blend rate by a predetermined function such that the smaller the smaller the blend rate. The blend processing means creates an animation of a face image by blending between key frames based on the key frame sequence whose blend rate is adjusted by the blend rate adjusting means based on speech power.
発話パワーが小さいところでは、ブレンド率が小さくなる。一般に、発話パワーが小さいときには、人間はあまりはっきりと口を開いていない。したがって、このようにすることにより、実際の発話時の発話者の口に近い動きをする顔画像のアニメーションを実現できる。その結果、滑らかで自然なアニメーションが得られるようにキーフレーム及びそのブレンド率を自動的に設定できるリップシンクアニメーション作成装置を提供できる。 Where the utterance power is small, the blend rate is small. In general, when speech power is low, humans do not open their mouths very clearly. Therefore, by doing this, it is possible to realize an animation of a face image that moves close to the speaker's mouth during actual speech. As a result, it is possible to provide a lip sync animation creation device that can automatically set key frames and blend ratios thereof so that a smooth and natural animation can be obtained.
リップシンクアニメーション作成装置は、キーフレーム削除手段により一部のキーフレームが削除されたキーフレームシーケンスを受け、キーフレームの視覚素に対応する顔モデルを構成する頂点と、隣接するキーフレームの視覚素に対応する顔モデルを構成する頂点との間の変化の速さを算出するための変化の速さ算出手段と、キーフレーム削除手段により一部のキーフレームが削除されたキーフレームシーケンスに含まれる各キーフレームのうち、変化の速さ算出手段により算出された変化の速さが所定のしきい値よりも大きなキーフレームについて、そのブレンド率が、より小さな値となるような所定の関数を用いてブレンド率を更新するための頂点速度によるブレンド率調整手段とをさらに含んでもよい。ブレンド処理手段は、頂点速度によるブレンド率調整手段によってブレンド率が調整されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成する。 The lip sync animation creation device receives a key frame sequence in which some key frames have been deleted by the key frame deletion means, receives a vertex constituting the face model corresponding to the visual element of the key frame, and a visual element of the adjacent key frame. Included in the key frame sequence in which some key frames are deleted by the key frame deletion unit and the change rate calculation unit for calculating the change rate between the vertices constituting the face model corresponding to For each key frame, a predetermined function is used such that the blend rate is a smaller value for a key frame whose speed of change calculated by the speed of change calculation means is larger than a predetermined threshold value. And a blend rate adjusting means based on a vertex speed for updating the blend rate. The blend processing means creates an animation of a face image by blending between key frames based on the key frame sequence whose blend rate is adjusted by the blend rate adjusting means based on the vertex speed.
好ましくは、リップシンクアニメーション作成装置は、複数個の顔モデルの内から選ばれる2個の顔モデルの組合せの全てに対し、顔モデルを構成する特徴点の間の動きベクトルを算出するための動きベクトル算出手段と、2個の顔モデルの特徴点を、動きベクトル算出手段により算出された動きベクトルに対する所定のクラスタリング方法によってクラスタ化し、各クラスタの代表ベクトルを算出することにより、クラスタ化された顔モデルを作成するための手段と、クラスタ化された顔モデルを記憶するためのクラスタ化顔モデル記憶手段とをさらに含む。リップシンクアニメーション作成装置はさらに、キーフレーム削除手段により一部のキーフレームが削除されたキーフレームシーケンスを受け、各キーフレームのうち、当該キーフレームの視覚素と、隣接するキーフレームの視覚素との組合せに対応するクラスタ化された顔モデルの組合せをクラスタ化顔モデル記憶手段から読出し、各クラスタに属する特徴点のキーフレーム間の変化の速さを当該クラスタの代表ベクトルを用いて算出するための変化の速さ算出手段と、キーフレーム削除手段により一部のキーフレームが削除されたキーフレームシーケンスに含まれる各キーフレームのうち、変化の速さ算出手段により算出された変化の速さが所定のしきい値よりも大きなキーフレームについて、そのブレンド率が、より小さな値となるような所定の関数を用いてブレンド率を更新するための頂点速度によるブレンド率調整手段とをさらに含む。ブレンド処理手段は、頂点速度によるブレンド率調整手段によってブレンド率が調整されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成する。 Preferably, the lip-sync animation creating apparatus calculates a motion vector between feature points constituting a face model for all combinations of two face models selected from a plurality of face models. Clustered faces are obtained by clustering the feature points of the vector calculation means and the two face models by a predetermined clustering method for the motion vector calculated by the motion vector calculation means, and calculating a representative vector of each cluster. Further comprising means for creating a model and clustered face model storage means for storing the clustered face model. The lip sync animation creating device further receives a key frame sequence in which some key frames are deleted by the key frame deleting means, and among each key frame, a visual element of the key frame, a visual element of an adjacent key frame, A clustered face model combination corresponding to each combination is read from the clustered face model storage means, and the speed of change between key frames of feature points belonging to each cluster is calculated using a representative vector of the cluster Of the key frames included in the key frame sequence in which some key frames are deleted by the key frame deletion unit, the change rate calculated by the change rate calculation unit is For key frames that are larger than a given threshold, the blend ratio will be smaller. Further comprising a blend ratio adjustment means according to the vertices rate for updating the blend ratio by using such a predetermined function. The blend processing means creates an animation of a face image by blending between key frames based on the key frame sequence whose blend rate is adjusted by the blend rate adjusting means based on the vertex speed.
本発明の第2の局面に係るリップシンクアニメーション作成装置は、予め準備された統計的音響モデルと、予め準備された音素及び視覚素の間のマッピング定義と、予め準備された複数個の顔画像の顔モデルとを用い、入力される発話データからリップシンクアニメーションを作成するためのリップシンクアニメーション作成装置であって、発話データに対するトランスクリプションが利用可能であり、統計的音響モデル、マッピング定義、及びトランスクリプションを使用して、発話データに含まれる音素及び対応する視覚素を求め、デフォルトのブレンド率が付与された継続長付きの視覚素シーケンスを作成するための視覚素シーケンス作成手段を含む。視覚素シーケンスの継続長内の所定位置にはキーフレームが定義され、視覚素シーケンスの各視覚素の継続長内に定義されるキーフレームによりキーフレームシーケンスが定義される。リップシンクアニメーション作成装置はさらに、キーフレームシーケンス内のキーフレームの視覚素に対応する音素の発話パワーを発話データから算出するための発話パワー算出手段と、キーフレームシーケンス内の各キーフレームに対し、発話パワー算出手段により、当該キーフレームを含む視覚素の継続長について算出された平均発話パワーが小さければ小さいほどブレンド率が小さくなるような所定の関数により、ブレンド率を調整するための、発話パワーによるブレンド率調整手段と、ブレンド率調整手段によりブレンド率が調整された視覚素シーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成するためのブレンド処理手段とを含む。 The lip-sync animation creating apparatus according to the second aspect of the present invention includes a statistical acoustic model prepared in advance, mapping definitions between phonemes and visual elements prepared in advance, and a plurality of facial images prepared in advance. A lip-sync animation creation device for creating a lip-sync animation from input utterance data using a facial model, and transcription for the utterance data can be used, statistical acoustic model, mapping definition, And a visual element sequence creating means for obtaining phonemes and corresponding visual elements included in the utterance data by using transcription and creating a visual element sequence having a duration with a default blend ratio. . A key frame is defined at a predetermined position within the duration of the visual element sequence, and a key frame sequence is defined by a key frame defined within the duration of each visual element of the visual element sequence. The lip sync animation creation device further includes speech power calculation means for calculating speech power of phonemes corresponding to visual elements of key frames in the key frame sequence from speech data, and for each key frame in the key frame sequence, Speaking power for adjusting the blending rate by a predetermined function such that the smaller the average utterance power calculated for the duration of the visual element including the key frame by the utterance power calculating means, the smaller the blending rate is. And blend processing means for creating an animation of a face image by blending between key frames based on the visual element sequence whose blend ratio is adjusted by the blend ratio adjusting means.
好ましくは、リップシンクアニメーション作成装置は、発話パワーによるブレンド率調整手段によりブレンド率が調整されたキーフレームシーケンスを受け、当該キーフレームシーケンスに含まれる各キーフレームの視覚素に対応する顔モデルを構成する頂点と、隣接するキーフレームの視覚素に対応する顔モデルを構成する頂点との間の変化の速さを算出するための変化の速さ算出手段と、発話パワーによるブレンド率調整手段によりブレンド率が調整されたキーフレームシーケンスに含まれる各キーフレームのうち、変化の速さ算出手段により算出された変化の速さが所定のしきい値よりも大きなキーフレームについて、そのブレンド率が、より小さな値となるような所定の関数を用いてブレンド率を更新するための頂点速度によるブレンド率調整手段とをさらに含む。ブレンド処理手段は、頂点速度によるブレンド率調整手段によってブレンド率が調整されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成する。 Preferably, the lip sync animation creation device receives a key frame sequence whose blend rate is adjusted by the blend rate adjusting means based on speech power, and constructs a face model corresponding to the visual element of each key frame included in the key frame sequence Blending by means of a rate of change calculation for calculating the speed of change between the vertices that make up and the vertices that make up the face model corresponding to the visual element of the adjacent key frame, and a blend rate adjustment unit by utterance power Among the key frames included in the key frame sequence whose rate has been adjusted, the blend rate of the key frame whose speed of change calculated by the speed of change calculation means is greater than a predetermined threshold is more Blur due to vertex velocity to update the blend rate using a predetermined function that is small. Further comprising a de factor adjusting means. The blend processing means creates an animation of a face image by blending between key frames based on the key frame sequence whose blend rate is adjusted by the blend rate adjusting means based on the vertex speed.
より好ましくは、リップシンクアニメーション作成装置は、複数個の顔モデルの内から選ばれる2個の顔モデルの組合せの全てに対し、顔モデルを構成する特徴点の間の動きベクトルを算出するための動きベクトル算出手段と、2個の顔モデルの特徴点を、動きベクトル算出手段により算出された動きベクトルに対する所定のクラスタリング方法によってクラスタ化し、各クラスタの代表ベクトルを算出することにより、クラスタ化された顔モデルを作成するための手段と、クラスタ化された顔モデルを記憶するためのクラスタ化顔モデル記憶手段とをさらに含む。リップシンクアニメーション作成装置はさらに、発話パワーによるブレンド率調整手段によりブレンド率が調整されたキーフレームシーケンスを受け、各キーフレームのうち、当該キーフレームの視覚素と、隣接するキーフレームの視覚素との組合せに対応するクラスタ化された顔モデルの組合せをクラスタ化顔モデル記憶手段から読出し、各クラスタに属する特徴点のキーフレーム間の変化の速さを当該クラスタの代表ベクトルを用いて算出するための変化の速さ算出手段と、キーフレームシーケンスに含まれる各キーフレームのうち、変化の速さ算出手段により算出された変化の速さが所定のしきい値よりも大きなキーフレームについて、そのブレンド率が、より小さな値となるような所定の関数を用いてブレンド率を更新するための頂点速度によるブレンド率調整手段とを含む。ブレンド処理手段は、頂点速度によるブレンド率調整手段によってブレンド率が調整されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成する。 More preferably, the lip-sync animation creation device calculates a motion vector between feature points constituting the face model for all combinations of two face models selected from the plurality of face models. The feature points of the motion vector calculation means and the two face models are clustered by a predetermined clustering method with respect to the motion vector calculated by the motion vector calculation means, and the representative vectors of each cluster are calculated, thereby being clustered. Further comprising means for creating a face model and clustered face model storage means for storing the clustered face model. The lip sync animation creation device further receives a key frame sequence in which the blend rate is adjusted by the speech rate blend rate adjusting means, and among each key frame, the visual element of the key frame, the visual element of the adjacent key frame, A clustered face model combination corresponding to each combination is read from the clustered face model storage means, and the speed of change between key frames of feature points belonging to each cluster is calculated using a representative vector of the cluster The change rate calculation means for each of the key frames included in the key frame sequence and the blend of the key frames whose change speed calculated by the change speed calculation means is greater than a predetermined threshold The top point for updating the blend rate with a predetermined function that gives a smaller value. And a blend ratio adjustment means according to the speed. The blend processing means creates an animation of a face image by blending between key frames based on the key frame sequence whose blend rate is adjusted by the blend rate adjusting means based on the vertex speed.
本発明の第3の局面に係るリップシンクアニメーション作成装置は、予め準備された統計的音響モデルと、予め準備された音素及び視覚素の間のマッピング定義と、予め準備された複数個の顔画像の顔モデルとを用い、入力される発話データからリップシンクアニメーションを作成するためのリップシンクアニメーション作成装置であって、発話データに対するトランスクリプションが利用可能である。リップシンクアニメーション作成装置は、統計的音響モデル、マッピング定義、及びトランスクリプションを使用して、発話データに含まれる音素及び対応する視覚素を求め、デフォルトのブレンド率が付与された継続長付きの視覚素シーケンスを作成するための視覚素シーケンス作成手段を含む。視覚素シーケンス中の各視覚素の継続長中にはキーフレームが定義され、これらキーフレームによりキーフレームシーケンスが定義される。リップシンクアニメーション作成装置はさらに、当該キーフレームシーケンスに含まれる各キーフレームの視覚素に対応する顔モデルを構成する頂点と、隣接するキーフレームの視覚素に対応する顔モデルを構成する頂点との間の変化の速さを算出するための変化の速さ算出手段と、キーフレームシーケンスに含まれる各キーフレームのうち、変化の速さ算出手段により算出された変化の速さが所定のしきい値よりも大きなキーフレームについて、そのブレンド率が、より小さな値となるような所定の関数を用いてブレンド率を更新するための頂点速度によるブレンド率調整手段と、頂点速度によるブレンド率調整手段によりブレンド率が調整されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成するためのブレンド処理手段とを含む。 A lip-sync animation creating apparatus according to a third aspect of the present invention includes a statistical acoustic model prepared in advance, mapping definitions between phonemes and visual elements prepared in advance, and a plurality of facial images prepared in advance. And a lip sync animation creation device for creating a lip sync animation from input utterance data, and transcription for the utterance data can be used. The lip-sync animation creation device uses a statistical acoustic model, mapping definition, and transcription to determine phonemes and corresponding visual elements contained in speech data, and has a duration with a default blend rate. Visual element sequence creation means for creating a visual element sequence is included. A key frame is defined during the duration of each visual element in the visual element sequence, and a key frame sequence is defined by these key frames. The lip sync animation creating device further includes a vertex that constitutes a face model corresponding to a visual element of each key frame included in the key frame sequence and a vertex that constitutes a face model corresponding to a visual element of an adjacent key frame. A change rate calculation means for calculating the change speed between the key frame sequences, and the change speed calculated by the change speed calculation means among the key frames included in the key frame sequence is a predetermined threshold. For a key frame larger than the value, the blend rate adjustment means based on the vertex speed and the blend rate adjustment means based on the vertex speed for updating the blend ratio using a predetermined function such that the blend ratio becomes a smaller value. Based on the key frame sequence with adjusted blend ratio, the face image is animated by blending between key frames. And a blend processing unit for creating.
本発明の第4の局面に係るリップシンクアニメーション作成装置は、予め準備された統計的音響モデルと、予め準備された音素及び視覚素の間のマッピング定義と、予め準備された複数個の顔画像の顔モデルとを用い、入力される発話データからリップシンクアニメーションを作成するためのリップシンクアニメーション作成装置であって、発話データに対するトランスクリプションが利用可能である。リップシンクアニメーション作成装置は、複数個の顔モデルの内から選ばれる2個の顔モデルの組合せの全てに対し、顔モデルを構成する特徴点の間の動きベクトルを算出するための動きベクトル算出手段と、2個の顔モデルの特徴点を、動きベクトル算出手段により算出された動きベクトルに対する所定のクラスタリング方法によってクラスタ化し、各クラスタの代表ベクトルを算出することにより、クラスタ化された顔モデルを作成するための手段と、クラスタ化された顔モデルを記憶するためのクラスタ化顔モデル記憶手段と、統計的音響モデル、マッピング定義、及びトランスクリプションを使用して、発話データに含まれる音素及び対応する視覚素を求め、デフォルトのブレンド率が付与された継続長付きのキーフレームシーケンスを作成するためのキーフレームシーケンス作成手段とを含む。視覚素シーケンス中の各視覚素の継続長中にはキーフレームが定義され、これらキーフレームによりキーフレームシーケンスが定義される。リップシンクアニメーション作成装置はさらに、キーフレームシーケンスを受け、各キーフレームのうち、当該キーフレームの視覚素と、隣接するキーフレームの視覚素との組合せに対応するクラスタ化された顔モデルの組合せをクラスタ化顔モデル記憶手段から読出し、各クラスタに属する特徴点のキーフレーム間の変化の速さを当該クラスタの代表ベクトルを用いて算出するための変化の速さ算出手段と、キーフレームシーケンスに含まれる各キーフレームのうち、変化の速さ算出手段により算出された変化の速さが所定のしきい値よりも大きなキーフレームについて、そのブレンド率が、より小さな値となるような所定の関数を用いてブレンド率を更新するための頂点速度によるブレンド率調整手段と、頂点速度によるブレンド率調整手段によりブレンド率が調整されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成するためのブレンド処理手段とを含む。 A lip-sync animation creating apparatus according to a fourth aspect of the present invention includes a statistical acoustic model prepared in advance, a mapping definition between phonemes and visual elements prepared in advance, and a plurality of face images prepared in advance. And a lip sync animation creation device for creating a lip sync animation from input utterance data, and transcription for the utterance data can be used. A lip-sync animation creating device is a motion vector calculating means for calculating a motion vector between feature points constituting a face model for all combinations of two face models selected from a plurality of face models. Then, the feature points of the two face models are clustered by a predetermined clustering method for the motion vector calculated by the motion vector calculation means, and a representative vector of each cluster is calculated to create a clustered face model Phonetics included in speech data and correspondence using clustered face model storage means for storing clustered face models, statistical acoustic models, mapping definitions, and transcriptions A keyframe sequence with a continuous length with a default blend rate And a key frame sequence creation means for creating. A key frame is defined during the duration of each visual element in the visual element sequence, and a key frame sequence is defined by these key frames. The lip-sync animation creation device further receives a key frame sequence, and, among each key frame, a clustered face model combination corresponding to a combination of a visual element of the key frame and a visual element of an adjacent key frame. Included in the key frame sequence, which is read from the clustered face model storage means and calculates the speed of change between the key frames of the feature points belonging to each cluster using the representative vector of the cluster, and the key frame sequence Among the key frames to be changed, a predetermined function is set such that the blend rate becomes a smaller value for a key frame whose change speed calculated by the change speed calculation means is larger than a predetermined threshold value. Blend rate adjustment means by vertex speed and blend rate adjustment by vertex speed to update blend rate using Based on the keyframe sequence blend ratio by stages is adjusted, and a blend processing unit for creating animation of the face image by blending between keyframes.
好ましくは、リップシンクアニメーション作成装置は、視覚素シーケンス作成手段の出力するキーフレームシーケンスに含まれるキーフレームのうち、空白音素に対応する視覚素が割当てられたキーフレームの直前のキーフレームの継続長の終端位置を、当該キーフレーム内の発話データの発話パワー系列の最大点以後で、かつ当該キーフレームの継続長内の位置に移動させることにより、発話終端位置を補正するための発話終端補正手段をさらに含む。キーフレーム削除手段は、発話終端補正手段により発話終端が補正されたキーフレームシーケンスを入力として受ける。 Preferably, the lip-sync animation creating apparatus includes a key frame duration immediately before a key frame to which a visual element corresponding to a blank phoneme is assigned among key frames included in a key frame sequence output by a visual element sequence creating unit. Utterance end correction means for correcting the utterance end position by moving the end position of the utterance to a position after the maximum point of the utterance power sequence of the utterance data in the key frame and within the duration of the key frame Further included. The key frame deletion means receives as input the key frame sequence whose utterance end has been corrected by the utterance end correction means.
空白音素に対応する視覚素が割当てられたキーフレームの直前のキーフレームについて、その終端位置が補正される。補正後の終端は、そのキーフレーム内の発話パワー系列の最大点以後の位置とする。補正後の終端をこのようにもとの終端位置より前に移動させることにより、発話の最後における視覚素が早めに空白音素に対応する視覚素となり、発話アニメーションが自然なものとなる。 The end position of the key frame immediately before the key frame to which the visual element corresponding to the blank phoneme is assigned is corrected. The end point after correction is a position after the maximum point of the speech power sequence in the key frame. By moving the corrected end in front of the original end position in this way, the visual element at the end of the utterance becomes a visual element corresponding to the blank phoneme earlier, and the utterance animation becomes natural.
より好ましくは、発話終端補正手段は、視覚素シーケンス作成手段の出力するキーフレームシーケンスに含まれるキーフレームのうち、空白音素に対応する視覚素が割当てられたキーフレームの直前のキーフレームの、発話パワーの最大値を与える第1の時刻を検出するための手段と、第1の時刻以後で、かつ処理対象のキーフレームの終端時刻以前に、発話パワーの最大値より所定の割合だけ発話パワーが減少する第2の時刻を検出するための手段と、処理対象のキーフレームの終端位置を、第2の時刻まで移動させるようにキーフレームを補正するための手段とを含む。 More preferably, the utterance end correction means includes the utterance of the key frame immediately before the key frame to which the visual element corresponding to the blank phoneme is assigned among the key frames included in the key frame sequence output by the visual element sequence generation means. Means for detecting a first time for giving a maximum value of power, and speech power at a predetermined rate from the maximum value of speech power after the first time and before the end time of the key frame to be processed. Means for detecting a decreasing second time, and means for correcting the key frame so as to move the end position of the key frame to be processed to the second time.
発話パワーの最大値を与える第1の時刻以後で、最大値より所定の割合だけ発話パワーが減少する第2の時刻に、キーフレームの終端位置を移動させる。各キーフレームにおける発話パワーの絶対値の大きさとは無関係に、最大値からの減衰率で終端位置の移動位置を決定するので、発話パワーの大きさの変動にかかわらず、発話の最後に安定したタイミングで口を閉じる画像が得られる。 After the first time when the maximum value of the utterance power is given, the end position of the key frame is moved to a second time when the utterance power decreases by a predetermined rate from the maximum value. Regardless of the magnitude of the absolute value of the utterance power in each key frame, the movement position of the end position is determined by the attenuation rate from the maximum value, so that it is stable at the end of the utterance regardless of the fluctuation of the utterance power magnitude. An image that closes the mouth at the timing is obtained.
さらに好ましくは、キーフレーム作成手段は、キーフレームシーケンスの作成時には、第1のフレームレートのフレームの任意のものをキーフレームとして選択する。リップシンクアニメーション作成装置はさらに、第1のフレームレートよりも小さな第2のフレームレートを指定する入力と、キーフレーム削除手段により出力されるキーフレームシーケンスとを受けるように接続され、キーフレーム削除手段により出力されるキーフレームシーケンスを、第2のフレームレートのキーフレームシーケンスに変換するためのフレームレート変換手段を含む。フレームレート変換手段は、第2のフレームレートのキーフレームシーケンスの各キーフレームに、キーフレーム削除手段の出力するキーフレームシーケンス内で、当該キーフレームの継続長内に始端を有するキーフレームに割当てられた視覚素のいずれかを割当てる。ブレンド処理手段は、フレームレート変換手段によりフレームレートが変換されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成するための手段を含む。 More preferably, the key frame creation means selects any one of the frames at the first frame rate as the key frame when creating the key frame sequence. The lip sync animation creating apparatus is further connected to receive an input designating a second frame rate smaller than the first frame rate and a key frame sequence output by the key frame deleting means, and the key frame deleting means Includes a frame rate converting means for converting the key frame sequence output by the key frame sequence into a key frame sequence of the second frame rate. The frame rate conversion means is assigned to each key frame of the key frame sequence of the second frame rate, in the key frame sequence output by the key frame deletion means, to a key frame having a start edge within the duration of the key frame. Assign one of the visual elements. The blend processing means includes means for creating an animation of a face image by blending between key frames based on the key frame sequence whose frame rate has been converted by the frame rate conversion means.
キーフレーム作成手段は第1のフレームレートのフレームのうちの任意のフレームを用いてキーフレームシーケンスを作成する。第1のフレームレートよりも小さな第2のフレームレートが指定されると、キーフレームレート変換手段が第1のフレームレートのキーフレームシーケンスを第2のフレームレートのキーフレームシーケンスに変換する。このとき、第1のフレームレートのキーフレームシーケンスのうちの複数のキーフレームが、第2のフレームレートのキーフレームシーケンス中のキーフレームに対応する可能性が有る。フレームレート変換手段は、そうした場合には、第2のキーフレームレートのキーフレームシーケンス中のキーフレームの継続長内に始端を有する、第1のキーフレームレートのキーフレームシーケンスのキーフレームの視覚素のいずれかを、変換後のキーフレームに割当てる。第2のキーフレームレートのキーフレームシーケンス中のキーフレームに、必ずそのキーフレームの継続長内に始端を有するキーフレームの視覚素が割当てられるため、実際の音声の発声の前に視覚素にしたがって口形状の変化が始まることになる。この順序は実際の人間の発声時に観測される順序と一致するので、自然な発話をする顔画像アニメーションが得られる。 The key frame creation means creates a key frame sequence using an arbitrary frame among the frames at the first frame rate. When a second frame rate smaller than the first frame rate is designated, the key frame rate conversion means converts the key frame sequence having the first frame rate into a key frame sequence having the second frame rate. At this time, there is a possibility that a plurality of key frames in the key frame sequence at the first frame rate correspond to key frames in the key frame sequence at the second frame rate. In such a case, the frame rate converting means has a key frame visual element of the key frame sequence of the first key frame rate having a start edge within the duration of the key frame in the key frame sequence of the second key frame rate. Is assigned to the converted key frame. Since a key element in the key frame sequence at the second key frame rate is always assigned a visual element of a key frame having a start point within the duration of the key frame, it follows the visual element before the actual voice is spoken. Mouth shape changes will begin. Since this order matches the order observed during actual human speech, a face image animation with natural speech is obtained.
フレームレート変換手段は、第2のフレームレートのキーフレームシーケンスの各キーフレームに割当てる視覚素が、直前のキーフレームに割当てた視覚素と異なるものとなるように視覚素を割当てるようにしてもよい。 The frame rate conversion means may assign the visual element so that the visual element assigned to each key frame of the key frame sequence of the second frame rate is different from the visual element assigned to the immediately preceding key frame. .
同一の視覚素が割当てられたキーフレームが連続すると、同じ口形状が長く続くことになり、発話中の顔画像としては不自然になる。直前のキーフレームに割当てられた視覚素と異なる視覚素を各キーフレームに割当てるようにすることにより、そのような不自然さを回避することができ、より自然な顔画像アニメーションを作成できる。 If key frames to which the same visual element is assigned continue, the same mouth shape will continue for a long time, making it unnatural as a face image during speech. By assigning a visual element different from the visual element assigned to the immediately preceding key frame to each key frame, such unnaturalness can be avoided and a more natural facial image animation can be created.
より好ましくは、ブレンド処理手段は、第2のフレームレートのキーフレームシーケンスからアニメーションを作成するときには、第2のキーフレームレートよりも高い第3のフレームレートでフレームごとの画像を作成する機能を有し、かつ隣接するキーフレームの間の補間により、当該隣接するキーフレームの間のフレームの画像を生成する機能を有する。リップシンクアニメーション作成装置はさらに、フレームレート変換手段の出力する第2のフレームレートのキーフレームシーケンス内のキーフレームの各々について、当該キーフレームと、当該キーフレームの直後のキーフレームとの間のフレーム位置に、当該キーフレームと同じキーフレームをコピーするためのキーフレームコピー手段を含む。 More preferably, the blend processing means has a function of creating an image for each frame at a third frame rate higher than the second key frame rate when creating an animation from the key frame sequence of the second frame rate. And having a function of generating an image of a frame between the adjacent key frames by interpolation between the adjacent key frames. The lip sync animation creating apparatus further includes, for each key frame in the key frame sequence of the second frame rate output from the frame rate conversion means, a frame between the key frame and the key frame immediately after the key frame. The position includes a key frame copy means for copying the same key frame as the key frame.
さらに好ましくは、キーフレームコピー手段は、フレームレート変換手段の出力する第2のフレームレートのキーフレームシーケンス内のキーフレームの各々について、当該キーフレームの直後のキーフレームの直前のフレーム位置に、当該キーフレームと同じキーフレームをコピーするための手段を含む。 More preferably, the key frame copy means, for each key frame in the key frame sequence of the second frame rate output from the frame rate conversion means, at the frame position immediately before the key frame immediately after the key frame, Means for copying the same keyframe as the keyframe.
ブレンド処理手段が、第2のフレームレートの隣接する二つのキーフレーム間に、第3のフレームレートにしたがったフレームを作成するようになっており、しかもそれらのフレームにおける画像を、それら二つのキーフレームの間の補間により作成する場合、二つのキーフレーム間に、滑らかに変化する第3のフレームレートにしたがったフレームが挿入される。そのような補間処理をすると、画像の変化は滑らかになるが、時にアニメーションに求められる「リミット感」を持つ映像(「カクカク」と変化する映像)が得られない。その場合、隣接する二つのキーフレームのうち、後者の直前のフレーム位置に、前者のキーフレームをそのままコピーする。その結果、前者のキーフレーム位置から、コピーされたフレーム位置まではブレンド処理手段による補間を行なっても画像は安定し、変化せず、その直後の次のキーフレームではじめて画像が変化することになる。その結果、第2のフレームレートより大きな第3のフレームレートにしたがってフレームシーケンスを作成する場合で、しかも隣接するキーフレーム間のフレームの画像を補間によって作成する機能を持つブレンド処理手段をそのまま使用する場合にも、リミット感を持つアニメーションを作成できる。 The blend processing means creates a frame according to the third frame rate between two adjacent key frames of the second frame rate, and the image in those frames is converted to the two key frames. When creating by interpolation between frames, a frame according to a third frame rate that smoothly changes is inserted between two key frames. When such an interpolation process is performed, the change in the image becomes smooth, but a video with a “limit feeling” sometimes required for animation (a video that changes as “cracking”) cannot be obtained. In that case, the former key frame is copied as it is to the frame position immediately before the latter of the two adjacent key frames. As a result, from the former key frame position to the copied frame position, even if interpolation is performed by the blend processing means, the image is stable and does not change, and the image changes only at the next key frame immediately after that. Become. As a result, when the frame sequence is created according to the third frame rate larger than the second frame rate, the blend processing means having the function of creating the frame image between the adjacent key frames is used as it is. Even in this case, you can create an animation with a sense of limit.
さらに好ましくは、リップシンクアニメーション作成装置は、複数個の顔画像の顔モデルを記憶するための顔モデル記憶手段をさらに含む。 More preferably, the lip sync animation creating apparatus further includes a face model storage means for storing a face model of a plurality of face images.
複数の顔画像の顔モデルを、顔モデル記憶手段によって記憶することができる。アニメーションを繰返し作成する場合であっても、顔モデルを外部から繰返し受信することなく、同じ顔モデルを何度でも用いて、アニメーションを作成することができる。 Face models of a plurality of face images can be stored by the face model storage means. Even when the animation is repeatedly created, the same face model can be used any number of times without repeatedly receiving the face model from the outside.
さらに好ましくは、予め準備された音素は、予め定められた標準音素と、標準音素以外の一般音素とを含み、複数個の顔画像の顔モデルは、標準音素に対応する顔モデルから成る標準視覚素モデルと、一般音素に対応する顔モデルから成る一般視覚素モデルとを含む。リップシンクアニメーション作成装置はさらに、予め準備された音素に対応して予め分類された、対応する音素を発話しているときの発話者の顔画像の特徴点の3次元位置の実測値から成るキャプチャデータと標準視覚素モデルとを用い、一般視覚素モデルを生成するための一般視覚素生成手段を含む。 More preferably, the phoneme prepared in advance includes a predetermined standard phoneme and a general phoneme other than the standard phoneme, and the face model of the plurality of face images includes a standard visual composed of a face model corresponding to the standard phoneme. And a general visual element model including a face model corresponding to a general phoneme. The lip sync animation creation device further captures the measured values of the three-dimensional positions of the feature points of the face image of the speaker when the corresponding phoneme is spoken, which is classified in advance corresponding to the phonemes prepared in advance. General visual element generation means for generating a general visual element model using the data and the standard visual element model is included.
標準視覚素モデルのみを手作業で予め作成しておき、発話時の実際の発話者の顔のキャプチャデータを準備しておけば、装置が一般視覚素作成手段によって標準視覚素モデル以外の一般視覚素モデルを自動的に生成する。したがって、手作業による顔モデル作成のための作業量を少なくし、口の動きと音声とが一致したさらに滑らかで自然な顔画像アニメーションが得られる。 If only the standard visual element model is created in advance by hand, and the capture data of the face of the actual speaker at the time of utterance is prepared, the general visual element creation means uses the general visual element creation means to generate general visuals other than the standard visual element model. Generate an elementary model automatically. Therefore, the amount of work for creating a face model by manual work is reduced, and a smoother and more natural face image animation in which the movement of the mouth and the sound coincide with each other can be obtained.
さらに好ましくは、一般視覚素生成手段は、標準音素に対応するキャプチャデータの線形和で、一般音素に対応するキャプチャデータを近似するための、標準音素の数と同数の係数を、所定の近似誤差を最小とするように算出するための係数算出手段と、一般視覚素モデルを、当該一般視覚素モデルに対応する一般音素について係数算出手段により算出された係数を用いた標準視覚素モデルの線形和により計算し、標準視覚素モデルとともに対応する一般音素と関連付けて顔モデル記憶手段に記憶させるための線形和計算手段とを含む。 More preferably, the general visual element generating means uses a linear sum of the capture data corresponding to the standard phonemes, and calculates a predetermined approximation error with the same number of coefficients as the number of standard phonemes for approximating the capture data corresponding to the general phonemes. And a linear sum of a standard visual element model using a coefficient calculated by the coefficient calculating means for a general phoneme corresponding to the general visual element model. And a linear sum calculation means for storing in the face model storage means in association with the corresponding general phoneme together with the standard visual element model.
装置が、近似誤差が最小となるような標準視覚素モデルの線形和で一般視覚素モデルを生成する。標準視覚素モデルだけでなく、一般視覚素モデルも用いて各音素に対する顔画像を生成できるので、滑らかで自然な顔画像アニメーションが得られる。 The apparatus generates a general visual element model with a linear sum of standard visual element models that minimize the approximation error. Since a face image for each phoneme can be generated using not only the standard visual element model but also the general visual element model, a smooth and natural face image animation can be obtained.
本発明の第5の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかのリップシンクアニメーション作成装置として機能させる。 When the computer program according to the fifth aspect of the present invention is executed by a computer, it causes the computer to function as any one of the above-described lip-sync animation creating apparatuses.
本発明の第6の局面に係る顔モデル生成装置は、予め準備された音素及び視覚素の間のマッピング定義を用い、視覚素に対応する顔画像の顔モデルを生成するための顔モデル生成装置であって、予め準備された音素は、予め定められた標準音素と、標準音素以外の一般音素とを含み、複数個の顔画像の顔モデルは、標準音素に対応する顔モデルから成る標準視覚素モデルと、一般音素に対応する顔モデルから成る一般視覚素モデルとを含み、顔モデル生成装置は、視覚素に対応する複数個の顔画像の顔モデルを記憶するための顔モデル記憶手段と、予め準備された音素に対応して予め分類された、対応する音素を発話しているときの発話者の顔画像の特徴点の3次元位置の実測値から成るキャプチャデータ及び標準視覚素モデルを用い、一般視覚素モデルを生成するための一般視覚素生成手段とを含む。 A face model generation apparatus according to a sixth aspect of the present invention uses a mapping definition between phonemes and visual elements prepared in advance, and generates a face model of a face image corresponding to the visual elements. The phonemes prepared in advance include predetermined standard phonemes and general phonemes other than the standard phonemes, and the face models of the plurality of face images are standard visions composed of face models corresponding to the standard phonemes. A face model storage unit for storing a face model of a plurality of face images corresponding to visual elements; and a general visual element model including a face model corresponding to a general phoneme. Capture data and standard visual element model, which are pre-classified in correspondence with phonemes prepared in advance, and are composed of measured values of three-dimensional positions of feature points of the face image of the speaker when speaking the corresponding phoneme. Used, general And a general visual element generating means for generating a Satoshimoto model.
好ましくは、一般視覚素生成手段は、標準音素に対応するキャプチャデータの線形和で、一般音素に対応するキャプチャデータを近似するための、標準音素の数と同数の係数を、所定の近似誤差を最小とするように算出するための係数算出手段と、一般視覚素モデルを、当該一般視覚素モデルに対応する一般音素について係数算出手段により算出された係数を用いた標準視覚素モデルの線形和により計算し、標準視覚素モデルとともに対応する一般音素と関連付けて顔モデル記憶手段に記憶させるための線形和計算手段とを含む。 Preferably, the general visual element generating means is a linear sum of the capture data corresponding to the standard phonemes, and has the same number of coefficients as the number of standard phonemes for approximating the capture data corresponding to the general phonemes, and a predetermined approximation error. Coefficient calculation means for calculating to be minimized, and a general visual element model by linear sum of standard visual element models using coefficients calculated by coefficient calculation means for general phonemes corresponding to the general visual element model. Linear sum calculation means for calculating and storing in the face model storage means in association with the corresponding general phoneme together with the standard visual element model.
以下、本発明について、実施の形態に基づいて説明する。以下の説明では、基本となる顔画像を6種類使用しているが、顔画像の数はこれには限定されない。6種類よりも少なくてもよいし、6種類よりも多くてもよい。 Hereinafter, the present invention will be described based on embodiments. In the following description, six types of basic face images are used, but the number of face images is not limited to this. There may be fewer than six types or more than six types.
[第1の実施の形態]
<構成>
[First Embodiment]
<Configuration>
図5に、本発明に係るアニメーション作成装置の一例として、本発明の第1の実施の形態に係るリップシンクアニメーション作成装置200の概略ブロック図を示す。図5を参照して、リップシンクアニメーション作成装置200は、発話記憶部152に記憶された発話の音声データと、トランスクリプション記憶部154に記憶された、発話記憶部152に記憶された発話の書き起こしテキスト(トランスクリプション)とを入力として受け、キャラクタモデル記憶部156に記憶された、/a/〜/o/及び/N/からなる6つの基本となる顔画像に相当する3Dキャラクターモデルを用いて顔画像のアニメーション260を作成するためのものである。
FIG. 5 shows a schematic block diagram of a lip sync
キャラクタモデル記憶部156に記憶される顔画像の例を図7に示す。図7(A)〜(F)は、それぞれ音素/a/,/i/,/u/,/n/,/e/,/o/に対応する顔画像である。本明細書では、これら画像をそれぞれ顔画像/A/,/I/,/U/,/N/,/E/,及び/O/と表記することにする。
An example of a face image stored in the character
なお、本実施の形態では、顔画像/A/,/I/,/U/,/E/,/O/は、いずれも顔画像/N/を基準とし、各特徴点が、顔画像の定義されている3次元空間において、顔画像/N/の対応する特徴点からどの程度移動しているかを示す3次元ベクトル情報によって定義されている。従って、例えば顔画像/A/と顔画像/N/との間で、その中間の顔画像を定義することもできる。本実施の形態では、特定の顔画像と顔画像/N/との間の中間の顔画像を定義するために、上記した「ブレンド率」という概念を使用する。 In the present embodiment, the face images / A /, / I /, / U /, / E /, / O / are all based on the face image / N /, and each feature point represents the face image. In the defined three-dimensional space, it is defined by three-dimensional vector information indicating how far the corresponding feature point of the face image / N / has moved. Accordingly, for example, an intermediate face image can be defined between the face image / A / and the face image / N /. In this embodiment, in order to define an intermediate face image between a specific face image and the face image / N /, the concept of “blend rate” described above is used.
二つの顔画像の間のブレンドについては前述したとおりである。 The blending between the two face images is as described above.
リップシンクアニメーション作成装置200は、発話者の音声から予め作成された音響モデルを記憶するための音響モデル記憶部170と、予め準備された、音素と視覚素との間のマッピングテーブルを記憶するための音素−視覚素マッピングテーブル記憶部176と、音響モデル記憶部170に記憶された音響モデル及び音素−視覚素マッピングテーブル記憶部176に記憶された音素−視覚素マッピングテーブルを用い、発話データに対し、トランスクリプション記憶部154に記憶されたトランスクリプションに基づいた音素セグメンテーションを行なって音素シーケンスを作成し、さらに、得られた音素シーケンス内の各音素を音素−視覚素マッピングテーブル記憶部176に記憶された音素−視覚素マッピングテーブルを用いて対応の視覚素に変換することにより、継続長付き視覚素シーケンスを作成するための視覚素シーケンス作成部230と、視覚素シーケンス作成部230により出力される視覚素シーケンスを記憶するための視覚素シーケンス記憶部180とを含む。視覚素の継続期間は、対応する音素継続期間の先頭から開始する。したがって視覚素シーケンス記憶部180に記憶された視覚素シーケンスのうち、各視覚素の先頭フレームがキーフレームとなる。視覚素シーケンス内のキーフレームにより、キーフレームシーケンスが構成される。なお、視覚素シーケンス作成部230は、各視覚素に対し、置換前の音素と、デフォルトのブレンド率(例えば100%)を付して視覚素シーケンスを作成するものとする。
The lip-sync
リップシンクアニメーション作成装置200はさらに、キャラクタモデル記憶部156に記憶された3Dキャラクタモデルの各顔画像を構成する頂点に対し、任意の二つの顔画像の間での動きベクトルを用いたVQ(ベクトル量子化)クラスタリングを行ない、任意の二つの顔画像の間での各頂点の動きを、各頂点が属するクラスタの代表ベクトルによって表した動きベクトルデータと、そのときのクラスタリング後の顔画像のモデルとを出力するためのクラスタリング処理部232と、クラスタリング処理部232の出力する、任意の顔画像モデルの組合せに対するクラスタリング後の顔画像モデルと動きベクトルデータとを記憶するためのクラスタ化顔モデル記憶部234と、キャラクタモデル記憶部156に記憶された顔画像モデルと、クラスタ化顔モデル記憶部234に記憶されたクラスタリング後の顔モデル及び動きベクトルデータとのいずれか一方を使用して、キーフレームの中で頂点の動きが速いものを検出し、そのようなキーフレームを所定の割合だけ削除するためのキーフレーム削除部236とを含む。なお、本実施の形態では、あるキーフレームを削除した場合、そのキーフレームの継続長だった部分は、削除されたキーフレームの直前のキーフレームの継続長に統合される。
The lip sync
リップシンクアニメーション作成装置200はさらに、キーフレーム削除部236によるキーフレームの削除の際の、全体のキーフレーム数のうち、削除されるキーフレームの数が示す割合を指定するための削除率入力部201と、キーフレーム削除部236によるキーフレーム削除の際の速度計算に、キャラクタモデル記憶部156に記憶されたモデルをそのまま使用するか、クラスタ化顔モデル記憶部234に記憶されたクラスタリング後の動きベクトルによるモデルを使用するかを指定するためのクラスタ処理指定部202とを含む。キーフレーム削除部236の詳細については後述する。
The lip sync
リップシンクアニメーション作成装置200はさらに、発話記憶部152に記憶された発話データから、各フレームにおける発話パワーを算出するための発話パワー算出部238と、発話パワー算出部238により算出された発話パワーを記憶するための発話パワー記憶部240と、キーフレーム削除部236により出力された視覚素シーケンスに対し、発話パワー記憶部240に記憶された各フレームにおける発話パワーに基づいて、後述するように、キーフレームのブレンド率を調整するための発話パワーによるブレンド率調整部244とを含む。
The lip sync
リップシンクアニメーション作成装置200はさらに、発話パワーによるブレンド率調整部244において、あるキーフレームのブレンド率を減衰させる際のパラメータα(以下「減衰率α」と呼ぶ。)をユーザが入力するための減衰率入力部206と、発話パワーによるブレンド率調整部244によるブレンド率の調整を行なうか否かをユーザが指示する際に使用する発話パワー使用指示入力部204と、発話パワー使用指示入力部204により発話パワーが指示されたときにはキーフレーム削除部236の出力を発話パワーによるブレンド率調整部244に与え、それ以外のときにはキーフレーム削除部236の出力を発話パワーによるブレンド率調整部244をバイパスして後続する処理部に与えるために、一対の選択部242及び246とを含む。
The lip sync
リップシンクアニメーション作成装置200はさらに、クラスタ処理指定部202により指定された値にしたがい、キャラクタモデル記憶部156に記憶された顔画像モデルのデータ及びクラスタ化顔モデル記憶部234に記憶された動きベクトルのいずれかを用い、各キーフレームにおける頂点の動きの速さを算出して、動きの速さが所定の基準より大きなキーフレームについて、ブレンド率を小さくなるように調整するための頂点速度によるブレンド率調整部250と、ブレンド率調整部250によるブレンド率の調整の際の、ブレンド率の減衰率βを入力するためにユーザが使用する減衰率入力部210と、ブレンド率調整部250によるブレンド率調整を行なうか否かをユーザが指定するための頂点速度使用指示入力部208と、使用指示入力部208により入力された指示にしたがい、選択部246の出力をブレンド率調整部250に与えるか、発話パワーによるブレンド率調整部244をバイパスして後続する処理部に与えるかを選択する一対の選択部248及び252とを含む。
The lip sync
リップシンクアニメーション作成装置200はさらに、選択部252の出力する、ブレンド率の調整が完了した継続長付き視覚素シーケンスを記憶するための視覚素シーケンス記憶部254と、視覚素シーケンス記憶部254に記憶された継続長付き視覚素シーケンスに基づき、キャラクタモデル記憶部156に記憶された各顔画像モデルを用いたブレンド処理を行なうことによって、顔画像のアニメーション260を作成するためのブレンド処理部256を含む。
The lip-sync
図6に、図5の視覚素シーケンス作成部230の詳細な構成を示す。図6を参照して、視覚素シーケンス作成部230は、音響モデル記憶部170に記憶された音響モデルを用い、発話記憶部152に記憶された発話データに対して、トランスクリプション記憶部154に記憶されたトランスクリプションに基づいた音素セグメンテーションを行ない、音素シーケンスをその継続長を示す情報とともに出力するための音素セグメンテーション部172と、音素セグメンテーション部172から出力された継続長付き音素シーケンスを記憶するための音素シーケンス記憶部174とを含む。
FIG. 6 shows a detailed configuration of the visual element
視覚素シーケンス作成部230はさらに、音素と視覚素との間のマッピングテーブルを記憶するための音素−視覚素マッピングテーブル記憶部176と、音素−視覚素マッピングテーブル記憶部176に記憶された音素−視覚素マッピングテーブルを参照しながら、音素シーケンス記憶部174に記憶された音素シーケンス内の各音素を対応する視覚素に変換することにより、継続長付き視覚素シーケンスを出力するための音素−視覚素変換処理部178とを含む。なお、前述したとおり、音素−視覚素変換処理部178の出力する継続長付き視覚素シーケンスの各視覚素には、対応の音素と、デフォルトのブレンド率とが付されている。
The visual element
音素セグメンテーション部172は、発話記憶部152に含まれる発話データに対する音素セグメンテーションをし、音素列と、それぞれの継続時間長が分かる時間データとを出力できるものであればどのようなものでもよい。発話内容がトランスクリプション記憶部154に記憶されたトランスクリプションにより予め分かっているので、音素セグメンテーション部172は音声データを精度高く音素列に変換できる。
The
テーブル1に、マッピングテーブル記憶部176に記憶されたマッピングテーブルの例の一部を示す。
Table 1 shows a part of an example of the mapping table stored in the mapping
図8〜図10を用いて、クラスタリング処理部232による処理について説明する。クラスタリング処理部232による処理は、簡略にいえば、以下のようなものとなる。
The processing by the
キャラクタモデル記憶部156に含まれる顔モデルのうちの任意の二つの組合せの全てについて、以下の処理を行なう。
The following processing is performed for all two arbitrary combinations of the face models included in the character
まず、一方の顔画像の全ての頂点の座標ベクトルを、他方の対応する頂点の座標ベクトルから減算する。この減算により、一方の顔画像から他方の顔画像に変化する際の各頂点の動きベクトルが求められる。図8は、一方の顔画像として視覚素/N/の各頂点からなる顔画像280を、他方の顔画像として視覚素/O/の各頂点からなる顔画像282を例とし、視覚素/N/から視覚素/O/への動きベクトルの集合からなる画像284を示してある。なお、図8において、横軸はX軸、縦軸はZ軸であり、Y軸については図示していない。
First, the coordinate vector of all the vertices of one face image is subtracted from the coordinate vector of the other corresponding vertex. By this subtraction, the motion vector of each vertex when changing from one face image to the other face image is obtained. FIG. 8 shows an example of a
こうして求めた動きベクトルの集合に対し、クラスタリング処理部232は、概略、以下のアルゴリズムによってクラスタリングを行なう。
The
(1)クラスタ数Nを決定する。 (1) The number N of clusters is determined.
(2)動きベクトルの集合の中からN個のベクトルを任意に選択し、初期コードブックとする。 (2) N vectors are arbitrarily selected from the set of motion vectors, and set as an initial codebook.
(3)動きベクトルの集合の中の全ベクトルを、初期コードブックとの間のユークリッド距離に基づいてN個のクラスタに分類する。この場合、各動きベクトルは、ユークリッド距離が最も小さくなるコードブックにより代表されるクラスタに分類される。 (3) All vectors in the set of motion vectors are classified into N clusters based on the Euclidean distance from the initial codebook. In this case, each motion vector is classified into a cluster represented by a code book having the smallest Euclidean distance.
(4)各クラスタに属するベクトルの平均を算出することにより、新たなN個のコードブックを作成する。 (4) New N codebooks are created by calculating the average of the vectors belonging to each cluster.
(5)コードブックが変化しなくなるか、その間の差がしきい値より小さくなるまでステップ3及び4を繰返す。 (5) Repeat steps 3 and 4 until the codebook no longer changes or the difference between them is less than the threshold.
なお、本実施の形態においては、各クラスタの代表頂点は、そのクラスタについて求められたセントロイド(重心)に最も近い頂点とする。 In the present embodiment, the representative vertex of each cluster is the vertex closest to the centroid (center of gravity) obtained for that cluster.
以上のようにして得られたクラスタリングの結果、各画像の組合せについて各頂点が複数個のクラスタのいずれかに属することになる。図9にそうしたクラスタリングの結果を顔画像にマッピングした例を示す。図9を参照して、画像300と他の画像(図示せず)との間の動きベクトルのクラスタリングにより、画像300を構成する顔モデルを構成する各頂点は、画像302に示すように、クラスタ310,312,314,316,318,320,322及び324に分類される。この例の場合、クラスタの個数は8、頂点数は1483個である。
As a result of the clustering obtained as described above, each vertex belongs to one of a plurality of clusters for each image combination. FIG. 9 shows an example in which the result of such clustering is mapped to a face image. Referring to FIG. 9, as a result of clustering motion vectors between
図9から分かるように、口付近の頂点はその位置により明確にクラスタ化されるが、それ以外の領域の頂点の動きにはあまり差がない。 As can be seen from FIG. 9, the vertices near the mouth are clearly clustered according to their positions, but there is not much difference in the movement of the vertices in other regions.
図10には、同様の処理でクラスタ数=128、頂点数1483個の場合のクラスタリングにより得られたクラスタを顔画像にマッピングした結果340を示す。このようにクラスタ数を多くすると、口付近以外の各頂点もクラスタ化されてくることが分かる。
FIG. 10 shows a
このようにクラスタ化するのは以下の理由による。例えば図5に示すキーフレーム削除部236及びブレンド率調整部250における処理において、全ての頂点について移動量又は速度を算出すると、頂点の数だけ計算する必要があり処理に長時間を要する。これに対し、頂点をクラスタ化した場合、各頂点の移動量又は速度を、その頂点が属するクラスタの代表頂点の移動量又は速度で近似することができる。したがって、実質的な計算量はクラスタの数まで削減され、計算時間を大幅に短縮することができる。
The reason for clustering in this way is as follows. For example, in the processing in the key
例えば口付近の画像だけを短時間で処理する必要があればクラスタ数を小さくし、計算時間が多少長くても、口だけでなく頭部全体の画像もある程度の精密さで求める必要があればクラスタ数を大きくすればよい。さらに、計算に要する時間に制限がないのであれば、こうしたクラスタリングを行なわず、全ての頂点について個別にその移動量又は速度を計算すればよい。 For example, if it is necessary to process only the image near the mouth in a short time, the number of clusters is reduced, and even if the calculation time is somewhat long, it is necessary to obtain not only the mouth but also the entire head image with a certain degree of precision. The number of clusters should be increased. Furthermore, if the time required for the calculation is not limited, such movement amount or speed may be calculated individually for all the vertices without performing such clustering.
図11は、キーフレーム削除部236の機能をコンピュータプログラムで実現する際の、プログラムの制御構造を示すフローチャートである。図11を参照して、ステップ360において、削除率を所定の記憶領域から読出す。この削除率は、図5に示す削除率入力部201を用いてユーザにより予め入力され、所定の記憶領域に記憶されていたものである。
FIG. 11 is a flowchart showing a control structure of a program when the function of the key
ステップ362において、この削除率に基づき、削除すべきキーフレーム数Kを算出する処理が行なわれる。視覚素シーケンス記憶部180に記憶された視覚素シーケンス中のキーフレーム数をa、削除率をγ%とすると、本実施の形態では、削除すべきキーフレーム数Kをa×γ×100により求める。ここで、計算結果を四捨五入するか、切り上げるか、切り捨てるかは設計事項である。
In
ステップ364では、以下の繰返し処理のための繰返し変数iに0を代入する。ステップ366で変数iに1を加算し、ステップ368で変数iの値が削除すべきキーフレーム数Kより大きくなったか否かを判定する。判定結果がYESであればステップ382に進み、それ以外の場合にはステップ370に進む。
In
ステップ370では、以下の計算において、クラスタ化顔モデル記憶部234に記憶されたクラスタリング後の顔画像のモデルを使用するか、又はキャラクタモデル記憶部156に記憶された元の顔画像のモデルを使用するかを判定する。この判定は、クラスタ処理指定部202を用いてユーザにより予め入力されており、所定の記憶領域に記憶されていた情報に基づいて行なわれる。クラスタ化後のモデルを使用する場合にはステップ376に進み、使用しない場合にはステップ372に進む。
In Step 370, the clustered face
ステップ372では、視覚素シーケンス中で隣接するキーフレームの組合せの全てにおいて、全ての頂点を用いてキーフレーム間の距離Dを以下の式により算出する。
In
続いてステップ374において、ステップ372で算出されたキーフレーム間の距離に基づいて、以下の式によって削除すべきキーフレームを決定する。
Subsequently, in
要するに、ステップ372及びステップ374の処理により、一つ前のキーフレームからの全ての頂点の移動速度と、一つ後のキーフレームまでの全ての頂点の移動速度との合計が最も大きなキーフレームが削除対象のキーフレームとして決定される。ステップ380でこのキーフレームを削除し、ステップ366に戻る。
In short, as a result of the processing in
一方、ステップ370においてクラスタリング後のモデルを使用すると判定された場合には、ステップ376において、以下の式により、視覚素シーケンス中で隣接するキーフレームの組合せの全てにおいて、各クラスタの代表頂点を用いてキーフレーム間の距離D’を以下の式により算出する。
On the other hand, if it is determined in step 370 that the model after clustering is to be used, in
ステップ378では、ステップ376で算出されたキーフレーム間の距離D’に基づいて、以下の式によって削除すべきキーフレームを決定する。
In
ステップ372での処理は、顔画像のモデルを構成する全ての頂点について行なう必要がある。一方、ステップ376での処理は、各クラスタの代表頂点のみに対して行なえばよい。したがって、ステップ376での処理に要する時間はステップ372での処理に要する時間と比較してはるかに少なくなる。ただし、ステップ376で得られる距離D’は、ステップ372の処理で得られる距離Dと比較すると概算値となり、誤差を含み、場合によっては削除されるキーフレームが両者で異なってくる。
The processing in
なお、ステップ368で変数iの値が削除フレーム数Kより大きいと判定された場合、ステップ382において、K個のキーフレームが削除された後の視覚素シーケンスが出力され、処理を終了する。
If it is determined in
図12に、キーフレーム削除部236によって行なわれるキーフレームの削除の概念を示す。図12(A)を参照して、視覚素シーケンス中に、4つのキーフレーム400、402、404及び406があるものとする。これらの全ての組合せについて、前記した距離D又はD’を算出する。そして、これらの中で前後のキーフレームとの間の頂点の移動速度の合計値として最小値を与えるキーフレームを削除する。図12(A)で示す例では、キーフレーム402がそうしたキーフレームであるものとする。すると、図12(B)に示すようにキーフレーム402を視覚素シーケンスから削除し、新たに3つの視覚素を含む視覚素シーケンスに対し、前記した処理が行なわれることになる。
FIG. 12 shows the concept of key frame deletion performed by the key
図5に示す発話パワーによるブレンド率調整部244によって行なわれる処理について、図13を参照して説明する。発話パワーによるブレンド率調整部244は、各キーフレームに対応する音素の継続長にわたる発話パワーを、発話記憶部152に記憶された発話データ及び視覚素シーケンス記憶部180に記憶された視覚素シーケンスに含まれる音素シーケンスの継続長から算出する。ある音素の発話パワーは、各音素の継続長の中央における音声信号の振幅の二乗和により求める。
Processing performed by the blend
例えば、図13に示すように、実際の音声信号の波形がグラフ420で示されるものであり、グラフ420により示される音声信号中に、音素/a/,/i/、/o/、/e/、及び/u/からなる音素シーケンスがあったものとする。音素/a/については、その継続長の先頭から次のキーフレーム/i/に代わるまでの期間にわたる平均の発話パワーを算出する。他の音素/i/、/o/、/e/、及び/u/についても同様であり、それぞれの継続長の先頭から、次のキーフレームに代わるまでの期間にわたる平均の発話パワーを、線分430、432、434、436及び438により示すようにそれらの継続長の全体にわたり算出する。発話パワーによるブレンド率調整部244は、こうして算出された発話パワーの平均値に基づき、各音素に対応する視覚素のブレンド率を調整する。
For example, as shown in FIG. 13, the waveform of the actual audio signal is shown by a
図14に、発話パワーによるブレンド率調整部244が行なう処理をコンピュータプログラムにより実現する際の、プログラムの制御構造をフローチャート形式で示す。
FIG. 14 is a flowchart showing the control structure of the program when the processing performed by the blend
図14を参照して、ステップ450において、減衰率αを所定の記憶領域から読出す。この減衰率αは、図5に示す減衰率入力部206を用いてユーザにより入力され、所定の記憶領域に格納されていたものである。
Referring to FIG. 14, in
ステップ452では、音素シーケンス中の全ての音素について、その継続長にわたる発話パワーの平均を算出する。以下、N番目のキーフレームの音素の、その継続長全体にわたる発話パワーの平均をSP(N)と書く。
In
ステップ454では、ステップ452で算出された全ての発話パワーの平均値の内で、最大のものMAX(SP)と、最小のものMIN(SP)とを決定する。
In
ステップ456では、平均発話パワーの最大値を与えるキーフレームを除く全てのキーフレームについて、次の式にしたがい、ブレンド率を更新する。なお、以下、N番目のキーフレームのブレンド率をBR(N)と書く。
In
この処理による結果の一例を次のテーブルにより示す。調整前のブレンド率及び平均発話パワーを全てのキーフレームの音素に対して示したのがテーブル2であり、発話パワーによるブレンド率調整部244による調整後のブレンド率を示したのがテーブル3である。
An example of the result of this process is shown in the following table. Table 2 shows the blend rate before adjustment and the average utterance power for the phonemes of all key frames, and Table 3 shows the blend rate after adjustment by the blend
図15に、図5のブレンド率調整部250が行なう処理をコンピュータプログラムで実現する際の、プログラムの制御構造をフローチャート形式で示す。
FIG. 15 is a flowchart showing a program control structure when the processing performed by the blend
図15を参照して、ステップ470において、減衰率βを所定の記憶領域から読出す。減衰率βは、図5に示す減衰率入力部210を用いてユーザにより入力され、所定の記憶領域に記憶されていたものである。減衰率βの意味は以下から明らかとなるが、本実施の形態では、キーフレームの間で頂点の動きに基づいてブレンド率を調整しないキーフレーム(以下「不変フレーム」と呼ぶ。)の割合を示す値が用いられる。
Referring to FIG. 15, in
ステップ472では、ステップ470で読出された減衰率βを、全体のキーフレーム数に乗算することにより、不変フレームの数Lを算出する。不変フレームの数Lについて、切り上げにより求めるか、四捨五入により求めるか、切り捨てにより求めるかは設計事項である。
In
ステップ474では、クラスタリング後のモデルを使用するか否かを判定する。この判定は、クラスタ処理指定部202を用いてユーザにより入力され、所定の記憶領域に格納されていた値を用いて行なわれる。クラスタリング後のモデルを使用する場合はステップ480に進み、使用しない場合にはステップ476に進む。
In
ステップ476では、全てのキーフレームに対し、その前後のキーフレームとの間での、全頂点の平均速度を算出する。この算出方法は図11のステップ372及び374で行なうのと同様である。
In
ステップ478では、全キーフレームを、ステップ476で算出された平均速度の降順にソートする。
In
ステップ484では、このようにソートされたキーフレームのデータのうち、下位からL個のキーフレームの中の、平均速度の最大値<VS>を決定する。
In
ステップ486では、ステップ484で決定された値<VS>より大きな平均速度を持つキーフレームにおいて、ブレンド率BR(N)を以下の式にしたがって調整する。
In
一方、クラスタリング後のモデルを使用する場合、ステップ480において、全てのキーフレームに対し、その前後のキーフレームとの間での頂点の平均速度を、各クラスタの代表頂点を用いて算出する。ここでの処理は、図11のステップ376及び378で行なったのと同様の考え方により行なう。
On the other hand, when the clustered model is used, in
ステップ482では、全キーフレームをステップ480で算出された平均速度の降順でソートする。以下、ステップ484の処理に進む。
In step 482, all key frames are sorted in descending order of the average speed calculated in
ここでの処理は、要するに、各頂点の動く速度が速いキーフレームについては、他のキーフレームの速さを基準として、口の動きが小さくなるようにブレンド率を調整する、というものである。頂点の動きがキーフレーム間であまりに速い場合、キーフレームでの口の形を元のままに維持すると、口の動きが不自然に見える。そこで、そうした場合にはブレンド率を小さく調整することにより、口の動きが小さくなるようにする。 In short, the processing here is to adjust the blend rate so that the movement of the mouth becomes small with respect to the speed of the other key frames for the key frame where the moving speed of each vertex is fast. If the movement of the vertices is too fast between key frames, keeping the mouth shape at the key frames intact, the mouth movements look unnatural. Therefore, in such a case, the movement of the mouth is reduced by adjusting the blend rate to be small.
次の表に、ブレンド率調整部250によるブレンド率の調整前後におけるブレンド率の変化の例を示す。テーブル4は平均速度の調整後でキーフレームのソート前、テーブル5はソート後でかつブレンド率の調整前を示す。
The following table shows an example of a change in the blend rate before and after the blend
<VS>=100を用いてステップ486の処理を行なうと、上位の二つの音素/i/及び/o/のブレンド率がそれぞれ以下のように訂正される。すなわち、音素/i/についてはBR(N)=90×100/200=45となり、音素/o/についてはBR(N)=60×100/150=40となる。その結果、ブレンド率調整部250によるブレンド率調整後の各キーフレームのブレンド率は以下のようになる。
When the processing of
<動作>
以上構成を説明したリップシンクアニメーション作成装置200は以下のように動作する。図5を参照して、最初に発話記憶部152に、所定の発話者の発話を記録した発話データが準備され、その発話の書き起こしデータであるトランスクリプションがトランスクリプション記憶部154に準備される。また、前述した6つの視覚素に対応した6つの顔画像のキャラクタモデルがワイアフレーム画像としてキャラクタモデル記憶部156に準備される。
<Operation>
The lip sync
顔画像のアニメーション260の作成のためには、種々の準備作業が必要である。以下それらの準備作業を順番に述べる。
In order to create the
−視覚素シーケンスの作成−
まず、視覚素シーケンス作成部230が音響モデル記憶部170に記憶された音響モデル、及び音素−視覚素マッピングテーブル記憶部176に記憶された音素−視覚素マッピングテーブル記憶部176を用い、以下のようにして視覚素シーケンスを作成し視覚素シーケンス記憶部180に記憶させる。
-Creation of visual elementary sequences-
First, the visual element
図6を参照して、視覚素シーケンス作成部230の音素セグメンテーション部172が、発話記憶部152中の発話データを読み、トランスクリプション記憶部154と音響モデル記憶部170とを用いて発話データに対する音素セグメンテーションを行なう。この処理の結果、音素セグメンテーション部172からは音素シーケンスが、各音素の継続長を表すデータとともに出力される。この継続長付き音素シーケンスは音素シーケンス記憶部174に記憶される。
Referring to FIG. 6,
音素−視覚素変換処理部178が、音素シーケンス記憶部174から音素シーケンスを読出し、音素−視覚素マッピングテーブル記憶部176に記憶された音素−視覚素マッピングテーブルを用いて、音素シーケンス中の音素を対応する視覚素に置き換えることにより、継続長付き視覚素シーケンスを生成する。ただしここでは、置換前の音素も各視覚素に付してあるものとする。この継続長付き視覚素シーケンスは視覚素シーケンス記憶部180に記憶される。
The phoneme-visual element
−顔画像の頂点のクラスタリング−
クラスタリング処理部232は、キャラクタモデル記憶部156に格納された6つの顔画像に対し、二つの顔画像の全ての組合せに対し、以下の処理を実行する。
-Face image vertex clustering-
The
まず、一方の顔画像から他方の顔画像に変化する際の頂点の動きベクトルを算出する。この動きベクトルの集合に対し、前述したとおりのVQクラスタリングを行なうことにより、一方の顔画像を所定個数のクラスタに分類する。逆方向の動きについては、動きベクトルの向きが逆になるだけであるから、クラスタリングは正逆で同じになる。 First, the motion vector of the vertex when changing from one face image to the other face image is calculated. One face image is classified into a predetermined number of clusters by performing VQ clustering on the set of motion vectors as described above. As for the movement in the reverse direction, since the direction of the motion vector is only reversed, the clustering is the same in the reverse direction.
このようにしてクラスタリングを行なった結果、二つの顔画像の全ての組合せに対し、クラスタリング後の顔モデルと、各クラスタの代表頂点とが算出される。この顔モデルが、各クラスタの代表頂点とともにクラスタ化顔モデル記憶部234に記憶される。
As a result of clustering as described above, the face model after clustering and the representative vertex of each cluster are calculated for all combinations of two face images. This face model is stored in the clustered face
−発話パワーの算出−
発話パワー算出部238は、視覚素シーケンス記憶部180に記憶された各視覚素に付された音素の情報に基づき、発話記憶部152中の各音素の平均発話パワーを算出し、発話パワーとして発話パワー記憶部240に記憶させる。
-Calculation of speech power-
The utterance
−アニメーションの作成−
アニメーションの作成においては、様々な選択肢がある。第1の選択肢は、キーフレームの削除率γである。キーフレームの削除は常に行なわれるので、この指定は必須である。ただし、指定がない場合には所定のデフォルトの値を使用するようにしてもよい。第2の選択肢は、キーフレーム削除部236での処理及びブレンド率調整部250での処理において、クラスタリングの結果を使用するか否かの指定である。第3の選択肢は、発話パワーによるブレンド率調整部244の処理を行なうか否かである。さらに、発話パワーによるブレンド率調整部244の処理を実行する場合には減衰率αを指定する必要がある。第4の選択肢は、ブレンド率調整部250の処理を行なうか否かである。ブレンド率調整部250の処理を行なう場合にはさらに、減衰率βを指定する必要がある。
-Creation of animation-
There are various options for creating animations. The first option is a key frame deletion rate γ. This is mandatory because keyframes are always deleted. However, if not specified, a predetermined default value may be used. The second option is to specify whether or not to use the result of clustering in the processing in the key
発話パワーによるブレンド率調整部244による処理を行なうことが指定された場合には、選択部242及び246は、キーフレーム削除部236の出力を発話パワーによるブレンド率調整部244に与え、さらに発話パワーによるブレンド率調整部244の出力を選択部248に与えるように、接続を切替える。それ以外の場合には、選択部242及び246は、キーフレーム削除部236の出力を直接に選択部248に与えるように接続を切替える。
When it is designated that the processing by the blend
一方、ブレンド率調整部250による処理を行なうことが指定された場合には、選択部248及び252は、選択部246の出力をブレンド率調整部250に与え、ブレンド率調整部250の出力を視覚素シーケンス記憶部254に与えるように接続を切替える。それ以外の場合には、選択部248及び252は、選択部246の出力を直接に視覚素シーケンス記憶部254に与えるように接続を切替える。
On the other hand, when it is designated that the processing by the blend
以下、一般性を失わずに、発話パワーによるブレンド率調整部244による処理及びブレンド率調整部250による処理がともに選択されることを前提とし、クラスタリング後のモデルを使用しない場合と使用する場合とについて、それぞれキーフレーム削除部236、発話パワーによるブレンド率調整部244、及びブレンド率調整部250の動作を説明する。
Hereinafter, on the assumption that the processing by the blend
(1)クラスタリング後のモデルを使用しない場合
−キーフレーム削除部236の動作−
キーフレーム削除部236は、削除率入力部201により入力された削除率γを読出し(図11、ステップ360)、視覚素シーケンス記憶部180に記憶された視覚素シーケンス中の視覚素の数に削除率γを乗ずることにより、削除フレーム数Kを算出する(ステップ362)。
(1) When a model after clustering is not used -Operation of the key frame deletion unit 236-
The key
キーフレーム削除部236はさらに、ステップ368で削除フレーム数Kだけのキーフレームを削除したか否かを判定する。通常は最初の判定では削除フレーム数Kだけのキーフレームの削除は行なわれていない。したがってステップ370に進む。ステップ370では、クラスタリング後のモデルを使用することが指定されていないので、ステップ372に進む。
Further, the key
ステップ372では、視覚素シーケンス内の隣り合う全てのキーフレーム間で、全ての頂点を用いてキーフレーム間の距離Dを算出し、ステップ374でこの距離に基づいて各点の移動速度の合計が最も早いキーフレームを削除ターゲットに定める。そしてステップ380でこのキーフレームを削除する。この後ステップ366に戻る。
In
以後、削除したキーフレームの数が削除フレーム数Kより大きくなると処理を終了する。 Thereafter, when the number of deleted key frames is larger than the number K of deleted frames, the process is terminated.
キーフレーム削除部236によりこのようにしてK個のキーフレームが削除された視覚素シーケンスは選択部242を介して発話パワーによるブレンド率調整部244に与えられる。
The visual element sequence from which K key frames have been deleted in this way by the key
−発話パワーによるブレンド率調整部244の動作−
発話パワーによるブレンド率調整部244は、最初に減衰率αを読出す(図14のステップ450)。ステップ452で、キーフレーム削除部236の出力する視覚素シーケンス中の音素に関する情報に基づいて、発話記憶部152に記憶された発話データから、各音素の継続期間にわたる平均発話パワーを算出する。
-Operation of blend
First, the blend
ステップ454では、こうして算出された平均発話パワーのうち、最大パワーMAX(SP)と最小パワーMIN(SP)とを算出し、ステップ456において、減衰率αを用いた式により、各キーフレームについてブレンド率BR(N)を調整する。全てのキーフレームについてブレンド率を調整された視覚素シーケンスは、選択部246及び選択部248を介してブレンド率調整部250に与えられる。
In
−頂点速度によるブレンド率調整部250の動作−
頂点速度によるブレンド率調整部250は、最初に減衰率βを読出し(図15、ステップ470)、選択部248から与えられた視覚素シーケンス中に含まれるキーフレームにこの減衰率βを乗算して不変フレーム数Lを算出する(ステップ472)。続くステップ474では、ステップ476が選択される。
-Operation of blend
The blend
ステップ476では、選択部248から与えられた視覚素シーケンス中の全てのキーフレームに対し、その前後のキーフレームとの間での、全頂点の平均速度を算出する。ステップ478では、このようにして算出された平均速度をソートキーに、平均速度の降順にキーフレームをソートする。
In
ステップ484では、ステップ478でソートされたキーフレームの下位からL個のキーフレームのうちの平均速度の最大値を<VS>の値に設定する。ステップ486で、ステップ484において設定された速度<VS>の値を用い、前述した式によって、不変フレーム以外のキーフレームの各々について、そのブレンド率を調整する。不変フレーム以外の全てのキーフレームについてブレンド率の調整が終了すると、ブレンド率の調整が完了した視覚素シーケンスを図5に示す視覚素シーケンス記憶部254に出力する。
In
ブレンド処理部256は、視覚素シーケンス記憶部254に記憶された視覚素シーケンスを読出し、各キーフレームに対応する時刻にはそのキーフレームで指定された視覚素を用い、キーフレーム間のフレームの時刻では、そのフレームの両隣のキーフレームの間で、キーフレームに付されたブレンド率を用いた内挿によって中間の画像を作成する。このようにして、一定時間間隔のフレームの各々で、キーフレームの画像とそのブレンド率とを用いた内挿によって画像を作成することにより、アニメーションが作成される。
The
(2)クラスタリング後のモデルを使用する場合
クラスタリング後のモデルを使用する場合には、リップシンクアニメーション作成装置200の各部は以下のように動作する。
(2) When using a model after clustering When using a model after clustering, each unit of the lip sync
−キーフレーム削除部236の動作−
図11を参照して、キーフレーム削除部236は、ステップ360〜368までの処理についてはクラスタリング後のモデルを使用しない場合と同様に動作する。しかし、ステップ370の判定ではステップ376を選択する。ステップ376では、隣り合う全てのキーフレームの間で、代表頂点を用いて距離D’を算出する。代表頂点を用いた距離D’の算出については前述したとおりであるが、代表頂点の移動距離に、その代表頂点により代表されるクラスタ内の頂点の数を乗算し、その値を全てのクラスタにわたり合計することにより距離D’が得られる。
-Operation of the key frame deletion unit 236-
Referring to FIG. 11, key
ステップ378では、こうして算出された距離D’を用い、頂点の動きが最も早いキーフレームを削除対象のキーフレームに決定する。ステップ380以下の処理は、クラスタリング後のモデルを使用しない場合と同様である。
In
−発話パワーによるブレンド率調整部244の動作−
発話パワーによるブレンド率調整部244は、クラスタリング後のモデルを使用しない場合と全く同様である。したがってここではその詳細は繰返さない。
-Operation of blend
The blend
−ブレンド率調整部250の動作−
この場合、ブレンド率調整部250は以下のように動作する。図15を参照して、ステップ470及び472の処理はクラスタリング後のモデルを使用しない場合と同様である。ただし、ステップ474の判定ではステップ480が選択される。
-Operation of Blend Ratio Adjustment Unit 250-
In this case, the blend
ステップ480では、全キーフレームに対し、その前後のキーフレームとの間の頂点の平均速度を、各頂点が属するクラスタの代表頂点の動きベクトルを用いて算出する。ここでの算出方法はキーフレーム削除部236での算出方法と同様である。そしてステップ482において、このようにして算出された平均速度をソートキーに、全てのキーフレームを降順にソートする。この後は、ステップ484及び486をクラスタリング後のモデルを使用しない場合と同様に実行する。
In
図16に、キーフレーム削除部236によるキーフレーム削除の結果の一例を示す。図16(A)はキーフレーム削除部236によるキーフレームの削除なし(視覚素シーケンス作成部230による出力のまま。ただしブレンド率については発話パワーによって初期値を付与してある。)を示し、図16(B)及び図16(C)はそれぞれ削除率γ=20%及び30%に設定したときの結果を示す。図16(D)は従来の方法にしたがい、人間のアニメータが音声を聞きながら手作業によってキーフレームを設定した結果を示す。自動的な処理で図16(D)に近い結果が得られると好ましい。
FIG. 16 shows an example of the result of key frame deletion by the key
図16(A)と図16(B)とを比較すると、キーフレーム500及び502が削除されていることが分かる。この結果、図16(B)と図16(D)とはかなり近い結果となっている。さらに図16(B)と図16(C)とを比較すると、キーフレーム510が削除されている。この結果を図16(D)と比較すると、両者が非常に類似していることが分かる。特に図16(C)の結果から合成したアニメーションと、図16(D)の手作業による結果から合成したアニメーションとは、前半部分において非常によく一致しており、主観的な評価ではほとんど差がなかった。
Comparing FIG. 16A and FIG. 16B, it can be seen that the
図17の上段(A)(B)は、従来の方法によって得られた顔画像の口付近のアニメーション結果(A)と、上記実施の形態によって得られたアニメーション結果(B)とを対比して示す。図17の下段(C)(D)は、対応する各キーフレームのブレンド率を示す。従来の方法によるブレンド率を図17(D)に、本発明の実施の形態によるブレンド率を図17(C)に、それぞれ示す。図17(C)における枠530、図17(D)における枠532に相当する部分の顔アニメーションが図17(B)及び(A)に該当する。
The upper (A) and (B) of FIG. 17 compare the animation result (A) near the mouth of the face image obtained by the conventional method and the animation result (B) obtained by the above embodiment. Show. The lower sections (C) and (D) of FIG. 17 show the blend ratios of the corresponding key frames. FIG. 17D shows the blend ratio according to the conventional method, and FIG. 17C shows the blend ratio according to the embodiment of the present invention. The face animation of the part corresponding to the
図17(C)及び(D)を参照して、従来の方法によるブレンド率のグラフ522と、本実施の形態によるブレンド率のグラフ520とを比較すると、本実施の形態では全体にブレンド率が低くなり、その結果口画像の動きが滑らかになっていることが分かる。
Referring to FIGS. 17C and 17D, a
以上のように本実施の形態に係る視覚素シーケンス作成部230によれば、発話音声及びそのトランスクリプションと、視覚素に相当する基本的な顔画像のモデルとから、自動的に音声に対応して滑らかに変化する顔画像を作成することができる。発話パワーが小さい部分、又は隣接するキーフレームとの間のモデルの各頂点の動きが速すぎるキーフレームなどにおいては、ブレンド率は低くなるように調整される。その結果、得られる顔画像のアニメーションはいわゆる「うるさい」アニメーションではなく、滑らかで、手作業によってキーフレーム及びそのブレンド率を調整した場合に近いアニメーションを作成することができる。
As described above, according to the visual element
[コンピュータによる実現]
上述の実施の形態は、コンピュータシステム及びコンピュータシステム上で実行されるプログラムによって実現され得る。図18はこの実施の形態で用いられるコンピュータシステム550の外観を示し、図19はコンピュータシステム550のブロック図である。ここで示すコンピュータシステム550は単なる例であって、他の構成も利用可能である。
[Realization by computer]
The above-described embodiment can be realized by a computer system and a program executed on the computer system. FIG. 18 shows the appearance of a
図18を参照して、コンピュータシステム550はコンピュータ560と、全てコンピュータ560に接続された、モニタ562と、キーボード566と、マウス568と、スピーカ558と、マイクロフォン590と、を含む。さらに、コンピュータ560はDVD−ROM(Digital Versatile Disk Read−Only−Memory:ディジタル多用途ディスク読出専用メモリ)ドライブ570と、半導体メモリドライブ572とを含む。
Referring to FIG. 18,
図19を参照して、コンピュータ560はさらに、DVD−ROMドライブ570と半導体メモリドライブ572とに接続されたバス586と、全てバス586に接続された、CPU576と、コンピュータ560のブートアッププログラムを記憶するROM578と、CPU576によって使用される作業領域を提供するとともにCPU576によって実行されるプログラムのための記憶領域となるRAM580と、音声データ、音響モデル、言語モデル、レキシコン、及びマッピングテーブルを記憶するためのハードディスクドライブ574と、ネットワーク552への接続を提供するネットワークインターフェイス596とを含む。
Referring to FIG. 19,
図5に示す発話記憶部152、トランスクリプション記憶部154、キャラクタモデル記憶部156、音響モデル記憶部170、音素−視覚素マッピングテーブル記憶部176、視覚素シーケンス記憶部180、クラスタ化顔モデル記憶部234、発話パワー記憶部240、視覚素シーケンス記憶部254などは、いずれも図19に示すハードディスクドライブ574又はRAM580により実現される。また、削除率入力部201、クラスタ処理指定部202、発話パワー使用指示入力部204、減衰率入力部206、使用指示入力部208及び減衰率入力部210等は、いずれも図18及び図19に示すモニタ562並びにキーボード566及びマウス568を用いるグラフィカルユーザインタフェースを実現するプログラムによって実現される。そのような入力のプログラムの構成は周知であるので、ここではその詳細については説明しない。
顔画像のアニメーション260の再生は、図示しないアニメーション再生プログラムによって実現される。アニメーション再生プログラム自体は、所定のタイムテーブルにしたがい、一定のフレーム間隔でフレームシーケンスを順次表示する、という機能を提供するものであればよい。
The reproduction of the
上述の実施の形態のシステムを実現するソフトウェアは、DVD−ROM582又は半導体メモリ584等の媒体に記録されたオブジェクトコードの形で流通し、DVD−ROMドライブ570又は半導体メモリドライブ572等の読出装置を介してコンピュータ560に提供され、ハードディスクドライブ574に記憶される。CPU576がプログラムを実行する際には、プログラムはハードディスクドライブ574から読出されてRAM580に記憶される。図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ、その命令が実行される。CPU576はハードディスクドライブ574から処理すべきデータを読出し、処理の結果をこれもまたハードディスクドライブ574に記憶する。スピーカ558とマイクロフォン590とは、直接に本発明とは関係ないが、スピーカ558は、作成されたアニメーションの再生時の音声の発生に必要である。発話データの収録にコンピュータシステム550を使用するときには、マイクロフォン590が必要となる。
The software for realizing the system of the above-described embodiment is distributed in the form of an object code recorded on a medium such as a DVD-
コンピュータシステム550の一般的動作は周知であるので、詳細な説明は省略する。
Since the general operation of the
ソフトウェアの流通の方法に関して、ソフトウェアは必ずしも記憶媒体上に固定されたものでなくてもよい。例えば、ソフトウェアはネットワークに接続された別のコンピュータから分配されてもよい。ソフトウェアの一部がハードディスクドライブ574に記憶され、ソフトウェアの残りの部分をネットワークを介してハードディスクドライブ574に取込み、実行の際に統合する様にしてもよい。
Regarding the software distribution method, the software does not necessarily have to be fixed on a storage medium. For example, the software may be distributed from another computer connected to the network. A part of the software may be stored in the
典型的には、現代のコンピュータはコンピュータのオペレーティングシステム(OS)によって提供される一般的な機能を利用し、所望の目的に従って制御された態様で機能を達成する。従って、OS又はサードパーティから提供されうる一般的な機能を含まず、一般的な機能の実行順序の組合せのみを指定したプログラムであっても、そのプログラムが全体として所望の目的を達成する制御構造を有する限り、そのプログラムがこの発明の範囲に包含されることは明らかである。 Typically, modern computers utilize the general functions provided by a computer operating system (OS) to achieve functions in a controlled manner according to the desired purpose. Therefore, a control structure that does not include a general function that can be provided from the OS or a third party, and that achieves a desired purpose as a whole even if the program specifies only a combination of execution orders of the general functions. It is obvious that the program is included in the scope of the present invention.
[第2の実施の形態]
<概略>
上記した第1の実施の形態により、音声を基にして滑らかな顔画像のアニメーションを作成することができる。しかし、商品としてのアニメーションでは、単に画像が滑らかであることに留まらず、様々な制約が与えられることがある。例えば、通常のアニメーションは、テレビ(30fps(frame per second))又は、映画(24fps)と同様のフレームレートで作成される。しかし、商業的なアニメーションでは、これよりも小さな(遅い)フレームレートでアニメーションを作成することが要請される場合がある。例えば、12fps、8fpsなどでアニメーションを作成することが要請される場合があり得る。こうした場合には、次のような問題が生じる。
[Second Embodiment]
<Outline>
According to the first embodiment described above, it is possible to create a smooth facial image animation based on voice. However, in an animation as a product, the image is not simply smooth, and various restrictions may be given. For example, a normal animation is created at a frame rate similar to that of a television (30 fps (frame per second)) or a movie (24 fps). However, commercial animation may require that the animation be created at a smaller (slower) frame rate. For example, it may be requested to create an animation at 12 fps, 8 fps, or the like. In such a case, the following problems arise.
第1の実施の形態に係る装置では、アニメーション作成時のフレームレートは高く設定されており、従って滑らかな映像を得ることができる。しかし、敢えて低いフレームレートでアニメーションを作成する場合には、一つのキーフレームの継続長内に複数の音素が含まれる場合が多くなる。すると、本来は複数の視覚素を含む期間内に、口の画像が1種類しか含まれないこととなる。そのため、口画像にどの視覚素を割当てればよいかが問題となる。この場合、一つのキーフレームの継続長に含まれる複数の視覚素のうちのいずれかを、そのキーフレームの視覚素に割当てることが妥当である。しかし、そうすると、場合によっては連続するキーフレームに同じ視覚素が割当てられてしまう場合があり得る。一般的に、8fpsという遅いフレームレートでアニメーションを作成する場合にも、最終的にはテレビ、映画などのフレームレートと同じフレームレートの画像を作成することになるため、連続するキーフレームに同じ視覚素が割当てられると、かなり長い期間にわたり同じ視覚素が続いてしまうということになり、アニメーションが不自然になってしまう恐れがある。 In the apparatus according to the first embodiment, the frame rate at the time of creating an animation is set high, so that a smooth video can be obtained. However, when an animation is created with a low frame rate, a plurality of phonemes are often included in the duration of one key frame. Then, originally, only one type of mouth image is included in a period including a plurality of visual elements. Therefore, it becomes a problem which visual element should be assigned to the mouth image. In this case, it is appropriate to assign one of a plurality of visual elements included in the continuation length of one key frame to the visual element of the key frame. However, in this case, the same visual element may be assigned to successive key frames in some cases. In general, when creating an animation at a slow frame rate of 8 fps, an image having the same frame rate as that of a television, movie, or the like is eventually created. If primes are assigned, the same visual element will continue for a fairly long period of time, and the animation may become unnatural.
これと関連した問題であるが、現在使用されているアニメーション作成プログラムでは、あるキーフレームと、その次のキーフレームとにそれぞれの形状を割当てると、その間に存在するフレームの映像については、これら二つのキーレフレームの映像を自動的に補間して各フレームの画像を作成するという機能が標準的に備わっている。そうした場合、キーフレーム間の画像の変化は労せずして滑らかなものとなるが、遅いフレームレートを前提として作成するアニメーションの場合には、意図したものと異なった動きが生成されることになる。遅いフレームレートの場合には、結果として作成されるアニメーションは「カクカク」とした動きをするものとなる。これは「リミット感」と呼ばれてアニメーション作成上の一つの技法とされている。そのようなリミット感を生成することが意図されたアニメーションでは、このような自動的な補間機能があるために、かえって意図したリミット感を達成することができないという問題点が生ずる。 A related problem is that in an animation creation program that is currently used, if a shape is assigned to a key frame and the next key frame, these two images are used for the images of the frames that exist between them. A function of automatically interpolating images of one key frame to create an image of each frame is provided as standard. In such a case, the change of the image between the key frames is smooth without effort, but in the case of an animation created on the assumption of a slow frame rate, a motion different from the intended one is generated. . In the case of a slow frame rate, the resulting animation will move in a “cracking” manner. This is called “limit feeling” and is one technique for creating animation. In an animation intended to generate such a limit feeling, there is a problem that the intended limit feeling cannot be achieved because of such an automatic interpolation function.
更に、人間の発話の場合、発話終端で口を開いたままにするということはよくあるが、アニメーションでは、そのような形で発話を終わらせると不自然に感じられることがある。そこで、発話の終端では必ず口を閉じるように補正することが考えられる。しかし、この場合、どのように補正すれば自然に見えるかが問題となる。 Furthermore, in the case of human speech, it is common to leave the mouth open at the end of the speech, but in animation, it may feel unnatural if the speech is terminated in such a way. Therefore, it can be considered that the mouth is always closed at the end of the utterance. However, in this case, there is a problem of how to correct it so that it looks natural.
以後に説明する第2の実施の形態に係るリップシンクアニメーション作成装置は、こうした問題を解決するためのものである。 The lip sync animation creating apparatus according to the second embodiment to be described later is for solving these problems.
−発話終端補正−
最初に、発話の終端で口を閉じるように補正するためのアニメーションの補正方法(以後この補正を「発話終端補正」と呼ぶ。)について説明する。図20を参照して、発話者の音声から得られたキーフレーム列610が、4つの連続するキーフレーム620,622,624,626を含むものとする。これらのうち、キーフレーム626は発話後の空白期間を表している。
-Speech termination correction-
First, an animation correction method for correcting the mouth to close at the end of the utterance (hereinafter, this correction will be referred to as “utterance end correction”) will be described. Referring to FIG. 20, it is assumed that a key frame sequence 610 obtained from a speaker's voice includes four consecutive
本実施の形態では、発話の終端に相当するキーフレーム624について、以下のようにしてその終端位置を調整する。
In this embodiment, the end position of the
図20を参照して、キーフレーム列610を作成するもととなった発話者の音声信号の発話パワー系列630を考える。本実施の形態では、キーフレーム624の終端位置(キーフレーム626の開始位置)からこの発話パワー系列630を時間軸上でさかのぼるようにして、キーフレーム624に相当する期間内で発話パワーが最大となる点640を探索する。次にこの点640における発話パワーの値から、所定の減衰量642(δ(dB))だけ減衰した発話パワーを算出し、同じくキーフレーム624の終端から時間軸をさかのぼって、その発話パワーが減衰後の発話パワーと等しくなる点644を探索する。この点644に相当する時間軸上の位置をキーフレーム624の終端位置とする。
Referring to FIG. 20, consider an
その結果、図20に示されるように、キーフレーム626の位置が点644の位置まで進み、新たなキーフレーム652となり、その継続長はキーフレーム624の継続長が短縮された分だけ長くなる。こうして得られたキーフレーム列650を用いてアニメーションを作成すると、発話の最後において口が閉じる時期が早くなり、アニメーションとして自然なものになる。
As a result, as shown in FIG. 20, the position of the
−フレームレート変換及び視覚素の割当処理−
次に、低いフレームレートの時に、各キーフレームにどの視覚素を割当てるか、についての本実施の形態における決定方法について説明する。図21を参照して、キーフレーム列670が、6つのキーフレーム680,682,684,686,688及び690を含むものとする。フレームレートが8fps程度に遅くなると、キーフレームの時刻はフレーム位置に固定されてしまう。すなわち、キーフレームと所定のフレームレートの画像のフレーム位置とが、図21に示されるように一致する。
-Frame rate conversion and visual element assignment processing-
Next, a description will be given of a determination method in the present embodiment as to which visual element is assigned to each key frame at a low frame rate. Referring to FIG. 21, it is assumed that a
一方、第1の実施の形態に係るリップシンクアニメーション装置によって得られたキーフレーム列672から、図21の上段に示すキーフレーム列670を生成する場合を考える。なお、キーフレーム列672は、キーフレーム700,702,704,706,708,710,712,714及び716を含むものとする。
On the other hand, consider a case where the
この場合、キーフレーム列670の各キーフレームの継続長は、キーフレーム列672の各キーフレームの継続長と比較して長くなるため、キーフレーム列670の一つのキーフレームの継続長に対し、キーフレーム列672の複数のキーフレームの視覚素が対応する。例えば、キーフレーム682に対しては、時間的に隣接する三つのキーフレーム702,704及び706の視覚素が割当てられる可能性がある。同様にキーフレーム688に対しては、キーフレーム714及び716の視覚素が割当てられる可能性がある。このように一つのキーフレームに複数の視覚素が割当てられる可能性があるときに、どの視覚素を選択すればよいかが問題となる。
In this case, since the duration of each key frame in the
ところで、実際の発話では、音声の発生を行なうに先立って口の動きが生ずるのが観察される。しがたって、音声より先にその音声に対応するように口を動かせるのが自然である。本実施の形態では、そのような考え方にしたがい、図21に示すキーフレーム列670の各キーフレームに視覚素を割当てる場合、キーフレーム列672の中で、そのキーフレームの継続長内に視覚素の始端を有するキーフレームの視覚素を割当てることとする。
By the way, in an actual utterance, it is observed that a mouth movement occurs prior to the generation of voice. Therefore, it is natural that the mouth can be moved to respond to the sound before the sound. In this embodiment, in accordance with such a concept, when visual elements are assigned to each key frame of the
例えば、図22を参照して、楕円730で示したキーフレーム682について考える。前述したように、このキーフレーム682に対しては、キーフレーム列672の三つのキーフレーム702,704及び706が対応する可能性がある。しかしこれらのうち、キーフレーム702についてはその始端がキーフレーム682の継続長内にないため、候補からは外れる。キーフレーム682の継続長内に始端を有するという条件を充足するのは、キーフレーム704及び706である。このように二つ以上の視覚素がキーフレーム682内に存在する場合、先に生ずる視覚素をこのキーフレーム682に割当てるのが自然である。したがって本実施の形態では、矢印734で示されるように、キーフレーム704の視覚素N(/m/)をキーフレーム682に割当てることとする。点線の矢印732及び736で示されるように、二つのキーフレーム702及び706の視覚素は、キーフレーム682には割当てられない。
For example, with reference to FIG. 22, consider a
ところでこうした場合、得られる映像に問題が生ずる可能性がある。例えば図22において楕円740で示すように、キーフレーム688に対し、その継続長内に始端を有するキーフレーム714及び716がある。これらのいずれもキーフレーム688の視覚素に割当てるための条件は充足している。しかし、例えば図22に示すように、その直前のキーフレーム686に対し、視覚素A(/a/)が割当てられている場合、キーフレーム688に対しキーフレーム714の視覚素A(/a/)を割当てると、二つのキーフレーム686及び688の視覚素が全く同一となってしまう。前述したようにこの場合、かなり長い時間にわたって同じ視覚素が連続してしまうため、アニメーションが不自然になるという問題点がある。
In such a case, there is a possibility that a problem occurs in the obtained image. For example, as indicated by an
そこでこうした場合には、キーフレーム714ではなく、2番目のキーフレーム716の視覚素I(/i/)をキーフレーム688に割当てることとする。
In such a case, the visual element I (/ i /) of the second
このようにすることにより、元々高速なフレームレートを想定して作成されたキーフレーム列672から、かなり低いフレームレートのキーフレーム列670を作成し、しかもそこから得られるアニメーションの顔画像に不自然さがそれほどないものを作成することができる。
In this way, a
以上のようにして、図22において実線の矢印750,734,752,754,及び744で示される視覚素がキーフレーム列670の各キーフレームに割当てられる。なお、図22においてキーフレーム列670の最後尾に示されているキーフレーム690には、キーフレーム列672の、図示されない次のキーフレームの視覚素が矢印756によって示される様に割当てられる。
As described above, visual elements indicated by
−形状安定化処理−
ところで、先ほど述べたリミット感について、図22に示すようにキーフレーム686及び688に異なる視覚素の口形状を割当てたとする。通常使用されているアニメーション作成プログラムでは、この二つのキーフレームの間のフレームの画像については、この二つのキーフレームの間の補間を行なうことによって生成するのが一般的である。その結果、意図したリミット感が得られなくなるという問題がある。この問題を図23(A)を参照して説明する。
-Shape stabilization treatment-
By the way, for the limit feeling described above, assume that different visual element mouth shapes are assigned to the
図23(A)を参照して、キーフレーム686に相当する時刻を時刻t、キーフレーム688に相当する時刻を時刻t+6とする。すなわち、この二つのキーフレームの間に、5つのフレームが存在している。時刻tでは、このキーフレーム790における視覚素/a/のブレンド率は、○印770によって示されるように100%であり、視覚素/i/のブレンド率は○印774で示されるように0%である。一方、時刻t+6では、逆に視覚素/i/のブレンド率は○印776で示されるように100%であり、視覚素/a/のブレンド率は○印772で示されるように0%となる。そしてこの間の両者のブレンド率は、ブレンド率曲線780及び782によって示されるように計算される。時刻t及び時刻t+6の間の各フレームでは、このブレンド率によってこの二つの視覚素の顔画像をブレンドした顔画像が作成される。このようなブレンドを行なうと画像は滑らかに変化するが、それによってリミット感が失われ、小さなフレームレートでアニメーションを作成するという要請を充足することができなくなるという問題点がある。
Referring to FIG. 23A, a time corresponding to
そこで本実施の形態では、図23(B)に示されるように、時刻t+6の直前のフレームに相当する時刻t+5に、時刻tにおける視覚素/a/及び/i/のブレンド率をそのままにして、キーフレーム790をキーフレーム792としてコピーする。その結果、アニメーション作成プログラムによって自動的なブレンドが行なわれる場合であっても、時刻t〜t+5の間では、直線800及び802によって示されるように視覚素/a/のブレンド率は100%、視覚素/i/のブレンド率は0%に維持される。顔画像の変化は時刻t+5〜t+6の間で行なわれることになり、上記したリミット感を達成することができる。
Therefore, in this embodiment, as shown in FIG. 23B, at the time t + 5 corresponding to the frame immediately before the
<構成>
図24に、この第2の実施の形態に係るリップシンクアニメーション作成装置810のブロック図を示す。このリップシンクアニメーション作成装置810の構成は、図5に示す第1の実施の形態に係るリップシンクアニメーション作成装置200の構成とほぼ同様であるが、図5に示すキーフレーム削除部236と選択部242との間に、前述した発話終端の補正を行なうための発話終端補正部822、及びこの発話終端補正部822の機能を利用するか否かを選択するための選択部820及び824を更に含む点と、継続長付き視覚素シーケンス記憶部254の出力を受けるように接続され、継続長付き視覚素シーケンスのフレームレートを、フレームレート入力832によって指定されたフレームレートに変換するためのフレームレート変換部840と、フレームレート変換部840の出力する視覚素シーケンスについて、アニメーション作成プログラムによるブレンドによってリミット感が失われるのを防ぐための形状安定化処理を実行するための形状安定化処理部842と、形状安定化処理部842の出力するフレームレート変換後の継続長付き視覚素シーケンスを記憶するための継続長付き視覚素シーケンス記憶部846と、継続長付き視覚素シーケンス記憶部254及び846の出力にそれぞれ接続された第1及び第2の入力を有し、フレームレート変換を使用するか否かを指定する使用指示入力830の指示にしたがい、継続長付き視覚素シーケンス記憶部254の出力又は継続長付き視覚素シーケンス記憶部846の出力のいずれかを選択してブレンド処理部256に与えるための選択部848とを含む点において、図5に示すリップシンクアニメーション作成装置200と異なっている。
<Configuration>
FIG. 24 shows a block diagram of a lip sync
なお、図24に示す選択部820及び824は、発話終端補正を行なうか否かを指定する使用指示入力826にしたがって、キーフレーム削除部236の出力を発話終端補正部822を経由して選択部242に与える処理と、発話終端補正部822を経由せず直接に選択部242に与える処理とを選択的に行なう。また発話終端補正部822には、図20を参照して説明した減衰率δ(dB)の入力828が与えられる。使用指示入力826と使用指示入力830とは、互いに同一の指示を用いるようにしてもよい。
Note that the
既に述べたように、このリップシンクアニメーション作成装置810の発話終端補正部822、フレームレート変換部840、及び形状安定化処理部842は、コンピュータハードウェアと、そのハードウェア上で実行されるコンピュータプログラムとにより実現され得る。以下、それらプログラムの制御構造について説明する。
As described above, the utterance
図25は、発話終端補正部822を実現するためのコンピュータプログラムの制御構造を示すフローチャートである。
FIG. 25 is a flowchart showing a control structure of a computer program for realizing the utterance
図25を参照して、このプログラムは、キーフレーム削除部236から出力されるキーフレーム列のうち、未処理の発話終端を探すステップ870と、未処理の発話終端があったか否かを判定し、発話終端がない場合には処理を終了し、発話終端があった場合には次のステップに制御を移す判定ステップ872と、未処理の発話終端があると判定ステップ872で判定された場合に、その発話終端の直前のキーフレームの視覚素継続長内の音声パワーの最大値Pmaxを求めるステップ874とを含む。
Referring to FIG. 25, the program determines whether there is an unprocessed utterance end in
ステップ870における未処理の発話終端を探す処理は、空白の視覚素が割当てられたキーフレームの直前の、空白以外の視覚素の割当てられたキーフレームを探すことにより行なわれる。ステップ874で行なわれる最大値Pmaxを求める処理については、図20を参照して説明した通りである。ここでいう最大値Pmaxを与える点は、図20における点640に相当する。
The process of searching for an unprocessed utterance end in
このプログラムは更に、ステップ874の後、処理中の視覚素継続長の終端からさかのぼり、音声パワーがPmax-δ(dB)となる最初の時間tを求めるステップ876と、そのような条件を充足する点があるか否かを判定し、条件を充足する点がない場合にはステップ870に分岐し、条件を充足する点がある場合には次のステップに処理を分岐させるステップ878と、ステップ878において条件を充足する点があると判定されたことに応答して実行され、その視覚素継続長の終端を、ステップ876で発見された時間tに変更し、あわせてその直後のキーフレームの始端を同じく時間tに変更する処理を行なうステップ880とを含む。ステップ880の後、制御はステップ870に戻る。ステップ876で求める時間tの点は、図20で説明した点644に相当する。
The program further satisfies such a condition,
図26は、図24に示すフレームレート変換部840を実現するためのコンピュータプログラムの制御構造を示すフローチャートである。図26を参照して、このプログラムは、以後の繰返し処理において処理対象のキーフレーム数を表す変数iに値0を設定するステップ900と、変数iに1を加算するステップ902と、ステップ902での加算処理の結果、変数iが全てのキーフレームの数より大きくなったか否かを判定し、大きくなった場合にはこの処理を終了し、それ以外の場合には次のステップに制御を分岐させるステップ904とを含む。
FIG. 26 is a flowchart showing a control structure of a computer program for realizing the frame
このプログラムは更に、ステップ904において、変数iがキーフレーム数より大きくないと判定されたことに応答して実行され、i番目のキーフレーム(以後このキーフレームを「キーフレーム(i)」と書く。)の継続長内に始端が含まれる視覚素を探すステップ906と、ステップ906で見つけられた視覚素の数Nが0か否かを判定し、その結果によって処理を分岐させるステップ908と、ステップ908で、視覚素の数N=0と判定されたことに応答して実行され、キーフレーム(i)を破棄する処理を行ない、更にステップ902に制御を戻すステップ910と、ステップ908によって視覚素の数Nが0でないと判定されたことに応答して実行され、視覚素の数Nが1か否かを判定し、その判定結果にしたがって制御を分岐させる処理を行なうステップ912と、ステップ912において視覚素の数Nが1であると判定されたことに応答して実行され、キーフレーム(i)に、ステップ906で見つけられた視覚素(この視覚素はこの場合一つしかないのでこれを視覚素(1)と書く。)を割当て、制御をステップ902に戻すステップ914と、ステップ912において視覚素の数Nが1でないと判定されたことに応答して実行され、以後の処理でキーフレーム(i)の継続長内に始端が含まれる視覚素の、先頭からの数を表す変数jに0を設定するステップ916とを含む。
The program is further executed in response to determining in
このプログラムは更に、ステップ916に引き続いて、変数jに1を加算するステップ918と、ステップ918での加算の結果、変数jの値が、キーフレーム(i)内の視覚素の数Nより大きくなったか否かを判定し、その判定結果にしたがって制御を分岐するステップ920と、ステップ920において変数jの値が視覚素の数Nより大きいと判定されたことに応答して実行され、キーフレーム(i)に、キーフレーム(i)内に始端を有する先頭の視覚素(視覚素(1))を割当て、制御をステップ902に戻すステップ922と、ステップ920において変数jの値が視覚素の数Nより大きくはないと判定されたことに応答して実行され、キーフレーム(i)内のj番目の視覚素(これを「視覚素(j)」と書く。)が、一つ前のキーフレーム(キーフレーム(i−1))の視覚素と同一か否かを判定し、その判定結果にしたがって制御を分岐させるステップ924とを含む。
The program further includes
ステップ924において、視覚素(j)がキーフレーム(i−1)の視覚素と一致すると判定された場合には、制御はステップ918に戻り、それ以外の場合には制御は次に進む。
If it is determined in
このプログラムは更に、ステップ924において視覚素(j)がキーフレーム(i−1)の視覚素ではないと判定されたことに応答して実行され、キーフレーム(i)に視覚素(j)を割当て、更に制御をステップ902に戻す処理を行なうステップ926を含む。
The program is further executed in response to determining in
図27に、図24に示す形状安定化処理部842を実現するためのプログラムの制御構造をフローチャート形式で示す。図27を参照して、このプログラムは、以後の処理において処理対象となるキーフレームの番号を表す変数iに1を設定するステップ950と、変数iに1を加算するステップ952と、ステップ952での加算処理の結果、変数iの値が処理対象のキーフレーム数より大きくなったか否かを判定し、変数iの値がキーフレーム数を上回った場合に処理を終了させるステップ954と、ステップ954において変数iの値がキーフレーム数を上回ってはいないと判定されたことに応答して実行され、キーフレーム(i)の直前のフレームに、キーフレーム(i-1)をコピーして新たなキーフレームとする処理を行ない、その後ステップ952に制御を戻す処理を行なうステップ956等を含む。
FIG. 27 shows a control structure of a program for realizing the shape
<動作>
図24に示すリップシンクアニメーション作成装置810は以下のように動作する。以下の説明では、使用指示入力826と830とは、同一の値をリップシンクアニメーション作成装置810に指示するものとする。使用指示入力826及び830が、発話終端補正部822による処理、フレームレート変換部840による処理、及び形状安定化処理部842による処理を使用しないことを指定する値である場合、選択部820及び824はキーフレーム削除部236の出力を選択部242の入力に直接に与える。選択部848は、継続長付き視覚素シーケンス記憶部254の出力をブレンド処理部256に与える。したがってこの場合リップシンクアニメーション作成装置810の構成は事実上図5に示すリップシンクアニメーション作成装置200と同一となり、リップシンクアニメーション作成装置200と同様の動作を行なう。
<Operation>
The lip sync
使用指示入力826及び830が、発話終端補正部822、フレームレート変換部840、及び形状安定化処理部842を使用することを指定する値である場合、選択部820はキーフレーム削除部236の出力を発話終端補正部822に与える。発話終端補正部822の出力は選択部824を介して選択部242の入力に与えられる。
When the
一方、選択部848は、継続長付き視覚素シーケンス記憶部254の出力ではなく、継続長付き視覚素シーケンス記憶部846の出力を選択し、ブレンド処理部256に与える。フレームレート変換部840は、フレームレート入力832に応答し、継続長付き視覚素シーケンス記憶部254に記憶された視覚素シーケンスを順に読出し、図21及び図22に示した手法を用いてフレームレートを変換し、さらに各フレームに視覚素を割当てて、フレームレート変換後の視覚素シーケンスを形状安定化処理部842に与える。形状安定化処理部842は、フレームレート変換部840から出力される視覚素シーケンスの中で、各キーフレームを、次のキーフレームの直前のフレームにコピーする処理を行なう。この処理は図23に示した通りである。この処理を全てのキーフレームに対して行なった後、その結果を継続長付き視覚素シーケンス記憶部846に出力する。
On the other hand, the
既に述べたように選択部848は継続長付き視覚素シーケンス記憶部846の出力を選択してブレンド処理部256に与える。ブレンド処理部256は、継続長付き視覚素シーケンス記憶部846に記憶されたキーフレーム列を読込み、隣接するキーフレームの間で、それぞれ指定されたブレンド率をその間のフレームに内挿することにより、アニメーションを作成して出力する。こうして作成されるアニメーション260のフレームレートは、テレビ又は映画のフレームレートと同じフレームレートであるが、フレームレート変換部840によってキーフレームが削除され、更に形状安定化処理部842によって、隣接するキーフレーム間でのアニメーションの内挿を防止するように形状安定化処理が行なわれているため、実質的にフレームレート入力832で指定されたフレームレートの値にしたがった低いフレームレートのアニメーションと同様のリミット感を得ることができる。
As described above, the
[第3の実施の形態]
<概略>
上記した第1及び第2の実施の形態により、視覚素/A/、/I/、/U/、/E/、/O/、及び/N/(以下「標準視覚素」と呼び、これらに対応する音素を「標準音素」と呼ぶ。)に基づいた顔画像のアニメーションを作成することができる。しかし、日本語の場合、視覚素は標準視覚素を含めて十数種類あるので(/K/、/S/、/T/等)、標準視覚素のみでは、日本語の滑らかなアニメーションを作成するには十分ではない可能性がある。また、上記実施の形態において、標準視覚素のための顔画像は予め用意されていたが、他の視覚素も用いて日本語のアニメーションを作成するのであれば、準備しなければならない顔画像の数が増加する。こうした顔画像のための顔モデルは、アニメーション作成に使用する基準となる標準顔モデルに対して手作業で編集を加えて作成するため、多くの視覚素のための顔画像を用意するのは困難である。英語、中国語等のような外国語のアニメーションを作成するときには、さらに異なる視覚素について顔画像を作成しなくてはならず、したがってさらに困難になる。
[Third Embodiment]
<Outline>
According to the first and second embodiments described above, visual elements / A /, / I /, / U /, / E /, / O /, and / N / (hereinafter referred to as “standard visual elements”, these The phoneme corresponding to is called a “standard phoneme”). However, in the case of Japanese, there are more than ten types of visual elements including standard visual elements (/ K /, / S /, / T /, etc.), so a smooth animation in Japanese is created with only standard visual elements. May not be enough. In the above embodiment, the face image for the standard visual element has been prepared in advance. However, if a Japanese animation is to be created using another visual element, the face image to be prepared must be prepared. The number increases. Because the face model for these face images is created by manually editing the standard face model that is used as a reference for animation creation, it is difficult to prepare face images for many visual elements. It is. When creating a foreign language animation such as English, Chinese, etc., face images must be created for different visual elements, and therefore more difficult.
以後に説明する第3の実施の形態に係るリップシンクアニメーション作成装置は、標準視覚素と、標準視覚素以外の視覚素(以下、これらを「一般視覚素」と呼ぶ。)とを含む視覚素群を用いた日本語のリップシンクアニメーションの作成、及びその多言語への拡張のためのものである。 A lip-sync animation creating apparatus according to a third embodiment described below includes a visual element including a standard visual element and a visual element other than the standard visual element (hereinafter referred to as “general visual element”). This is for creating Japanese lip-sync animations using groups and extending them to multiple languages.
<構成>
図28に、この第3の実施の形態に係るリップシンクアニメーション作成装置1000のブロック図を示す。図28に示すこのリップシンクアニメーション作成装置1000の構成は、図24に示す第2の実施の形態に係るリップシンクアニメーション作成装置810の構成とほぼ同様であるが、標準視覚素のみではなく、一般視覚素も用いて日本語の顔画像のアニメーション260を作成するためのものである点において、図24に示すリップシンクアニメーション作成装置810と異なっている。
<Configuration>
FIG. 28 shows a block diagram of a lip sync
具体的には、リップシンクアニメーション作成装置1000は、図24に示す音素−視覚素マッピングテーブル記憶部176に代え、それと同様の構成ではあるが、日本語の音素の各々に対し、標準視覚素と、それ以外の視覚素とを含む視覚素群の中から、一つの視覚素を関連付ける点で図24に示す音素−視覚素マッピングテーブル記憶部176と異なる音素−視覚素マッピングテーブルを記憶するための音素−視覚素マッピングテーブル記憶部1002を含む点と、図24に示す、標準視覚素に対応した顔モデル(以下「標準視覚素モデル」と呼ぶ。)を格納した3Dキャラクタモデル記憶部156に代えて、標準視覚素だけでなく、それ以外の日本語の視覚素のための、標準顔モデルを基準とした顔モデル(以下「一般視覚素モデル」と呼ぶ。)からなる3Dキャラクタモデルを記憶する3Dキャラクタモデル記憶部1004を含む点とにおいて図24に示すリップシンクアニメーション作成装置810と異なっている。
Specifically, the lip sync
リップシンクアニメーション作成装置1000はさらに、ある発話者が日本語の文を発音しているときにキャプチャした、顔の特徴点の3次元データ(以下「キャプチャデータ」と呼ぶ。)を、そのとき発音していた音素と関連付けて記憶するキャプチャデータ記憶部1006と、標準視覚素モデルを記憶した標準視覚素モデル記憶部1008と、キャプチャデータ記憶部1006に記憶されたキャプチャデータ及び標準視覚素モデル記憶部1008に記憶された標準視覚素モデルを使用して、標準音素以外の音素(/k/、/s/、/t/等)に対応するキャプチャデータの各々を、標準音素に対応するキャプチャデータの線形和で近似するための係数を算出するための係数算出部1010と、係数算出部1010により算出された係数を用いて、標準視覚素モデル記憶部1008に記憶された標準視覚素モデルの線形和で一般視覚素モデルを表し、標準視覚素モデルと一般視覚素モデルとを使用して3Dキャラクタモデルを作成してキャラクタモデル記憶部1004に格納するためのキャラクタモデル合成部1012とを含む点において、図24に示すリップシンクアニメーション作成装置810と異なっている。
The lip sync
一般視覚素の数をいくつにするか、一般視覚素として、どのようなものを選択するか、及び日本語の各音素を標準視覚素及び一般視覚素のうちのどの視覚素と対応付けるかは設計事項に属する。ただし、標準音素は常に標準視覚素に対応付ける必要がある。 Design how many general visual elements, how to select as general visual elements, and which visual element of Japanese visual elements to associate with each Japanese phoneme Belongs to matter. However, it is necessary to always associate standard phonemes with standard visual elements.
図29を参照して、図28のキャプチャデータ記憶部1006に記憶されたキャプチャデータ、及び標準視覚素モデル記憶部1008に記憶された標準視覚素モデルを使用して、標準視覚素モデルによる線形和で一般視覚素モデルを近似するための係数を求める処理について説明する。
Referring to FIG. 29, using the capture data stored in capture
図29を参照して、キャプチャデータ記憶部1006に、日本語の音素/a/、/i/、/u/、/e/、/o/、/n/、/k/、/s/、/t/、/h/、及び/b/等を発話しているときの発話者の顔のキャプチャデータである、
Referring to FIG. 29, the capture
図29を参照して、標準視覚素モデル記憶部1008は、標準視覚素モデルである/A/、/I/、/U/、/E/、及び/O/を、基準となる視覚素モデル/N/からの、各特徴点の移動ベクトルの集合という形で記憶している。これら視覚素モデルはいずれも、アニメーションのキャラクタとして使用される標準視覚素モデルについて作成されたものである。
Referring to FIG. 29, standard visual element
係数算出部1010の機能は以下のとおりである。ここでは、例として、キャプチャデータ記憶部1006に記憶されているキャプチャデータから、音素/k/に対応付けられた、アニメーション作成のための一般視覚素モデル/K/を求める方法について説明する。
The function of the
一般視覚素モデル/〜K/を以下のように定式化する。 The general visual element model / ˜K / is formulated as follows.
これらM個のベクトルの線形和の等式の全てに関して算出したεKの自乗和が最小となるような、〜αKA、〜αKI、〜αKU、〜αKE、及び〜αKOを算出する。算出された〜αKA、〜αKI、〜αKU、〜αKE、及び〜αKOの値をそれぞれαKA、αKI、αKU、αKE、及びαKOとする。係数算出部1010が行なう処理は、この係数を算出することである。
Calculate ~ α KA , ~ α KI , ~ α KU , ~ α KE , and ~ α KO such that the sum of squares of ε K calculated for all of these M vector linear sum equations is minimized. To do. The calculated values of ˜α KA , ˜α KI , ˜α KU , ˜α KE , and ˜α KO are taken as α KA , α KI , α KU , α KE , and α KO , respectively. The processing performed by the
キャラクタモデル合成部1012の機能は、係数算出部1010により算出されたこれら係数αKA、αKI、αKU、αKE、及びαKOを用いて、一般視覚素モデルを構成する特徴点の各々の位置を表す3次元ベクトルの値を、標準視覚素モデルの線形和として算出し、キャラクタモデル記憶部1004に格納することである。
The function of the character
以下では、音素/k/に対応付ける、アニメーション作成のための一般視覚素モデル/K/を算出する場合を例としてキャラクタモデル合成部1012の機能を説明する。キャラクタモデル合成部1012は、一般視覚素モデル/K/を次の式にしたがって算出する。
Hereinafter, the function of the character
キャラクタモデル合成部1012は、同様にして、一般視覚素モデル/S/、/T/、/H/、及び/B/等を、標準視覚素モデル/A/、/I/、/U/、/E/及び/O/の線形和として求める。
Similarly, the character
そのようにして求められた一般視覚素モデルを、標準視覚素モデルとともにキャラクタモデル記憶部1004に記憶させる。
The general visual element model thus obtained is stored in the character
テーブル7に、音素−視覚素マッピングテーブル記憶部1002に記憶されたマッピングテーブルの例を示す。 Table 7 shows an example of the mapping table stored in the phoneme-visual element mapping table storage unit 1002.
<動作>
以上、構成を説明したリップシンクアニメーション作成装置1000は以下のように動作する。図28に示すリップシンクアニメーション作成装置1000の動作は、図24に示すリップシンクアニメーション作成装置810とほぼ同様であり、使用する日本語用3Dキャラクタモデルのみが異なっている。したがって、以下においては、本実施の形態において追加された、一般視覚素モデルを含む3Dキャラクタモデルを作成する際のリップシンクアニメーション作成装置1000の動作についてのみ詳細を述べ、それ以外の動作に関する説明は概略にとどめて、その詳細な説明は繰返さない。
<Operation>
The lip sync
本実施の形態に係るリップシンクアニメーション作成装置1000では、顔画像のアニメーション260の作成のためには、音素−視覚素マッピングテーブルの作成と、一般視覚素モデルを含む3Dキャラクタモデルの作成という準備作業が必要である。以下それらの準備作業について述べる。
In the lip-sync
−音素−視覚素マッピングテーブル1002の作成−
日本語の音素と、視覚素とを手作業で対応付け、機械可読な形式の音素−視覚素マッピングテーブルを作成し、音素−視覚素マッピングテーブル記憶部1002に記憶させる。このとき、第2の実施の形態と異なり、標準音素以外の音素を標準視覚素に対応付けなければならないわけではない。任意の音素を標準視覚素以外の視覚素(一般視覚素)に対応付けてもよい。こうして作成された音素−視覚素マッピングテーブルの一例が上記したテーブル7である。
-Creation of phoneme-visual element mapping table 1002-
A Japanese phoneme and a visual element are manually associated with each other to create a machine-readable phoneme-visual element mapping table and store it in the phoneme-visual element mapping table storage unit 1002. At this time, unlike the second embodiment, phonemes other than standard phonemes do not have to be associated with standard visual elements. An arbitrary phoneme may be associated with a visual element other than the standard visual element (general visual element). An example of the phoneme-visual element mapping table created in this way is the table 7 described above.
−日本語用3Dキャラクタモデル記憶部1004の作成−
係数算出部1010及びキャラクタモデル合成部1012は、以下のようにして標準視覚素モデルとともに一般視覚素モデルも含む3Dキャラクタモデルを作成する。ここで作成の対象となる一般視覚素モデルは、上記した音素−視覚素マッピングテーブルで音素と対応付けられた視覚素の全てである。
-Creation of Japanese 3D character model storage unit 1004-
The
図29を参照して、係数算出部1010は、音素−視覚素マッピングテーブルで音素に対応付けられている任意の音素−視覚素のペアを選択し、キャプチャデータ記憶部1006に記憶されているキャプチャデータのうち、選択されたペアの音素のラベルが付されたキャプチャデータ(これを便宜上「合成対象キャプチャデータ」と呼ぶ。)を読出す。係数算出部1010はさらに、キャプチャデータ記憶部1006に記憶されているキャプチャデータのうち、標準音素に対応するキャプチャデータを全て読出す。そして、既に述べたように、合成対象キャプチャデータを、標準音素に対応するキャプチャデータの線形和で近似するための係数を算出する。そして、この係数群に、合成対象キャプチャデータの音素と対応付けられている視覚素のラベルを付してキャラクタモデル合成部1012に与える。
Referring to FIG. 29,
係数算出部1010は、これと同様の処理を、音素−視覚素マッピングテーブル記憶部1002に記憶されている音素−視覚素マッピングのうち、一般視覚素を含むもの全てについて繰返す。
The
キャラクタモデル合成部1012は、係数算出部1010から与えられる係数群及び視覚素ラベルに基づき、次のような処理を行なう。すなわち、キャラクタモデル合成部1012は、与えられた視覚素ラベルに対応する一般視覚素モデルを、標準視覚素モデル記憶部1008に記憶された標準視覚素の線形和で表し、このとき、その係数として係数算出部1010から与えられた係数を使用する。この結果、与えられた視覚素ラベルに対応する一般視覚素モデルが、標準視覚素モデルの線形和として表される。
The character
キャラクタモデル合成部1012は、係数算出部1010から与えられる係数群及び視覚素ラベルからなる全ての組に対して上記した処理を繰返し、結果をキャラクタモデル記憶部1004に記憶させる。キャラクタモデル記憶部1004に記憶される一般視覚素モデルには、該当する視覚素ラベルが付されている。
The character
キャラクタモデル合成部1012はまた、標準視覚素モデル記憶部1008に記憶されている標準視覚素モデルも、対応する視覚素ラベルを付してキャラクタモデル記憶部1004に記憶させる。
The character
以上の処理により、日本語用の3Dキャラクタモデルが完成する。 With the above processing, a 3D character model for Japanese is completed.
3Dキャラクタモデルが完成すると、後のリップシンクアニメーション作成装置1000の動作は、第2の実施の形態に係るリップシンクアニメーション作成装置810と異なるところがない。ただし、アニメーションのキーフレームに使用される顔画像として、標準視覚素モデルから得られたものだけでなく、一般視覚素モデルから得られたものも使用できる。このため、作成されるリップシンクアニメーションは、第2の実施の形態において得られたものよりもさらに滑らかなものとなる。
When the 3D character model is completed, the subsequent operation of the lip sync
[多言語への拡張]
上述の第3の実施の形態の説明においては、リップシンクアニメーション作成装置1000が日本語のアニメーションを作成するための装置であることを前提としていた。しかし、実は上記第3の実施の形態における日本語用3Dキャラクタモデルの作成方法は、英語、中国語等、日本語と異なる言語のアニメーションの作成にも、日本語の標準音素及び標準視覚素モデルを用いて拡張することができる。そして、そのような3Dキャラクタモデルを使用する限り、リップシンクアニメーション作成装置1000においてリップシンクアニメーションを作成する部分の構成の基本的部分はそのまま使用することができる。
[Extension to multiple languages]
In the description of the third embodiment described above, it is assumed that the lip sync
例えば、英語のアニメーションを作成する場合における考え方を説明する。使用される言語が英語であるため、図28に示すリップシンクアニメーション作成装置1000において、次のような変更が必要となる。発話者が異なることを前提とすると、音響モデル記憶部170に記憶される音響モデルを英語の話者に対応したものに変更する必要がある。当然、アニメーション作成のための発話記憶部152及びトランスクリプション記憶部154も変わってくる。音素−視覚素マッピングテーブル記憶部1002についても、英語の音素とその音素の発音時の視覚素とに基づいて新たに作成する必要がある。話者が異なることが前提となっているため、キャプチャデータ記憶部1006に記憶されるキャプチャデータも英語の発話者から収録したものとする必要がある。
For example, the concept for creating an English animation will be described. Since the language used is English, the following changes are required in the lip sync
そしてこの場合、キャラクタモデル記憶部1004に記憶される3Dキャラクタモデルは以下のようにして作成する。図30に、英語のアニメーションを作成するための3Dキャラクタモデルを準備するための方法について説明する。
In this case, the 3D character model stored in the character
図30を参照して、この場合には、図29に示すキャプチャデータ記憶部1006には、英語の発話時の発話者の顔の特徴点の位置を表すキャプチャデータを準備する。このキャプチャデータは、頭部の揺動によるグローバルな座標変動を補正により除去した後、無音時のキャプチャデータを基準として、各特徴点が無音時の位置からどの程度移動したかによって表される。このキャプチャデータの中には、日本語の標準音素に相当する音素の発話時のキャプチャデータも含まれるものとする。
Referring to FIG. 30, in this case, the capture
係数算出部1010は、音素−視覚素マッピングテーブル記憶部1002に記憶されている英語の音素−視覚素マッピングを参照し、そこに出現している音素−視覚素の組合わせごとに、その音素のラベルが付されているキャプチャデータを、日本語の標準音素に相当する音素の発話時のキャプチャデータの線形和で近似するよう、その係数群を最小自乗基準で決定する。音素−視覚素マッピングテーブルに出現する全ての音素について、この係数群を用いた線形和で一般視覚素モデルを作成し、標準視覚素モデルとともにキャラクタモデル記憶部1004に記憶し、対応する視覚素ラベルを付しておく。
The
以上のように、英語用の音素−視覚素マッピングテーブルを準備し、英語用3Dキャラクタモデルを準備し、英語用の発話者用の音響モデル記憶部170を準備し、英語の発話記憶部152とそのトランスクリプション記憶部154とを準備すると、後は第3の実施の形態において日本語のリップシンクアニメーションを作成した場合と全く同様に、英語のリップシンクアニメーションを作成することができる。キャラクタモデル記憶部1004に記憶された一般視覚素は全て日本語の標準視覚素の線形和で表されたものであるが、その線形和は英語のキャプチャデータに基づいて求められたものであるため、英語の発話時の顔画像をよく再現することができる。
As described above, an English phoneme-visual element mapping table is prepared, an
以上の説明は日本語の標準顔モデルを用いて英語のリップシンクアニメーションを作成する場合に関するものであった。しかし、以上の説明から明らかなように、第3の実施の形態に係るリップシンクアニメーション作成装置1000は、そのような言語の組合せのみに限定的に適用可能なわけではない。任意の言語の組合せに対し、それらの発話時の発話者の顔画像の3次元の位置を表すキャプチャデータが得られれば、全く同様にしてこのリップシンクアニメーション作成装置1000を適用してリップシンクアニメーションを作成できる。
The above description relates to the case of creating an English lip sync animation using a standard Japanese face model. However, as is apparent from the above description, the lip sync
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
40 話者
42 音声信号
44 台本
50〜58 音素
60〜68,80 顔画像
152 発話記憶部
154 トランスクリプション記憶部
156,1004 キャラクタモデル記憶部
170 音響モデル記憶部
172 音素セグメンテーション部
174 音素シーケンス記憶部
176,1002 音素−視覚素マッピングテーブル記憶部
178 音素−視覚素変換処理部
180,254 視覚素シーケンス記憶部
182 アニメーション作成部
200,810,1000 リップシンクアニメーション作成装置
202 クラスタ処理指定部
204 発話パワー使用指示入力部
230 視覚素シーケンス作成部
232 クラスタリング処理部
234 クラスタ化顔モデル記憶部
236 キーフレーム削除部
238 発話パワー算出部
240 発話パワー記憶部
244 発話パワーによるブレンド率調整部
250 頂点速度によるブレンド率調整部
256 ブレンド処理部
260 顔画像のアニメーション
610,650,670,672 キーフレーム列
620,622,624,626,680,682,684,686,688,690,700,702,704,706,708,710,712,714,716,790,792 キーフレーム
822 発話終端補正部
840 フレームレート変換部
842 形状安定化処理部
1006 キャプチャデータ記憶部
1008 標準視覚素モデル記憶部
1010 係数算出部
1012 キャラクタモデル合成部
40
Claims (21)
前記統計的音響モデル、前記マッピング定義、及び前記発話データに対するトランスクリプションを使用して、前記発話データに含まれる音素及び対応する視覚素を求め、デフォルトのブレンド率が付与された継続長付きの視覚素シーケンスを作成するための視覚素シーケンス作成手段を含み、前記視覚素シーケンスの継続長内の所定位置にはキーフレームが定義され、前記視覚素シーケンスの各視覚素の継続長内に定義されるキーフレームによりキーフレームシーケンスが定義され、
前記リップシンクアニメーション作成装置はさらに、前記キーフレームシーケンス内のキーフレームのうち、隣接するキーフレームとの間で、視覚素に対応する顔モデルとの間の変化の速さが最も大きいものから順番に、所定の割合のキーフレームを削除するためのキーフレーム削除手段と、
前記キーフレーム削除手段により一部のキーフレームが削除されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成するためのブレンド処理手段とを含む、リップシンクアニメーション作成装置。 Input using a statistical acoustic model prepared in advance, a mapping definition between phonemes and visual elements prepared in advance, and face models of a plurality of facial images prepared in advance corresponding to the visual elements. A lip sync animation creation device for creating a lip sync animation from utterance data,
Using the statistical acoustic model, the mapping definition, and the transcription for the utterance data, a phoneme and a corresponding visual element included in the utterance data are obtained, and a duration with a default blend rate is given. A visual element sequence generating means for generating a visual element sequence, wherein a key frame is defined at a predetermined position within the duration of the visual element sequence, and is defined within the duration of each visual element of the visual element sequence Keyframe sequence is defined by the keyframe
The lip-sync animation creating device further includes, in order from the highest speed of change between the key frames in the key frame sequence and the face model corresponding to the visual element, between the adjacent key frames. And a key frame deleting means for deleting a predetermined percentage of key frames,
A lip sync animation creating apparatus, comprising: blend processing means for creating an animation of a face image by blending between key frames based on a key frame sequence in which some key frames are deleted by the key frame deleting means.
前記2個の顔モデルの特徴点を、前記動きベクトル算出手段により算出された動きベクトルに対する所定のクラスタリング方法によってクラスタ化し、各クラスタの代表ベクトルを算出することにより、クラスタ化された顔モデルを作成するための手段と、
前記クラスタ化された顔モデルを記憶するためのクラスタ化顔モデル記憶手段とをさらに含み、
前記キーフレーム削除手段は、
前記キーフレームシーケンス内のキーフレームの各々に対し、当該キーフレームの視覚素と、隣接するキーフレームの視覚素との組合せに対応するクラスタ化された顔モデルを前記クラスタ化顔モデル記憶手段から読出し、各クラスタに属する特徴点のキーフレーム間の変化の速さを当該クラスタの代表ベクトルを用いて算出するための移動量算出手段と、
前記移動量算出手段により算出された変化の速さが最も大きいものから順番に、所定の割合のキーフレームを前記キーフレームシーケンスから削除するための手段とを含む、請求項1に記載のリップシンクアニメーション作成装置。 Motion vector calculating means for calculating a motion vector between feature points constituting the face model for all combinations of two face models selected from the plurality of face models;
The feature points of the two face models are clustered by a predetermined clustering method for the motion vector calculated by the motion vector calculating means, and a representative vector of each cluster is calculated to create a clustered face model Means for
Clustered face model storage means for storing the clustered face model;
The key frame deletion means includes
For each key frame in the key frame sequence, a clustered face model corresponding to a combination of a visual element of the key frame and a visual element of an adjacent key frame is read from the clustered face model storage means. A moving amount calculating means for calculating the speed of change between key frames of feature points belonging to each cluster using a representative vector of the cluster;
2. The lip sync according to claim 1, further comprising: means for deleting a predetermined percentage of key frames from the key frame sequence in order from the highest speed of change calculated by the movement amount calculating means. Animation creation device.
前記キーフレームシーケンス内の各キーフレームに対し、前記発話パワー算出手段により、当該キーフレームを含む視覚素の継続長について算出された平均発話パワーが小さければ小さいほどブレンド率が小さくなるような所定の関数により、ブレンド率を調整するための、発話パワーによるブレンド率調整手段とをさらに含み、
前記ブレンド処理手段は、前記発話パワーによるブレンド率調整手段によってブレンド率が調整されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成する、請求項1に記載のリップシンクアニメーション作成装置。 The utterance power for receiving the key frame sequence in which some key frames are deleted by the key frame deletion means and calculating the utterance power of the phoneme corresponding to the visual element of the key frame in the key frame sequence from the utterance data A calculation means;
For each key frame in the key frame sequence, a predetermined value is set such that the smaller the average utterance power calculated by the utterance power calculation means for the duration of the visual element including the key frame, the smaller the blend rate. And a blend rate adjusting means by utterance power for adjusting the blend rate by a function,
2. The lip sync animation according to claim 1, wherein the blend processing unit creates an animation of a face image by blending between key frames based on a key frame sequence in which the blend rate is adjusted by the blend rate adjusting unit based on the speech power. Creation device.
前記キーフレーム削除手段により一部のキーフレームが削除されたキーフレームシーケンスに含まれる各キーフレームのうち、前記変化の速さ算出手段により算出された変化の速さが所定のしきい値よりも大きなキーフレームについて、そのブレンド率が、より小さな値となるような所定の関数を用いてブレンド率を更新するための頂点速度によるブレンド率調整手段とをさらに含み、
前記ブレンド処理手段は、前記頂点速度によるブレンド率調整手段によってブレンド率が調整されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成する、請求項1に記載のリップシンクアニメーション作成装置。 Receiving a key frame sequence in which some of the key frames have been deleted by the key frame deleting means, and forming a face model corresponding to the visual element of the key frame and a face model corresponding to the visual element of the adjacent key frame A speed of change calculation means for calculating the speed of change between the vertices constituting
Of the key frames included in the key frame sequence in which some key frames have been deleted by the key frame deletion means, the change speed calculated by the change speed calculation means is higher than a predetermined threshold value. A blend rate adjusting means by vertex speed for updating the blend rate using a predetermined function such that the blend rate becomes a smaller value for a large key frame,
2. The lip sync animation according to claim 1, wherein the blend processing unit creates an animation of a face image by blending between key frames based on a key frame sequence whose blend rate is adjusted by the blend rate adjusting unit based on the vertex speed. Creation device.
前記2個の顔モデルの特徴点を、前記動きベクトル算出手段により算出された動きベクトルに対する所定のクラスタリング方法によってクラスタ化し、各クラスタの代表ベクトルを算出することにより、クラスタ化された顔モデルを作成するための手段と、
前記クラスタ化された顔モデルを記憶するためのクラスタ化顔モデル記憶手段とをさらに含み、
前記リップシンクアニメーション作成装置はさらに、
前記キーフレーム削除手段により一部のキーフレームが削除されたキーフレームシーケンスを受け、各キーフレームのうち、当該キーフレームの視覚素と、隣接するキーフレームの視覚素との組合せに対応するクラスタ化された顔モデルの組合せを前記クラスタ化顔モデル記憶手段から読出し、各クラスタに属する特徴点のキーフレーム間の変化の速さを当該クラスタの代表ベクトルを用いて算出するための変化の速さ算出手段と、
前記キーフレーム削除手段により一部のキーフレームが削除されたキーフレームシーケンスに含まれる各キーフレームのうち、前記変化の速さ算出手段により算出された変化の速さが所定のしきい値よりも大きなキーフレームについて、そのブレンド率が、より小さな値となるような所定の関数を用いてブレンド率を更新するための頂点速度によるブレンド率調整手段とをさらに含み、
前記ブレンド処理手段は、前記頂点速度によるブレンド率調整手段によってブレンド率が調整されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成する、請求項1に記載のリップシンクアニメーション作成装置。 Motion vector calculating means for calculating a motion vector between feature points constituting the face model for all combinations of two face models selected from the plurality of face models;
The feature points of the two face models are clustered by a predetermined clustering method for the motion vector calculated by the motion vector calculating means, and a representative vector of each cluster is calculated to create a clustered face model Means for
Clustered face model storage means for storing the clustered face model;
The lip sync animation creating device further includes:
Clustering corresponding to a combination of a visual element of the key frame and a visual element of an adjacent key frame, out of each key frame, upon receiving a key frame sequence in which some key frames are deleted by the key frame deleting unit The calculation of the change speed for reading the combination of the face models from the clustered face model storage means and calculating the change speed between the key frames of the feature points belonging to each cluster using the representative vector of the cluster Means,
Of the key frames included in the key frame sequence in which some key frames have been deleted by the key frame deletion means, the change speed calculated by the change speed calculation means is higher than a predetermined threshold value. A blend rate adjusting means by vertex speed for updating the blend rate using a predetermined function such that the blend rate becomes a smaller value for a large key frame,
2. The lip sync animation according to claim 1, wherein the blend processing unit creates an animation of a face image by blending between key frames based on a key frame sequence whose blend rate is adjusted by the blend rate adjusting unit based on the vertex speed. Creation device.
前記統計的音響モデル、前記マッピング定義、及び前記トランスクリプションを使用して、前記発話データに含まれる音素及び対応する視覚素を求め、デフォルトのブレンド率が付与された継続長付きの視覚素シーケンスを作成するための視覚素シーケンス作成手段を含み、
前記視覚素シーケンスの継続長内の所定位置にはキーフレームが定義され、前記視覚素シーケンスの各視覚素の継続長内に定義されるキーフレームによりキーフレームシーケンスが定義され、
前記キーフレームシーケンス内のキーフレームの視覚素に対応する音素の発話パワーを前記発話データから算出するための発話パワー算出手段と、
前記キーフレームシーケンス内の各キーフレームに対し、前記発話パワー算出手段により、当該キーフレームを含む視覚素の継続長について算出された平均発話パワーが小さければ小さいほどブレンド率が小さくなるような所定の関数により、ブレンド率を調整するための、発話パワーによるブレンド率調整手段と、
前記ブレンド率調整手段によりブレンド率が調整された視覚素シーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成するためのブレンド処理手段とを含む、リップシンクアニメーション作成装置。 Lip sync animation from input speech data using statistical acoustic models prepared in advance, mapping definitions between phonemes and visual elements prepared in advance, and face models of multiple facial images prepared in advance A lip-sync animation creation device for creating a speech, the transcription for the utterance data is available,
Using the statistical acoustic model, the mapping definition, and the transcription, the phoneme sequence and the corresponding visual element included in the utterance data are obtained, and a visual element sequence with a duration is given a default blend rate. Including a visual element sequence creation means for creating
A key frame is defined at a predetermined position within the duration of the visual element sequence, and a key frame sequence is defined by a key frame defined within the duration of each visual element of the visual element sequence,
Utterance power calculation means for calculating utterance power of phonemes corresponding to visual elements of key frames in the key frame sequence from the utterance data;
For each key frame in the key frame sequence, a predetermined value is set such that the smaller the average utterance power calculated by the utterance power calculation means for the duration of the visual element including the key frame, the smaller the blend rate. Blend rate adjustment means by utterance power to adjust the blend rate by function,
A lip sync animation creating apparatus, comprising: blend processing means for creating an animation of a face image by blending between key frames based on a visual element sequence whose blend ratio has been adjusted by the blend ratio adjusting means.
前記発話パワーによるブレンド率調整手段によりブレンド率が調整されたキーフレームシーケンスに含まれる各キーフレームのうち、前記変化の速さ算出手段により算出された変化の速さが所定のしきい値よりも大きなキーフレームについて、そのブレンド率が、より小さな値となるような所定の関数を用いてブレンド率を更新するための頂点速度によるブレンド率調整手段とをさらに含み、
前記ブレンド処理手段は、前記頂点速度によるブレンド率調整手段によってブレンド率が調整されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成する、請求項7に記載のリップシンクアニメーション作成装置。 A key frame sequence whose blend rate is adjusted by the blend rate adjusting means based on the speech power is received, and a vertex constituting a face model corresponding to a visual element of each key frame included in the key frame sequence and an adjacent key frame A change speed calculating means for calculating a change speed between the vertices constituting the face model corresponding to the visual element;
Of the key frames included in the key frame sequence whose blend rate is adjusted by the blend rate adjusting unit based on the speech power, the change rate calculated by the change rate calculating unit is higher than a predetermined threshold value. A blend rate adjusting means by vertex speed for updating the blend rate using a predetermined function such that the blend rate becomes a smaller value for a large key frame,
The lip sync animation according to claim 7, wherein the blend processing unit creates an animation of a face image by blending between key frames based on a key frame sequence in which the blend rate is adjusted by the blend rate adjusting unit based on the vertex speed. Creation device.
前記2個の顔モデルの特徴点を、前記動きベクトル算出手段により算出された動きベクトルに対する所定のクラスタリング方法によってクラスタ化し、各クラスタの代表ベクトルを算出することにより、クラスタ化された顔モデルを作成するための手段と、
前記クラスタ化された顔モデルを記憶するためのクラスタ化顔モデル記憶手段とをさらに含み、
前記リップシンクアニメーション作成装置はさらに、
前記発話パワーによるブレンド率調整手段によりブレンド率が調整されたキーフレームシーケンスを受け、各キーフレームのうち、当該キーフレームの視覚素と、隣接するキーフレームの視覚素との組合せに対応するクラスタ化された顔モデルの組合せを前記クラスタ化顔モデル記憶手段から読出し、各クラスタに属する特徴点のキーフレーム間の変化の速さを当該クラスタの代表ベクトルを用いて算出するための変化の速さ算出手段と、
前記キーフレームシーケンスに含まれる各キーフレームのうち、前記変化の速さ算出手段により算出された変化の速さが所定のしきい値よりも大きなキーフレームについて、そのブレンド率が、より小さな値となるような所定の関数を用いてブレンド率を更新するための頂点速度によるブレンド率調整手段とをさらに含み、
前記ブレンド処理手段は、前記頂点速度によるブレンド率調整手段によってブレンド率が調整されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成する、請求項7に記載のリップシンクアニメーション作成装置。 Motion vector calculating means for calculating a motion vector between feature points constituting the face model for all combinations of two face models selected from the plurality of face models;
The feature points of the two face models are clustered by a predetermined clustering method for the motion vector calculated by the motion vector calculating means, and a representative vector of each cluster is calculated to create a clustered face model Means for
Clustered face model storage means for storing the clustered face model;
The lip sync animation creating device further includes:
Clustering corresponding to a combination of a visual element of the key frame and a visual element of an adjacent key frame out of each key frame is received by the key frame sequence whose blend ratio is adjusted by the blend rate adjusting means by the speech power The calculation of the change speed for reading the combination of the face models from the clustered face model storage means and calculating the change speed between the key frames of the feature points belonging to each cluster using the representative vector of the cluster Means,
Among the key frames included in the key frame sequence, the blend rate of a key frame whose speed of change calculated by the speed of change calculating unit is larger than a predetermined threshold is set to a smaller value. A blend rate adjusting means based on the vertex speed for updating the blend rate using a predetermined function such that
The lip sync animation according to claim 7, wherein the blend processing unit creates an animation of a face image by blending between key frames based on a key frame sequence in which the blend rate is adjusted by the blend rate adjusting unit based on the vertex speed. Creation device.
前記統計的音響モデル、前記マッピング定義、及び前記トランスクリプションを使用して、前記発話データに含まれる音素及び対応する視覚素を求め、デフォルトのブレンド率が付与された継続長付きの視覚素シーケンスを作成するための視覚素シーケンス作成手段を含み、
前記視覚素シーケンス中の各視覚素の継続長中にはキーフレームが定義され、これらキーフレームによりキーフレームシーケンスが定義され、
当該キーフレームシーケンスに含まれる各キーフレームの視覚素に対応する顔モデルを構成する頂点と、隣接するキーフレームの視覚素に対応する顔モデルを構成する頂点との間の変化の速さを算出するための変化の速さ算出手段と、
前記キーフレームシーケンスに含まれる各キーフレームのうち、前記変化の速さ算出手段により算出された変化の速さが所定のしきい値よりも大きなキーフレームについて、そのブレンド率が、より小さな値となるような所定の関数を用いてブレンド率を更新するための頂点速度によるブレンド率調整手段と、
前記頂点速度によるブレンド率調整手段によりブレンド率が調整されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成するためのブレンド処理手段とを含む、リップシンクアニメーション作成装置。 Lip sync animation from input speech data using statistical acoustic models prepared in advance, mapping definitions between phonemes and visual elements prepared in advance, and face models of multiple facial images prepared in advance A lip-sync animation creation device for creating a speech, the transcription for the utterance data is available,
Using the statistical acoustic model, the mapping definition, and the transcription, the phoneme sequence and the corresponding visual element included in the utterance data are obtained, and a visual element sequence with a duration is given a default blend rate. Including a visual element sequence creation means for creating
A key frame is defined during the duration of each visual element in the visual element sequence, and a key frame sequence is defined by these key frames,
Calculates the speed of change between the vertices constituting the face model corresponding to the visual element of each key frame included in the key frame sequence and the vertices constituting the face model corresponding to the visual element of the adjacent key frame. A speed of change calculation means for
Among the key frames included in the key frame sequence, the blend rate of a key frame whose speed of change calculated by the speed of change calculating unit is larger than a predetermined threshold is set to a smaller value. A blend rate adjusting means based on the vertex speed for updating the blend rate using a predetermined function as follows:
A lip sync animation creating apparatus, comprising: blend processing means for creating an animation of a face image by blending between key frames based on the key frame sequence whose blend rate is adjusted by the blend rate adjusting means based on the vertex speed.
前記複数個の顔モデルの内から選ばれる2個の顔モデルの組合せの全てに対し、顔モデルを構成する特徴点の間の動きベクトルを算出するための動きベクトル算出手段と、
前記2個の顔モデルの特徴点を、前記動きベクトル算出手段により算出された動きベクトルに対する所定のクラスタリング方法によってクラスタ化し、各クラスタの代表ベクトルを算出することにより、クラスタ化された顔モデルを作成するための手段と、
前記クラスタ化された顔モデルを記憶するためのクラスタ化顔モデル記憶手段と、
前記統計的音響モデル、前記マッピング定義、及び前記トランスクリプションを使用して、前記発話データに含まれる音素及び対応する視覚素を求め、デフォルトのブレンド率が付与された継続長付きのキーフレームシーケンスを作成するためのキーフレームシーケンス作成手段とを含み、
前記視覚素シーケンス中の各視覚素の継続長中にはキーフレームが定義され、これらキーフレームによりキーフレームシーケンスが定義され、
前記キーフレームシーケンスを受け、各キーフレームのうち、当該キーフレームの視覚素と、隣接するキーフレームの視覚素との組合せに対応するクラスタ化された顔モデルの組合せを前記クラスタ化顔モデル記憶手段から読出し、各クラスタに属する特徴点のキーフレーム間の変化の速さを当該クラスタの代表ベクトルを用いて算出するための変化の速さ算出手段と、
前記キーフレームシーケンスに含まれる各キーフレームのうち、前記変化の速さ算出手段により算出された変化の速さが所定のしきい値よりも大きなキーフレームについて、そのブレンド率が、より小さな値となるような所定の関数を用いてブレンド率を更新するための頂点速度によるブレンド率調整手段と、
前記頂点速度によるブレンド率調整手段によりブレンド率が調整されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成するためのブレンド処理手段とを含む、リップシンクアニメーション作成装置。 Lip sync animation from input speech data using statistical acoustic models prepared in advance, mapping definitions between phonemes and visual elements prepared in advance, and face models of multiple facial images prepared in advance A lip-sync animation creation device for creating a speech, the transcription for the utterance data is available,
Motion vector calculating means for calculating a motion vector between feature points constituting the face model for all combinations of two face models selected from the plurality of face models;
The feature points of the two face models are clustered by a predetermined clustering method for the motion vector calculated by the motion vector calculating means, and a representative vector of each cluster is calculated to create a clustered face model Means for
Clustered face model storage means for storing the clustered face model;
Using the statistical acoustic model, the mapping definition, and the transcription, the phoneme sequence and the corresponding visual element included in the utterance data are obtained, and a key frame sequence with a duration is given a default blend rate A key frame sequence creating means for creating
A key frame is defined during the duration of each visual element in the visual element sequence, and a key frame sequence is defined by these key frames,
The clustered face model storage means that receives the key frame sequence and stores a combination of clustered face models corresponding to a combination of a visual element of the key frame and a visual element of an adjacent key frame among the key frames. And a change speed calculation means for calculating the speed of change between key frames of feature points belonging to each cluster using a representative vector of the cluster, and
Among the key frames included in the key frame sequence, the blend rate of a key frame whose speed of change calculated by the speed of change calculating unit is larger than a predetermined threshold is set to a smaller value. A blend rate adjusting means based on the vertex speed for updating the blend rate using a predetermined function as follows:
A lip sync animation creating apparatus, comprising: blend processing means for creating an animation of a face image by blending between key frames based on the key frame sequence whose blend rate is adjusted by the blend rate adjusting means based on the vertex speed.
前記キーフレーム削除手段は、前記発話終端補正手段により発話終端が補正されたキーフレームシーケンスを入力として受ける請求項1〜請求項11のいずれかに記載のリップシンクアニメーション作成装置。 Of the key frames included in the key frame sequence output by the visual element sequence creating means, the end position of the continuation length of the key frame immediately before the key frame to which the visual element corresponding to the blank phoneme is assigned is indicated in the key frame. Utterance end correction means for correcting the utterance end position by moving to the position after the maximum point of the utterance power sequence of the utterance data and within the duration of the key frame,
12. The lip sync animation creating apparatus according to claim 1, wherein the key frame deletion unit receives as input a key frame sequence whose utterance end is corrected by the utterance end correction unit.
前記視覚素シーケンス作成手段の出力するキーフレームシーケンスに含まれるキーフレームのうち、空白音素に対応する視覚素が割当てられたキーフレームの直前のキーフレームの、発話パワーの最大値を与える第1の時刻を検出するための手段と、
前記第1の時刻以後で、かつ処理対象のキーフレームの終端時刻以前に、前記発話パワーの最大値より所定の割合だけ発話パワーが減少する第2の時刻を検出するための手段と、
処理対象のキーフレームの終端位置を、前記第2の時刻まで移動させるように前記キーフレームを補正するための手段とを含む、請求項12に記載のリップシンクアニメーション作成装置。 The utterance end correction means includes:
A first value that gives the maximum value of the utterance power of the key frame immediately before the key frame to which the visual element corresponding to the blank phoneme is assigned among the key frames included in the key frame sequence output by the visual element sequence creating means. Means for detecting the time;
Means for detecting a second time after the first time and before the end time of the key frame to be processed, a second time when the utterance power decreases from the maximum value of the utterance power by a predetermined rate;
13. The lip sync animation creating apparatus according to claim 12, further comprising means for correcting the key frame so as to move the end position of the key frame to be processed to the second time.
前記リップシンクアニメーション作成装置はさらに、前記第1のフレームレートよりも小さな第2のフレームレートを指定する入力と、前記キーフレーム削除手段により出力されるキーフレームシーケンスとを受けるように接続され、前記キーフレーム削除手段により出力されるキーフレームシーケンスを、前記第2のフレームレートのキーフレームシーケンスに変換するためのフレームレート変換手段を含み、
前記フレームレート変換手段は、前記第2のフレームレートのキーフレームシーケンスの各キーフレームに、前記キーフレーム削除手段の出力するキーフレームシーケンス内で、当該キーフレームの継続長内に始端を有するキーフレームに割当てられた視覚素のいずれかを割当て、
前記ブレンド処理手段は、前記フレームレート変換手段によりフレームレートが変換された前記キーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成するための手段を含む、請求項1〜請求項13のいずれかに記載のリップシンクアニメーション作成装置。 The key frame creation means, when creating the key frame sequence, selects any one of the frames at the first frame rate as a key frame,
The lip sync animation creating device is further connected to receive an input designating a second frame rate smaller than the first frame rate and a key frame sequence output by the key frame deleting means, Frame rate conversion means for converting a key frame sequence output by the key frame deletion means into a key frame sequence of the second frame rate;
The frame rate converting means includes a key frame having a start edge within the continuation length of the key frame in the key frame sequence output from the key frame deleting means for each key frame of the key frame sequence at the second frame rate. Assign one of the visual elements assigned to,
The blend processing means includes means for creating an animation of a face image by blending between key frames based on the key frame sequence whose frame rate is converted by the frame rate conversion means. The lip sync animation creating apparatus according to any one of claims 13 to 13.
前記リップシンクアニメーション作成装置はさらに、前記フレームレート変換手段の出力する前記第2のフレームレートのキーフレームシーケンス内のキーフレームの各々について、当該キーフレームと、当該キーフレームの直後のキーフレームとの間のフレーム位置に、当該キーフレームと同じキーフレームをコピーするためのキーフレームコピー手段を含む、請求項14又は請求項15に記載のリップシンクアニメーション作成装置。 The blend processing means has a function of creating an image for each frame at a third frame rate higher than the second key frame rate when creating an animation from the key frame sequence of the second frame rate. And having a function of generating an image of a frame between adjacent key frames by interpolation between adjacent key frames,
The lip sync animation creating apparatus further includes, for each key frame in the key frame sequence of the second frame rate output from the frame rate conversion means, a key frame and a key frame immediately after the key frame. 16. The lip sync animation creating apparatus according to claim 14, further comprising key frame copy means for copying the same key frame as the key frame at a frame position between them.
前記複数個の顔画像の顔モデルは、前記標準音素に対応する顔モデルから成る標準視覚素モデルと、前記一般音素に対応する顔モデルから成る一般視覚素モデルとを含み、
前記リップシンクアニメーション作成装置はさらに、前記予め準備された音素に対応して予め分類された、対応する音素を発話しているときの発話者の顔画像の特徴点の3次元位置の実測値から成るキャプチャデータと前記標準視覚素モデルとを用い、前記一般視覚素モデルを生成するための一般視覚素生成手段を含む、請求項18に記載のリップシンクアニメーション作成装置。 The pre-prepared phonemes include predetermined standard phonemes and general phonemes other than the standard phonemes,
The face models of the plurality of face images include a standard visual element model composed of a face model corresponding to the standard phoneme, and a general visual element model composed of a face model corresponding to the general phoneme,
The lip-sync animation creating apparatus further includes an actual measurement value of a three-dimensional position of a feature point of a face image of a speaker when speaking a corresponding phoneme, which is classified in advance corresponding to the phoneme prepared in advance. The lip sync animation creating apparatus according to claim 18, further comprising: general visual element generation means for generating the general visual element model using the captured data and the standard visual element model.
前記一般視覚素モデルを、当該一般視覚素モデルに対応する一般音素について前記係数算出手段により算出された係数を用いた前記標準視覚素モデルの線形和により計算し、前記標準視覚素モデルとともに対応する一般音素と関連付けて前記顔モデル記憶手段に記憶させるための線形和計算手段とを含む、請求項19に記載のリップシンクアニメーション作成装置。 The general visual element generation means is a linear sum of the capture data corresponding to the standard phonemes, and has a coefficient equal to the number of the standard phonemes for approximating the capture data corresponding to the general phonemes. Coefficient calculation means for calculating the approximation error to be minimum;
The general visual element model is calculated by a linear sum of the standard visual element models using the coefficients calculated by the coefficient calculating means for general phonemes corresponding to the general visual element model, and corresponds to the standard visual element model. The lip sync animation creating apparatus according to claim 19, further comprising: linear sum calculation means for storing the face model storage means in association with a general phoneme.
A computer program that, when executed by a computer, causes the computer to function as the lip-sync animation creation device according to any one of claims 1 to 20.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007180505A JP4617500B2 (en) | 2006-07-24 | 2007-07-10 | Lip sync animation creation device, computer program, and face model creation device |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006201027 | 2006-07-24 | ||
JP2006301315 | 2006-11-07 | ||
JP2007180505A JP4617500B2 (en) | 2006-07-24 | 2007-07-10 | Lip sync animation creation device, computer program, and face model creation device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008140364A JP2008140364A (en) | 2008-06-19 |
JP4617500B2 true JP4617500B2 (en) | 2011-01-26 |
Family
ID=39601708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007180505A Expired - Fee Related JP4617500B2 (en) | 2006-07-24 | 2007-07-10 | Lip sync animation creation device, computer program, and face model creation device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4617500B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018031146A1 (en) * | 2016-08-11 | 2018-02-15 | Jibjab Media Inc. | Combining user images and computer-generated illustrations to produce personalized animated digital avatars |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110136698B (en) * | 2019-04-11 | 2021-09-24 | 北京百度网讯科技有限公司 | Method, apparatus, device and storage medium for determining mouth shape |
CN112541957B (en) | 2020-12-09 | 2024-05-21 | 北京百度网讯科技有限公司 | Animation generation method, device, electronic equipment and computer readable medium |
JP7488223B2 (en) | 2021-05-27 | 2024-05-21 | 株式会社アシックス | Wearing Simulation Device |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0744727A (en) * | 1993-07-27 | 1995-02-14 | Sony Corp | Method and device for generating picture |
JPH11272879A (en) * | 1998-03-25 | 1999-10-08 | Namco Ltd | Data processing method and medium for storing program about method |
JP2001209823A (en) * | 2000-01-27 | 2001-08-03 | Square Co Ltd | Three-dimensional object deforming method for video game, video game device and computer readable recording medium with recorded program for video game |
JP2003132363A (en) * | 2002-09-12 | 2003-05-09 | Mitsubishi Electric Corp | Animation producing system |
JP2003281567A (en) * | 2002-03-20 | 2003-10-03 | Oki Electric Ind Co Ltd | Three-dimensional image generating device and method, and computer-readable storage medium with its image generating program stored therein |
-
2007
- 2007-07-10 JP JP2007180505A patent/JP4617500B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0744727A (en) * | 1993-07-27 | 1995-02-14 | Sony Corp | Method and device for generating picture |
JPH11272879A (en) * | 1998-03-25 | 1999-10-08 | Namco Ltd | Data processing method and medium for storing program about method |
JP2001209823A (en) * | 2000-01-27 | 2001-08-03 | Square Co Ltd | Three-dimensional object deforming method for video game, video game device and computer readable recording medium with recorded program for video game |
JP2003281567A (en) * | 2002-03-20 | 2003-10-03 | Oki Electric Ind Co Ltd | Three-dimensional image generating device and method, and computer-readable storage medium with its image generating program stored therein |
JP2003132363A (en) * | 2002-09-12 | 2003-05-09 | Mitsubishi Electric Corp | Animation producing system |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018031146A1 (en) * | 2016-08-11 | 2018-02-15 | Jibjab Media Inc. | Combining user images and computer-generated illustrations to produce personalized animated digital avatars |
Also Published As
Publication number | Publication date |
---|---|
JP2008140364A (en) | 2008-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Taylor et al. | A deep learning approach for generalized speech animation | |
US11211060B2 (en) | Using machine-learning models to determine movements of a mouth corresponding to live speech | |
US5880788A (en) | Automated synchronization of video image sequences to new soundtracks | |
Cao et al. | Expressive speech-driven facial animation | |
JP4913973B2 (en) | Animation method of synthetic model of human face driven by acoustic signal | |
JP2518683B2 (en) | Image combining method and apparatus thereof | |
US7990384B2 (en) | Audio-visual selection process for the synthesis of photo-realistic talking-head animations | |
CN110880315A (en) | Personalized voice and video generation system based on phoneme posterior probability | |
US6208356B1 (en) | Image synthesis | |
JP4543263B2 (en) | Animation data creation device and animation data creation program | |
JP5109038B2 (en) | Lip sync animation creation device and computer program | |
JP4617500B2 (en) | Lip sync animation creation device, computer program, and face model creation device | |
JP4631077B2 (en) | Animation creation device | |
Ju et al. | Expressive facial gestures from motion capture data | |
KR100813034B1 (en) | Method for formulating character | |
KR20230172427A (en) | Talking face image synthesis system according to audio voice | |
Furukawa et al. | Voice animator: Automatic lip-synching in limited animation by audio | |
US20200211248A1 (en) | Method of Converting Phoneme Transcription Data Into Lip Sync Animation Data for 3D Animation Software | |
Breen et al. | An investigation into the generation of mouth shapes for a talking head | |
Beskow et al. | Data-driven synthesis of expressive visual speech using an MPEG-4 talking head. | |
JP3755503B2 (en) | Animation production system | |
Thangthai et al. | HMM-based visual speech synthesis using dynamic visemes. | |
KR20230096393A (en) | Apparatus and method for generating conversational digital human based on photo | |
Morishima | Voice Animator: Automatic Lip-Synching in Limited Animation by Audio | |
Cosker | Animation of a Hierarchical Appearance Based Facial Model and Perceptual Analysis of Visual Speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091215 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100511 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100712 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20100819 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100907 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101005 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131105 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4617500 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |