JP2009087328A - リップシンクアニメーション作成装置、コンピュータプログラム及び顔モデル生成装置 - Google Patents
リップシンクアニメーション作成装置、コンピュータプログラム及び顔モデル生成装置 Download PDFInfo
- Publication number
- JP2009087328A JP2009087328A JP2008210639A JP2008210639A JP2009087328A JP 2009087328 A JP2009087328 A JP 2009087328A JP 2008210639 A JP2008210639 A JP 2008210639A JP 2008210639 A JP2008210639 A JP 2008210639A JP 2009087328 A JP2009087328 A JP 2009087328A
- Authority
- JP
- Japan
- Prior art keywords
- key frame
- visual element
- key
- sequence
- blend
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
Abstract
【解決手段】装置200は、音響モデル170、マッピング定義176、トランスクリプション154を使用し、発話データ152から視覚素を求め、デフォルトのブレンド率を付与して視覚素シーケンス180を作成する視覚素シーケンス作成部230と、視覚素シーケンス180内に定義されるキーフレームからなるキーフレームシーケンス内で、隣接するキーフレームとの間で、顔モデルの変化が最も速いものから順番に、キーフレームを削除するキーフレーム削除部236と、キーフレーム内の発話パワーが小さいときにブレンド率を小さくする調整部244と、画像の変化が速いときにブレンド率を小さくする調整部250と、キーフレーム間のブレンドにより顔画像のアニメーションを作成するブレンド処理部256とを含む。
【選択図】 図5
Description
<構成>
以上構成を説明したリップシンクアニメーション作成装置200は以下のように動作する。図5を参照して、最初に発話記憶部152に、所定の発話者の発話を記録した発話データが準備され、その発話の書き起こしデータであるトランスクリプションがトランスクリプション記憶部154に準備される。また、前述した6つの視覚素に対応した6つの顔画像のキャラクタモデルがワイアフレーム画像としてキャラクタモデル記憶部156に準備される。
まず、視覚素シーケンス作成部230が音響モデル記憶部170に記憶された音響モデル、及び音素−視覚素マッピングテーブル記憶部176に記憶された音素−視覚素マッピングテーブル記憶部176を用い、以下のようにして視覚素シーケンスを作成し視覚素シーケンス記憶部180に記憶させる。
クラスタリング処理部232は、キャラクタモデル記憶部156に格納された6つの顔画像に対し、二つの顔画像の全ての組合せに対し、以下の処理を実行する。
発話パワー算出部238は、視覚素シーケンス記憶部180に記憶された各視覚素に付された音素の情報に基づき、発話記憶部152中の各音素の平均発話パワーを算出し、発話パワーとして発話パワー記憶部240に記憶させる。
アニメーションの作成においては、様々な選択肢がある。第1の選択肢は、キーフレームの削除率γである。キーフレームの削除は常に行なわれるので、この指定は必須である。ただし、指定がない場合には所定のデフォルトの値を使用するようにしてもよい。第2の選択肢は、キーフレーム削除部236での処理及びブレンド率調整部250での処理において、クラスタリングの結果を使用するか否かの指定である。第3の選択肢は、発話パワーによるブレンド率調整部244の処理を行なうか否かである。さらに、発話パワーによるブレンド率調整部244の処理を実行する場合には減衰率αを指定する必要がある。第4の選択肢は、ブレンド率調整部250の処理を行なうか否かである。ブレンド率調整部250の処理を行なう場合にはさらに、減衰率βを指定する必要がある。
−キーフレーム削除部236の動作−
キーフレーム削除部236は、削除率入力部201により入力された削除率γを読出し(図11、ステップ360)、視覚素シーケンス記憶部180に記憶された視覚素シーケンス中の視覚素の数に削除率γを乗ずることにより、削除フレーム数Kを算出する(ステップ362)。
発話パワーによるブレンド率調整部244は、最初に減衰率αを読出す(図14のステップ450)。ステップ452で、キーフレーム削除部236の出力する視覚素シーケンス中の音素に関する情報に基づいて、発話記憶部152に記憶された発話データから、各音素の継続期間にわたる平均発話パワーを算出する。
頂点速度によるブレンド率調整部250は、最初に減衰率βを読出し(図15、ステップ470)、選択部248から与えられた視覚素シーケンス中に含まれるキーフレームにこの減衰率βを乗算して不変フレーム数Lを算出する(ステップ472)。続くステップ474では、ステップ476が選択される。
クラスタリング後のモデルを使用する場合には、リップシンクアニメーション作成装置200の各部は以下のように動作する。
図11を参照して、キーフレーム削除部236は、ステップ360〜368までの処理についてはクラスタリング後のモデルを使用しない場合と同様に動作する。しかし、ステップ370の判定ではステップ376を選択する。ステップ376では、隣り合う全てのキーフレームの間で、代表頂点を用いて距離D’を算出する。代表頂点を用いた距離D’の算出については前述したとおりであるが、代表頂点の移動距離に、その代表頂点により代表されるクラスタ内の頂点の数を乗算し、その値を全てのクラスタにわたり合計することにより距離D’が得られる。
発話パワーによるブレンド率調整部244は、クラスタリング後のモデルを使用しない場合と全く同様である。したがってここではその詳細は繰返さない。
この場合、ブレンド率調整部250は以下のように動作する。図15を参照して、ステップ470及び472の処理はクラスタリング後のモデルを使用しない場合と同様である。ただし、ステップ474の判定ではステップ480が選択される。
上述の実施の形態は、コンピュータシステム及びコンピュータシステム上で実行されるプログラムによって実現され得る。図18はこの実施の形態で用いられるコンピュータシステム550の外観を示し、図19はコンピュータシステム550のブロック図である。ここで示すコンピュータシステム550は単なる例であって、他の構成も利用可能である。
<概略>
上記した第1の実施の形態により、音声を基にして滑らかな顔画像のアニメーションを作成することができる。しかし、商品としてのアニメーションでは、単に画像が滑らかであることに留まらず、様々な制約が与えられることがある。例えば、通常のアニメーションは、テレビ(30fps(frame per second))又は、映画(24fps)と同様のフレームレートで作成される。しかし、商業的なアニメーションでは、これよりも小さな(遅い)フレームレートでアニメーションを作成することが要請される場合がある。例えば、12fps、8fpsなどでアニメーションを作成することが要請される場合があり得る。こうした場合には、次のような問題が生じる。
最初に、発話の終端で口を閉じるように補正するためのアニメーションの補正方法(以後この補正を「発話終端補正」と呼ぶ。)について説明する。図20を参照して、発話者の音声から得られたキーフレーム列610が、4つの連続するキーフレーム620,622,624,626を含むものとする。これらのうち、キーフレーム626は発話後の空白期間を表している。
次に、低いフレームレートの時に、各キーフレームにどの視覚素を割当てるか、についての本実施の形態における決定方法について説明する。図21を参照して、キーフレーム列670が、6つのキーフレーム680,682,684,686,688及び690を含むものとする。フレームレートが8fps程度に遅くなると、キーフレームの時刻はフレーム位置に固定されてしまう。すなわち、キーフレームと所定のフレームレートの画像のフレーム位置とが、図21に示されるように一致する。
ところで、先ほど述べたリミット感について、図22に示すようにキーフレーム686及び688に異なる視覚素の口形状を割当てたとする。通常使用されているアニメーション作成プログラムでは、この二つのキーフレームの間のフレームの画像については、この二つのキーフレームの間の補間を行なうことによって生成するのが一般的である。その結果、意図したリミット感が得られなくなるという問題がある。この問題を図23(A)を参照して説明する。
図24に、この第2の実施の形態に係るリップシンクアニメーション作成装置810のブロック図を示す。このリップシンクアニメーション作成装置810の構成は、図5に示す第1の実施の形態に係るリップシンクアニメーション作成装置200の構成とほぼ同様であるが、図5に示すキーフレーム削除部236と選択部242との間に、前述した発話終端の補正を行なうための発話終端補正部822、及びこの発話終端補正部822の機能を利用するか否かを選択するための選択部820及び824を更に含む点と、継続長付き視覚素シーケンス記憶部254の出力を受けるように接続され、継続長付き視覚素シーケンスのフレームレートを、フレームレート入力832によって指定されたフレームレートに変換するためのフレームレート変換部840と、フレームレート変換部840の出力する視覚素シーケンスについて、アニメーション作成プログラムによるブレンドによってリミット感が失われるのを防ぐための形状安定化処理を実行するための形状安定化処理部842と、形状安定化処理部842の出力するフレームレート変換後の継続長付き視覚素シーケンスを記憶するための継続長付き視覚素シーケンス記憶部846と、継続長付き視覚素シーケンス記憶部254及び846の出力にそれぞれ接続された第1及び第2の入力を有し、フレームレート変換を使用するか否かを指定する使用指示入力830の指示にしたがい、継続長付き視覚素シーケンス記憶部254の出力又は継続長付き視覚素シーケンス記憶部846の出力のいずれかを選択してブレンド処理部256に与えるための選択部848とを含む点において、図5に示すリップシンクアニメーション作成装置200と異なっている。
図24に示すリップシンクアニメーション作成装置810は以下のように動作する。以下の説明では、使用指示入力826と830とは、同一の値をリップシンクアニメーション作成装置810に指示するものとする。使用指示入力826及び830が、発話終端補正部822による処理、フレームレート変換部840による処理、及び形状安定化処理部842による処理を使用しないことを指定する値である場合、選択部820及び824はキーフレーム削除部236の出力を選択部242の入力に直接に与える。選択部848は、継続長付き視覚素シーケンス記憶部254の出力をブレンド処理部256に与える。したがってこの場合リップシンクアニメーション作成装置810の構成は事実上図5に示すリップシンクアニメーション作成装置200と同一となり、リップシンクアニメーション作成装置200と同様の動作を行なう。
<概略>
上記した第1及び第2の実施の形態により、視覚素/A/、/I/、/U/、/E/、/O/、及び/N/(以下「標準視覚素」と呼び、これらに対応する音素を「標準音素」と呼ぶ。)に基づいた顔画像のアニメーションを作成することができる。しかし、日本語の場合、視覚素は標準視覚素を含めて十数種類あるので(/K/、/S/、/T/等)、標準視覚素のみでは、日本語の滑らかなアニメーションを作成するには十分ではない可能性がある。また、上記実施の形態において、標準視覚素のための顔画像は予め用意されていたが、他の視覚素も用いて日本語のアニメーションを作成するのであれば、準備しなければならない顔画像の数が増加する。こうした顔画像のための顔モデルは、アニメーション作成に使用する基準となる標準顔モデルに対して手作業で編集を加えて作成するため、多くの視覚素のための顔画像を用意するのは困難である。英語、中国語等のような外国語のアニメーションを作成するときには、さらに異なる視覚素について顔画像を作成しなくてはならず、したがってさらに困難になる。
図28に、この第3の実施の形態に係るリップシンクアニメーション作成装置1000のブロック図を示す。図28に示すこのリップシンクアニメーション作成装置1000の構成は、図24に示す第2の実施の形態に係るリップシンクアニメーション作成装置810の構成とほぼ同様であるが、標準視覚素のみではなく、一般視覚素も用いて日本語の顔画像のアニメーション260を作成するためのものである点において、図24に示すリップシンクアニメーション作成装置810と異なっている。
以上、構成を説明したリップシンクアニメーション作成装置1000は以下のように動作する。図28に示すリップシンクアニメーション作成装置1000の動作は、図24に示すリップシンクアニメーション作成装置810とほぼ同様であり、使用する日本語用3Dキャラクタモデルのみが異なっている。したがって、以下においては、本実施の形態において追加された、一般視覚素モデルを含む3Dキャラクタモデルを作成する際のリップシンクアニメーション作成装置1000の動作についてのみ詳細を述べ、それ以外の動作に関する説明は概略にとどめて、その詳細な説明は繰返さない。
日本語の音素と、視覚素とを手作業で対応付け、機械可読な形式の音素−視覚素マッピングテーブルを作成し、音素−視覚素マッピングテーブル記憶部1002に記憶させる。このとき、第2の実施の形態と異なり、標準音素以外の音素を標準視覚素に対応付けなければならないわけではない。任意の音素を標準視覚素以外の視覚素(一般視覚素)に対応付けてもよい。こうして作成された音素−視覚素マッピングテーブルの一例が上記したテーブル7である。
係数算出部1010及びキャラクタモデル合成部1012は、以下のようにして標準視覚素モデルとともに一般視覚素モデルも含む3Dキャラクタモデルを作成する。ここで作成の対象となる一般視覚素モデルは、上記した音素−視覚素マッピングテーブルで音素と対応付けられた視覚素の全てである。
上述の第3の実施の形態の説明においては、リップシンクアニメーション作成装置1000が日本語のアニメーションを作成するための装置であることを前提としていた。しかし、実は上記第3の実施の形態における日本語用3Dキャラクタモデルの作成方法は、英語、中国語等、日本語と異なる言語のアニメーションの作成にも、日本語の標準音素及び標準視覚素モデルを用いて拡張することができる。そして、そのような3Dキャラクタモデルを使用する限り、リップシンクアニメーション作成装置1000においてリップシンクアニメーションを作成する部分の構成の基本的部分はそのまま使用することができる。
上記第1〜第3の実施の形態では、キーフレームの削除、発話終端の補正、発話パワーによるブレンド率の調整、及び頂点速度によるブレンド率の調整を行なっている。これらの処理のうち、発話パワーによるブレンド率の調整と、頂点速度によるブレンド率の調整とは、それぞれ減衰率α及びβを指定することによってアニメーションの口形状の変化の度合いを調整できるという点で画期的な技術である。
上記した第1〜第4の実施の形態では、各処理を実行するか否かの指定は可能ではあるものの、キーフレームの削除、発話終端補正、発話パワーによるブレンド率の調整、及び頂点速度によるブレンド率の調整を、この順序で行なっている。しかし本発明はそのような実施の形態に限定されるわけではない。特にコンピュータを用いたソフトウェアによって本発明のリップシンクアニメーション作成装置を実現する場合には、上記した処理はそれぞれ独立したプログラムとして作成されるのが通常である。また、これら処理の実行順序を入替えても特に問題は生じない。第5の実施の形態に係るリップシンクアニメーション作成装置は、操作者が最初に処理の順序を指定することにより、指定された順番で上記したキーフレームの削除、発話終端補正、発話パワーによるブレンド率の調整、及び頂点速度によるブレンド率の調整を行なう。処理の一部を実行しない指定も可能である。
42 音声信号
44 台本
50〜58 音素
60〜68,80 顔画像
152 発話記憶部
154 トランスクリプション記憶部
156,1004 キャラクタモデル記憶部
170 音響モデル記憶部
172 音素セグメンテーション部
174 音素シーケンス記憶部
176,1002 音素−視覚素マッピングテーブル記憶部
178 音素−視覚素変換処理部
180,254 視覚素シーケンス記憶部
182 アニメーション作成部
200,810,1000 リップシンクアニメーション作成装置
202 クラスタ処理指定部
204 発話パワー使用指示入力部
230 視覚素シーケンス作成部
232 クラスタリング処理部
234 クラスタ化顔モデル記憶部
236 キーフレーム削除部
238 発話パワー算出部
240 発話パワー記憶部
244 発話パワーによるブレンド率調整部
250 頂点速度によるブレンド率調整部
256 ブレンド処理部
260 顔画像のアニメーション
610,650,670,672 キーフレーム列
620,622,624,626,680,682,684,686,688,690,700,702,704,706,708,710,712,714,716,790,792 キーフレーム
822 発話終端補正部
840 フレームレート変換部
842 形状安定化処理部
1006 キャプチャデータ記憶部
1008 標準視覚素モデル記憶部
1010 係数算出部
1012 キャラクタモデル合成部
Claims (27)
- 予め準備された統計的音響モデルと、予め準備された音素及び視覚素の間のマッピング定義と、前記視覚素に対応する、予め準備された複数個の顔画像の顔モデルとを用い、入力される発話データからリップシンクアニメーションを作成するためのリップシンクアニメーション作成装置であって、
前記統計的音響モデル、前記マッピング定義、及び前記発話データに対するトランスクリプションを使用して、前記発話データに含まれる音素及び対応する視覚素を求め、デフォルトのブレンド率が付与された継続長付きの視覚素シーケンスを作成するための視覚素シーケンス作成手段を含み、前記視覚素シーケンスの継続長内の所定位置にはキーフレームが定義され、前記視覚素シーケンスの各視覚素の継続長内に定義されるキーフレームによりキーフレームシーケンスが定義され、
前記リップシンクアニメーション作成装置はさらに、前記キーフレームシーケンス内のキーフレームのうち、視覚素に対応する顔モデルの形状の変化の速さが最も大きいものから順番に、所定の割合又は所定の数のキーフレームを削除するためのキーフレーム削除手段と、
前記キーフレーム削除手段により一部のキーフレームが削除されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成するためのブレンド処理手段とを含む、リップシンクアニメーション作成装置。 - 前記キーフレーム削除手段は、前記キーフレームシーケンス内のキーフレームのうち、当該キーフレームの視覚素に対応する顔モデルを構成する各特徴点と、隣接するキーフレームの視覚素に対応する顔モデルを構成する、対応する各特徴点との間の変化の速さが最も大きいものから順番に、所定の割合又は所定の数のキーフレームを削除するための手段を含む、請求項1に記載のリップシンクアニメーション作成装置。
- 前記複数個の顔モデルの内から選ばれる2個の顔モデルの組合せの全てに対し、顔モデルを構成する特徴点の間の動きベクトルを算出するための動きベクトル算出手段と、
前記2個の顔モデルの特徴点を、前記動きベクトル算出手段により算出された動きベクトルに対する所定のクラスタリング方法によってクラスタ化し、各クラスタの代表ベクトルを算出することにより、クラスタ化された顔モデルを作成するための手段と、
前記クラスタ化された顔モデルを記憶するためのクラスタ化顔モデル記憶手段とをさらに含み、
前記キーフレーム削除手段は、
前記キーフレームシーケンス内のキーフレームの各々に対し、当該キーフレームの視覚素と、隣接するキーフレームの視覚素との組合せに対応するクラスタ化された顔モデルを前記クラスタ化顔モデル記憶手段から読出し、各クラスタに属する特徴点のキーフレーム間の変化の速さを当該クラスタの代表ベクトルを用いて算出するための移動量算出手段と、
前記移動量算出手段により算出された変化の速さが最も大きいものから順番に、所定の割合又は所定の数のキーフレームを前記キーフレームシーケンスから削除するための手段とを含む、請求項1に記載のリップシンクアニメーション作成装置。 - 前記キーフレーム削除手段により一部のキーフレームが削除されたキーフレームシーケンスを受け、当該キーフレームシーケンス内のキーフレームの視覚素に対応する音素の発話パワーを前記発話データから算出するための発話パワー算出手段と、
前記キーフレームシーケンス内の各キーフレームに対し、前記発話パワー算出手段により、当該キーフレームを含む視覚素の継続長について算出された平均発話パワーが小さければ小さいほどブレンド率が小さくなるような、前記平均発話パワーに対する所定の関数により、ブレンド率を調整するための、発話パワーによるブレンド率調整手段とをさらに含み、
前記ブレンド処理手段は、前記発話パワーによるブレンド率調整手段によってブレンド率が調整されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成する、請求項1に記載のリップシンクアニメーション作成装置。 - 前記キーフレーム削除手段により一部のキーフレームが削除されたキーフレームシーケンスを受け、前記キーフレームの視覚素に対応する顔モデルを構成する頂点と、隣接するキーフレームの視覚素に対応する顔モデルを構成する頂点との間の変化の速さを算出するための変化の速さ算出手段と、
前記キーフレーム削除手段により一部のキーフレームが削除されたキーフレームシーケンスに含まれる各キーフレームのうち、前記変化の速さ算出手段により算出された変化の速さが所定のしきい値よりも大きなキーフレームについて、そのブレンド率がより小さな値となるような、前記変化の速さに対する所定の関数を用いてブレンド率を更新するための頂点速度によるブレンド率調整手段とをさらに含み、
前記ブレンド処理手段は、前記頂点速度によるブレンド率調整手段によってブレンド率が調整されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成する、請求項1に記載のリップシンクアニメーション作成装置。 - 前記複数個の顔モデルの内から選ばれる2個の顔モデルの組合せの全てに対し、顔モデルを構成する特徴点の間の動きベクトルを算出するための動きベクトル算出手段と、
前記2個の顔モデルの特徴点を、前記動きベクトル算出手段により算出された動きベクトルに対する所定のクラスタリング方法によってクラスタ化し、各クラスタの代表ベクトルを算出することにより、クラスタ化された顔モデルを作成するための手段と、
前記クラスタ化された顔モデルを記憶するためのクラスタ化顔モデル記憶手段とをさらに含み、
前記リップシンクアニメーション作成装置はさらに、
前記キーフレーム削除手段により一部のキーフレームが削除されたキーフレームシーケンスを受け、各キーフレームのうち、当該キーフレームの視覚素と、隣接するキーフレームの視覚素との組合せに対応するクラスタ化された顔モデルの組合せを前記クラスタ化顔モデル記憶手段から読出し、各クラスタに属する特徴点のキーフレーム間の変化の速さを当該クラスタの代表ベクトルを用いて算出するための変化の速さ算出手段と、
前記キーフレーム削除手段により一部のキーフレームが削除されたキーフレームシーケンスに含まれる各キーフレームのうち、前記変化の速さ算出手段により算出された変化の速さが所定のしきい値よりも大きなキーフレームについて、そのブレンド率がより小さな値となるような、前記変化の速さに対する所定の関数を用いてブレンド率を更新するための頂点速度によるブレンド率調整手段とをさらに含み、
前記ブレンド処理手段は、前記頂点速度によるブレンド率調整手段によってブレンド率が調整されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成する、請求項1に記載のリップシンクアニメーション作成装置。 - 予め準備された統計的音響モデルと、予め準備された音素及び視覚素の間のマッピング定義と、予め準備された複数個の顔画像の顔モデルとを用い、入力される発話データからリップシンクアニメーションを作成するためのリップシンクアニメーション作成装置であって、前記発話データに対するトランスクリプションが利用可能であり、
前記統計的音響モデル、前記マッピング定義、及び前記トランスクリプションを使用して、前記発話データに含まれる音素及び対応する視覚素を求め、デフォルトのブレンド率が付与された継続長付きの視覚素シーケンスを作成するための視覚素シーケンス作成手段を含み、
前記視覚素シーケンスの継続長内の所定位置にはキーフレームが定義され、前記視覚素シーケンスの各視覚素の継続長内に定義されるキーフレームによりキーフレームシーケンスが定義され、
前記キーフレームシーケンス内のキーフレームの視覚素に対応する音素の発話パワーを前記発話データから算出するための発話パワー算出手段と、
前記キーフレームシーケンス内の各キーフレームに対し、前記発話パワー算出手段により、当該キーフレームを含む視覚素の継続長について算出された平均発話パワーが小さければ小さいほどブレンド率が小さくなるような、前記平均発話パワーに対する所定の関数により、ブレンド率を調整するための、発話パワーによるブレンド率調整手段と、
前記ブレンド率調整手段によりブレンド率が調整された視覚素シーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成するためのブレンド処理手段とを含む、リップシンクアニメーション作成装置。 - 前記発話パワーによるブレンド率調整手段によりブレンド率が調整されたキーフレームシーケンスを受け、当該キーフレームシーケンスに含まれる各キーフレームの視覚素に対応する顔モデルを構成する頂点と、隣接するキーフレームの視覚素に対応する顔モデルを構成する頂点との間の変化の速さを算出するための変化の速さ算出手段と、
前記発話パワーによるブレンド率調整手段によりブレンド率が調整されたキーフレームシーケンスに含まれる各キーフレームのうち、前記変化の速さ算出手段により算出された変化の速さが所定のしきい値よりも大きなキーフレームについて、そのブレンド率が、より小さな値となるような、前記変化の早さに対する所定の関数を用いてブレンド率を更新するための頂点速度によるブレンド率調整手段とをさらに含み、
前記ブレンド処理手段は、前記頂点速度によるブレンド率調整手段によってブレンド率が調整されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成する、請求項7に記載のリップシンクアニメーション作成装置。 - 前記複数個の顔モデルの内から選ばれる2個の顔モデルの組合せの全てに対し、顔モデルを構成する特徴点の間の動きベクトルを算出するための動きベクトル算出手段と、
前記2個の顔モデルの特徴点を、前記動きベクトル算出手段により算出された動きベクトルに対する所定のクラスタリング方法によってクラスタ化し、各クラスタの代表ベクトルを算出することにより、クラスタ化された顔モデルを作成するための手段と、
前記クラスタ化された顔モデルを記憶するためのクラスタ化顔モデル記憶手段とをさらに含み、
前記リップシンクアニメーション作成装置はさらに、
前記発話パワーによるブレンド率調整手段によりブレンド率が調整されたキーフレームシーケンスを受け、各キーフレームのうち、当該キーフレームの視覚素と、隣接するキーフレームの視覚素との組合せに対応するクラスタ化された顔モデルの組合せを前記クラスタ化顔モデル記憶手段から読出し、各クラスタに属する特徴点のキーフレーム間の変化の速さを当該クラスタの代表ベクトルを用いて算出するための変化の速さ算出手段と、
前記キーフレームシーケンスに含まれる各キーフレームのうち、前記変化の速さ算出手段により算出された変化の速さが所定のしきい値よりも大きなキーフレームについて、そのブレンド率が、より小さな値となるような、前記変化の速さに対する所定の関数を用いてブレンド率を更新するための頂点速度によるブレンド率調整手段とをさらに含み、
前記ブレンド処理手段は、前記頂点速度によるブレンド率調整手段によってブレンド率が調整されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成する、請求項7に記載のリップシンクアニメーション作成装置。 - 予め準備された統計的音響モデルと、予め準備された音素及び視覚素の間のマッピング定義と、予め準備された複数個の顔画像の顔モデルとを用い、入力される発話データからリップシンクアニメーションを作成するためのリップシンクアニメーション作成装置であって、前記発話データに対するトランスクリプションが利用可能であり、
前記統計的音響モデル、前記マッピング定義、及び前記トランスクリプションを使用して、前記発話データに含まれる音素及び対応する視覚素を求め、デフォルトのブレンド率が付与された継続長付きの視覚素シーケンスを作成するための視覚素シーケンス作成手段を含み、
前記視覚素シーケンス中の各視覚素の継続長中にはキーフレームが定義され、これらキーフレームによりキーフレームシーケンスが定義され、
当該キーフレームシーケンスに含まれる各キーフレームの視覚素に対応する顔モデルを構成する頂点と、隣接するキーフレームの視覚素に対応する顔モデルを構成する頂点との間の変化の速さを算出するための変化の速さ算出手段と、
前記キーフレームシーケンスに含まれる各キーフレームのうち、前記変化の速さ算出手段により算出された変化の速さが所定のしきい値よりも大きなキーフレームについて、そのブレンド率が、より小さな値となるような、前記変化の速さに対する所定の関数を用いてブレンド率を更新するための頂点速度によるブレンド率調整手段と、
前記頂点速度によるブレンド率調整手段によりブレンド率が調整されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成するためのブレンド処理手段とを含む、リップシンクアニメーション作成装置。 - 予め準備された統計的音響モデルと、予め準備された音素及び視覚素の間のマッピング定義と、予め準備された複数個の顔画像の顔モデルとを用い、入力される発話データからリップシンクアニメーションを作成するためのリップシンクアニメーション作成装置であって、前記発話データに対するトランスクリプションが利用可能であり、
前記複数個の顔モデルの内から選ばれる2個の顔モデルの組合せの全てに対し、顔モデルを構成する特徴点の間の動きベクトルを算出するための動きベクトル算出手段と、
前記2個の顔モデルの特徴点を、前記動きベクトル算出手段により算出された動きベクトルに対する所定のクラスタリング方法によってクラスタ化し、各クラスタの代表ベクトルを算出することにより、クラスタ化された顔モデルを作成するための手段と、
前記クラスタ化された顔モデルを記憶するためのクラスタ化顔モデル記憶手段と、
前記統計的音響モデル、前記マッピング定義、及び前記トランスクリプションを使用して、前記発話データに含まれる音素及び対応する視覚素を求め、デフォルトのブレンド率が付与された継続長付きのキーフレームシーケンスを作成するためのキーフレームシーケンス作成手段とを含み、
前記視覚素シーケンス中の各視覚素の継続長中にはキーフレームが定義され、これらキーフレームによりキーフレームシーケンスが定義され、
前記キーフレームシーケンスを受け、各キーフレームのうち、当該キーフレームの視覚素と、隣接するキーフレームの視覚素との組合せに対応するクラスタ化された顔モデルの組合せを前記クラスタ化顔モデル記憶手段から読出し、各クラスタに属する特徴点のキーフレーム間の変化の速さを当該クラスタの代表ベクトルを用いて算出するための変化の速さ算出手段と、
前記キーフレームシーケンスに含まれる各キーフレームのうち、前記変化の速さ算出手段により算出された変化の速さが所定のしきい値よりも大きなキーフレームについて、そのブレンド率が、より小さな値となるような、前記変化の速さに対する所定の関数を用いてブレンド率を更新するための頂点速度によるブレンド率調整手段と、
前記頂点速度によるブレンド率調整手段によりブレンド率が調整されたキーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成するためのブレンド処理手段とを含む、リップシンクアニメーション作成装置。 - 前記視覚素シーケンス作成手段の出力するキーフレームシーケンスに含まれるキーフレームのうち、空白音素に対応する視覚素が割当てられたキーフレームの直前のキーフレームの継続長の終端位置を、当該キーフレーム内の前記発話データの発話パワー系列の最大点以後で、かつ当該キーフレームの継続長内の位置に移動させることにより、発話終端位置を補正するための発話終端補正手段をさらに含み、
前記キーフレーム削除手段は、前記発話終端補正手段により発話終端が補正されたキーフレームシーケンスを入力として受ける請求項1〜請求項11のいずれかに記載のリップシンクアニメーション作成装置。 - 前記発話終端補正手段は、
前記視覚素シーケンス作成手段の出力するキーフレームシーケンスに含まれるキーフレームのうち、空白音素に対応する視覚素が割当てられたキーフレームの直前のキーフレームの、発話パワーの最大値を与える第1の時刻を検出するための手段と、
前記第1の時刻以後で、かつ処理対象のキーフレームの終端時刻以前に、前記発話パワーの最大値より所定の割合又は所定の量だけ発話パワーが減少する第2の時刻を検出するための手段と、
処理対象のキーフレームの終端位置を、前記第2の時刻まで移動させるように前記キーフレームを補正するための手段とを含む、請求項12に記載のリップシンクアニメーション作成装置。 - 前記キーフレーム作成手段は、前記キーフレームシーケンスの作成時には、第1のフレームレートのフレームの任意のものをキーフレームとして選択し、
前記リップシンクアニメーション作成装置はさらに、前記第1のフレームレートよりも小さな第2のフレームレートを指定する入力と、前記キーフレーム削除手段により出力されるキーフレームシーケンスとを受けるように接続され、前記キーフレーム削除手段により出力されるキーフレームシーケンスを、前記第2のフレームレートのキーフレームシーケンスに変換するためのフレームレート変換手段を含み、
前記フレームレート変換手段は、前記第2のフレームレートのキーフレームシーケンスの各キーフレームに、前記キーフレーム削除手段の出力するキーフレームシーケンス内で、当該キーフレームの継続長内に始端を有するキーフレームに割当てられた視覚素のいずれかを割当て、
前記ブレンド処理手段は、前記フレームレート変換手段によりフレームレートが変換された前記キーフレームシーケンスに基づき、キーフレーム間のブレンドにより顔画像のアニメーションを作成するための手段を含む、請求項1〜請求項13のいずれかに記載のリップシンクアニメーション作成装置。 - 前記フレームレート変換手段は、前記第2のフレームレートのキーフレームシーケンスの各キーフレームに割当てる視覚素が、直前のキーフレームに割当てた視覚素と異なるものとなるように視覚素を割当てる、請求項14に記載のリップシンクアニメーション作成装置。
- 前記ブレンド処理手段は、前記第2のフレームレートのキーフレームシーケンスからアニメーションを作成するときには、前記第2のキーフレームレートよりも高い第3のフレームレートでフレームごとの画像を作成する機能を有し、かつ隣接するキーフレームの間の補間により、当該隣接するキーフレームの間のフレームの画像を生成する機能を有し、
前記リップシンクアニメーション作成装置はさらに、前記フレームレート変換手段の出力する前記第2のフレームレートのキーフレームシーケンス内のキーフレームの各々について、当該キーフレームと、当該キーフレームの直後のキーフレームとの間のフレーム位置に、当該キーフレームと同じキーフレームをコピーするためのキーフレームコピー手段を含む、請求項14又は請求項15に記載のリップシンクアニメーション作成装置。 - 前記キーフレームコピー手段は、前記フレームレート変換手段の出力する前記第2のフレームレートのキーフレームシーケンス内のキーフレームの各々について、当該キーフレームの直後のキーフレームの直前のフレーム位置に、当該キーフレームと同じキーフレームをコピーするための手段を含む、請求項16に記載のリップシンクアニメーション作成装置。
- 前記リップシンクアニメーション作成装置は、前記複数個の顔画像の顔モデルを記憶するための顔モデル記憶手段をさらに含む、請求項1〜請求項17のいずれかに記載のリップシンクアニメーション作成装置。
- 前記予め準備された音素は、予め定められた標準音素と、前記標準音素以外の一般音素とを含み、
前記複数個の顔画像の顔モデルは、前記標準音素に対応する顔モデルから成る標準視覚素モデルと、前記一般音素に対応する顔モデルから成る一般視覚素モデルとを含み、
前記リップシンクアニメーション作成装置はさらに、前記予め準備された音素に対応して予め分類された、対応する音素を発話しているときの発話者の顔画像の特徴点の3次元位置の実測値から成るキャプチャデータと前記標準視覚素モデルとを用い、前記一般視覚素モデルを生成するための一般視覚素生成手段を含む、請求項18に記載のリップシンクアニメーション作成装置。 - 前記一般視覚素生成手段は、前記標準音素に対応する前記キャプチャデータの線形和で、前記一般音素に対応する前記キャプチャデータを近似するための、前記標準音素の数と同数の係数を、所定の近似誤差を最小とするように算出するための係数算出手段と、
前記一般視覚素モデルを、当該一般視覚素モデルに対応する一般音素について前記係数算出手段により算出された係数を用いた前記標準視覚素モデルの線形和により計算し、前記標準視覚素モデルとともに対応する一般音素と関連付けて前記顔モデル記憶手段に記憶させるための線形和計算手段とを含む、請求項19に記載のリップシンクアニメーション作成装置。 - コンピュータにより実行されると、当該コンピュータを、請求項1〜請求項20のいずれかに記載のリップシンクアニメーション作成装置として機能させる、コンピュータプログラム。
- 予め準備された音素及び視覚素の間のマッピング定義を用い、前記視覚素に対応する顔画像の顔モデルを生成するための顔モデル生成装置であって、
前記予め準備された音素は、予め定められた標準音素と、前記標準音素以外の一般音素とを含み、
前記複数個の顔画像の顔モデルは、前記標準音素に対応する顔モデルから成る標準視覚素モデルと、前記一般音素に対応する顔モデルから成る一般視覚素モデルとを含み、
前記顔モデル生成装置は、前記視覚素に対応する複数個の顔画像の顔モデルを記憶するための顔モデル記憶手段と、
前記予め準備された音素に対応して予め分類された、対応する音素を発話しているときの発話者の顔画像の特徴点の3次元位置の実測値から成るキャプチャデータ及び前記標準視覚素モデルを用い、前記一般視覚素モデルを生成するための一般視覚素生成手段とを含む、顔モデル生成装置。 - 前記一般視覚素生成手段は、前記標準音素に対応する前記キャプチャデータの線形和で、前記一般音素に対応する前記キャプチャデータを近似するための、前記標準音素の数と同数の係数を、所定の近似誤差を最小とするように算出するための係数算出手段と、
前記一般視覚素モデルを、当該一般視覚素モデルに対応する一般音素について前記係数算出手段により算出された係数を用いた前記標準視覚素モデルの線形和により計算し、前記標準視覚素モデルとともに対応する一般音素と関連付けて前記顔モデル記憶手段に記憶させるための線形和計算手段とを含む、請求項22に記載の顔モデル生成装置。 - 前記所定の関数は、前記平均発話パワーの線形関数である、請求項4又は請求項7に記載のリップシンクアニメーション作成装置。
- 前記所定の関数は、前記平均発話パワーの非線形関数である、請求項4又は請求項7に記載のリップシンクアニメーション作成装置。
- 前記所定の関数は、前記変化の速さの線形関数である、請求項5、請求項6、及び請求項8〜請求項11のいずれかに記載のリップシンクアニメーション装置。
- 前記所定の関数は、前記変化の速さの非線形関数である、請求項5、請求項6、及び請求項8〜請求項11のいずれかに記載のリップシンクアニメーション作成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008210639A JP5109038B2 (ja) | 2007-09-10 | 2008-08-19 | リップシンクアニメーション作成装置及びコンピュータプログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007234239 | 2007-09-10 | ||
JP2007234239 | 2007-09-10 | ||
JP2008210639A JP5109038B2 (ja) | 2007-09-10 | 2008-08-19 | リップシンクアニメーション作成装置及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009087328A true JP2009087328A (ja) | 2009-04-23 |
JP5109038B2 JP5109038B2 (ja) | 2012-12-26 |
Family
ID=40660623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008210639A Expired - Fee Related JP5109038B2 (ja) | 2007-09-10 | 2008-08-19 | リップシンクアニメーション作成装置及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5109038B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017122815A (ja) * | 2016-01-06 | 2017-07-13 | 日本電信電話株式会社 | 会話支援システム、会話支援装置及び会話支援プログラム |
CN110956219A (zh) * | 2019-12-09 | 2020-04-03 | 北京迈格威科技有限公司 | 视频数据的处理方法、装置和电子系统 |
CN113592986A (zh) * | 2021-01-14 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 基于神经网络的动作生成方法、装置及计算设备 |
JP2022526148A (ja) * | 2019-09-18 | 2022-05-23 | ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド | ビデオ生成方法、装置、電子機器及びコンピュータ記憶媒体 |
EP3915108A4 (en) * | 2019-01-25 | 2022-09-07 | Soul Machines Limited | REAL-TIME GENERATION OF VOICE ANIMATION |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0744727A (ja) * | 1993-07-27 | 1995-02-14 | Sony Corp | 画像作成方法およびその装置 |
JP2003281567A (ja) * | 2002-03-20 | 2003-10-03 | Oki Electric Ind Co Ltd | 3次元画像生成装置およびその画像生成方法ならびにその画像生成プログラムを記録したコンピュータ読取り可能な記録媒体 |
JP2007058846A (ja) * | 2005-07-27 | 2007-03-08 | Advanced Telecommunication Research Institute International | リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム |
-
2008
- 2008-08-19 JP JP2008210639A patent/JP5109038B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0744727A (ja) * | 1993-07-27 | 1995-02-14 | Sony Corp | 画像作成方法およびその装置 |
JP2003281567A (ja) * | 2002-03-20 | 2003-10-03 | Oki Electric Ind Co Ltd | 3次元画像生成装置およびその画像生成方法ならびにその画像生成プログラムを記録したコンピュータ読取り可能な記録媒体 |
JP2007058846A (ja) * | 2005-07-27 | 2007-03-08 | Advanced Telecommunication Research Institute International | リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017122815A (ja) * | 2016-01-06 | 2017-07-13 | 日本電信電話株式会社 | 会話支援システム、会話支援装置及び会話支援プログラム |
EP3915108A4 (en) * | 2019-01-25 | 2022-09-07 | Soul Machines Limited | REAL-TIME GENERATION OF VOICE ANIMATION |
JP2022526148A (ja) * | 2019-09-18 | 2022-05-23 | ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド | ビデオ生成方法、装置、電子機器及びコンピュータ記憶媒体 |
CN110956219A (zh) * | 2019-12-09 | 2020-04-03 | 北京迈格威科技有限公司 | 视频数据的处理方法、装置和电子系统 |
CN110956219B (zh) * | 2019-12-09 | 2023-11-14 | 爱芯元智半导体(宁波)有限公司 | 视频数据的处理方法、装置和电子系统 |
CN113592986A (zh) * | 2021-01-14 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 基于神经网络的动作生成方法、装置及计算设备 |
CN113592986B (zh) * | 2021-01-14 | 2023-05-23 | 腾讯科技(深圳)有限公司 | 基于神经网络的动作生成方法、装置及计算设备 |
Also Published As
Publication number | Publication date |
---|---|
JP5109038B2 (ja) | 2012-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Taylor et al. | A deep learning approach for generalized speech animation | |
US5880788A (en) | Automated synchronization of video image sequences to new soundtracks | |
Cao et al. | Expressive speech-driven facial animation | |
US10699705B2 (en) | Using machine-learning models to determine movements of a mouth corresponding to live speech | |
Taylor et al. | Dynamic units of visual speech | |
JP4913973B2 (ja) | 音響信号により駆動される人間の顔の合成モデルのアニメ化方法 | |
JP2518683B2 (ja) | 画像合成方法及びその装置 | |
CN110880315A (zh) | 一种基于音素后验概率的个性化语音和视频生成系统 | |
US20070165022A1 (en) | Method and system for the automatic computerized audio visual dubbing of movies | |
JP4543263B2 (ja) | アニメーションデータ作成装置及びアニメーションデータ作成プログラム | |
KR20190070065A (ko) | 텍스트 기반 적응적 가창 립싱크 애니메이션 생성 장치 및 방법 | |
JP5109038B2 (ja) | リップシンクアニメーション作成装置及びコンピュータプログラム | |
JP4617500B2 (ja) | リップシンクアニメーション作成装置、コンピュータプログラム及び顔モデル生成装置 | |
Ju et al. | Expressive facial gestures from motion capture data | |
Furukawa et al. | Voice animator: Automatic lip-synching in limited animation by audio | |
KR100813034B1 (ko) | 캐릭터 형성방법 | |
US20200211248A1 (en) | Method of Converting Phoneme Transcription Data Into Lip Sync Animation Data for 3D Animation Software | |
KR20230172427A (ko) | 사람 음성에 따른 실사인물의 발화 영상 합성 시스템 | |
Breen et al. | An investigation into the generation of mouth shapes for a talking head | |
Beskow et al. | Data-driven synthesis of expressive visual speech using an MPEG-4 talking head. | |
JP2007299300A (ja) | アニメーション作成装置 | |
JP2003132363A (ja) | アニメーション制作システム | |
Krejsa et al. | A novel lip synchronization approach for games and virtual environments | |
Thangthai et al. | HMM-based visual speech synthesis using dynamic visemes. | |
KR20230096393A (ko) | 사진 기반 대화형 디지털 휴먼 생성 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110811 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120530 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120612 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120727 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120820 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120828 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151019 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5109038 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |