JP2019096114A - 口唇アニメーション生成装置及び口唇アニメーション生成方法 - Google Patents
口唇アニメーション生成装置及び口唇アニメーション生成方法 Download PDFInfo
- Publication number
- JP2019096114A JP2019096114A JP2017225715A JP2017225715A JP2019096114A JP 2019096114 A JP2019096114 A JP 2019096114A JP 2017225715 A JP2017225715 A JP 2017225715A JP 2017225715 A JP2017225715 A JP 2017225715A JP 2019096114 A JP2019096114 A JP 2019096114A
- Authority
- JP
- Japan
- Prior art keywords
- lip
- key frame
- opening
- degree
- still image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
Abstract
【課題】音声に合わせて自然な動きを示す口唇アニメーションを簡単に生成でき、作業者の作業負担を軽減できる口唇アニメーション生成装置及び口唇アニメーション生成方法を提案する。【解決手段】口唇アニメーション生成装置1では、取得した口唇開閉推定データを基に、音声データに合わせて最適なタイミングで口唇静止画13a,13b,13cが切り替わる口唇アニメーションを自動的に生成できる。よって、音声に合わせて自然な動きを示す口唇アニメーションを簡単に生成でき、作業者の作業負担を軽減できる。【選択図】図2
Description
本発明は、音声に合わせて自然な動きを示す口唇アニメーションを生成する口唇アニメーション生成装置及び口唇アニメーション生成方法に関する。
フル・アニメーションと呼ばれる、リアルな動作を追求した表現手法に対し、簡略化された抽象的な動作を表現するために、動きを簡略化してセル画の枚数を減らした表現手法(以下、リミテッド・アニメーションと称する)が知られている(例えば、非特許文献1参照)。このようなリミテッド・アニメーションでは、声優の音声を予め事前に録音しておき、録音された音声データにキャラクターの口唇の開閉状態を合わせる、プレスコアリング(プレスコ)と呼ばれる作業が行われることがある。
このような場合、一般的には、フレーム全体を再描画する作業負担を軽減するために、フレーム内に描画されたキャラクターの口唇部分だけを、音声データに合った口唇静止画に変えてゆく作業が行われている。一般的には、図1Aに示すように、キャラクターの口唇が閉じた状態を描画した口唇静止画13aと、図1Bに示すように、口唇が少し開いた状態を描画した口唇静止画13bと、図1Cに示すように、口唇が開いた状態を描画した口唇静止画13cとを予め用意しておく。作業者は、この3パターンの口唇静止画13a,13b,13cの中から、例えば、音声に合った最適な口唇静止画13aを選択してゆき、音声に合わせて口唇静止画が切り替わる口唇アニメーションが作製されている。
ウィキペディア「リミテッド・アニメーション」、[online]、インターネット(URL:https://ja.wikipedia.org/wiki/%E3%83%AA%E3%83%9F%E3%83%86%E3%83%83%E3%83%89%E3%83%BB%E3%82%A2%E3%83%8B%E3%83%A1%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3)
しかしながら、複数ある口唇静止画13a,13b,13cの中から音声データに基づいて最適な口唇静止画を選択してゆき、音声データに合わせてキャラクターの口唇が自然に動くアニメーションを作製する作業は、どのような口唇静止画を選択し、かつ、どのようなタイミングで異なる口唇静止画に切り替えるか等、熟練を要し、作業者に対する作業負担も大きいという問題があった。
そこで、本発明は以上の点を考慮してなされたもので、音声に合わせて自然な動きを示す口唇アニメーションを簡単に生成でき、作業者の作業負担を軽減できる口唇アニメーション生成装置及び口唇アニメーション生成方法を提案することを目的とする。
本発明の口唇アニメーション生成装置は、開閉度が段階的に異なる口唇をそれぞれ描画した複数の口唇静止画の中から、キャラクターアニメーションに合成させる音声データに応じた前記口唇静止画を選択し、前記音声データに合わせて前記口唇静止画を変化させる前記口唇アニメーションを生成する口唇アニメーション生成装置であって、前記音声データに対する前記口唇の推定開閉度を示した口唇開閉推定データを取得する取得部と、前記口唇開閉推定データから前記推定開閉度が高い位置を示したピークを求め、ピークトップ及びピークボトムを基準に、各前記ピーク毎にそれぞれ所定の閾値を設定してゆく閾値設定部と、前記口唇開閉推定データに対してキーフレーム点を決定するキーフレーム点決定部と、前記閾値に基づいて前記キーフレーム点を量子化し、各前記キーフレーム点での前記推定開閉度を、前記口唇静止画の開閉度に変換した量子化キーフレーム点を生成する量子化処理部と、前記量子化キーフレーム点間における前記開閉度を、前記量子化キーフレーム点の前記開閉度に基づいて補間してゆき、前記口唇静止画の連続的な遷移を示した口唇遷移データを生成する補間処理部と、を備えるものである。
また、本発明の口唇アニメーション生成方法は、開閉度が段階的に異なる口唇をそれぞれ描画した複数の口唇静止画の中から、キャラクターアニメーションに合成させる音声データに応じた前記口唇静止画を選択し、前記音声データに合わせて前記口唇静止画を変化させる前記口唇アニメーションを生成する口唇アニメーション生成方法であって、前記音声データに対する前記口唇の推定開閉度を示した口唇開閉推定データを取得する取得ステップと、前記口唇開閉推定データから前記推定開閉度が高い位置を示したピークを求め、ピークトップ及びピークボトムを基準に、各前記ピーク毎にそれぞれ所定の閾値を設定してゆく閾値設定ステップと、前記口唇開閉推定データに対してキーフレーム点を決定するキーフレーム点決定ステップと、前記閾値に基づいて前記キーフレーム点を量子化し、各前記キーフレーム点での前記推定開閉度を、前記口唇静止画の開閉度に変換した量子化キーフレーム点を生成する量子化処理ステップと、前記量子化キーフレーム点間における前記開閉度を、前記量子化キーフレーム点の前記開閉度に基づいて補間してゆき、前記口唇静止画の連続的な遷移を示した口唇遷移データを生成する補間処理ステップと、を備えるものである。
本発明によれば、取得した口唇開閉推定データを基に、音声データに合わせて最適なタイミングで口唇静止画が切り替わる口唇アニメーションを自動的に生成できる。よって、音声に合わせて自然な動きを示す口唇アニメーションを簡単に生成でき、作業者の作業負担を軽減できる。
以下図面について、本発明の一実施形態を詳述する。以下の説明において、同様の要素には同一の符号を付し、重複する説明は省略する。
(1)口唇アニメーション生成装置について
本発明の口唇アニメーション生成装置は、キャラクターアニメーションに声優の音声を合成する際、例えば、図1A、図1B及び図1Cに示したように、段階的に変化する口唇静止画13a,13b,13cの中から、音声に合った最適な口唇静止画を自動的に選択してゆき、音声に合わせて自然に動く口唇アニメーションを生成し得る。
本発明の口唇アニメーション生成装置は、キャラクターアニメーションに声優の音声を合成する際、例えば、図1A、図1B及び図1Cに示したように、段階的に変化する口唇静止画13a,13b,13cの中から、音声に合った最適な口唇静止画を自動的に選択してゆき、音声に合わせて自然に動く口唇アニメーションを生成し得る。
図2は、本発明の口唇アニメーション生成装置の構成を示すブロック図である。この口唇アニメーション生成装置1では、音声データに合わせて自然に動く口唇アニメーションを生成し得るものの、段階的に口唇の開閉度合が変化する口唇静止画を用いセル画の枚数を減らし、キャラクターの口唇の動きを簡略化している。これにより、口唇アニメーション生成装置1では、音声に合わせて自然に動く口唇アニメーションを生成しつつも、アニメーションらしいメリハリのある口唇の動きを表現した、リミテッド・アニメーションを制作できる。
この場合、本発明の口唇アニメーション生成装置1には、取得部5、閾値設定部6、キーフレーム点決定部7、量子化処理部8、膨張処理部11、補間処理部9及び開閉強調部10が設けられている。取得部5は、後述する口唇開閉推定データを口唇開閉推定データ生成装置3から受け取る。ここで、口唇開閉推定データは、例えば、図3Aに示すように、アニメーションに合成する音声に応じて、一般的な口唇の開閉度を推定したデータであり、口唇開閉推定データ生成装置3により生成される。
この場合、図2に示す音声記憶装置2には、例えば、アニメーションに合成する音声が声優により音声データとして予め記録されている。口唇開閉推定データ生成装置3は、音声データを音声記憶装置2から受け取ると、例えば、音声データからフォルマント周波数を抽出し、このフォルマント周波数を基に口唇の開閉度を推定した推定開閉度を求めてゆき、口唇開閉推定データを生成する。
なお、フォルマント周波数は、第1フォルマント周波数や第2フォルマント周波数等があり、そのうち第1フォルマント周波数が口唇の開閉度とリンクしていることが一般的に知られている。ここでは、口唇開閉推定データ生成装置3は、例えば、公知文献「石井カルロス寿憲, 劉超然, 石黒浩, 萩田紀博 (2013). 遠隔存在感ロボットのためのフォルマントによる口唇動作生成手法, 日本ロボット学会誌, Vol. 31, No. 4, 83-90, May 2013.」や、「Ishi, C., Liu, C., Ishiguro, H. and Hagita, N. (2011). “Speech-driven lip motion generation for tele-operated humanoid robots,” Proceedings of International Conference on Auditory-Visual Speech Processing (AVSP2011), 131-135.」等に開示された、公知の手法を実行することにより、図3Aに示すような、音声データに対して推定開閉度が対応付けられた口唇開閉推定データを生成する。なお、図3Aでは、横軸を時間とし、縦軸を推定開閉度とし、時間経過に伴う推定開閉度の連続的な変化を示している。
口唇アニメーション生成装置1において、取得部5は、口唇開閉推定データ生成装置3から口唇開閉推定データを受け取ると、これを閾値設定部6に送出する。閾値設定部6は、始めに、図3Bに示すように、口唇開閉推定データ内のピークP1,P2,P3毎に口唇開閉推定データを分割するカットポイントCを設定する。このカットポイントCは、口唇開閉推定データが急激に遷移するピークボトムPBに設定される。
具体的には、閾値設定部6は、口唇開閉推定データの推定開閉度が下降から上昇へと変わる下降上昇遷移点をピークボトムPBとして検出し、検出したピークボトムPB毎にそれぞれカットポイントCを設定してゆく。閾値設定部6は、次に、カットポイントCによって区切られたピークP1,P2,P3毎に閾値を設定する。なお、図3Bに示すような比較的鋭角なピークボトムPBではなく、一定期間、定常状態が続くピークボトムPBであるときには、定常状態が続くピークボトムPB内の所定位置にカットポイントCを設定する。
この実施形態の場合には、閾値として、下限閾値Sh1と上限閾値Sh2(以下、これらをまとめて、単に閾値と称する)とが設定される。ここで、下限閾値Sh1は下記の式(1)により定義され、上限閾値Sh2は下記の式(2)により定義される。
Sh1[n]=min[n]+τ1 … (1)
Sh2[n]={(max[n]−min[n])/2}+min[n]+τ2 … (2)
Sh2[n]={(max[n]−min[n])/2}+min[n]+τ2 … (2)
Sh1[n]及びSh2[n]は、n番目のカットポイントCとn+1番目のカットポイントCとの間にある下限閾値Sh1及び上限閾値Sh2を意味する。min[n]は、n番目のカットポイントCとn+1番目のカットポイントCとの間(隣接するピークボトムPB間)における口唇開閉推定データで最小の推定開閉度(以下、最小ピークボトムとも称する)を示す。max[n]は、n番目のカットポイントCとn+1番目のカットポイントCとの間にある、ピークトップPTの推定開閉度を示す。
τ1は下限補正値を示し、τ2は上限補正値を示す。τ1及びτ2は、例えば最小ピークボトムの推定開閉度min[n]と、ピークトップPT及び最小ピークボトム間の中間の推定開閉度{(max[n]−min[n])/2}+min[n](ピークトップPT及び最小ピークボトムの中間点(決定点))と、が同じ値となったときに、下限閾値Sh1と上限閾値Sh2とが重複することを避けるための補正値である。この実施形態の場合、下限補正値τ1は=0.01に設定し、上限補正値τ2は=0.02に設定している。
なお、下限補正値τ1及び上限補正値τ2の数値は、0<τ1<τ2の関係を満たしていればよく、計算機(口唇アニメーション生成装置1)における小数表現の丸め誤差によって値が重複しない桁数が望ましい。下限補正値τ1及び上限補正値τ2の数値は大きすぎると量子化に影響するため、下限補正値τ1の数値は、0<τ1≦0.01であることが望ましく、また、上限補正値τ2の数値は、0.01<τ2≦0.02であることが望ましい。
なお、閾値設定部6は、カットポイントC間で最小となる推定開閉度を、最小ピークボトムとして口唇開閉推定データから特定し、これをmin[n]として求める。また、閾値設定部6は、ピークトップPTについても、口唇開閉推定データの推定開閉度が上昇から下降へと変わる上昇下降遷移点を検出し、これをピークトップPTとし、各ピークトップPTでの推定開閉度をmax[n]として求める。
なお、このようにして口唇開閉推定データに対して設定される下限閾値Sh1は、キャラクターの口唇が閉じた状態(最小開度とも称する)を描画した口唇静止画13a(図1A)を割り当てることが最適な領域(図3B中、「閉」と表記)と、口唇が少し開いた(中間開度とも称する)状態を描画した口唇静止画13b(図1B)を割り当てることが最適な領域(図3B中、「中開」と表記)と、について区分けする目安となる。
また、上限閾値Sh2は、口唇が少し開いた状態(中間開度)を描画した口唇静止画13b(図1B)を割り当てることが最適な領域(図3B中、「中開」と表記)と、口唇が開いた状態(最大開度とも称する)を描画した口唇静止画13c(図1C)を割り当てることが最適な領域(「開」)と、について区分けする目安となる。
閾値設定部6は、図3Bに示すように、口唇開閉推定データに対して下限閾値Sh1及び上限閾値Sh2を設定し終えると、これをキーフレーム点決定部7(図2)に送出する。キーフレーム点決定部7は、始めに、図3Cに示すように、口唇開閉推定データの各ピークトップPTに対して初期キーフレーム点を設定してゆく。次に、キーフレーム点決定部7は、例えばポアソンディスクサンプリングによって、口唇開閉推定データに対して所定距離以上離れた間隔で配置されるサンプリングキーフレーム点を設定してゆく。
ここで、ポアソンディスクサンプリングとは、隣接するサンプリングキーフレーム点同士、或いは、隣接するサンプリングキーフレーム点及び初期キーフレーム点を、所定距離以上離れて設定するものである。例えば、キーフレーム点決定部7は、初期キーフレーム点を設定した後、予め設定された、フレームを切り替える時間単位毎に、サンプリングキーフレーム点を設定できるか否かを判断する。
ここで、図11Aは、フレームを切り替える時間単位毎に番号を付した、時系列に並ぶフレーム番号を示す。図11Aに示すように、例えば、初期キーフレーム点をフレーム番号5に付した場合には、所定距離が前後2フレームとすると、フレーム番号5の前後2フレームとなるフレーム番号3,4,6,7には、サンプリングキーフレーム点は設定されない。次いで、ランダムにフレーム番号に着目してゆき、サンプリングキーフレーム点が設定できるかを確認する。例えば、図11Bに示すように、フレーム番号0に着目すると、初期キーフレーム点が設定されておらず、かつ初期キーフレーム点から所定距離離れており、サンプリングキーフレーム点として設定できるため、フレーム番号0にサンプリングキーフレーム点を設定する。
これにより、フレーム番号0の後2フレームにあるフレーム番号1,2には、サンプリングキーフレーム点は設定されない。次いで、新たにサンプリングキーフレーム点が設定可能なフレーム番号をランダムに探索してゆく。このようにして、キーフレーム点決定部7は、初期キーフレーム点及びサンプリングキーフレーム点から所定距離離れた次のサンプリングキーフレーム点を設定してゆき、サンプリングキーフレーム点が設定できなくなるまで、これを繰り返す。
なお、時間軸上に沿って規定される所定距離としては、上述したように、注目する初期キーフレーム点や、サンプリングキーフレーム点を中心にして前後2フレーム分が表示される時間に相当するものであることが望ましい。これにより、例えば、一のサンプリングキーフレーム点と、これと隣接する他のサンプリングキーフレーム点(又は初期キーフレーム点)とにおいては、少なくとも2フレームが表示される空白期間を設定できる。一般に口唇アニメーション制作では3フレームごとに画像を切り替えるという方法がとられており、上記のサンプリングキーフレーム点の間隔はこれと同様の表現を実現することを目的としている。
キーフレーム点決定部7は、図3Cに示すように、下限閾値Sh1及び上限閾値Sh2が設定されている口唇開閉推定データに対して、初期キーフレーム点及びサンプリングキーフレーム点(以下、これらをまとめて、単にキーフレーム点と称する)を設定し終えると、これを量子化処理部8(図2)に送出する。量子化処理部8は、後述する量子化処理を実行することにより、口唇開閉推定データ上の各初期キーフレーム点及びサンプリングキーフレーム点での推定開閉度を、段階的に変化する口唇静止画13a,13b,13cでの開閉度に変換した量子化キーフレーム点を生成する。
例えば、第tフレームにおいて、初期キーフレーム点及びサンプリングキーフレーム点を量子化キーフレーム点に変換する場合、下記の式(3)〜(5)に示す量子化開閉度L(t)を用いる。ここで、下記の式(3)〜(5)のうち、量子化開閉度L(t)=0は、最小開度を示す口唇静止画13aの選択を意味する。量子化開閉度L(t)=1は、中間開度を示す口唇静止画13bの選択を意味する。量子化開閉度L(t)=2は、最大開度の口唇静止画13cの選択を意味する。ETL[t]は、第tフレーム目に位置する口唇開閉推定データの推定開閉度を示す。なお、ここでは、推定開閉度は0〜1の間で変化するとしている。
L(t)=0(0≦ELT[t]≦Sh1[n]) … (3)
L(t)=1(Sh1[n]<ELT[t]≦Sh2[n]) … (4)
L(t)=2(Sh2<ELT[t]≦1) … (5)
L(t)=1(Sh1[n]<ELT[t]≦Sh2[n]) … (4)
L(t)=2(Sh2<ELT[t]≦1) … (5)
図4Aは、上記式(3)〜(5)で規定される量子化開閉度L(t)の各領域を示した口唇開閉推定データを示す。図4Aにおいて、ER1は量子化開閉度L(t)=0の領域を示し、ER2は量子化開閉度L(t)=1の領域を示し、ER3は量子化開閉度L(t)=2の領域を示す。さらに、量子化処理部8は、量子化処理として、図4Bに示すように、量子化開閉度L(t)=0,1,2を基準として、初期キーフレーム点及びサンプリングキーフレーム点を、それぞれ量子化開閉度L(t)で示された量子化キーフレーム点に変換してゆく。
具体的には、量子化開閉度L(t)=0の領域にあるサンプリングキーフレーム点を、最小開度を示す口唇静止画13aでの開閉度を示す量子化キーフレーム点(例えば、量子化開閉度L(t)=0を示す量子化キーフレーム点)に変換する。また、量子化開閉度L(t)=1の領域にある初期キーフレーム点及びサンプリングキーフレーム点を、中間開度を示す口唇静止画13bでの開閉度を示す量子化キーフレーム点(例えば、量子化開閉度L(t)=1を示す量子化キーフレーム点)に変換する。さらに、量子化開閉度L(t)=2の領域にある初期キーフレーム点及びサンプリングキーフレーム点を、最大開度を示す口唇静止画13cでの開閉度を示す量子化キーフレーム点(例えば、量子化開閉度L(t)=2を示す量子化キーフレーム点)に変換する。
量子化処理部8は、このようにして初期キーフレーム点及びサンプリングキーフレーム点をそれぞれ量子化キーフレーム点に変換した量子化データ(図4B)を生成し、これを膨張処理部11(図2)に送出する。
膨張処理部11は、量子化処理部8で特定された量子化開閉度L(t)を基に決められた、口唇静止画13a,13b,13cの切り替えタイミングを早めるものである。これは、口唇静止画13a,13b,13cが切り替わる際に生じる視覚的な残像効果によって、一般的に、視聴者が感じる画像の知覚遅延を考慮したものである。膨張処理部11は、口唇静止画13a,13b,13cの切り替えタイミングを早めることで、音声よりも早めに次の口唇静止画13a,13b,13cを呈示し、一段と音声と同期した自然な口唇アニメーションを実現するものである。
膨張処理部11は、例えば、図5の上段に示すように、間隔を空けて量子化開閉度L(t)(すなわち、量子化キーフレーム点)が決められた量子化データを、量子化処理部8から受け取る。図5に示す量子化データでは、時系列に並ぶフレーム番号に沿って、例えばフレーム番号1に量子化開閉度L(t)=0(すなわち、最小開度を示す口唇静止画13aが割り振られることを示すデータ)の量子化キーフレーム点が設定され、フレーム番号5に量子化開閉度L(t)=1(すなわち、中間開度を示す口唇静止画13bが割り振られることを示すデータ)の量子化キーフレーム点が設定されている。なお、「−1」は空白期間を示す。
膨張処理部11は、量子化キーフレーム点が間隔を空けて時系列に並ぶ量子化データに対して、所定フレーム数でなる膨張フィルタ20を用いて膨張処理を行う。なお、この実施形態の場合、膨張フィルタ20は、量子化データに対して2フレーム毎に膨張処理を行えるように構成されている。なお、ここで2フレーム毎に膨張処理を行う膨張フィルタ20について説明するが、本発明はこれに限らず、3フレーム毎等、数フレーム毎に膨張処理を行う膨張フィルタを適用してよい。
この場合、膨張処理部11は、量子化データの時系列に沿って、膨張フィルタ20で量子化データの2フレームを順番に指定してゆき、膨張フィルタ20で指定した2フレーム内にある量子化データの量子化開閉度L(t)を特定する。例えば、図5に示す1回目の膨張処理について着目すると、量子化データの時系列に並ぶフレーム番号0,1を、膨張フィルタ20で指定し、フレーム番号0,1に設定された、量子化開閉度L(t)=−1(空白期間),0を特定する。
次いで、膨張処理部11は、膨張フィルタ20で指定したフレーム番号0,1の2フレーム内にある量子化データの量子化開閉度L(t)=−1,0のうち、開度が大きい方の量子化開閉度L(t)=0を選択し、これを膨張処理後の量子化データとして決定する。このようにして、膨張処理部11は、量子化データの時系列に沿って、膨張フィルタ20を1フレームずつずらしてゆき、その都度、膨張フィルタ20で指定した2フレーム毎に開度が大きい量子化開閉度L(t)を選択して順番に時系列に並べてゆく。このようにして、膨張処理部11は、図5の下段に示すような膨張処理後の量子化データを生成する。
このような膨張処理を行うことで、例えば、図5の上段に示す膨張処理前の量子化データでフレーム番号1にあった量子化開閉度L(t)=0が、図5の下段に示すように、膨張処理後の量子化データでは、1つ前のフレームであるフレーム番号0に量子化開閉度L(t)=0が設定される。このように、膨張処理部11は、時系列に並ぶ量子化キーフレーム点を時間軸の早い方向に膨張させてゆき、量子化キーフレーム点への切り替えタイミングを早めさせる。これにより、膨張処理前の量子化データに比して、口唇静止画13a,13b,13cの切り替えタイミングを早めることができる。
上述した膨張処理後の量子化データには、量子化開閉度L(t)=0,1,2のいずれかが設定された量子化キーフレーム点の各間に空白期間がある。そこで、補間処理部9は、膨張処理後の量子化データに対して補間処理を実行し、口唇開閉推定データの推定開閉度に対応した、いずれかの口唇静止画13a,13b,13cの開閉度(すなわち、量子化開閉度L(t)=0,1,2のいずれか)を、空白期間に補間してゆく。これにより、補間処理部9は、図4Cに示すように、口唇静止画13a,13b,13cの連続的な遷移を示したき口唇遷移データを生成する。
上述した補間処理について、図6A、図6B及び図6Cを用いて以下説明する。図6Aは、図4Bに示した量子化データの時系列な遷移を、フレームの遷移として表している。なお、ここで説明する本発明の口唇アニメーション生成装置1は、例えば、毎秒24フレームで投影され、同じ絵柄の静止画像が連続して3フレーム表示される、いわゆるオンスリー(on threes)の口唇アニメーションと似た表現となるように補間処理を行う。
V1,V2は、最小開度の口唇静止画13aでの開閉度を示す量子化キーフレーム点(量子化開閉度L(t)=0を示す量子化キーフレーム点)のフレーム、中間開度の口唇静止画13bでの開閉度を示す量子化キーフレーム点(量子化開閉度L(t)=1を示す量子化キーフレーム点)のフレーム、最大開度の口唇静止画13cでの開閉度を示す量子化キーフレーム点(量子化開閉度L(t)=2を示す量子化キーフレーム点)のフレームのいずれかを示す。−1は空白期間となっているフレームを示す。なお、図6A及び図6Bでは、空白期間が4フレーム分であることを示す。
この場合、補間処理部9は、図6Bに示すように、一の量子化キーフレーム点が割り当てられたフレームV1から、一の量子化キーフレーム点に隣接した他の量子化キーフレーム点が割り当てられたフレームV2に向けて、一の量子化キーフレーム点の開閉度(量子化開閉度L(t)=0又は1,2)で空白期間を補間してゆく。
また、この際、同時に、補間処理部9は、他の量子化キーフレーム点のフレームV2からも、一の量子化キーフレーム点のフレームV1に向けて、他の量子化キーフレーム点の開閉度(量子化開閉度L(t)=0又は1,2)で空白期間を補間してゆく。これにより、補間処理部9は、図6Cに示すように、隣接する量子化キーフレーム点間にある空白期間を、これら量子化キーフレーム点の開閉度を基に補間した口唇遷移データを生成する。
ここで、図7A、図7B及び図7Cは、補間処理の他の一例を示す概略図である。図7Aは、図6Aと同様に、図4Bに示した量子化データの時系列な遷移を、フレームの遷移として表している。図7Aでは、最小開度を示す量子化キーフレーム点(量子化開閉度L(t)=0)のフレームと、最大開度を示す量子化キーフレーム点(量子化開閉度L(t)=2)のフレームとが空白期間(図中、空白期間のフレームは「−1」と表記)を設けて設定されている。
このように、最小開度(最大開度)を示す量子化キーフレーム点と最大開度(最小開度)を示す量子化キーフレーム点とが隣接する場合には、空白期間を埋める補間処理に先立って下記の処理を行う。始めに、図7Bに示すように、空白期間の中心領域に、中間開度を示す量子化キーフレーム点(量子化開閉度L(t)=1)のフレームを設定する。次いで、図7Cに示すように、補間処理を行い、一の量子化キーフレーム点の開閉度(量子化開閉度L(t)=0)を示すフレームと、補間した量子化キーフレーム点の開閉度(量子化開閉度L(t)=1)を示すフレームとの間にある空白期間のフレームを、一の量子化キーフレーム点の開閉度(量子化開閉度L(t)=0)で補間してゆく。
この際、同時に、他の量子化キーフレーム点の開閉度(量子化開閉度L(t)=2)を示すフレームと、補間した量子化キーフレーム点の開閉度(量子化開閉度L(t)=1)を示すフレームとの間にある空白期間のフレームも、他の量子化キーフレーム点の開閉度(量子化開閉度L(t)=2)で補間してゆく。これにより、口唇アニメーション生成装置1では、口唇静止画13a,13b,13cの連続的な遷移が一段と自然な口唇遷移データを生成できる。
補間処理部9は、上述した口唇遷移データを生成すると、これを開閉強調部10(図2)に送出する。この実施形態の場合、開閉強調部10は、口唇遷移データで示された口唇静止画13a,13b,13cの開閉度(量子化開閉度L(t)=0,1,2)の遷移状態に応じて、後述する5つの開閉強調処理の中から、いずれかの開閉強調処理を実行する。
(1−1)第1の開閉強調処理
図8Aは、最大開度を示す口唇静止画13cが9フレーム連続したときの概略図であり、図8Bは、図8Aに対する開閉強調処理の結果を示した概略図である。この場合、開閉強調部10は、図8Aに示すように、最大開度の口唇静止画13cが9フレーム連続した領域があるか否かを判断する。開閉強調部10は、このような領域があると判断すると、図8Bに示すように、当該領域内の中間領域にある数フレーム(この場合3フレーム)を、開度が一段低い中間開度の口唇静止画13bの開閉度(量子化開閉度L(t)=1)に変更する。
図8Aは、最大開度を示す口唇静止画13cが9フレーム連続したときの概略図であり、図8Bは、図8Aに対する開閉強調処理の結果を示した概略図である。この場合、開閉強調部10は、図8Aに示すように、最大開度の口唇静止画13cが9フレーム連続した領域があるか否かを判断する。開閉強調部10は、このような領域があると判断すると、図8Bに示すように、当該領域内の中間領域にある数フレーム(この場合3フレーム)を、開度が一段低い中間開度の口唇静止画13bの開閉度(量子化開閉度L(t)=1)に変更する。
これにより、最大開度の口唇静止画13cが3フレーム続いた後、中間開度の口唇静止画13bが3フレーム続き、再び最大開度の口唇静止画13cが3フレーム続いた口唇アニメーションを生成できる。口唇アニメーション生成装置1は、このように口唇が動く口唇アニメーションを視聴者に視認させることで、残像効果によって、あたかもキャラクターが発話しているかのような印象を視聴者に与えることができる。
(1−2)第2の開閉強調処理
図8Cは、最大開度の口唇静止画が6フレーム連続したときの概略図であり、図8Dは、図8Cに対する開閉強調処理の結果を示した概略図である。この場合、開閉強調部10は、図8Cに示すように、最大開度の口唇静止画13cが6フレーム連続した領域があるか否かを判断する。開閉強調部10は、このような領域があると判断すると、図8Dに示すように、当該領域内の最後尾領域にある数フレーム(この場合3フレーム)を、開度が一段低い中間開度の口唇静止画13bの開閉度(量子化開閉度L(t)=1)に変更する。
図8Cは、最大開度の口唇静止画が6フレーム連続したときの概略図であり、図8Dは、図8Cに対する開閉強調処理の結果を示した概略図である。この場合、開閉強調部10は、図8Cに示すように、最大開度の口唇静止画13cが6フレーム連続した領域があるか否かを判断する。開閉強調部10は、このような領域があると判断すると、図8Dに示すように、当該領域内の最後尾領域にある数フレーム(この場合3フレーム)を、開度が一段低い中間開度の口唇静止画13bの開閉度(量子化開閉度L(t)=1)に変更する。
これにより、最大開度の口唇静止画13cが3フレーム続いた後、中間開度の口唇静止画13bが3フレーム続いた口唇アニメーションを生成できる。口唇アニメーション生成装置1は、このように口唇が動く口唇アニメーションを視聴者に視認させることで、残像効果によって、あたかもキャラクターが発話しているかのような印象を視聴者に与えることができる。
(1−3)第3の開閉強調処理
図8Eは、中間開度の口唇静止画13bが9フレーム連続した後に最小開度の口唇静止画13aのフレームが続いたときの概略図であり、図8Fは、図8Eに対する開閉強調処理の結果を示した概略図である。この場合、開閉強調部10は、図8Eに示すように、中間開度の口唇静止画13bが9フレーム連続した後に最小開度の口唇静止画13aのフレームが続いた領域があるか否かを判断する。開閉強調部10は、このような領域があると判断すると、図8Fに示すように、中間開度の口唇静止画13bが9フレーム連続した領域内の中間領域にある数フレーム(この場合3フレーム)を、開度が一段高い最大開度の口唇静止画13cの開閉度(量子化開閉度L(t)=2)に変更する。
図8Eは、中間開度の口唇静止画13bが9フレーム連続した後に最小開度の口唇静止画13aのフレームが続いたときの概略図であり、図8Fは、図8Eに対する開閉強調処理の結果を示した概略図である。この場合、開閉強調部10は、図8Eに示すように、中間開度の口唇静止画13bが9フレーム連続した後に最小開度の口唇静止画13aのフレームが続いた領域があるか否かを判断する。開閉強調部10は、このような領域があると判断すると、図8Fに示すように、中間開度の口唇静止画13bが9フレーム連続した領域内の中間領域にある数フレーム(この場合3フレーム)を、開度が一段高い最大開度の口唇静止画13cの開閉度(量子化開閉度L(t)=2)に変更する。
これにより、中間開度の口唇静止画13bが3フレーム続いた後、最大開度の口唇静止画13cが3フレーム続き、再び中間開度の口唇静止画13bが3フレーム続き、最小開度の口唇静止画13aが3フレーム続く口唇アニメーションを生成できる。口唇アニメーション生成装置1は、このように口唇が動く口唇アニメーションを視聴者に視認させることで、残像効果によって、あたかもキャラクターが発話しているかのような印象を視聴者に与えることができる。
(1−4)第4の開閉強調処理
図8Gは、中間開度の口唇静止画13bが9フレーム連続した後に最大開度の口唇静止画13aのフレームが続いたときの概略図であり、図8Hは、図8Gに対する開閉強調処理の結果を示した概略図である。この場合、開閉強調部10は、図8Gに示すように、中間開度の口唇静止画13bが9フレーム連続した後に最大開度の口唇静止画13aのフレームが続いた領域があるか否かを判断する。開閉強調部10は、このような領域があると判断すると、図8Hに示すように、中間開度の口唇静止画13bが9フレーム連続した領域内の中間領域にある数フレーム(この場合3フレーム)を、開度が一段低い最小開度の口唇静止画13aの開閉度(量子化開閉度L(t)=0)に変更する。
図8Gは、中間開度の口唇静止画13bが9フレーム連続した後に最大開度の口唇静止画13aのフレームが続いたときの概略図であり、図8Hは、図8Gに対する開閉強調処理の結果を示した概略図である。この場合、開閉強調部10は、図8Gに示すように、中間開度の口唇静止画13bが9フレーム連続した後に最大開度の口唇静止画13aのフレームが続いた領域があるか否かを判断する。開閉強調部10は、このような領域があると判断すると、図8Hに示すように、中間開度の口唇静止画13bが9フレーム連続した領域内の中間領域にある数フレーム(この場合3フレーム)を、開度が一段低い最小開度の口唇静止画13aの開閉度(量子化開閉度L(t)=0)に変更する。
これにより、中間開度の口唇静止画13bが3フレーム続いた後、最小開度の口唇静止画13aが3フレーム続き、再び中間開度の口唇静止画13bが3フレーム続き、最大開度の口唇静止画13cが3フレーム続く口唇アニメーションを生成できる。口唇アニメーション生成装置1は、このように口唇が動く口唇アニメーションを視聴者に視認させることで、残像効果によって、あたかもキャラクターが発話しているかのような印象を視聴者に与えることができる。
(1−5)第5の開閉強調処理
図8Iは、中間開度の口唇静止画が6フレーム連続したときの概略図であり、図8Jは、図8Iに対する開閉強調処理の結果を示す概略図である。この場合、開閉強調部10は、図8Iに示すように、中間開度の口唇静止画13bが6フレーム連続した領域があるか否かを判断する。開閉強調部10は、このような領域があると判断すると、図8Jに示すように、当該領域内の最後尾領域にある数フレーム(この場合3フレーム)を、開度が一段低い最小開度の口唇静止画13aの開閉度(量子化開閉度L(t)=0)に変更する。
図8Iは、中間開度の口唇静止画が6フレーム連続したときの概略図であり、図8Jは、図8Iに対する開閉強調処理の結果を示す概略図である。この場合、開閉強調部10は、図8Iに示すように、中間開度の口唇静止画13bが6フレーム連続した領域があるか否かを判断する。開閉強調部10は、このような領域があると判断すると、図8Jに示すように、当該領域内の最後尾領域にある数フレーム(この場合3フレーム)を、開度が一段低い最小開度の口唇静止画13aの開閉度(量子化開閉度L(t)=0)に変更する。
これにより、中間開度の口唇静止画13bが3フレーム続いた後、最小開度の口唇静止画13aが3フレーム続いた口唇アニメーションを生成できる。口唇アニメーション生成装置1は、このように口唇が動く口唇アニメーションを視聴者に視認させることで、残像効果によって、あたかもキャラクターが発話しているかのような印象を視聴者に与えることができる。
口唇アニメーション生成装置1は、開閉強調部10において、以上のような第1の開閉強調処理から第5の開閉強調処理を実行し終えると、開閉強調処理を実行した口唇遷移データをアニメーション生成装置4に送出する。これによりアニメーション生成装置4は、口唇アニメーション生成装置1から取得した口唇アニメーションと、キャラクターアニメーションとを合成し、視聴者に呈示するアニメーションを生成できる。
(2)作用及び効果
以上の構成において、口唇アニメーション生成装置1では、口唇開閉推定データから推定開閉度が高い位置を示したピークP1,P2,P3を求め、ピークトップPT及びピークボトムPBを基準に、各ピークP1,P2,P3毎にそれぞれ所定の閾値(下限閾値Sh1及び上限閾値Sh2)を設定する。次いで、口唇アニメーション生成装置1では、口唇開閉推定データにて特徴的な位置となるピークトップPTをそれぞれ初期キーフレーム点として決定するとともに、口唇開閉推定データに沿って、互いに所定距離離れたサンプリングキーフレーム点を決定してゆく。
以上の構成において、口唇アニメーション生成装置1では、口唇開閉推定データから推定開閉度が高い位置を示したピークP1,P2,P3を求め、ピークトップPT及びピークボトムPBを基準に、各ピークP1,P2,P3毎にそれぞれ所定の閾値(下限閾値Sh1及び上限閾値Sh2)を設定する。次いで、口唇アニメーション生成装置1では、口唇開閉推定データにて特徴的な位置となるピークトップPTをそれぞれ初期キーフレーム点として決定するとともに、口唇開閉推定データに沿って、互いに所定距離離れたサンプリングキーフレーム点を決定してゆく。
口唇アニメーション生成装置1では、閾値に基づいて初期キーフレーム点及びサンプリングキーフレーム点(キーフレーム点)を量子化し、各初期キーフレーム点及びサンプリングキーフレーム点での推定開閉度を、口唇静止画13a,13b,13cの開閉度に変換した量子化キーフレーム点を生成する。次いで、口唇アニメーション生成装置1では、上述した膨張処理を行った後、量子化キーフレーム点間における開閉度を、量子化キーフレーム点の開閉度に基づいて補間してゆき、口唇静止画13a,13b,13cの連続的な遷移を示した口唇遷移データを生成する。
これにより、口唇アニメーション生成装置1では、取得した口唇開閉推定データを基に、音声データに合わせて最適なタイミングで口唇静止画13a,13b,13cが切り替わる口唇アニメーションを自動的に生成できる。よって、音声に合わせて自然な動きを示す口唇アニメーションを簡単に生成でき、作業者の作業負担を軽減できる。
また、口唇アニメーション生成装置1では、上記のように作業者の作業負担を軽減できる分、口唇アニメーションの制作に携わる作業者の人数も減らせることができ、コスト低減を図ることができる。さらに、口唇アニメーション生成装置1では、作業者により、音声データに合わせて最適なタイミングで口唇静止画13a,13b,13cを考えながら選択してゆく手間が省ける分、口唇アニメーションの生成する際の時間の短縮化を図ることができる。
(3)他の実施形態
なお、本発明は、本実施形態に限定されるものではなく、本発明の要旨の範囲内で種々の変形実施が可能である。例えば、上述した実施形態においては、開閉強調処理を実行する口唇アニメーション生成装置について説明したが、本発明はこれに限らず、開閉強調処理を実行せずに、補間処理を実行した後、得られた口唇遷移データをアニメーション生成装置4に送出するようにしてもよい。また、下限閾値Sh1及び上限閾値Sh2は、必ずしもそれぞれ下限補正値τ1及び上限補正値τ2を加算した値でなくてもよい。
なお、本発明は、本実施形態に限定されるものではなく、本発明の要旨の範囲内で種々の変形実施が可能である。例えば、上述した実施形態においては、開閉強調処理を実行する口唇アニメーション生成装置について説明したが、本発明はこれに限らず、開閉強調処理を実行せずに、補間処理を実行した後、得られた口唇遷移データをアニメーション生成装置4に送出するようにしてもよい。また、下限閾値Sh1及び上限閾値Sh2は、必ずしもそれぞれ下限補正値τ1及び上限補正値τ2を加算した値でなくてもよい。
また、上述した開閉強調処理において、図8A、図8C、図8E、図8G及び図8Iにて所定数続くフレーム数については任意の数であってもよい。例えば、図8A、図8E、図8Gのように9フレームとしている場合については、7フレーム以上等、範囲を設けてもよい。同様に、図8C、図8Iのように6フレームとしている場合についても、4フレーム以上等、範囲を設けても良い。
図8Aにおいて、例えば、所定数続くフレーム数として8フレームとした場合には、厳密な中間位置を指定できないため、先頭から2フレーム後、或いは3フレーム後の中間領域にある数フレーム(この場合3フレーム)を、開度が一段低い中間開度の口唇静止画13bの開閉度(量子化開閉度L(t)=1)に変更する。図8Eや図8Gについても同様に、厳密な中間位置を指定できないときは、先頭から2フレーム後、或いは3フレーム後の中間領域にある数フレーム(この場合3フレーム)を変更する。
また、上述した実施形態においては、開閉度が段階的に異なる口唇をそれぞれ描画した複数の口唇静止画として、口唇の開閉度が3段階に変化する口唇静止画13a,13b,13cを適用した場合について述べたが、本発明はこれに限らない。例えば、口唇の開閉度が4段階、5段階等、その他複数段に変化する口唇静止画を適用してもよい。
例えば、図9A、図9B、図9C及び図9Dに示すように、口唇の開閉度が4段階に変化する口唇静止画13a,13b,13b´,13cを用いる場合には、閾値設定部6において、口唇開閉推定データを4領域に区分けする必要があるため、図10に示すように、3つの閾値(下限閾値Sh1、中間閾値Sh3、及び上限閾値Sh2)を口唇開閉推定データに対して設定することになる。なお、図9Cは、図9Bに示した、口唇が少し開いた状態を描画した口唇静止画13bと、図9Dに示した、口唇が最も開いた状態を描画した口唇静止画13cと、の中間程度に口唇が開いた状態を描画した口唇静止画13b´を示す。
この場合、例えば、閾値設定部6(図2)は、カットポイントCによって区切られたピークP1,P2,P3毎に閾値を設定するが、閾値として、下限閾値Sh1と上限閾値Sh2とに加え、中間閾値Sh3を設定する。下限閾値Sh1は、下記に示すように、上記の式(1)と同じ式により定義される。一方、中間閾値Sh3は、下記の式(6)により定義され、上限閾値Sh2は下記の式(7)により定義される。
Sh1[n]=min[n]+τ1 … (1)
Sh3[n]={(max[n]−min[n])/3}+min[n]+τ3 … (6)
Sh2[n]={(max[n]−min[n])×(2/3)}+min[n]+τ2 … (7)
Sh3[n]={(max[n]−min[n])/3}+min[n]+τ3 … (6)
Sh2[n]={(max[n]−min[n])×(2/3)}+min[n]+τ2 … (7)
なお、τ1は下限補正値を示し、τ3は中間補正値を示し、τ2は上限補正値を示す。下限補正値τ1、中間補正値τ3、及び上限補正値τ2の数値は、0<τ1<τ3<τ2の関係を満たしていればよく、計算機(口唇アニメーション生成装置1)における小数表現の丸め誤差によって値が重複しない桁数が望ましい。なお、この中間補正値τ3も、下限閾値Sh1と上限閾値Sh2と中間閾値Sh3とが重複することを避けるための補正値である。
Sh1[n]、Sh3[n]、及びSh2[n]は、n番目のカットポイントCとn+1番目のカットポイントCとの間にある下限閾値Sh1、中間閾値Sh3、及び上限閾値Sh2を意味する。min[n]は、n番目のカットポイントCとn+1番目のカットポイントCとの間における口唇開閉推定データで最小の推定開閉度(最小ピークボトム)を示す。max[n]は、n番目のカットポイントCとn+1番目のカットポイントCとの間にある、ピークトップPTの推定開閉度を示す。
ここで、上限閾値Sh2は、ピークトップPT及び最小ピークボトム間で決定した所定の決定点の推定開閉度に、下限補正値τ1とは異なる上限補正値τ2を加算した値となる。この場合、上限閾値Sh2の決定点としては、ピークトップPT及び最小ピークボトム間にある、{(max[n]−min[n])×(2/3)}+min[n]となる。なお、中間閾値Sh3の決定点としては、ピークトップPT及び最小ピークボトム間にある、{(max[n]−min[n])/3}+min[n]となる。中間閾値Sh3は、この決定点に中間補正値τ3を加算した値となる。
このようにして口唇開閉推定データに対して設定される下限閾値Sh1は、キャラクターの口唇が閉じた状態(最小開度)を描画した口唇静止画13a(図9A)を割り当てることが最適な領域(図10中、「閉」と表記)と、口唇が少し開いた状態を描画した口唇静止画13b(図9B)を割り当てることが最適な領域(図10中、「第1中開」と表記)と、について区分けする目安となる。
また、中間閾値Sh3は、キャラクターの口唇が少し開いた状態を描画した口唇静止画13b(図9B)を割り当てることが最適な領域(図10中、「第1中開」と表記)と、口唇が図9Bよりも開いた状態を描画した口唇静止画13b´(図9C)を割り当てることが最適な領域(図10中、「第2中開」と表記)と、について区分けする目安となる。
さらに、上限閾値Sh2は、口唇が開いた状態(第2中開)を描画した口唇静止画13b´(図9C)を割り当てることが最適な領域(図10中、「第2中開」と表記)と、口唇が最大に開いた状態を描画した口唇静止画13c(図9D)を割り当てることが最適な領域(図10中、「開」と表記)と、について区分けする目安となる。
上述したように閾値を3つ設けた場合でも、上述した実施形態と同様の手法により、初期キーフレーム点や、サンプリングキーフレーム点、量子化キーフレーム点を生成することができる。よって、このような場合でも、取得した口唇開閉推定データを基に、音声データに合わせて最適なタイミングで口唇静止画13a,13b,13b´,13cが切り替わる口唇アニメーションを自動的に生成できる。
1 口唇アニメーション生成装置
5 取得部
6 閾値設定部
7 キーフレーム点決定部
8 量子化処理部
9 補間処理部
10 開閉強調部
5 取得部
6 閾値設定部
7 キーフレーム点決定部
8 量子化処理部
9 補間処理部
10 開閉強調部
Claims (11)
- 開閉度が段階的に異なる口唇をそれぞれ描画した複数の口唇静止画の中から、キャラクターアニメーションに合成させる音声データに応じた前記口唇静止画を選択し、前記音声データに合わせて前記口唇静止画を変化させる口唇アニメーションを生成する口唇アニメーション生成装置であって、
前記音声データに対する前記口唇の推定開閉度を示した口唇開閉推定データを取得する取得部と、
前記口唇開閉推定データから前記推定開閉度が高い位置を示したピークを求め、ピークトップ及びピークボトムを基準に、各前記ピーク毎にそれぞれ所定の閾値を設定してゆく閾値設定部と、
前記口唇開閉推定データに対してキーフレーム点を決定するキーフレーム点決定部と、
前記閾値に基づいて前記キーフレーム点を量子化し、各前記キーフレーム点での前記推定開閉度を、前記口唇静止画の開閉度に変換した量子化キーフレーム点を生成する量子化処理部と、
前記量子化キーフレーム点間における前記開閉度を、前記量子化キーフレーム点の前記開閉度に基づいて補間してゆき、前記口唇静止画の連続的な遷移を示した口唇遷移データを生成する補間処理部と、を備える、口唇アニメーション生成装置。 - 前記閾値設定部は、前記閾値が、
前記ピークボトム間毎に特定した最小の前記推定開閉度である最小ピークボトムに基づいて決定する下限閾値と、
前記ピークトップ及び前記最小ピークボトムの前記推定開閉度に基づいて決定する上限閾値と、である、請求項1に記載の口唇アニメーション生成装置。 - 前記下限閾値は、前記最小ピークボトムの前記推定開閉度に下限補正値τ1を加算した値であり、
前記上限閾値は、前記ピークトップ及び前記最小ピークボトム間で決定した所定の決定点の前記推定開閉度に、前記下限補正値τ1とは異なる上限補正値τ2を加算した値である、請求項2に記載の口唇アニメーション生成装置。 - 前記キーフレーム点決定部は、
隣接する前記キーフレーム点を所定距離以上離れて設定する、請求項1〜3のいずれか1項に記載の口唇アニメーション生成装置。 - 前記量子化キーフレーム点が時系列に並ぶ量子化データに対して、膨張フィルタを用いた膨張処理を行い、前記量子化キーフレーム点を時間軸の早い方向に膨張させて前記量子化キーフレーム点への切り替えタイミングを早める膨張処理部を備える、請求項1〜4のいずれか1項に記載の口唇アニメーション生成装置。
- 前記補間処理部は、
一の前記量子化キーフレーム点から、前記一の量子化キーフレーム点に隣接した他の前記量子化キーフレーム点に向けて、前記一の量子化キーフレーム点の前記開閉度で補間してゆくとともに、前記他の量子化キーフレーム点から前記一の量子化キーフレーム点に向けて、前記他の量子化キーフレーム点の前記開閉度で補間してゆく、請求項1〜5のいずれか1項に記載の口唇アニメーション生成装置。 - 前記口唇遷移データにおいて、最大開度の前記口唇静止画が所定フレーム数連続して続いたときは、連続したフレームのうち中間領域又は最後尾領域の前記口唇静止画を中間開度の前記口唇静止画に変更する開閉強調部を備える、請求項1〜6のいずれか1項に記載の口唇アニメーション生成装置。
- 前記口唇遷移データにおいて、中間開度の前記口唇静止画が所定フレーム数連続した後に、最小開度の前記口唇静止画に遷移したときは、連続したフレームのうち中間領域の前記口唇静止画を最大開度の前記口唇静止画に変更する開閉強調部を備える、請求項1〜6のいずれか1項に記載の口唇アニメーション生成装置。
- 前記口唇遷移データにおいて、中間開度の前記口唇静止画が所定フレーム数連続した後に、最大開度の前記口唇静止画に遷移したときは、連続したフレームのうち中間領域の前記口唇静止画を最小開度の前記口唇静止画に変更する開閉強調部を備える、請求項1〜6のいずれか1項に記載の口唇アニメーション生成装置。
- 前記口唇遷移データにおいて、中間開度の前記口唇静止画が所定フレーム数連続して続いたときは、連続したフレームのうち最後尾領域の前記口唇静止画を最小開度の前記口唇静止画に変更する開閉強調部を備える、請求項1〜6のいずれか1項に記載の口唇アニメーション生成装置。
- 開閉度が段階的に異なる口唇をそれぞれ描画した複数の口唇静止画の中から、キャラクターアニメーションに合成させる音声データに応じた前記口唇静止画を選択し、前記音声データに合わせて前記口唇静止画を変化させる口唇アニメーションを生成する口唇アニメーション生成方法であって、
前記音声データに対する前記口唇の推定開閉度を示した口唇開閉推定データを取得する取得ステップと、
前記口唇開閉推定データから前記推定開閉度が高い位置を示したピークを求め、ピークトップ及びピークボトムを基準に、各前記ピーク毎にそれぞれ所定の閾値を設定してゆく閾値設定ステップと、
前記口唇開閉推定データに対してキーフレーム点を決定するキーフレーム点決定ステップと、
前記閾値に基づいて前記キーフレーム点を量子化し、各前記キーフレーム点での前記推定開閉度を、前記口唇静止画の開閉度に変換した量子化キーフレーム点を生成する量子化処理ステップと、
前記量子化キーフレーム点間における前記開閉度を、前記量子化キーフレーム点の前記開閉度に基づいて補間してゆき、前記口唇静止画の連続的な遷移を示した口唇遷移データを生成する補間処理ステップと、を備える、口唇アニメーション生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017225715A JP2019096114A (ja) | 2017-11-24 | 2017-11-24 | 口唇アニメーション生成装置及び口唇アニメーション生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017225715A JP2019096114A (ja) | 2017-11-24 | 2017-11-24 | 口唇アニメーション生成装置及び口唇アニメーション生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019096114A true JP2019096114A (ja) | 2019-06-20 |
Family
ID=66973025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017225715A Pending JP2019096114A (ja) | 2017-11-24 | 2017-11-24 | 口唇アニメーション生成装置及び口唇アニメーション生成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019096114A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022270669A1 (ko) * | 2021-06-25 | 2022-12-29 | 주식회사 딥브레인에이아이 | 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치 |
WO2023277231A1 (ko) * | 2021-06-30 | 2023-01-05 | 주식회사 딥브레인에이아이 | 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치 |
-
2017
- 2017-11-24 JP JP2017225715A patent/JP2019096114A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022270669A1 (ko) * | 2021-06-25 | 2022-12-29 | 주식회사 딥브레인에이아이 | 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치 |
WO2023277231A1 (ko) * | 2021-06-30 | 2023-01-05 | 주식회사 딥브레인에이아이 | 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치 |
US11830120B2 (en) | 2021-06-30 | 2023-11-28 | Deepbrain Ai Inc. | Speech image providing method and computing device for performing the same |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005012797A (ja) | 動き補償のための画素値選択装置および方法 | |
KR20050065297A (ko) | 일시적 움직임 벡터 필터링 | |
JP6335504B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP4470899B2 (ja) | 画像処理装置および画像処理方法、並びにプログラム | |
CN110910479B (zh) | 视频处理方法、装置、电子设备及可读存储介质 | |
JP6711044B2 (ja) | 画像処理装置、表示装置、アニメーション生成方法及びプログラム | |
JP4586880B2 (ja) | 画像処理装置、画像処理方法、およびプログラム | |
JP2005012798A (ja) | 動きベクトルの生成装置及び方法 | |
JP4431089B2 (ja) | 映像補間装置、フレームレート変換装置および映像表示装置 | |
JP2019096114A (ja) | 口唇アニメーション生成装置及び口唇アニメーション生成方法 | |
JP2009525663A (ja) | ブロック基盤の動き推定方法及び装置 | |
JPWO2011111819A1 (ja) | 画像処理装置、画像処理プログラム、および、画像を生成する方法 | |
US20160127678A1 (en) | Method for Determining Small-Object Region, and Method and Apparatus for Interpolating Frame Between Video Frames | |
JP4517409B2 (ja) | データ処理装置およびデータ処理方法 | |
EP3301908A1 (en) | Numerical image conversion method and device, and storage medium and device | |
JP2009003598A (ja) | 画像生成装置および方法、学習装置および方法、並びにプログラム | |
CN113923493B (zh) | 一种视频处理方法、装置、电子设备以及存储介质 | |
JP2019117559A (ja) | カラー情報推定モデル生成装置、動画像カラー化装置およびそれらのプログラム | |
JP2018201117A (ja) | 映像符号化装置、映像符号化方法およびプログラム | |
CN114820891A (zh) | 唇形生成方法、装置、设备及介质 | |
JP2009239698A (ja) | 映像変換装置及び映像変換方法 | |
JPWO2004012460A1 (ja) | 動きベクトル検出装置及び動きベクトル検出方法 | |
JP2010097355A (ja) | 画像分離装置、画像分離方法および画像分離プログラム | |
JP2020082246A (ja) | 姿勢データ生成装置、学習器、コンピュータプログラム、学習データ、姿勢データ生成方法及び学習モデルの生成方法 | |
KR20220003087A (ko) | Vr 영상 품질 평가 방법 및 장치 |