JP2019096114A

JP2019096114A - 口唇アニメーション生成装置及び口唇アニメーション生成方法

Info

Publication number: JP2019096114A
Application number: JP2017225715A
Authority: JP
Inventors: 繁生森島; Shigeo Morishima; 翔一古川; Shoichi Furukawa; 司福里; Tsukasa Fukusato
Original assignee: Waseda University
Current assignee: Waseda University
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2019-06-20

Abstract

【課題】音声に合わせて自然な動きを示す口唇アニメーションを簡単に生成でき、作業者の作業負担を軽減できる口唇アニメーション生成装置及び口唇アニメーション生成方法を提案する。【解決手段】口唇アニメーション生成装置１では、取得した口唇開閉推定データを基に、音声データに合わせて最適なタイミングで口唇静止画１３ａ，１３ｂ，１３ｃが切り替わる口唇アニメーションを自動的に生成できる。よって、音声に合わせて自然な動きを示す口唇アニメーションを簡単に生成でき、作業者の作業負担を軽減できる。【選択図】図２

Description

本発明は、音声に合わせて自然な動きを示す口唇アニメーションを生成する口唇アニメーション生成装置及び口唇アニメーション生成方法に関する。

フル・アニメーションと呼ばれる、リアルな動作を追求した表現手法に対し、簡略化された抽象的な動作を表現するために、動きを簡略化してセル画の枚数を減らした表現手法（以下、リミテッド・アニメーションと称する）が知られている（例えば、非特許文献１参照）。このようなリミテッド・アニメーションでは、声優の音声を予め事前に録音しておき、録音された音声データにキャラクターの口唇の開閉状態を合わせる、プレスコアリング（プレスコ）と呼ばれる作業が行われることがある。

このような場合、一般的には、フレーム全体を再描画する作業負担を軽減するために、フレーム内に描画されたキャラクターの口唇部分だけを、音声データに合った口唇静止画に変えてゆく作業が行われている。一般的には、図１Ａに示すように、キャラクターの口唇が閉じた状態を描画した口唇静止画１３ａと、図１Ｂに示すように、口唇が少し開いた状態を描画した口唇静止画１３ｂと、図１Ｃに示すように、口唇が開いた状態を描画した口唇静止画１３ｃとを予め用意しておく。作業者は、この３パターンの口唇静止画１３ａ，１３ｂ，１３ｃの中から、例えば、音声に合った最適な口唇静止画１３ａを選択してゆき、音声に合わせて口唇静止画が切り替わる口唇アニメーションが作製されている。

ウィキペディア「リミテッド・アニメーション」、［ｏｎｌｉｎｅ］、インターネット（URL：https://ja.wikipedia.org/wiki/%E3%83%AA%E3%83%9F%E3%83%86%E3%83%83%E3%83%89%E3%83%BB%E3%82%A2%E3%83%8B%E3%83%A1%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3）

しかしながら、複数ある口唇静止画１３ａ，１３ｂ，１３ｃの中から音声データに基づいて最適な口唇静止画を選択してゆき、音声データに合わせてキャラクターの口唇が自然に動くアニメーションを作製する作業は、どのような口唇静止画を選択し、かつ、どのようなタイミングで異なる口唇静止画に切り替えるか等、熟練を要し、作業者に対する作業負担も大きいという問題があった。

そこで、本発明は以上の点を考慮してなされたもので、音声に合わせて自然な動きを示す口唇アニメーションを簡単に生成でき、作業者の作業負担を軽減できる口唇アニメーション生成装置及び口唇アニメーション生成方法を提案することを目的とする。

本発明の口唇アニメーション生成装置は、開閉度が段階的に異なる口唇をそれぞれ描画した複数の口唇静止画の中から、キャラクターアニメーションに合成させる音声データに応じた前記口唇静止画を選択し、前記音声データに合わせて前記口唇静止画を変化させる前記口唇アニメーションを生成する口唇アニメーション生成装置であって、前記音声データに対する前記口唇の推定開閉度を示した口唇開閉推定データを取得する取得部と、前記口唇開閉推定データから前記推定開閉度が高い位置を示したピークを求め、ピークトップ及びピークボトムを基準に、各前記ピーク毎にそれぞれ所定の閾値を設定してゆく閾値設定部と、前記口唇開閉推定データに対してキーフレーム点を決定するキーフレーム点決定部と、前記閾値に基づいて前記キーフレーム点を量子化し、各前記キーフレーム点での前記推定開閉度を、前記口唇静止画の開閉度に変換した量子化キーフレーム点を生成する量子化処理部と、前記量子化キーフレーム点間における前記開閉度を、前記量子化キーフレーム点の前記開閉度に基づいて補間してゆき、前記口唇静止画の連続的な遷移を示した口唇遷移データを生成する補間処理部と、を備えるものである。

また、本発明の口唇アニメーション生成方法は、開閉度が段階的に異なる口唇をそれぞれ描画した複数の口唇静止画の中から、キャラクターアニメーションに合成させる音声データに応じた前記口唇静止画を選択し、前記音声データに合わせて前記口唇静止画を変化させる前記口唇アニメーションを生成する口唇アニメーション生成方法であって、前記音声データに対する前記口唇の推定開閉度を示した口唇開閉推定データを取得する取得ステップと、前記口唇開閉推定データから前記推定開閉度が高い位置を示したピークを求め、ピークトップ及びピークボトムを基準に、各前記ピーク毎にそれぞれ所定の閾値を設定してゆく閾値設定ステップと、前記口唇開閉推定データに対してキーフレーム点を決定するキーフレーム点決定ステップと、前記閾値に基づいて前記キーフレーム点を量子化し、各前記キーフレーム点での前記推定開閉度を、前記口唇静止画の開閉度に変換した量子化キーフレーム点を生成する量子化処理ステップと、前記量子化キーフレーム点間における前記開閉度を、前記量子化キーフレーム点の前記開閉度に基づいて補間してゆき、前記口唇静止画の連続的な遷移を示した口唇遷移データを生成する補間処理ステップと、を備えるものである。

本発明によれば、取得した口唇開閉推定データを基に、音声データに合わせて最適なタイミングで口唇静止画が切り替わる口唇アニメーションを自動的に生成できる。よって、音声に合わせて自然な動きを示す口唇アニメーションを簡単に生成でき、作業者の作業負担を軽減できる。

図１Ａは、キャラクターの口唇が閉じた状態を描画した口唇静止画の概略図であり、図１Ｂは、キャラクターの口唇が少し開いた状態を描画した口唇静止画の概略図であり、図１Ｃは、キャラクターの口唇が開いた状態を描画した口唇静止画の概略図である。本発明による口唇アニメーション生成装置の全体構成を示したブロック図である。図３Ａは、口唇開閉推定データの波形を示したグラフであり、図３Ｂは、閾値を設定する際の説明に供するグラフであり、図３Ｃは、初期キーフレーム点及びサンプリングキーフレーム点を設定する際の説明に供するグラフである。図４Ａは、量子化処理の説明に供するグラフであり、図４Ｂは、量子化データの概略を示したグラフであり、図４Ｃは、口唇遷移データの波形を示すグラフである。膨張処理の説明に供する概略図である。図６Ａは、空白期間（１）を示す概略図であり、図６Ｂは、補間処理の説明に供する概略図であり、図６Ｃは、補間処理を行ったときの概略図を示す。図７Ａは、最小開度の口唇静止画像「０」と最大開度の口唇静止画像「２」との間に空白期間を有するときの概略図であり、図７Ｂは、空白期間の中心領域に中間開度の口唇静止画像「１」を設定したときの概略図であり、図７Ｃは、図７Ｂの残りの空白期間に対して補間処理を行ったときの概略図を示す。図８Ａは、最大開度の口唇静止画が９フレーム連続したときの概略図であり、図８Ｂは、図８Ａに対する開閉強調処理の結果を示す概略図であり、図８Ｃは、最大開度の口唇静止画が６フレーム連続したときの概略図であり、図８Ｄは、図８Ｃに対する開閉強調処理の結果を示す概略図であり、図８Ｅは、中間開度の口唇静止画が９フレーム連続した後に最小開度の口唇静止画のフレームが続いたときの概略図であり、図８Ｆは、図８Ｅに対する開閉強調処理の結果を示す概略図であり、図８Ｇは、中間開度の口唇静止画が９フレーム連続した後に最大開度の口唇静止画のフレームが続いたときの概略図であり、図８Ｈは、図８Ｇに対する開閉強調処理の結果を示す概略図であり、図８Ｉは、中間開度の口唇静止画が６フレーム連続したときの概略図であり、図８Ｊは、図８Ｉに対する開閉強調処理の結果を示す概略図である。図９Ａは、キャラクターの口唇が閉じた状態を描画した口唇静止画の概略図であり、図９Ｂは、キャラクターの口唇が少し開いた状態を描画した口唇静止画の概略図であり、図９Ｃは、図９Ｂ及び図９Ｄに示した口唇の中間の開度で口唇が開いた状態を描画した口唇静止画の概略図であり、図９Ｄは、キャラクターの口唇が最も開いた状態を描画した口唇静止画の概略図である。３つの閾値を設定する際の説明に供するグラフである。図１１Ａは、フレーム番号５に初期キーフレーム点を設定したときの説明に供する概略図であり、図１１Ｂは、フレーム番号０にサンプリングキーフレーム点を設定したときの説明に供する概略図である。

以下図面について、本発明の一実施形態を詳述する。以下の説明において、同様の要素には同一の符号を付し、重複する説明は省略する。

（１）口唇アニメーション生成装置について
本発明の口唇アニメーション生成装置は、キャラクターアニメーションに声優の音声を合成する際、例えば、図１Ａ、図１Ｂ及び図１Ｃに示したように、段階的に変化する口唇静止画１３ａ，１３ｂ，１３ｃの中から、音声に合った最適な口唇静止画を自動的に選択してゆき、音声に合わせて自然に動く口唇アニメーションを生成し得る。

図２は、本発明の口唇アニメーション生成装置の構成を示すブロック図である。この口唇アニメーション生成装置１では、音声データに合わせて自然に動く口唇アニメーションを生成し得るものの、段階的に口唇の開閉度合が変化する口唇静止画を用いセル画の枚数を減らし、キャラクターの口唇の動きを簡略化している。これにより、口唇アニメーション生成装置１では、音声に合わせて自然に動く口唇アニメーションを生成しつつも、アニメーションらしいメリハリのある口唇の動きを表現した、リミテッド・アニメーションを制作できる。

この場合、本発明の口唇アニメーション生成装置１には、取得部５、閾値設定部６、キーフレーム点決定部７、量子化処理部８、膨張処理部１１、補間処理部９及び開閉強調部１０が設けられている。取得部５は、後述する口唇開閉推定データを口唇開閉推定データ生成装置３から受け取る。ここで、口唇開閉推定データは、例えば、図３Ａに示すように、アニメーションに合成する音声に応じて、一般的な口唇の開閉度を推定したデータであり、口唇開閉推定データ生成装置３により生成される。

この場合、図２に示す音声記憶装置２には、例えば、アニメーションに合成する音声が声優により音声データとして予め記録されている。口唇開閉推定データ生成装置３は、音声データを音声記憶装置２から受け取ると、例えば、音声データからフォルマント周波数を抽出し、このフォルマント周波数を基に口唇の開閉度を推定した推定開閉度を求めてゆき、口唇開閉推定データを生成する。

なお、フォルマント周波数は、第１フォルマント周波数や第２フォルマント周波数等があり、そのうち第１フォルマント周波数が口唇の開閉度とリンクしていることが一般的に知られている。ここでは、口唇開閉推定データ生成装置３は、例えば、公知文献「石井カルロス寿憲, 劉超然, 石黒浩, 萩田紀博 (2013). 遠隔存在感ロボットのためのフォルマントによる口唇動作生成手法, 日本ロボット学会誌, Vol. 31, No. 4, 83-90, May 2013.」や、「Ishi, C., Liu, C., Ishiguro, H. and Hagita, N. (2011). “Speech-driven lip motion generation for tele-operated humanoid robots,” Proceedings of International Conference on Auditory-Visual Speech Processing (AVSP2011), 131-135.」等に開示された、公知の手法を実行することにより、図３Ａに示すような、音声データに対して推定開閉度が対応付けられた口唇開閉推定データを生成する。なお、図３Ａでは、横軸を時間とし、縦軸を推定開閉度とし、時間経過に伴う推定開閉度の連続的な変化を示している。

口唇アニメーション生成装置１において、取得部５は、口唇開閉推定データ生成装置３から口唇開閉推定データを受け取ると、これを閾値設定部６に送出する。閾値設定部６は、始めに、図３Ｂに示すように、口唇開閉推定データ内のピークＰ１，Ｐ２，Ｐ３毎に口唇開閉推定データを分割するカットポイントＣを設定する。このカットポイントＣは、口唇開閉推定データが急激に遷移するピークボトムＰＢに設定される。

具体的には、閾値設定部６は、口唇開閉推定データの推定開閉度が下降から上昇へと変わる下降上昇遷移点をピークボトムＰＢとして検出し、検出したピークボトムＰＢ毎にそれぞれカットポイントＣを設定してゆく。閾値設定部６は、次に、カットポイントＣによって区切られたピークＰ１，Ｐ２，Ｐ３毎に閾値を設定する。なお、図３Ｂに示すような比較的鋭角なピークボトムＰＢではなく、一定期間、定常状態が続くピークボトムＰＢであるときには、定常状態が続くピークボトムＰＢ内の所定位置にカットポイントＣを設定する。

この実施形態の場合には、閾値として、下限閾値Ｓｈ１と上限閾値Ｓｈ２（以下、これらをまとめて、単に閾値と称する）とが設定される。ここで、下限閾値Ｓｈ１は下記の式（１）により定義され、上限閾値Ｓｈ２は下記の式（２）により定義される。

Ｓｈ１［ｎ］＝ｍｉｎ［ｎ］＋τ_１ … （１）
Ｓｈ２［ｎ］＝｛（ｍａｘ［ｎ］−ｍｉｎ［ｎ］）／２｝＋ｍｉｎ［ｎ］＋τ_２ … （２）

Ｓｈ１［ｎ］及びＳｈ２［ｎ］は、ｎ番目のカットポイントＣとｎ＋１番目のカットポイントＣとの間にある下限閾値Ｓｈ１及び上限閾値Ｓｈ２を意味する。ｍｉｎ［ｎ］は、ｎ番目のカットポイントＣとｎ＋１番目のカットポイントＣとの間（隣接するピークボトムＰＢ間）における口唇開閉推定データで最小の推定開閉度（以下、最小ピークボトムとも称する）を示す。ｍａｘ［ｎ］は、ｎ番目のカットポイントＣとｎ＋１番目のカットポイントＣとの間にある、ピークトップＰＴの推定開閉度を示す。

τ_１は下限補正値を示し、τ_２は上限補正値を示す。τ_１及びτ_２は、例えば最小ピークボトムの推定開閉度ｍｉｎ［ｎ］と、ピークトップＰＴ及び最小ピークボトム間の中間の推定開閉度｛（ｍａｘ［ｎ］−ｍｉｎ［ｎ］）／２｝＋ｍｉｎ［ｎ］（ピークトップＰＴ及び最小ピークボトムの中間点（決定点））と、が同じ値となったときに、下限閾値Ｓｈ１と上限閾値Ｓｈ２とが重複することを避けるための補正値である。この実施形態の場合、下限補正値τ_１は＝０．０１に設定し、上限補正値τ_２は＝０．０２に設定している。

なお、下限補正値τ_１及び上限補正値τ_２の数値は、０＜τ_１＜τ_２の関係を満たしていればよく、計算機（口唇アニメーション生成装置１）における小数表現の丸め誤差によって値が重複しない桁数が望ましい。下限補正値τ_１及び上限補正値τ_２の数値は大きすぎると量子化に影響するため、下限補正値τ_１の数値は、０＜τ_１≦０．０１であることが望ましく、また、上限補正値τ_２の数値は、０．０１＜τ_２≦０．０２であることが望ましい。

なお、閾値設定部６は、カットポイントＣ間で最小となる推定開閉度を、最小ピークボトムとして口唇開閉推定データから特定し、これをｍｉｎ［ｎ］として求める。また、閾値設定部６は、ピークトップＰＴについても、口唇開閉推定データの推定開閉度が上昇から下降へと変わる上昇下降遷移点を検出し、これをピークトップＰＴとし、各ピークトップＰＴでの推定開閉度をｍａｘ［ｎ］として求める。

なお、このようにして口唇開閉推定データに対して設定される下限閾値Ｓｈ１は、キャラクターの口唇が閉じた状態（最小開度とも称する）を描画した口唇静止画１３ａ（図１Ａ）を割り当てることが最適な領域（図３Ｂ中、「閉」と表記）と、口唇が少し開いた（中間開度とも称する）状態を描画した口唇静止画１３ｂ（図１Ｂ）を割り当てることが最適な領域（図３Ｂ中、「中開」と表記）と、について区分けする目安となる。

また、上限閾値Ｓｈ２は、口唇が少し開いた状態（中間開度）を描画した口唇静止画１３ｂ（図１Ｂ）を割り当てることが最適な領域（図３Ｂ中、「中開」と表記）と、口唇が開いた状態（最大開度とも称する）を描画した口唇静止画１３ｃ（図１Ｃ）を割り当てることが最適な領域（「開」）と、について区分けする目安となる。

閾値設定部６は、図３Ｂに示すように、口唇開閉推定データに対して下限閾値Ｓｈ１及び上限閾値Ｓｈ２を設定し終えると、これをキーフレーム点決定部７（図２）に送出する。キーフレーム点決定部７は、始めに、図３Ｃに示すように、口唇開閉推定データの各ピークトップＰＴに対して初期キーフレーム点を設定してゆく。次に、キーフレーム点決定部７は、例えばポアソンディスクサンプリングによって、口唇開閉推定データに対して所定距離以上離れた間隔で配置されるサンプリングキーフレーム点を設定してゆく。

ここで、ポアソンディスクサンプリングとは、隣接するサンプリングキーフレーム点同士、或いは、隣接するサンプリングキーフレーム点及び初期キーフレーム点を、所定距離以上離れて設定するものである。例えば、キーフレーム点決定部７は、初期キーフレーム点を設定した後、予め設定された、フレームを切り替える時間単位毎に、サンプリングキーフレーム点を設定できるか否かを判断する。

ここで、図１１Ａは、フレームを切り替える時間単位毎に番号を付した、時系列に並ぶフレーム番号を示す。図１１Ａに示すように、例えば、初期キーフレーム点をフレーム番号５に付した場合には、所定距離が前後２フレームとすると、フレーム番号５の前後２フレームとなるフレーム番号３，４，６，７には、サンプリングキーフレーム点は設定されない。次いで、ランダムにフレーム番号に着目してゆき、サンプリングキーフレーム点が設定できるかを確認する。例えば、図１１Ｂに示すように、フレーム番号０に着目すると、初期キーフレーム点が設定されておらず、かつ初期キーフレーム点から所定距離離れており、サンプリングキーフレーム点として設定できるため、フレーム番号０にサンプリングキーフレーム点を設定する。

これにより、フレーム番号０の後２フレームにあるフレーム番号１，２には、サンプリングキーフレーム点は設定されない。次いで、新たにサンプリングキーフレーム点が設定可能なフレーム番号をランダムに探索してゆく。このようにして、キーフレーム点決定部７は、初期キーフレーム点及びサンプリングキーフレーム点から所定距離離れた次のサンプリングキーフレーム点を設定してゆき、サンプリングキーフレーム点が設定できなくなるまで、これを繰り返す。

なお、時間軸上に沿って規定される所定距離としては、上述したように、注目する初期キーフレーム点や、サンプリングキーフレーム点を中心にして前後２フレーム分が表示される時間に相当するものであることが望ましい。これにより、例えば、一のサンプリングキーフレーム点と、これと隣接する他のサンプリングキーフレーム点（又は初期キーフレーム点）とにおいては、少なくとも２フレームが表示される空白期間を設定できる。一般に口唇アニメーション制作では３フレームごとに画像を切り替えるという方法がとられており、上記のサンプリングキーフレーム点の間隔はこれと同様の表現を実現することを目的としている。

キーフレーム点決定部７は、図３Ｃに示すように、下限閾値Ｓｈ１及び上限閾値Ｓｈ２が設定されている口唇開閉推定データに対して、初期キーフレーム点及びサンプリングキーフレーム点（以下、これらをまとめて、単にキーフレーム点と称する）を設定し終えると、これを量子化処理部８（図２）に送出する。量子化処理部８は、後述する量子化処理を実行することにより、口唇開閉推定データ上の各初期キーフレーム点及びサンプリングキーフレーム点での推定開閉度を、段階的に変化する口唇静止画１３ａ，１３ｂ，１３ｃでの開閉度に変換した量子化キーフレーム点を生成する。

例えば、第tフレームにおいて、初期キーフレーム点及びサンプリングキーフレーム点を量子化キーフレーム点に変換する場合、下記の式（３）〜（５）に示す量子化開閉度Ｌ（ｔ）を用いる。ここで、下記の式（３）〜（５）のうち、量子化開閉度Ｌ（ｔ）＝０は、最小開度を示す口唇静止画１３ａの選択を意味する。量子化開閉度Ｌ（ｔ）＝１は、中間開度を示す口唇静止画１３ｂの選択を意味する。量子化開閉度Ｌ（ｔ）＝２は、最大開度の口唇静止画１３ｃの選択を意味する。ＥＴＬ［ｔ］は、第tフレーム目に位置する口唇開閉推定データの推定開閉度を示す。なお、ここでは、推定開閉度は０〜１の間で変化するとしている。

Ｌ（ｔ）＝０（０≦ＥＬＴ［ｔ］≦Ｓｈ１［ｎ］） … （３）
Ｌ（ｔ）＝１（Ｓｈ１［ｎ］＜ＥＬＴ［ｔ］≦Ｓｈ２［ｎ］） … （４）
Ｌ（ｔ）＝２（Ｓｈ２＜ＥＬＴ［ｔ］≦１） … （５）

図４Ａは、上記式（３）〜（５）で規定される量子化開閉度Ｌ（ｔ）の各領域を示した口唇開閉推定データを示す。図４Ａにおいて、ＥＲ１は量子化開閉度Ｌ（ｔ）＝０の領域を示し、ＥＲ２は量子化開閉度Ｌ（ｔ）＝１の領域を示し、ＥＲ３は量子化開閉度Ｌ（ｔ）＝２の領域を示す。さらに、量子化処理部８は、量子化処理として、図４Ｂに示すように、量子化開閉度Ｌ（ｔ）＝０，１，２を基準として、初期キーフレーム点及びサンプリングキーフレーム点を、それぞれ量子化開閉度Ｌ（ｔ）で示された量子化キーフレーム点に変換してゆく。

具体的には、量子化開閉度Ｌ（ｔ）＝０の領域にあるサンプリングキーフレーム点を、最小開度を示す口唇静止画１３ａでの開閉度を示す量子化キーフレーム点（例えば、量子化開閉度Ｌ（ｔ）＝０を示す量子化キーフレーム点）に変換する。また、量子化開閉度Ｌ（ｔ）＝１の領域にある初期キーフレーム点及びサンプリングキーフレーム点を、中間開度を示す口唇静止画１３ｂでの開閉度を示す量子化キーフレーム点（例えば、量子化開閉度Ｌ（ｔ）＝１を示す量子化キーフレーム点）に変換する。さらに、量子化開閉度Ｌ（ｔ）＝２の領域にある初期キーフレーム点及びサンプリングキーフレーム点を、最大開度を示す口唇静止画１３ｃでの開閉度を示す量子化キーフレーム点（例えば、量子化開閉度Ｌ（ｔ）＝２を示す量子化キーフレーム点）に変換する。

量子化処理部８は、このようにして初期キーフレーム点及びサンプリングキーフレーム点をそれぞれ量子化キーフレーム点に変換した量子化データ（図４Ｂ）を生成し、これを膨張処理部１１（図２）に送出する。

膨張処理部１１は、量子化処理部８で特定された量子化開閉度Ｌ（ｔ）を基に決められた、口唇静止画１３ａ，１３ｂ，１３ｃの切り替えタイミングを早めるものである。これは、口唇静止画１３ａ，１３ｂ，１３ｃが切り替わる際に生じる視覚的な残像効果によって、一般的に、視聴者が感じる画像の知覚遅延を考慮したものである。膨張処理部１１は、口唇静止画１３ａ，１３ｂ，１３ｃの切り替えタイミングを早めることで、音声よりも早めに次の口唇静止画１３ａ，１３ｂ，１３ｃを呈示し、一段と音声と同期した自然な口唇アニメーションを実現するものである。

膨張処理部１１は、例えば、図５の上段に示すように、間隔を空けて量子化開閉度Ｌ（ｔ）（すなわち、量子化キーフレーム点）が決められた量子化データを、量子化処理部８から受け取る。図５に示す量子化データでは、時系列に並ぶフレーム番号に沿って、例えばフレーム番号１に量子化開閉度Ｌ（ｔ）＝０（すなわち、最小開度を示す口唇静止画１３ａが割り振られることを示すデータ）の量子化キーフレーム点が設定され、フレーム番号５に量子化開閉度Ｌ（ｔ）＝１（すなわち、中間開度を示す口唇静止画１３ｂが割り振られることを示すデータ）の量子化キーフレーム点が設定されている。なお、「−１」は空白期間を示す。

膨張処理部１１は、量子化キーフレーム点が間隔を空けて時系列に並ぶ量子化データに対して、所定フレーム数でなる膨張フィルタ２０を用いて膨張処理を行う。なお、この実施形態の場合、膨張フィルタ２０は、量子化データに対して２フレーム毎に膨張処理を行えるように構成されている。なお、ここで２フレーム毎に膨張処理を行う膨張フィルタ２０について説明するが、本発明はこれに限らず、３フレーム毎等、数フレーム毎に膨張処理を行う膨張フィルタを適用してよい。

この場合、膨張処理部１１は、量子化データの時系列に沿って、膨張フィルタ２０で量子化データの２フレームを順番に指定してゆき、膨張フィルタ２０で指定した２フレーム内にある量子化データの量子化開閉度Ｌ（ｔ）を特定する。例えば、図５に示す１回目の膨張処理について着目すると、量子化データの時系列に並ぶフレーム番号０，１を、膨張フィルタ２０で指定し、フレーム番号０，１に設定された、量子化開閉度Ｌ（ｔ）＝−１（空白期間），０を特定する。

次いで、膨張処理部１１は、膨張フィルタ２０で指定したフレーム番号０，１の２フレーム内にある量子化データの量子化開閉度Ｌ（ｔ）＝−１，０のうち、開度が大きい方の量子化開閉度Ｌ（ｔ）＝０を選択し、これを膨張処理後の量子化データとして決定する。このようにして、膨張処理部１１は、量子化データの時系列に沿って、膨張フィルタ２０を１フレームずつずらしてゆき、その都度、膨張フィルタ２０で指定した２フレーム毎に開度が大きい量子化開閉度Ｌ（ｔ）を選択して順番に時系列に並べてゆく。このようにして、膨張処理部１１は、図５の下段に示すような膨張処理後の量子化データを生成する。

このような膨張処理を行うことで、例えば、図５の上段に示す膨張処理前の量子化データでフレーム番号１にあった量子化開閉度Ｌ（ｔ）＝０が、図５の下段に示すように、膨張処理後の量子化データでは、１つ前のフレームであるフレーム番号０に量子化開閉度Ｌ（ｔ）＝０が設定される。このように、膨張処理部１１は、時系列に並ぶ量子化キーフレーム点を時間軸の早い方向に膨張させてゆき、量子化キーフレーム点への切り替えタイミングを早めさせる。これにより、膨張処理前の量子化データに比して、口唇静止画１３ａ，１３ｂ，１３ｃの切り替えタイミングを早めることができる。

上述した膨張処理後の量子化データには、量子化開閉度Ｌ（ｔ）＝０，１，２のいずれかが設定された量子化キーフレーム点の各間に空白期間がある。そこで、補間処理部９は、膨張処理後の量子化データに対して補間処理を実行し、口唇開閉推定データの推定開閉度に対応した、いずれかの口唇静止画１３ａ，１３ｂ，１３ｃの開閉度（すなわち、量子化開閉度Ｌ（ｔ）＝０，１，２のいずれか）を、空白期間に補間してゆく。これにより、補間処理部９は、図４Ｃに示すように、口唇静止画１３ａ，１３ｂ，１３ｃの連続的な遷移を示したき口唇遷移データを生成する。

上述した補間処理について、図６Ａ、図６Ｂ及び図６Ｃを用いて以下説明する。図６Ａは、図４Ｂに示した量子化データの時系列な遷移を、フレームの遷移として表している。なお、ここで説明する本発明の口唇アニメーション生成装置１は、例えば、毎秒２４フレームで投影され、同じ絵柄の静止画像が連続して３フレーム表示される、いわゆるオンスリー（on threes）の口唇アニメーションと似た表現となるように補間処理を行う。

Ｖ_１，Ｖ_２は、最小開度の口唇静止画１３ａでの開閉度を示す量子化キーフレーム点（量子化開閉度Ｌ（ｔ）＝０を示す量子化キーフレーム点）のフレーム、中間開度の口唇静止画１３ｂでの開閉度を示す量子化キーフレーム点（量子化開閉度Ｌ（ｔ）＝１を示す量子化キーフレーム点）のフレーム、最大開度の口唇静止画１３ｃでの開閉度を示す量子化キーフレーム点（量子化開閉度Ｌ（ｔ）＝２を示す量子化キーフレーム点）のフレームのいずれかを示す。−１は空白期間となっているフレームを示す。なお、図６Ａ及び図６Ｂでは、空白期間が４フレーム分であることを示す。

この場合、補間処理部９は、図６Ｂに示すように、一の量子化キーフレーム点が割り当てられたフレームＶ_１から、一の量子化キーフレーム点に隣接した他の量子化キーフレーム点が割り当てられたフレームＶ_２に向けて、一の量子化キーフレーム点の開閉度（量子化開閉度Ｌ（ｔ）＝０又は１，２）で空白期間を補間してゆく。

また、この際、同時に、補間処理部９は、他の量子化キーフレーム点のフレームＶ_２からも、一の量子化キーフレーム点のフレームＶ_１に向けて、他の量子化キーフレーム点の開閉度（量子化開閉度Ｌ（ｔ）＝０又は１，２）で空白期間を補間してゆく。これにより、補間処理部９は、図６Ｃに示すように、隣接する量子化キーフレーム点間にある空白期間を、これら量子化キーフレーム点の開閉度を基に補間した口唇遷移データを生成する。

ここで、図７Ａ、図７Ｂ及び図７Ｃは、補間処理の他の一例を示す概略図である。図７Ａは、図６Ａと同様に、図４Ｂに示した量子化データの時系列な遷移を、フレームの遷移として表している。図７Ａでは、最小開度を示す量子化キーフレーム点（量子化開閉度Ｌ（ｔ）＝０）のフレームと、最大開度を示す量子化キーフレーム点（量子化開閉度Ｌ（ｔ）＝２）のフレームとが空白期間（図中、空白期間のフレームは「−１」と表記）を設けて設定されている。

このように、最小開度（最大開度）を示す量子化キーフレーム点と最大開度（最小開度）を示す量子化キーフレーム点とが隣接する場合には、空白期間を埋める補間処理に先立って下記の処理を行う。始めに、図７Ｂに示すように、空白期間の中心領域に、中間開度を示す量子化キーフレーム点（量子化開閉度Ｌ（ｔ）＝１）のフレームを設定する。次いで、図７Ｃに示すように、補間処理を行い、一の量子化キーフレーム点の開閉度（量子化開閉度Ｌ（ｔ）＝０）を示すフレームと、補間した量子化キーフレーム点の開閉度（量子化開閉度Ｌ（ｔ）＝１）を示すフレームとの間にある空白期間のフレームを、一の量子化キーフレーム点の開閉度（量子化開閉度Ｌ（ｔ）＝０）で補間してゆく。

この際、同時に、他の量子化キーフレーム点の開閉度（量子化開閉度Ｌ（ｔ）＝２）を示すフレームと、補間した量子化キーフレーム点の開閉度（量子化開閉度Ｌ（ｔ）＝１）を示すフレームとの間にある空白期間のフレームも、他の量子化キーフレーム点の開閉度（量子化開閉度Ｌ（ｔ）＝２）で補間してゆく。これにより、口唇アニメーション生成装置１では、口唇静止画１３ａ，１３ｂ，１３ｃの連続的な遷移が一段と自然な口唇遷移データを生成できる。

補間処理部９は、上述した口唇遷移データを生成すると、これを開閉強調部１０（図２）に送出する。この実施形態の場合、開閉強調部１０は、口唇遷移データで示された口唇静止画１３ａ，１３ｂ，１３ｃの開閉度（量子化開閉度Ｌ（ｔ）＝０，１，２）の遷移状態に応じて、後述する５つの開閉強調処理の中から、いずれかの開閉強調処理を実行する。

（１−１）第１の開閉強調処理
図８Ａは、最大開度を示す口唇静止画１３ｃが９フレーム連続したときの概略図であり、図８Ｂは、図８Ａに対する開閉強調処理の結果を示した概略図である。この場合、開閉強調部１０は、図８Ａに示すように、最大開度の口唇静止画１３ｃが９フレーム連続した領域があるか否かを判断する。開閉強調部１０は、このような領域があると判断すると、図８Ｂに示すように、当該領域内の中間領域にある数フレーム（この場合３フレーム）を、開度が一段低い中間開度の口唇静止画１３ｂの開閉度（量子化開閉度Ｌ（ｔ）＝１）に変更する。

これにより、最大開度の口唇静止画１３ｃが３フレーム続いた後、中間開度の口唇静止画１３ｂが３フレーム続き、再び最大開度の口唇静止画１３ｃが３フレーム続いた口唇アニメーションを生成できる。口唇アニメーション生成装置１は、このように口唇が動く口唇アニメーションを視聴者に視認させることで、残像効果によって、あたかもキャラクターが発話しているかのような印象を視聴者に与えることができる。

（１−２）第２の開閉強調処理
図８Ｃは、最大開度の口唇静止画が６フレーム連続したときの概略図であり、図８Ｄは、図８Ｃに対する開閉強調処理の結果を示した概略図である。この場合、開閉強調部１０は、図８Ｃに示すように、最大開度の口唇静止画１３ｃが６フレーム連続した領域があるか否かを判断する。開閉強調部１０は、このような領域があると判断すると、図８Ｄに示すように、当該領域内の最後尾領域にある数フレーム（この場合３フレーム）を、開度が一段低い中間開度の口唇静止画１３ｂの開閉度（量子化開閉度Ｌ（ｔ）＝１）に変更する。

これにより、最大開度の口唇静止画１３ｃが３フレーム続いた後、中間開度の口唇静止画１３ｂが３フレーム続いた口唇アニメーションを生成できる。口唇アニメーション生成装置１は、このように口唇が動く口唇アニメーションを視聴者に視認させることで、残像効果によって、あたかもキャラクターが発話しているかのような印象を視聴者に与えることができる。

（１−３）第３の開閉強調処理
図８Ｅは、中間開度の口唇静止画１３ｂが９フレーム連続した後に最小開度の口唇静止画１３ａのフレームが続いたときの概略図であり、図８Ｆは、図８Ｅに対する開閉強調処理の結果を示した概略図である。この場合、開閉強調部１０は、図８Ｅに示すように、中間開度の口唇静止画１３ｂが９フレーム連続した後に最小開度の口唇静止画１３ａのフレームが続いた領域があるか否かを判断する。開閉強調部１０は、このような領域があると判断すると、図８Ｆに示すように、中間開度の口唇静止画１３ｂが９フレーム連続した領域内の中間領域にある数フレーム（この場合３フレーム）を、開度が一段高い最大開度の口唇静止画１３ｃの開閉度（量子化開閉度Ｌ（ｔ）＝２）に変更する。

これにより、中間開度の口唇静止画１３ｂが３フレーム続いた後、最大開度の口唇静止画１３ｃが３フレーム続き、再び中間開度の口唇静止画１３ｂが３フレーム続き、最小開度の口唇静止画１３ａが３フレーム続く口唇アニメーションを生成できる。口唇アニメーション生成装置１は、このように口唇が動く口唇アニメーションを視聴者に視認させることで、残像効果によって、あたかもキャラクターが発話しているかのような印象を視聴者に与えることができる。

（１−４）第４の開閉強調処理
図８Ｇは、中間開度の口唇静止画１３ｂが９フレーム連続した後に最大開度の口唇静止画１３ａのフレームが続いたときの概略図であり、図８Ｈは、図８Ｇに対する開閉強調処理の結果を示した概略図である。この場合、開閉強調部１０は、図８Ｇに示すように、中間開度の口唇静止画１３ｂが９フレーム連続した後に最大開度の口唇静止画１３ａのフレームが続いた領域があるか否かを判断する。開閉強調部１０は、このような領域があると判断すると、図８Ｈに示すように、中間開度の口唇静止画１３ｂが９フレーム連続した領域内の中間領域にある数フレーム（この場合３フレーム）を、開度が一段低い最小開度の口唇静止画１３ａの開閉度（量子化開閉度Ｌ（ｔ）＝０）に変更する。

これにより、中間開度の口唇静止画１３ｂが３フレーム続いた後、最小開度の口唇静止画１３ａが３フレーム続き、再び中間開度の口唇静止画１３ｂが３フレーム続き、最大開度の口唇静止画１３ｃが３フレーム続く口唇アニメーションを生成できる。口唇アニメーション生成装置１は、このように口唇が動く口唇アニメーションを視聴者に視認させることで、残像効果によって、あたかもキャラクターが発話しているかのような印象を視聴者に与えることができる。

（１−５）第５の開閉強調処理
図８Ｉは、中間開度の口唇静止画が６フレーム連続したときの概略図であり、図８Ｊは、図８Ｉに対する開閉強調処理の結果を示す概略図である。この場合、開閉強調部１０は、図８Ｉに示すように、中間開度の口唇静止画１３ｂが６フレーム連続した領域があるか否かを判断する。開閉強調部１０は、このような領域があると判断すると、図８Ｊに示すように、当該領域内の最後尾領域にある数フレーム（この場合３フレーム）を、開度が一段低い最小開度の口唇静止画１３ａの開閉度（量子化開閉度Ｌ（ｔ）＝０）に変更する。

これにより、中間開度の口唇静止画１３ｂが３フレーム続いた後、最小開度の口唇静止画１３ａが３フレーム続いた口唇アニメーションを生成できる。口唇アニメーション生成装置１は、このように口唇が動く口唇アニメーションを視聴者に視認させることで、残像効果によって、あたかもキャラクターが発話しているかのような印象を視聴者に与えることができる。

口唇アニメーション生成装置１は、開閉強調部１０において、以上のような第１の開閉強調処理から第５の開閉強調処理を実行し終えると、開閉強調処理を実行した口唇遷移データをアニメーション生成装置４に送出する。これによりアニメーション生成装置４は、口唇アニメーション生成装置１から取得した口唇アニメーションと、キャラクターアニメーションとを合成し、視聴者に呈示するアニメーションを生成できる。

（２）作用及び効果
以上の構成において、口唇アニメーション生成装置１では、口唇開閉推定データから推定開閉度が高い位置を示したピークＰ１，Ｐ２，Ｐ３を求め、ピークトップＰＴ及びピークボトムＰＢを基準に、各ピークＰ１，Ｐ２，Ｐ３毎にそれぞれ所定の閾値（下限閾値Ｓｈ１及び上限閾値Ｓｈ２）を設定する。次いで、口唇アニメーション生成装置１では、口唇開閉推定データにて特徴的な位置となるピークトップＰＴをそれぞれ初期キーフレーム点として決定するとともに、口唇開閉推定データに沿って、互いに所定距離離れたサンプリングキーフレーム点を決定してゆく。

口唇アニメーション生成装置１では、閾値に基づいて初期キーフレーム点及びサンプリングキーフレーム点（キーフレーム点）を量子化し、各初期キーフレーム点及びサンプリングキーフレーム点での推定開閉度を、口唇静止画１３ａ，１３ｂ，１３ｃの開閉度に変換した量子化キーフレーム点を生成する。次いで、口唇アニメーション生成装置１では、上述した膨張処理を行った後、量子化キーフレーム点間における開閉度を、量子化キーフレーム点の開閉度に基づいて補間してゆき、口唇静止画１３ａ，１３ｂ，１３ｃの連続的な遷移を示した口唇遷移データを生成する。

これにより、口唇アニメーション生成装置１では、取得した口唇開閉推定データを基に、音声データに合わせて最適なタイミングで口唇静止画１３ａ，１３ｂ，１３ｃが切り替わる口唇アニメーションを自動的に生成できる。よって、音声に合わせて自然な動きを示す口唇アニメーションを簡単に生成でき、作業者の作業負担を軽減できる。

また、口唇アニメーション生成装置１では、上記のように作業者の作業負担を軽減できる分、口唇アニメーションの制作に携わる作業者の人数も減らせることができ、コスト低減を図ることができる。さらに、口唇アニメーション生成装置１では、作業者により、音声データに合わせて最適なタイミングで口唇静止画１３ａ，１３ｂ，１３ｃを考えながら選択してゆく手間が省ける分、口唇アニメーションの生成する際の時間の短縮化を図ることができる。

（３）他の実施形態
なお、本発明は、本実施形態に限定されるものではなく、本発明の要旨の範囲内で種々の変形実施が可能である。例えば、上述した実施形態においては、開閉強調処理を実行する口唇アニメーション生成装置について説明したが、本発明はこれに限らず、開閉強調処理を実行せずに、補間処理を実行した後、得られた口唇遷移データをアニメーション生成装置４に送出するようにしてもよい。また、下限閾値Ｓｈ１及び上限閾値Ｓｈ２は、必ずしもそれぞれ下限補正値τ_１及び上限補正値τ_２を加算した値でなくてもよい。

また、上述した開閉強調処理において、図８Ａ、図８Ｃ、図８Ｅ、図８Ｇ及び図８Ｉにて所定数続くフレーム数については任意の数であってもよい。例えば、図８Ａ、図８Ｅ、図８Ｇのように９フレームとしている場合については、７フレーム以上等、範囲を設けてもよい。同様に、図８Ｃ、図８Ｉのように６フレームとしている場合についても、４フレーム以上等、範囲を設けても良い。

図８Ａにおいて、例えば、所定数続くフレーム数として８フレームとした場合には、厳密な中間位置を指定できないため、先頭から２フレーム後、或いは３フレーム後の中間領域にある数フレーム（この場合３フレーム）を、開度が一段低い中間開度の口唇静止画１３ｂの開閉度（量子化開閉度Ｌ（ｔ）＝１）に変更する。図８Ｅや図８Ｇについても同様に、厳密な中間位置を指定できないときは、先頭から２フレーム後、或いは３フレーム後の中間領域にある数フレーム（この場合３フレーム）を変更する。

また、上述した実施形態においては、開閉度が段階的に異なる口唇をそれぞれ描画した複数の口唇静止画として、口唇の開閉度が３段階に変化する口唇静止画１３ａ，１３ｂ，１３ｃを適用した場合について述べたが、本発明はこれに限らない。例えば、口唇の開閉度が４段階、５段階等、その他複数段に変化する口唇静止画を適用してもよい。

例えば、図９Ａ、図９Ｂ、図９Ｃ及び図９Ｄに示すように、口唇の開閉度が４段階に変化する口唇静止画１３ａ，１３ｂ，１３ｂ´，１３ｃを用いる場合には、閾値設定部６において、口唇開閉推定データを４領域に区分けする必要があるため、図１０に示すように、３つの閾値（下限閾値Ｓｈ１、中間閾値Ｓｈ３、及び上限閾値Ｓｈ２）を口唇開閉推定データに対して設定することになる。なお、図９Ｃは、図９Ｂに示した、口唇が少し開いた状態を描画した口唇静止画１３ｂと、図９Ｄに示した、口唇が最も開いた状態を描画した口唇静止画１３ｃと、の中間程度に口唇が開いた状態を描画した口唇静止画１３ｂ´を示す。

この場合、例えば、閾値設定部６（図２）は、カットポイントＣによって区切られたピークＰ１，Ｐ２，Ｐ３毎に閾値を設定するが、閾値として、下限閾値Ｓｈ１と上限閾値Ｓｈ２とに加え、中間閾値Ｓｈ３を設定する。下限閾値Ｓｈ１は、下記に示すように、上記の式（１）と同じ式により定義される。一方、中間閾値Ｓｈ３は、下記の式（６）により定義され、上限閾値Ｓｈ２は下記の式（７）により定義される。

Ｓｈ１［ｎ］＝ｍｉｎ［ｎ］＋τ_１ … （１）
Ｓｈ３［ｎ］＝｛（ｍａｘ［ｎ］−ｍｉｎ［ｎ］）／３｝＋ｍｉｎ［ｎ］＋τ_３ … （６）
Ｓｈ２［ｎ］＝｛（ｍａｘ［ｎ］−ｍｉｎ［ｎ］）×（２／３）｝＋ｍｉｎ［ｎ］＋τ_２ … （７）

なお、τ_１は下限補正値を示し、τ_３は中間補正値を示し、τ_２は上限補正値を示す。下限補正値τ_１、中間補正値τ_３、及び上限補正値τ_２の数値は、０<τ_１<τ_３<τ_２の関係を満たしていればよく、計算機（口唇アニメーション生成装置１）における小数表現の丸め誤差によって値が重複しない桁数が望ましい。なお、この中間補正値τ_３も、下限閾値Ｓｈ１と上限閾値Ｓｈ２と中間閾値Ｓｈ３とが重複することを避けるための補正値である。

Ｓｈ１［ｎ］、Ｓｈ３［ｎ］、及びＳｈ２［ｎ］は、ｎ番目のカットポイントＣとｎ＋１番目のカットポイントＣとの間にある下限閾値Ｓｈ１、中間閾値Ｓｈ３、及び上限閾値Ｓｈ２を意味する。ｍｉｎ［ｎ］は、ｎ番目のカットポイントＣとｎ＋１番目のカットポイントＣとの間における口唇開閉推定データで最小の推定開閉度（最小ピークボトム）を示す。ｍａｘ［ｎ］は、ｎ番目のカットポイントＣとｎ＋１番目のカットポイントＣとの間にある、ピークトップＰＴの推定開閉度を示す。

ここで、上限閾値Ｓｈ２は、ピークトップＰＴ及び最小ピークボトム間で決定した所定の決定点の推定開閉度に、下限補正値τ_１とは異なる上限補正値τ_２を加算した値となる。この場合、上限閾値Ｓｈ２の決定点としては、ピークトップＰＴ及び最小ピークボトム間にある、｛（ｍａｘ［ｎ］−ｍｉｎ［ｎ］）×（２／３）｝＋ｍｉｎ［ｎ］となる。なお、中間閾値Ｓｈ３の決定点としては、ピークトップＰＴ及び最小ピークボトム間にある、｛（ｍａｘ［ｎ］−ｍｉｎ［ｎ］）／３｝＋ｍｉｎ［ｎ］となる。中間閾値Ｓｈ３は、この決定点に中間補正値τ_３を加算した値となる。

このようにして口唇開閉推定データに対して設定される下限閾値Ｓｈ１は、キャラクターの口唇が閉じた状態（最小開度）を描画した口唇静止画１３ａ（図９Ａ）を割り当てることが最適な領域（図１０中、「閉」と表記）と、口唇が少し開いた状態を描画した口唇静止画１３ｂ（図９Ｂ）を割り当てることが最適な領域（図１０中、「第１中開」と表記）と、について区分けする目安となる。

また、中間閾値Ｓｈ３は、キャラクターの口唇が少し開いた状態を描画した口唇静止画１３ｂ（図９Ｂ）を割り当てることが最適な領域（図１０中、「第１中開」と表記）と、口唇が図９Ｂよりも開いた状態を描画した口唇静止画１３ｂ´（図９Ｃ）を割り当てることが最適な領域（図１０中、「第２中開」と表記）と、について区分けする目安となる。

さらに、上限閾値Ｓｈ２は、口唇が開いた状態（第２中開）を描画した口唇静止画１３ｂ´（図９Ｃ）を割り当てることが最適な領域（図１０中、「第２中開」と表記）と、口唇が最大に開いた状態を描画した口唇静止画１３ｃ（図９Ｄ）を割り当てることが最適な領域（図１０中、「開」と表記）と、について区分けする目安となる。

上述したように閾値を３つ設けた場合でも、上述した実施形態と同様の手法により、初期キーフレーム点や、サンプリングキーフレーム点、量子化キーフレーム点を生成することができる。よって、このような場合でも、取得した口唇開閉推定データを基に、音声データに合わせて最適なタイミングで口唇静止画１３ａ，１３ｂ，１３ｂ´，１３ｃが切り替わる口唇アニメーションを自動的に生成できる。

１口唇アニメーション生成装置
５取得部
６閾値設定部
７キーフレーム点決定部
８量子化処理部
９補間処理部
１０開閉強調部

Claims

開閉度が段階的に異なる口唇をそれぞれ描画した複数の口唇静止画の中から、キャラクターアニメーションに合成させる音声データに応じた前記口唇静止画を選択し、前記音声データに合わせて前記口唇静止画を変化させる口唇アニメーションを生成する口唇アニメーション生成装置であって、
前記音声データに対する前記口唇の推定開閉度を示した口唇開閉推定データを取得する取得部と、
前記口唇開閉推定データから前記推定開閉度が高い位置を示したピークを求め、ピークトップ及びピークボトムを基準に、各前記ピーク毎にそれぞれ所定の閾値を設定してゆく閾値設定部と、
前記口唇開閉推定データに対してキーフレーム点を決定するキーフレーム点決定部と、
前記閾値に基づいて前記キーフレーム点を量子化し、各前記キーフレーム点での前記推定開閉度を、前記口唇静止画の開閉度に変換した量子化キーフレーム点を生成する量子化処理部と、
前記量子化キーフレーム点間における前記開閉度を、前記量子化キーフレーム点の前記開閉度に基づいて補間してゆき、前記口唇静止画の連続的な遷移を示した口唇遷移データを生成する補間処理部と、を備える、口唇アニメーション生成装置。
前記閾値設定部は、前記閾値が、
前記ピークボトム間毎に特定した最小の前記推定開閉度である最小ピークボトムに基づいて決定する下限閾値と、
前記ピークトップ及び前記最小ピークボトムの前記推定開閉度に基づいて決定する上限閾値と、である、請求項１に記載の口唇アニメーション生成装置。
前記下限閾値は、前記最小ピークボトムの前記推定開閉度に下限補正値τ_１を加算した値であり、
前記上限閾値は、前記ピークトップ及び前記最小ピークボトム間で決定した所定の決定点の前記推定開閉度に、前記下限補正値τ_１とは異なる上限補正値τ_２を加算した値である、請求項２に記載の口唇アニメーション生成装置。
前記キーフレーム点決定部は、
隣接する前記キーフレーム点を所定距離以上離れて設定する、請求項１〜３のいずれか１項に記載の口唇アニメーション生成装置。
前記量子化キーフレーム点が時系列に並ぶ量子化データに対して、膨張フィルタを用いた膨張処理を行い、前記量子化キーフレーム点を時間軸の早い方向に膨張させて前記量子化キーフレーム点への切り替えタイミングを早める膨張処理部を備える、請求項１〜４のいずれか１項に記載の口唇アニメーション生成装置。
前記補間処理部は、
一の前記量子化キーフレーム点から、前記一の量子化キーフレーム点に隣接した他の前記量子化キーフレーム点に向けて、前記一の量子化キーフレーム点の前記開閉度で補間してゆくとともに、前記他の量子化キーフレーム点から前記一の量子化キーフレーム点に向けて、前記他の量子化キーフレーム点の前記開閉度で補間してゆく、請求項１〜５のいずれか１項に記載の口唇アニメーション生成装置。
前記口唇遷移データにおいて、最大開度の前記口唇静止画が所定フレーム数連続して続いたときは、連続したフレームのうち中間領域又は最後尾領域の前記口唇静止画を中間開度の前記口唇静止画に変更する開閉強調部を備える、請求項１〜６のいずれか１項に記載の口唇アニメーション生成装置。
前記口唇遷移データにおいて、中間開度の前記口唇静止画が所定フレーム数連続した後に、最小開度の前記口唇静止画に遷移したときは、連続したフレームのうち中間領域の前記口唇静止画を最大開度の前記口唇静止画に変更する開閉強調部を備える、請求項１〜６のいずれか１項に記載の口唇アニメーション生成装置。
前記口唇遷移データにおいて、中間開度の前記口唇静止画が所定フレーム数連続した後に、最大開度の前記口唇静止画に遷移したときは、連続したフレームのうち中間領域の前記口唇静止画を最小開度の前記口唇静止画に変更する開閉強調部を備える、請求項１〜６のいずれか１項に記載の口唇アニメーション生成装置。
前記口唇遷移データにおいて、中間開度の前記口唇静止画が所定フレーム数連続して続いたときは、連続したフレームのうち最後尾領域の前記口唇静止画を最小開度の前記口唇静止画に変更する開閉強調部を備える、請求項１〜６のいずれか１項に記載の口唇アニメーション生成装置。
開閉度が段階的に異なる口唇をそれぞれ描画した複数の口唇静止画の中から、キャラクターアニメーションに合成させる音声データに応じた前記口唇静止画を選択し、前記音声データに合わせて前記口唇静止画を変化させる口唇アニメーションを生成する口唇アニメーション生成方法であって、
前記音声データに対する前記口唇の推定開閉度を示した口唇開閉推定データを取得する取得ステップと、
前記口唇開閉推定データから前記推定開閉度が高い位置を示したピークを求め、ピークトップ及びピークボトムを基準に、各前記ピーク毎にそれぞれ所定の閾値を設定してゆく閾値設定ステップと、
前記口唇開閉推定データに対してキーフレーム点を決定するキーフレーム点決定ステップと、
前記閾値に基づいて前記キーフレーム点を量子化し、各前記キーフレーム点での前記推定開閉度を、前記口唇静止画の開閉度に変換した量子化キーフレーム点を生成する量子化処理ステップと、
前記量子化キーフレーム点間における前記開閉度を、前記量子化キーフレーム点の前記開閉度に基づいて補間してゆき、前記口唇静止画の連続的な遷移を示した口唇遷移データを生成する補間処理ステップと、を備える、口唇アニメーション生成方法。