JP2015038725A - 発話アニメーション生成装置、方法、及びプログラム - Google Patents

発話アニメーション生成装置、方法、及びプログラム Download PDF

Info

Publication number
JP2015038725A
JP2015038725A JP2014147933A JP2014147933A JP2015038725A JP 2015038725 A JP2015038725 A JP 2015038725A JP 2014147933 A JP2014147933 A JP 2014147933A JP 2014147933 A JP2014147933 A JP 2014147933A JP 2015038725 A JP2015038725 A JP 2015038725A
Authority
JP
Japan
Prior art keywords
visual element
visual
weight
generation unit
visual elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014147933A
Other languages
English (en)
Inventor
川本 真一
Shinichi Kawamoto
真一 川本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Advanced Institute of Science and Technology
Original Assignee
Japan Advanced Institute of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Advanced Institute of Science and Technology filed Critical Japan Advanced Institute of Science and Technology
Priority to JP2014147933A priority Critical patent/JP2015038725A/ja
Publication of JP2015038725A publication Critical patent/JP2015038725A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

【課題】短い遅延で、口形状が自然に変化する顔画像のアニメーションを生成することができる発話アニメーション生成装置を提供する。【解決手段】本発明の一態様によれば、予め用意された音響モデル、言語モデル、及び複数の音素と複数の視覚素との間の対応表を使用して、音声信号に対して音声認識を漸次的に行って視覚素系列を生成する視覚素系列生成部と、前記視覚素系列を平滑化して前記複数の視覚素ごとの混合重みを生成する混合重み生成部と、前記複数の視覚素ごとの混合重みに従って、前記複数の視覚素それぞれに対応する複数の顔モデルを混合することにより、顔画像を生成する画像生成部と、を具備する発話アニメーション生成装置が提供される。【選択図】図1

Description

本発明は、発話音声からアニメーションを生成する発話アニメーション生成装置、方法、及びプログラムに関する。
入力された音声に合わせて口形状が変わる顔画像のアニメーションを生成する技術がある。例えば非特許文献1及び2に開示されている手法では、音声を事前に分析し、分析結果に基づいて口形状を変化させることでアニメーションを作成している。これらの手法は、発話者による発話が終了した後でなければ処理を開始することができない。このため、例えばインターネットを通じた音声チャットにおいて相手の発話音声に合わせて口形状が動くキャラクタをリアルタイム表示するなどといったリアルタイムコミュニケーションの用途では、発話音声の長さに依存してアニメーションの生成が遅延するこのような手法を利用することはできない。
また、非特許文献3及び4には、短時間の音声を切り出して音声分析し、短時間の音声における音声特徴と口形状を直接的に対応付けることで顔画像のアニメーションを生成する手法が開示されている。これらの手法では、短時間の音声を切り出すことによって発話者による発話の終了を待たずに処理を開始することが可能であり、低遅延でアニメーションを生成することができる。しかしながら、音声特徴と口形状を直接的に対応付けているので、口形状が急激に変化する不自然なアニメーションが生成されることがある。さらに、これらの手法では、言語的な制約をもたず、分析性能が劣化する可能性がある。
E. Yamamoto, S. Nakamura and K. Shikano, Lip movement synthesis from speech based on Hidden Markov Models, Speech Communication, Vol. 26, Issues 1−2, pp.105-115 (1998). T. Ezzat, G. Geiger and T. Poggio: Trainable videorealistic speech animation. In Proc. SIGGRAPH, pp.388-398 (2002). S. MORISHIMA: Real-time talking head driven by voice and its application to communication and entertainment. In Proc. AVSP (1998). C. Ishi, C. Liu, H. Ishiguro and N. Hagita: Evaluation of a formant-based speech-driven lip motion generation, In Proc. Interspeech 2012, pp.P1a.04 (2012).
発話者の発話音声に対応するアニメーションをリアルタイムに表示するために、短い遅延でアニメーションを生成できることが求められている。さらに、口形状が自然に変化するアニメーションを生成できることが求められている。
本発明の目的は、短い遅延で、口形状が自然に変化するアニメーションを生成することができる発話アニメーション生成装置、方法、及びプログラムを提供することにある。
本発明の一態様によれば、予め用意された音響モデル、言語モデル、及び複数の音素と複数の視覚素との間の対応表を使用して、音声信号に対して音声認識を漸次的に行って視覚素系列を生成する視覚素系列生成部と、前記視覚素系列を平滑化して前記複数の視覚素ごとの混合重みを生成する混合重み生成部と、前記複数の視覚素ごとの混合重みに従って、前記複数の視覚素それぞれに対応する複数の顔モデルを混合することにより、顔画像を生成する画像生成部と、を具備する発話アニメーション生成装置が提供される。
本発明の他の態様によれば、予め用意された音響モデル、言語モデル、及び複数の音素と複数の視覚素との間の対応表を使用して、音声信号に対して音声認識を漸次的に行って視覚素系列を生成する視覚素系列生成部と、前記視覚素系列を平滑化して前記複数の視覚素ごとの重みを生成する混合重み生成部と、前記複数の視覚素ごとの重みに従って、前記複数の視覚素それぞれに対応する複数の顔モデルを切り替えることにより、顔画像を生成する画像生成部と、を具備することを特徴とする発話アニメーション生成装置が提供される。
本発明によれば、短い遅延で、口形状が自然に変化するアニメーションを生成することができる。
本発明の第1の実施形態に係る発話アニメーション生成装置を示すブロック図。 図1の発話アニメーション生成装置が通信ネットワークを介して音声信号を取得する例を示すブロック図。 図1に示した視覚素系列生成部の構成例を概略的に示すブロック図。 音素視覚素対応表の一例を示す図。 視覚素系列の一例を示す図。 視覚素依存フィルタを定めるパラメータL、Mを示す図。 視覚素依存フィルタの一例を示す図。 混合重みフィルタの一例を示す図。 混合重みの一例を示す図。 音声「てんぷら」が入力された例での混合重みを示す図。 (a)、(b)、(c)は図1の発話アニメーション生成装置の利用例を示す図である。 図1の発話アニメーション生成装置の処理手順例を示すフローチャート。 本発明の第2の実施形態に係る発話アニメーション生成装置を示すブロック図。 視覚素対系列を説明するための図。 音素視覚素対応表の一例を示す図。 視覚素対系列の一例を示す図。 視覚素依存対フィルタの一例を示す図。 基本顔形状から特定の顔形状へ変化する際の混合重み系列を示す図。
以下、図面を参照しながら本発明の実施形態を説明する。
(第1の実施形態)
図1は、本発明の第1の実施形態に係る発話アニメーション生成装置100を概略的に示している。発話アニメーション生成装置100は、図1に示すように、音声信号取得部101、視覚素系列生成部102、混合重み生成部103、画像生成部104、及び顔モデル記憶部105を備える。顔モデル記憶部105は、予め用意された複数の顔モデルを格納している。発話アニメーション生成装置100は、音声信号取得部101において音声信号を取得しながら、顔モデル記憶部105に格納されている複数の顔モデルを用いて、音声信号に同期して口形状が変化する顔画像のアニメーションを漸次的に生成する。
発話アニメーション生成装置100では、口形状が異なる複数の顔画像が予め用意される。口形状は、口(例えば唇及び歯など)の形状とともに、発声により動く顔の他の部分(例えば顎など)の形状を含むことができる。顔画像は、特定の音素それぞれに関して用意される。例えば、音素/a/、音素/i/、音素/u/、音素/e/、音素/o/などの音素ごとに、その音素を発音するときの口形状を含む顔画像が用意される。以下では、音素に対応付けられた口形状を視覚素(viseme)とも称する。顔画像としては、例えば、発話者をデジタルカメラで撮影して得られた画像であってもよく、コンピュータを用いて作成されたキャラクタ(イラスト)であってもよい。顔画像は、顔形状(口形状を含む。)を構成する各頂点の座標により定義される。例えば、基本となる顔画像(基本顔画像と称する。)の各頂点の座標が予め定義され、他の顔画像の各頂点の座標は基本顔画像に対する相対座標により定義される。基本顔画像としては、例えば、通常状態(発声せずに口を閉じている状態)の顔画像を用いることができる。顔画像を構成する頂点の座標集合は顔モデルとして顔モデル記憶部105に記憶されている。
音声信号取得部101は、発話者が発声した音声(発話音声)を含む音声信号を取得し、取得しながらその音声信号を視覚素系列生成部102に供給する。一例では、音声信号取得部101は、インターネットなどの通信ネットワークを通じて音声通信を行う通信機能を持ち、図2に示すように、通信ネットワーク201を介して外部装置(例えばコンピュータ装置)202から音声信号を受信する。この場合、音声信号は、外部装置202のマイクロホン203で発話音声を検出して得られる検出信号をアナログデジタル変換することにより生成され、リアルタイムに発話アニメーション生成装置100へ伝送される。他の例では、図1に示される音声信号取得部101は、図示しないマイクロホンを備え、このマイクロホンで発話音声を検出して検出信号を生成し、この検出信号をアナログデジタル変換することによって音声信号を取得する。
視覚素系列生成部102は、予め用意された音響モデル、言語モデル、及び音素視覚素対応表(いずれも後述する。)を使用して、音声信号取得部101から受信した音声信号に対して音声認識を漸次的に行い、音声信号に対応する視覚素系列を生成する。具体的には、視覚素系列生成部102は、一定時間ごとに、音声信号取得部101からその時点までに入力された音声信号(発話者が発話したところまでの音声に相当し、以下では入力済み音声信号と称する。)に対して音声認識を行う。視覚素系列生成部102は、一定周期で音声信号の一部を抽出したフレーム(信号区間)それぞれについて視覚素を決定する。フレーム長は、例えば、20ミリ秒である。フレーム周期(フレームを抽出する周期)は、例えば、10ミリ秒である。視覚素系列は、音声信号を視覚素で表現した時系列データである。
図3は、視覚素系列生成部102の構成例を概略的に示している。視覚素系列生成部102は、図3に示されるように、特徴量抽出部301、デコーダ302、音響モデル記憶部303、言語モデル記憶部304、及び音素視覚素対応表記憶部305を備える。
音響モデル記憶部303は、音素ごとの音響特徴量パターンを保持する音響モデルを格納している。例えば、音響モデルは、音響特徴量の出現確率を隠れマルコフモデル(HMM:Hidden Markov Model)でモデル化したものである。言語モデル記憶部304は、連続する音素間の接続確率を保持する言語モデルを格納している。音素視覚素対応表記憶部305は、音素と視覚素との間の対応表である音素視覚素対応表を格納している。音素視覚素対応表は、音素を視覚素に変換、すなわち、マッピングするために使用される。音素視覚素対応表の一例を図4に示す。図4の例では、32の音素が13の視覚素に対応付けられている。例えば、音素/r/及び音素/ry/はIDが1の視覚素に対応付けられている。以下では、IDがiである視覚素を視覚素iと記載する。
特徴量抽出部301は、入力済み音声信号から音響特徴量を抽出する。音響特徴量としては、例えばMFCC(Mel Frequency Cepstrum Coefficient)などの音声認識に用いられる任意のパラメータを使用することができる。デコーダ302は、音響モデル及び言語モデルを参照して、入力済み音声信号における音響特徴量列がどのような音素列と対応するかを最尤基準で推定する。
さらに、デコーダ302は、一定時間ごとに次の処理を行う。すなわち、デコーダ302は、ビタビ(Viterbi)アルゴリズムにより、入力済み音声信号中のフレームそれぞれがどの音素に対応するかを最尤基準で求めることで、音素境界を決定する。それにより、フレームごとに音素の候補が決定される。デコーダ302は、音素視覚素対応表を参照して、各フレームの候補となる音素を視覚素(視覚素候補)に変換する。デコーダ302は、フレーム及び過去数フレームにおける視覚素境界候補において、そのフレームに対応する視覚素候補列を抽出し、出現頻度スコアを計算する。出現頻度スコアは、視覚素ごとに、視覚素の出現時期に応じた重みを与え、フレーム及び過去数フレームにおける重みの和をとることで計算する。出現時期に応じた重みは、過去の結果ほど小さな重みを与えるように設定する。一例では、ある時刻nの視覚素を決定する際、mフレーム先までの入力(時刻n+mまでの入力)から得られた視覚素候補列において、当該時刻nのフレームに出現した視覚素の重みWscore(m)は下記数式(1)のように表される。
Figure 2015038725
時刻nにおける各視覚素に関しては、時刻n+mまでの入力から得られた視覚素候補列において時刻nに出現した視覚素にWscore(m)が、その他の視覚素には0が、重みとして付与される。最大n+Mpまでの視覚素候補列が取得できる場合、m=0、1、2、…、Mpそれぞれにおいて付与された重みの総和を出現頻度スコアとして視覚素ごとに計算する。
デコーダ302は、出現頻度スコア(重み付きの出現頻度)の高い視覚素をそのフレームに対応する視覚素とする。フレームの視覚素の継続長が閾値未満である場合、その結果を棄却し、先行するフレームの視覚素をそのフレームの視覚素として採用する。閾値は視覚素ごとに予め定められる。フレームの候補として最終的に残った視覚素をそのフレームの視覚素と決定する。上記の例では、時刻nにおけるフレームの視覚素は、時刻n+Mpまでの入力音声信号を処理した時点で決定される。時間Mpは例えば200ミリ秒とすることができる。この場合、例えば、500ミリ秒時点の視覚素は、700ミリ秒までの入力音声信号が与えられた直後に確定される。上記閾値を調整することにより、最終的に出力される顔画像の動きの細かさを制御することができる。例えば、閾値を大きくすると、継続長の短い視覚素がなくなり、その結果、口形状の細かな動きが減り、すなわち、口形状の動きが簡単化される。
視覚素系列生成部102は、一定時間の音声信号が入力されてから音響モデル及び言語モデルを使用した音声認識を開始することで、言語的な制約を考慮した音声認識が可能になり、その結果、音声認識性能を向上させることができる。
本実施形態では、視覚素系列生成部102は、音素視覚素対応表に含まれる視覚素の数(すなわち、顔モデル記憶部105に格納されている顔モデルの数)Nと同じ次元数を持つベクトルとして視覚素系列を出力する。このベクトルを視覚素認識結果ベクトルと称する。時刻nにおける音素認識結果に対応する視覚素認識結果ベクトルは、下記数式(2)のように、N次元の列ベクトルx[n]で表すことができる。数式(2)において、Tは転置を表す。視覚素認識結果ベクトルでは、フレームの認識結果と一致する視覚素に対応する要素が“1”であり、それ以外の要素が“0”である。例えば、視覚素数Nが13であり、かつ、視覚素認識結果が視覚素9である場合、視覚素認識結果ベクトルは、下記数式(3)のように表される。
Figure 2015038725
なお、音素視覚素対応表にない音素がフレームに割り当てられた場合や、フレームが音声区間でない場合には、視覚素認識結果ベクトルの全ての要素を“0”とする。視覚素系列の一例を図5に示す。図5では、音素/a/、/i/、/u/に対応する要素のみが示されている。図5に示すように、視覚素認識結果ベクトルの各要素の値は矩形パルス状に時間変化する。
なお、視覚素系列生成部102が視覚素系列を生成する方法は、上述した例に限らない。例えば、視覚素系列生成部102は、音響モデル及び言語モデルを使用して音声信号に対して音素セグメンテーションを行って音声信号を構成する音素列を生成した後に音素視覚素対応表を使用して音素列を視覚素列に変換する処理を一定時間ごとに行うことで、視覚素系列を生成してもよい。
混合重み生成部103は、視覚素系列を平滑化することにより、視覚素ごとの混合重みを生成する。混合重みは、表示用の顔画像を生成するために、視覚素に対応する顔モデルを使用する度合いを表す。例えば、音素/a/に対応する視覚素の混合重みが1であり、かつ、他の視覚素の混合重みが0である場合、音素/a/に対応する顔モデルの顔画像が表示用の顔画像として生成される。また、例えば、音素/a/に対応する視覚素の混合重みが0.5であり、かつ、他の視覚素の混合重みが0である場合、音素/a/に対応する顔モデルの顔画像と基本顔画像との中間の顔画像が表示用の顔画像として生成される。さらに、例えば、音素/a/に対応する視覚素と音素/i/に対応する視覚素の混合重みが0.5であり、かつ、他の視覚素の混合重みが0である場合、音素/a/に対応する顔モデルの顔画像と音素/i/に対応する顔画像との中間の顔画像が表示用の顔画像として生成される。本実施形態では、時刻nにおける視覚素ごとの混合重みをN次元ベクトルW[n]で表す。このベクトルを混合重みベクトルと称する。この場合、混合重みベクトルW[n]の第i要素は視覚素iの混合重みを示す。
具体的には、混合重み生成部103は、予め用意された、各口形状が遷移する(動く)時間及び速さを調整するための視覚素依存フィルタ131、口形状間の遷移(ある口形状から他の口形状への遷移)を滑らかにするための混合重みフィルタ132、並びに、視覚素依存フィルタ131の出力及び混合重みフィルタ132の出力を混合するフィルタ出力混合部133を備える。まず、混合重み生成部103は、視覚素系列に視覚素依存フィルタ131を適用して第1のフィルタ出力を得る。本実施形態では、第1のフィルタ出力は、下記数式(4)に示すN行N列の行列Vである。
Figure 2015038725
ここで、記号「*」は畳み込み演算を表し、第1のフィルタ出力Vの(i,j)成分(vi,j)は、下記数式(5)に従って算出される。また、視覚素依存フィルタ131はN個の視覚素それぞれに対応して定められた視覚素依存フィルタ要素を含み、hは視覚素iに対応する視覚素依存フィルタ要素である。
Figure 2015038725
ここで、パラメータLは、視覚素iの視覚素依存フィルタ長であり、口形状が遷移する時間を表すパラメータである。
視覚素依存フィルタ要素h[n]は、下記数式(6)、(7)に示す設計条件を満たすように決定される。
Figure 2015038725
さらに、下記数式(8)に示すように、h[n]の最大値をMとする。h[n]の最大値Mは、口の動く速度の最大値に比例するパラメータである。
Figure 2015038725
一例では、視覚素依存フィルタ要素h[n]は下記数式(9)に示すように設計される。この場合、M=π/(2L)である。
Figure 2015038725
パラメータL、Mは、図6に示すように視覚素依存フィルタ要素を定めるパラメータであり、視覚素ごとに定められる。一例では、パラメータMは、基本顔画像に対応する顔モデルと視覚素iの顔モデルとの間のユークリッド距離に応じて決定される。具体的には、口形状が大きく変化する音素/a/などの音素に対応する視覚素ではLを大きく設定し、口形状がほとんど変化しない音素/N/などの音素に対応する視覚素ではLを小さく設定する。他の例では、特定の口形状(例えば、音素/p/、音素/b/などの破裂音に対応する口形状)では、素早く口形状を遷移させることを優先させるためにLを小さく設定する。音素/a/、/i/、/u/に対応する視覚素依存フィルタ要素の例を図7に示す。
さらに、混合重み生成部103は、視覚素系列に混合重みフィルタ132を適用して第2のフィルタ出力を得る。本実施形態では、第2のフィルタ出力は、下記数式(10)に示すN次元の列ベクトルBである。第2のフィルタ出力Bの第j要素(b)は下記数式(11)に従って算出される。
Figure 2015038725
Figure 2015038725
ここで、Lbは混合重みフィルタ長を表す。混合重みフィルタの一例を図8に示す。図8の例では、混合重みフィルタは、時間区間[0,Lb]では定数であり、それ以外の時間ではゼロである。
混合重み生成部103のフィルタ出力混合部133は、第1のフィルタ出力及び第2のフィルタ出力から混合重みを計算する。例えば、混合重みW[n]は、下記数式(12)のように、第1のフィルタ出力V[n]と第2のフィルタ出力B[n]の積により算出される。
Figure 2015038725
混合重み生成部103で算出された混合重みベクトルW[n]の各要素は、時間経過とともに滑らかに変化する。図9は、図7に示される視覚素依存フィルタ及び図8に示される混合重みフィルタを使用して図5に示される視覚素系列を平滑化した結果を模式的に示している。図9に示されるように、混合重みベクトルW[n]の各要素は連続的に変化する。
画像生成部104は、混合重み生成部103により算出された視覚素ごとの混合重みに従って顔モデル記憶部105に格納されている複数の顔モデルを混合(ブレンド)することで、顔画像を生成する。例えば、基本顔形状をSとし、視覚素iの顔形状をSとし、顔形状Sと基本顔形状Sとの差分顔形状をD(D=S−S)とすると、時刻nにおける顔形状は、下記数式(13)に従って計算される。例えば、画像生成部104は、所定のフレームレート(例えば30fps(frame per second))で漸次的に顔画像を生成する。
Figure 2015038725
図10は、一例として、音声「てんぷら」を入力した場合に算出される混合重みを示している。例えば150ミリ秒から200ミリ秒にかけて、音素/t/に対応する混合重みは単調に減少し、音素/e/に対応する混合重みは単調に増加し、それ以外の音素に対応する混合重みは0である。この場合、この時間区間では音素/t/を発音するときの口形状から音素/e/を発音するときの口形状へと滑らかに変化する一連の顔画像が生成される。
上記構成を有する発話アニメーション生成装置100では、音声信号に対して音声認識を漸次的に行うことで、発話者による発話の終了を待たずに、顔画像のアニメーションの生成を開始することができる。その結果、例えば300ミリ秒程度の短い遅延でアニメーションを生成することができ、発話者の発話に対しリアルタイムにアニメーションを表示することができる。さらに、顔モデルの口形状に合わせて設計された視覚素依存フィルタ及び口形状間の遷移を滑らかにする混合重みフィルタを使用して視覚素系列を平滑化することにより、口形状が自然に変化する顔画像のアニメーションを生成することができる。また、アニメーション生成で生じる遅延と同程度だけ音声信号を遅延させてスピーカで出力することで、音声とアニメーションを同期させて再生することができる。このような発話アニメーション生成装置100は、図11(a)に示すようなSkypeなどの狭帯域音声通信環境下での音声コミュニケーション、図11(b)に示すようなオンラインゲームなどでの音声チャット、図11(c)に示すようなアニメーション作成時のプレビズなどに利用することができる。
次に、本実施形態に係る発話アニメーション生成装置100の動作について説明する。
図12は、発話アニメーション生成装置100の処理手順例を示している。図12のステップS1201では、視覚素系列生成部102は、予め用意された音響モデル、言語モデル、及び音素視覚素対応表を使用して、音声信号に対して音声認識を漸次的に行って視覚素系列を生成する。ステップS1202では、混合重み生成部103は、視覚素系列を平滑化して視覚素ごとの混合重みを生成する。具体的には、混合重み生成部103は、視覚素依存フィルタ131によって視覚素系列をフィルタ処理して第1のフィルタ出力を得て、混合重みフィルタ132によって視覚素系列をフィルタ処理して第2のフィルタ出力を得る。そして、混合重み生成部103は、第1のフィルタ出力及び第2のフィルタ出力から視覚素ごとの混合重みを算出する。ステップS1203では、画像生成部104は、視覚素ごとの混合重みに従って顔モデル記憶部105に格納されている顔モデルを混合して顔画像を生成する。
以上のように、本実施形態に係る発話アニメーション生成装置は、音声信号に対して音声認識を漸次的に行うことにより、発話者による発話の終了を待たずに、顔画像のアニメーションの生成を開始することができる。さらに、本実施形態に係る発話アニメーション生成装置は、視覚素依存フィルタ及び混合重みフィルタを使用して視覚素系列を平滑化することにより、口形状が自然に変化するアニメーションの生成が可能となる。この結果、音声に合わせて口形状が自然に変化する顔画像のアニメーションを短い遅延で生成することができ、発話者の発話に対してリアルタイムにアニメーションを表示することができる。
(第2の実施形態)
第1の実施形態では、視覚素依存フィルタが視覚素ごとに設計されている。視覚素依存フィルタは、口形状(視覚素)間の遷移を規定するものであるため、先行視覚素(直前の視覚素)を考慮して視覚素依存フィルタを設計するのがより好ましい。しかしながら、第1の実施形態の枠組みをそのまま拡張すると、視覚素に対応する口形状定義が複雑化し、さらに、対応する口形状数が膨大となる。具体的には、2つの口形状間の遷移に関する顔モデルを設計することが必要であり、視覚素の数をNとすると、用意する顔モデルの数はN×N個となる。
第2の実施形態では、2つの要件、すなわち、(1)先行視覚素を考慮してフィルタを設計すること、及び(2)視覚素に対応する設計すべき口形状(顔モデル)を少数及び単純に保つことを満たす発話アニメーション生成の枠組みを説明する。第2の実施形態によれば、第1の実施形態よりも自然に口形状が変化する顔画像のアニメーションを生成することが可能になる。
図13は、第2の実施形態に係る発話アニメーション生成装置1300を概略的に示している。発話アニメーション生成装置1300は、図13に示すように、音声信号取得部1301、視覚素系列生成部1302、混合重み生成部1303、画像生成部1304、及び顔モデル記憶部1305を備える。図13に示される音声信号取得部1301、視覚素系列生成部1302、画像生成部1304、及び顔モデル記憶部1305はそれぞれ、図1に示される音声信号取得部101、視覚素系列生成部102、画像生成部104、及び顔モデル記憶部105と同じ動作を行うので、これらについての説明は適宜省略する。
混合重み生成部1303は、視覚素系列を平滑化することによって、視覚素ごとの混合重みを生成する。本実施形態では、時刻nにおける視覚素ごとの混合重みをN次元ベクトルW[n]で表す。このベクトルを混合重みベクトルと称する。この場合、混合重みベクトルW[n]の第i要素は視覚素iの混合重みを示す。
混合重み生成部1303は、視覚素系列変換部1331、視覚素対依存フィルタ1332、混合重みフィルタ1333、フィルタ出力混合部1334、及び重み統合部1335を備える。
視覚素系列変換部1331は、視覚素系列生成部1302から視覚素系列を受け取り、視覚素系列を視覚素対系列に変換する。視覚素対系列は、当該視覚素(現行視覚素とも称する)と先行視覚素との対の時系列データである。当該視覚素は、現在(着目している)時刻での音素(当該音素と称する)に対応する視覚素を指し、先行視覚素は、当該音素の直前の音素(先行音素と称する)に対応する視覚素を指す。例えば、図14に示すように、音声信号の音素認識結果が/sil/、/a/、/k/、/i/と変化する場合を想定する。T≦T<Tを満たす時刻Tでは、当該視覚素が当該音素/a/に対応する視覚素であり、先行視覚素が先行音素/sil/に対応する視覚素であることを示す情報(例えば視覚素対ID)が出力される。一例では、先行音素に対応する視覚素IDをv1、当該音素に対応する視覚素IDをv2としたときに、視覚素対IDを示すvは、v=N×v1+v2と簡単な計算式で決める。ここで、Nは用意された視覚素の数である。この場合、視覚素対の数Nは、N×N個である。他の例では、視覚素対IDは、図15に示す音素視覚素対応表を参照して決定することができる。表を用いることで先行音素及び当該音素の組に適用する視覚素対依存フィルタ(後述する)を共通化することができる場合、前述の例と比べて視覚素対IDを減らすことができる。これはユニークな視覚素対IDの数、つまり実効的な視覚素対の数NをN以下に削減できることを意味する。例えば、当該音素が同じ/a/であって、先行音素が/r,ry/又は/d,n,ny/である視覚素対依存フィルタを共通化する場合、それぞれに同じ視覚素対を割り当てればよい。以下では、IDがiである視覚素対を視覚素対iと記載する。
本実施形態では、視覚素系列変換部1331は、N次元のベクトルとして視覚素対系列を出力する。このベクトルを視覚素対ベクトルと称する。時刻nにおける視覚素対ベクトルは、下記数式(14)のように表すことができる。
Figure 2015038725
数式(14)において、xは、視覚素対iの要素を表す。視覚素対ベクトルでは、変換により得られた視覚素対に対応する要素が“1”であり、それ以外の要素が“0”である。例えば、視覚素対IDが79である場合、79番目の要素が“1”であり、それ以外の要素が“0”である。視覚素対系列の一例を図16に示す。図16では、3つの視覚素対に対応する要素のみが示されている。
視覚素系列から視覚素対系列への変換は、当該視覚素の直前の視覚素を記憶するバッファ(図示せず)を追加することで実現することができる。或いは、音響モデルとしてTriphoneを用いて変換を行ってもよい。Triphoneは、先行音素及び後続音素を考慮して学習された音響モデルである。
混合重み生成部1303は、視覚素対系列に視覚素対依存フィルタ1332を適用して第1のフィルタ出力を得る。本実施形態では、第1のフィルタ出力は、下記数式(15)に示すN行N列の行列Vである。
Figure 2015038725
ここで、パラメータLは、視覚素対iの視覚素依存フィルタ長であり、視覚素対iを構成する先行視覚素の口形状から当該視覚素の口形状に遷移する時間を表すパラメータである。視覚素対依存フィルタ1332は、口形状が遷移する時間及び速さを調整するためのフィルタであり、N個の視覚素対それぞれに対応して定められた視覚素対依存フィルタ要素を有する。hは、視覚素対iの視覚素対依存フィルタ要素を表す。
視覚素対依存フィルタ要素h[n]は、下記数式(16)及び(17)に示す設計条件を満たすように設計される。
Figure 2015038725
視覚素対依存フィルタ要素h[n]の最大値を定めるパラメータM及び前述したパラメータLは、視覚素対を構成する2つの視覚素(すなわち先行視覚素及び当該視覚素)の顔モデル間のユークリッド距離に応じて決定することができる。3つの視覚素対依存フィルタ要素の例を図17に示す。
さらに、混合重み生成部1303は、視覚素系列に混合重みフィルタ1333を適用して第2のフィルタ出力を得る。混合重みフィルタ1333は、口形状間の遷移(先行視覚素の口形状から当該視覚素の口形状への遷移)を滑らかにするためのフィルタである。本実施形態では、第2のフィルタ出力は、下記数式(18)に示すN次元の列ベクトルBである。
Figure 2015038725
ここで、Lbは混合重みフィルタ長を表す。第2の実施形態の混合重みフィルタとしては、第1の実施形態と同じもの、例えば図8に示される混合重みフィルタを用いることができる。図8の例では、混合重みフィルタは、時間区間[0,Lb]では定数であり、それ以外の時間ではゼロである。
フィルタ出力混合部1334は、第1のフィルタ出力及び第2のフィルタ出力から視覚素対ごとの混合重みを計算する。例えば、視覚素対ごとの混合重みW′[n]は、下記数式(19)のように、第1のフィルタ出力V[n]と第2のフィルタ出力B[n]の積により算出される。
Figure 2015038725
重み統合部1335は、フィルタ出力混合部1334の出力W′[n]に基づいて、視覚素ごとの混合重みを計算する。視覚素ごとの混合重みは、下記数式(20)のように、統合行列U[n]と視覚素対ごとの混合重みW′[n]の積により算出され、混合重みベクトルW[n]で表すことができる。統合行列U[n]の要素uijは、下記のように表すことができる。視覚素iの混合重みw[n]は、その視覚素iが当該視覚素である要素の総和である。
Figure 2015038725
本実施形態の混合重み生成部1303から出力される情報は、第1の実施形態と同様に、視覚素ごとの混合重みである。すなわち、予め用意される顔モデルの数は、第1の実施形態と同様にN個である。本実施形態に係る処理は、視覚素を視覚素対に変換することで、ベクトルの次元数やフィルタの数が変わるが、第1の実施形態と同様にして処理することができ、基本的に線形演算によって実現可能である。
第1の実施形態の手法では、音素/sil/から音素/a/への変化に対応するフィルタと音素/sil/から音素/i/への変化に対応するフィルタは、図18に示すように、大きく異なる。しかし、逆に、音素/a/から音素/sil/へ変化する場合も音素/i/から音素/sil/へ変化する場合も、当該視覚素が同じ/sil/であるため、第1の実施形態の手法では同じフィルタが適用される。つまり、形状の変化量が異なる先行視覚素間でも同じフィルタを用いるため、口形状変化速度の最大値がばらつく。第2の実施形態では、このばらつきを抑えるために、先行視覚素と当該視覚素との対にフィルタを割り当てている。
上記構成を有する発話アニメーション生成装置1300は、第1の実施形態に係る発話アニメーション生成装置100と同様に、顔画像のアニメーションを短時間の遅延で生成することができる。さらに、先行視覚素を考慮したフィルタを用いることにより、第1の実施形態に係る発話アニメーション生成装置100と比較して、口形状変換のばらつきを小さくすることが可能であり、口形状がより滑らかに変化する顔画像のアニメーションを生成することができる。また、第1の実施形態における視覚素に対応する口形状定義、キャラクタ設計との親和性を確保することができる。具体的には、本実施形態においても、最終的に視覚素の混合重みを用いてアニメーション生成を制御するため、本実施形態の手法は第1の実施形態と同じ枠組みにも適用可能であり、アニメーション生成の枠組みを変えずに多様な口形状変化のパターンを扱うことが可能である。
次に、本実施形態に係る発話アニメーション生成装置1300の動作について説明する。発話アニメーション生成装置1300は、図12に示した処理手順に従って動作することができる。ただし、ステップS1202の処理内容は、第1の実施形態と異なる。
図12のステップS1201では、視覚素系列生成部1302は、予め用意された音響モデル、言語モデル、及び音素視覚素対応表を使用して、音声信号に対して音声認識を漸次的に行って視覚素系列を生成する。ステップS1202では、混合重み生成部1303は、視覚素系列を平滑化して視覚素ごとの混合重みを生成する。具体的には、まず、混合重み生成部1303は、視覚素系列変換部1331によって視覚素系列を視覚素対系列に変換する。混合重み生成部1303は、視覚素対依存フィルタ1332によって視覚素対系列をフィルタ処理して第1のフィルタ出力を得て、混合重みフィルタ1333によって視覚素対系列をフィルタ処理して第2のフィルタ出力を得る。そして、混合重み生成部1303は、フィルタ出力混合部1334によって第1のフィルタ出力及び第2のフィルタ出力から視覚素対ごとの混合重みを算出し、重み統合部1335によって視覚素対ごとの混合重みを視覚素ごとの混合重みに変換する。ステップS1203では、画像生成部1304は、視覚素ごとの混合重みに従って顔モデル記憶部1305に格納されている顔モデルを混合して顔画像を生成する。
以上のように、本実施形態に係る発話アニメーション生成装置は、音声信号に対して音声認識を漸次的に行うことにより、発話者による発話の終了を待たずに、顔画像のアニメーションの生成を開始することができる。さらに、本実施形態に係る発話アニメーション生成装置は、視覚素対について設計されたフィルタを使用して視覚素系列を平滑化することにより、口形状がより自然に変化するアニメーションの生成が可能となる。この結果、音声に合わせて口形状が自然に変化する顔画像のアニメーションを短い遅延で生成することができ、発話者の発話に対してリアルタイムにアニメーションを表示することができる。
(変形例)
上述した例では、画像生成部(例えば図1の画像生成部104)は、顔モデル記憶部(例えば図1の画像生成部104)に格納された顔モデルを混合することで、口形状が連続的に変形する一連の顔画像を生成している。
各実施形態の変形例に係る画像生成部は、視覚素ごとの混合重みに従って、顔モデルを離散的に切り替えることで、顔画像のアニメーションを作成することができる。具体的には、画像生成部は、顔モデル記憶部から、視覚素ごとの混合重みのうち最大の重みを持つ視覚素に対応する顔モデルを選択し、出力する。この場合、形状変形(混合)できない静止画像を顔モデルとして顔モデル記憶部に格納することができる。また、画像生成部は、静止画像の出力周期に合わせて混合重みのサンプリングを行い、重みが最大となる視覚素に対応する顔モデルを出力することで、日本のアニメーションのような2コマ打ち(リミテッドアニメーション)を表現することができる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の発話アニメーション生成装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータ又は組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の発話アニメーション生成装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶又は一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータ又は組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100…発話アニメーション生成装置、101…音声信号取得部、102…視覚素系列生成部、103…混合重み生成部、104…画像生成部、105…顔モデル記憶部、131…視覚素依存フィルタ、132…混合重みフィルタ、133…フィルタ出力混合部、201…通信ネットワーク、202…外部装置、203…マイクロホン、1300…発話アニメーション生成装置、1301…音声信号取得部、1302…視覚素系列生成部、1303…混合重み生成部、1304…画像生成部、1305…顔モデル記憶部、1331…視覚素系列変換部、1332…視覚素対依存フィルタ、1333…混合重みフィルタ、1334…フィルタ出力混合部、1335…重み統合部。

Claims (9)

  1. 予め用意された音響モデル、言語モデル、及び複数の音素と複数の視覚素との間の対応表を使用して、音声信号に対して音声認識を漸次的に行って視覚素系列を生成する視覚素系列生成部と、
    前記視覚素系列を平滑化して前記複数の視覚素ごとの混合重みを生成する混合重み生成部と、
    前記複数の視覚素ごとの混合重みに従って、前記複数の視覚素それぞれに対応する複数の顔モデルを混合することにより、顔画像を生成する画像生成部と、
    を具備することを特徴とする発話アニメーション生成装置。
  2. 前記混合重み生成部は、口形状が遷移する時間及び速さを調整するための視覚素依存フィルタ及び口形状間の遷移を滑らかにするための混合重みフィルタを使用して、前記視覚素系列を平滑化することを特徴とする請求項1に記載の発話アニメーション生成装置。
  3. 前記混合重み生成部は、前記視覚素系列を当該視覚素と先行視覚素との対からなる視覚素対系列に変換すること、並びに、複数の視覚素対それぞれについて用意された、口形状が遷移する時間及び速さを調整するための視覚素依存フィルタ及び口形状間の遷移を滑らかにするための混合重みフィルタを使用して、前記視覚素対系列をフィルタ処理することによって、前記視覚素系列を平滑化することを特徴とする請求項1に記載の発話アニメーション生成装置。
  4. 前記視覚素系列生成部は、一定時間ごとに、その時点までに入力された音声信号に対して音声認識を行うことを特徴とする請求項1乃至3のいずれか1項に記載の発話アニメーション生成装置。
  5. 予め用意された音響モデル、言語モデル、及び複数の音素と複数の視覚素との間の対応表を使用して、音声信号に対して音声認識を漸次的に行って視覚素系列を生成することと、
    前記視覚素系列を平滑化して前記複数の視覚素ごとの混合重みを生成することと、
    前記複数の視覚素ごとの混合重みに従って、前記複数の視覚素それぞれに対応する複数の顔モデルを混合することにより、顔画像を生成することと、
    を具備することを特徴とする発話アニメーション生成方法。
  6. コンピュータを、
    予め用意された音響モデル、言語モデル、及び複数の音素と複数の視覚素との間の対応表を使用して、音声信号に対して音声認識を漸次的に行って視覚素系列を生成する手段と、
    前記視覚素系列を平滑化して前記複数の視覚素ごとの混合重みを生成する手段と、
    前記複数の視覚素ごとの混合重みに従って、前記複数の視覚素それぞれに対応する複数の顔モデルを混合することにより、顔画像を生成する手段として機能させるための発話アニメーション生成プログラム。
  7. 予め用意された音響モデル、言語モデル、及び複数の音素と複数の視覚素との間の対応表を使用して、音声信号に対して音声認識を漸次的に行って視覚素系列を生成する視覚素系列生成部と、
    前記視覚素系列を平滑化して前記複数の視覚素ごとの重みを生成する混合重み生成部と、
    前記複数の視覚素ごとの重みに従って、前記複数の視覚素それぞれに対応する複数の顔モデルを切り替えることにより、顔画像を生成する画像生成部と、
    を具備することを特徴とする発話アニメーション生成装置。
  8. 予め用意された音響モデル、言語モデル、及び複数の音素と複数の視覚素との間の対応表を使用して、音声信号に対して音声認識を漸次的に行って視覚素系列を生成することと、
    前記視覚素系列を平滑化して前記複数の視覚素ごとの重みを生成することと、
    前記複数の視覚素ごとの重みに従って、前記複数の視覚素それぞれに対応する複数の顔モデルを切り替えることにより、顔画像を生成することと、
    を具備することを特徴とする発話アニメーション生成方法。
  9. コンピュータを、
    予め用意された音響モデル、言語モデル、及び複数の音素と複数の視覚素との間の対応表を使用して、音声信号に対して音声認識を漸次的に行って視覚素系列を生成する手段と、
    前記視覚素系列を平滑化して前記複数の視覚素ごとの重みを生成する手段と、
    前記複数の視覚素ごとの重みに従って、前記複数の視覚素それぞれに対応する複数の顔モデルを切り替えることにより、顔画像を生成する手段として機能させるための発話アニメーション生成プログラム。
JP2014147933A 2013-07-18 2014-07-18 発話アニメーション生成装置、方法、及びプログラム Pending JP2015038725A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014147933A JP2015038725A (ja) 2013-07-18 2014-07-18 発話アニメーション生成装置、方法、及びプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013149579 2013-07-18
JP2013149579 2013-07-18
JP2014147933A JP2015038725A (ja) 2013-07-18 2014-07-18 発話アニメーション生成装置、方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2015038725A true JP2015038725A (ja) 2015-02-26

Family

ID=52631751

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014147933A Pending JP2015038725A (ja) 2013-07-18 2014-07-18 発話アニメーション生成装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2015038725A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817221A (zh) * 2018-12-26 2019-05-28 出门问问信息科技有限公司 多人视频方法、装置、设备及存储介质
KR20210103423A (ko) * 2020-02-13 2021-08-23 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 입 모양 특징을 예측하는 방법, 장치, 전자 기기, 저장 매체 및 프로그램
JP2022530935A (ja) * 2020-03-31 2022-07-05 北京市商▲湯▼科技▲開▼▲發▼有限公司 インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体
JP2022531057A (ja) * 2020-03-31 2022-07-06 北京市商▲湯▼科技▲開▼▲發▼有限公司 インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体
US11960792B2 (en) 2020-10-14 2024-04-16 Sumitomo Electric Industries, Ltd. Communication assistance program, communication assistance method, communication assistance system, terminal device, and non-verbal expression program

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817221A (zh) * 2018-12-26 2019-05-28 出门问问信息科技有限公司 多人视频方法、装置、设备及存储介质
KR20210103423A (ko) * 2020-02-13 2021-08-23 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 입 모양 특징을 예측하는 방법, 장치, 전자 기기, 저장 매체 및 프로그램
JP2021128327A (ja) * 2020-02-13 2021-09-02 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 口形特徴予測方法、装置及び電子機器
JP7167106B2 (ja) 2020-02-13 2022-11-08 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 口形特徴予測方法、装置及び電子機器
US11562732B2 (en) 2020-02-13 2023-01-24 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for predicting mouth-shape feature, and electronic device
KR102528771B1 (ko) * 2020-02-13 2023-05-04 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 입 모양 특징을 예측하는 방법, 장치, 전자 기기, 저장 매체 및 프로그램
JP2022530935A (ja) * 2020-03-31 2022-07-05 北京市商▲湯▼科技▲開▼▲發▼有限公司 インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体
JP2022531057A (ja) * 2020-03-31 2022-07-06 北京市商▲湯▼科技▲開▼▲發▼有限公司 インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体
US11960792B2 (en) 2020-10-14 2024-04-16 Sumitomo Electric Industries, Ltd. Communication assistance program, communication assistance method, communication assistance system, terminal device, and non-verbal expression program

Similar Documents

Publication Publication Date Title
US9361722B2 (en) Synthetic audiovisual storyteller
CN111145282B (zh) 虚拟形象合成方法、装置、电子设备和存储介质
EP3438972B1 (en) Information processing system and method for generating speech
US11049308B2 (en) Generating facial position data based on audio data
CN110624247B (zh) 使用机器学习模型确定与实时语音相对应的嘴部的运动
Cao et al. Expressive speech-driven facial animation
CN112650831A (zh) 虚拟形象生成方法、装置、存储介质及电子设备
CN110610534B (zh) 基于Actor-Critic算法的口型动画自动生成方法
KR20060090687A (ko) 시청각 콘텐츠 합성을 위한 시스템 및 방법
KR20120130627A (ko) 아바타를 이용한 애니메이션 생성 장치 및 방법
CN114895817B (zh) 交互信息处理方法、网络模型的训练方法及装置
CN113539240B (zh) 动画生成方法、装置、电子设备和存储介质
JP2015038725A (ja) 発話アニメーション生成装置、方法、及びプログラム
JP4543263B2 (ja) アニメーションデータ作成装置及びアニメーションデータ作成プログラム
CN110910479B (zh) 视频处理方法、装置、电子设备及可读存储介质
CN113609255A (zh) 一种面部动画的生成方法、系统及存储介质
CN113744755A (zh) 一种从音频信号生成语音动画的装置及方法
CN112735454A (zh) 音频处理方法、装置、电子设备和可读存储介质
RU2721180C1 (ru) Способ генерации анимационной модели головы по речевому сигналу и электронное вычислительное устройство, реализующее его
CN114255737B (zh) 语音生成方法、装置、电子设备
CN116309984A (zh) 一种基于文本驱动的口型动画生成方法及系统
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Luo et al. Realtime speech-driven facial animation using Gaussian Mixture Models
Theobald et al. Relating objective and subjective performance measures for aam-based visual speech synthesis
Ding et al. Lip animation synthesis: a unified framework for speaking and laughing virtual agent.