JP2015038725A

JP2015038725A - 発話アニメーション生成装置、方法、及びプログラム

Info

Publication number: JP2015038725A
Application number: JP2014147933A
Authority: JP
Inventors: 川本　真一; Shinichi Kawamoto; 真一川本
Original assignee: Japan Advanced Institute of Science and Technology
Current assignee: Japan Advanced Institute of Science and Technology
Priority date: 2013-07-18
Filing date: 2014-07-18
Publication date: 2015-02-26

Abstract

【課題】短い遅延で、口形状が自然に変化する顔画像のアニメーションを生成することができる発話アニメーション生成装置を提供する。【解決手段】本発明の一態様によれば、予め用意された音響モデル、言語モデル、及び複数の音素と複数の視覚素との間の対応表を使用して、音声信号に対して音声認識を漸次的に行って視覚素系列を生成する視覚素系列生成部と、前記視覚素系列を平滑化して前記複数の視覚素ごとの混合重みを生成する混合重み生成部と、前記複数の視覚素ごとの混合重みに従って、前記複数の視覚素それぞれに対応する複数の顔モデルを混合することにより、顔画像を生成する画像生成部と、を具備する発話アニメーション生成装置が提供される。【選択図】図１

Description

本発明は、発話音声からアニメーションを生成する発話アニメーション生成装置、方法、及びプログラムに関する。

入力された音声に合わせて口形状が変わる顔画像のアニメーションを生成する技術がある。例えば非特許文献１及び２に開示されている手法では、音声を事前に分析し、分析結果に基づいて口形状を変化させることでアニメーションを作成している。これらの手法は、発話者による発話が終了した後でなければ処理を開始することができない。このため、例えばインターネットを通じた音声チャットにおいて相手の発話音声に合わせて口形状が動くキャラクタをリアルタイム表示するなどといったリアルタイムコミュニケーションの用途では、発話音声の長さに依存してアニメーションの生成が遅延するこのような手法を利用することはできない。

また、非特許文献３及び４には、短時間の音声を切り出して音声分析し、短時間の音声における音声特徴と口形状を直接的に対応付けることで顔画像のアニメーションを生成する手法が開示されている。これらの手法では、短時間の音声を切り出すことによって発話者による発話の終了を待たずに処理を開始することが可能であり、低遅延でアニメーションを生成することができる。しかしながら、音声特徴と口形状を直接的に対応付けているので、口形状が急激に変化する不自然なアニメーションが生成されることがある。さらに、これらの手法では、言語的な制約をもたず、分析性能が劣化する可能性がある。

E. Yamamoto, S. Nakamura and K. Shikano, Lip movement synthesis from speech based on Hidden Markov Models, Speech Communication, Vol. 26, Issues 1−2, pp.105-115 (1998). T. Ezzat, G. Geiger and T. Poggio: Trainable videorealistic speech animation. In Proc. SIGGRAPH, pp.388-398 (2002). S. MORISHIMA: Real-time talking head driven by voice and its application to communication and entertainment. In Proc. AVSP (1998). C. Ishi, C. Liu, H. Ishiguro and N. Hagita: Evaluation of a formant-based speech-driven lip motion generation, In Proc. Interspeech 2012, pp.P1a.04 (2012).

発話者の発話音声に対応するアニメーションをリアルタイムに表示するために、短い遅延でアニメーションを生成できることが求められている。さらに、口形状が自然に変化するアニメーションを生成できることが求められている。

本発明の目的は、短い遅延で、口形状が自然に変化するアニメーションを生成することができる発話アニメーション生成装置、方法、及びプログラムを提供することにある。

本発明の一態様によれば、予め用意された音響モデル、言語モデル、及び複数の音素と複数の視覚素との間の対応表を使用して、音声信号に対して音声認識を漸次的に行って視覚素系列を生成する視覚素系列生成部と、前記視覚素系列を平滑化して前記複数の視覚素ごとの混合重みを生成する混合重み生成部と、前記複数の視覚素ごとの混合重みに従って、前記複数の視覚素それぞれに対応する複数の顔モデルを混合することにより、顔画像を生成する画像生成部と、を具備する発話アニメーション生成装置が提供される。

本発明の他の態様によれば、予め用意された音響モデル、言語モデル、及び複数の音素と複数の視覚素との間の対応表を使用して、音声信号に対して音声認識を漸次的に行って視覚素系列を生成する視覚素系列生成部と、前記視覚素系列を平滑化して前記複数の視覚素ごとの重みを生成する混合重み生成部と、前記複数の視覚素ごとの重みに従って、前記複数の視覚素それぞれに対応する複数の顔モデルを切り替えることにより、顔画像を生成する画像生成部と、を具備することを特徴とする発話アニメーション生成装置が提供される。

本発明によれば、短い遅延で、口形状が自然に変化するアニメーションを生成することができる。

本発明の第１の実施形態に係る発話アニメーション生成装置を示すブロック図。図１の発話アニメーション生成装置が通信ネットワークを介して音声信号を取得する例を示すブロック図。図１に示した視覚素系列生成部の構成例を概略的に示すブロック図。音素視覚素対応表の一例を示す図。視覚素系列の一例を示す図。視覚素依存フィルタを定めるパラメータＬ、Ｍを示す図。視覚素依存フィルタの一例を示す図。混合重みフィルタの一例を示す図。混合重みの一例を示す図。音声「てんぷら」が入力された例での混合重みを示す図。（ａ）、（ｂ）、（ｃ）は図１の発話アニメーション生成装置の利用例を示す図である。図１の発話アニメーション生成装置の処理手順例を示すフローチャート。本発明の第２の実施形態に係る発話アニメーション生成装置を示すブロック図。視覚素対系列を説明するための図。音素視覚素対応表の一例を示す図。視覚素対系列の一例を示す図。視覚素依存対フィルタの一例を示す図。基本顔形状から特定の顔形状へ変化する際の混合重み系列を示す図。

以下、図面を参照しながら本発明の実施形態を説明する。

（第１の実施形態）
図１は、本発明の第１の実施形態に係る発話アニメーション生成装置１００を概略的に示している。発話アニメーション生成装置１００は、図１に示すように、音声信号取得部１０１、視覚素系列生成部１０２、混合重み生成部１０３、画像生成部１０４、及び顔モデル記憶部１０５を備える。顔モデル記憶部１０５は、予め用意された複数の顔モデルを格納している。発話アニメーション生成装置１００は、音声信号取得部１０１において音声信号を取得しながら、顔モデル記憶部１０５に格納されている複数の顔モデルを用いて、音声信号に同期して口形状が変化する顔画像のアニメーションを漸次的に生成する。

発話アニメーション生成装置１００では、口形状が異なる複数の顔画像が予め用意される。口形状は、口（例えば唇及び歯など）の形状とともに、発声により動く顔の他の部分（例えば顎など）の形状を含むことができる。顔画像は、特定の音素それぞれに関して用意される。例えば、音素／ａ／、音素／ｉ／、音素／ｕ／、音素／ｅ／、音素／ｏ／などの音素ごとに、その音素を発音するときの口形状を含む顔画像が用意される。以下では、音素に対応付けられた口形状を視覚素（viseme）とも称する。顔画像としては、例えば、発話者をデジタルカメラで撮影して得られた画像であってもよく、コンピュータを用いて作成されたキャラクタ（イラスト）であってもよい。顔画像は、顔形状（口形状を含む。）を構成する各頂点の座標により定義される。例えば、基本となる顔画像（基本顔画像と称する。）の各頂点の座標が予め定義され、他の顔画像の各頂点の座標は基本顔画像に対する相対座標により定義される。基本顔画像としては、例えば、通常状態（発声せずに口を閉じている状態）の顔画像を用いることができる。顔画像を構成する頂点の座標集合は顔モデルとして顔モデル記憶部１０５に記憶されている。

音声信号取得部１０１は、発話者が発声した音声（発話音声）を含む音声信号を取得し、取得しながらその音声信号を視覚素系列生成部１０２に供給する。一例では、音声信号取得部１０１は、インターネットなどの通信ネットワークを通じて音声通信を行う通信機能を持ち、図２に示すように、通信ネットワーク２０１を介して外部装置（例えばコンピュータ装置）２０２から音声信号を受信する。この場合、音声信号は、外部装置２０２のマイクロホン２０３で発話音声を検出して得られる検出信号をアナログデジタル変換することにより生成され、リアルタイムに発話アニメーション生成装置１００へ伝送される。他の例では、図１に示される音声信号取得部１０１は、図示しないマイクロホンを備え、このマイクロホンで発話音声を検出して検出信号を生成し、この検出信号をアナログデジタル変換することによって音声信号を取得する。

視覚素系列生成部１０２は、予め用意された音響モデル、言語モデル、及び音素視覚素対応表（いずれも後述する。）を使用して、音声信号取得部１０１から受信した音声信号に対して音声認識を漸次的に行い、音声信号に対応する視覚素系列を生成する。具体的には、視覚素系列生成部１０２は、一定時間ごとに、音声信号取得部１０１からその時点までに入力された音声信号（発話者が発話したところまでの音声に相当し、以下では入力済み音声信号と称する。）に対して音声認識を行う。視覚素系列生成部１０２は、一定周期で音声信号の一部を抽出したフレーム（信号区間）それぞれについて視覚素を決定する。フレーム長は、例えば、２０ミリ秒である。フレーム周期（フレームを抽出する周期）は、例えば、１０ミリ秒である。視覚素系列は、音声信号を視覚素で表現した時系列データである。

図３は、視覚素系列生成部１０２の構成例を概略的に示している。視覚素系列生成部１０２は、図３に示されるように、特徴量抽出部３０１、デコーダ３０２、音響モデル記憶部３０３、言語モデル記憶部３０４、及び音素視覚素対応表記憶部３０５を備える。

音響モデル記憶部３０３は、音素ごとの音響特徴量パターンを保持する音響モデルを格納している。例えば、音響モデルは、音響特徴量の出現確率を隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）でモデル化したものである。言語モデル記憶部３０４は、連続する音素間の接続確率を保持する言語モデルを格納している。音素視覚素対応表記憶部３０５は、音素と視覚素との間の対応表である音素視覚素対応表を格納している。音素視覚素対応表は、音素を視覚素に変換、すなわち、マッピングするために使用される。音素視覚素対応表の一例を図４に示す。図４の例では、３２の音素が１３の視覚素に対応付けられている。例えば、音素／ｒ／及び音素／ｒｙ／はＩＤが１の視覚素に対応付けられている。以下では、ＩＤがｉである視覚素を視覚素ｉと記載する。

特徴量抽出部３０１は、入力済み音声信号から音響特徴量を抽出する。音響特徴量としては、例えばＭＦＣＣ（Mel Frequency Cepstrum Coefficient）などの音声認識に用いられる任意のパラメータを使用することができる。デコーダ３０２は、音響モデル及び言語モデルを参照して、入力済み音声信号における音響特徴量列がどのような音素列と対応するかを最尤基準で推定する。

さらに、デコーダ３０２は、一定時間ごとに次の処理を行う。すなわち、デコーダ３０２は、ビタビ（Viterbi）アルゴリズムにより、入力済み音声信号中のフレームそれぞれがどの音素に対応するかを最尤基準で求めることで、音素境界を決定する。それにより、フレームごとに音素の候補が決定される。デコーダ３０２は、音素視覚素対応表を参照して、各フレームの候補となる音素を視覚素（視覚素候補）に変換する。デコーダ３０２は、フレーム及び過去数フレームにおける視覚素境界候補において、そのフレームに対応する視覚素候補列を抽出し、出現頻度スコアを計算する。出現頻度スコアは、視覚素ごとに、視覚素の出現時期に応じた重みを与え、フレーム及び過去数フレームにおける重みの和をとることで計算する。出現時期に応じた重みは、過去の結果ほど小さな重みを与えるように設定する。一例では、ある時刻ｎの視覚素を決定する際、ｍフレーム先までの入力（時刻ｎ＋ｍまでの入力）から得られた視覚素候補列において、当該時刻ｎのフレームに出現した視覚素の重みＷ_{ｓｃｏｒｅ}（ｍ）は下記数式（１）のように表される。

時刻ｎにおける各視覚素に関しては、時刻ｎ＋ｍまでの入力から得られた視覚素候補列において時刻ｎに出現した視覚素にＷ_{ｓｃｏｒｅ}（ｍ）が、その他の視覚素には０が、重みとして付与される。最大ｎ＋Ｍｐまでの視覚素候補列が取得できる場合、ｍ＝０、１、２、…、Ｍｐそれぞれにおいて付与された重みの総和を出現頻度スコアとして視覚素ごとに計算する。

デコーダ３０２は、出現頻度スコア（重み付きの出現頻度）の高い視覚素をそのフレームに対応する視覚素とする。フレームの視覚素の継続長が閾値未満である場合、その結果を棄却し、先行するフレームの視覚素をそのフレームの視覚素として採用する。閾値は視覚素ごとに予め定められる。フレームの候補として最終的に残った視覚素をそのフレームの視覚素と決定する。上記の例では、時刻ｎにおけるフレームの視覚素は、時刻ｎ＋Ｍｐまでの入力音声信号を処理した時点で決定される。時間Ｍｐは例えば２００ミリ秒とすることができる。この場合、例えば、５００ミリ秒時点の視覚素は、７００ミリ秒までの入力音声信号が与えられた直後に確定される。上記閾値を調整することにより、最終的に出力される顔画像の動きの細かさを制御することができる。例えば、閾値を大きくすると、継続長の短い視覚素がなくなり、その結果、口形状の細かな動きが減り、すなわち、口形状の動きが簡単化される。

視覚素系列生成部１０２は、一定時間の音声信号が入力されてから音響モデル及び言語モデルを使用した音声認識を開始することで、言語的な制約を考慮した音声認識が可能になり、その結果、音声認識性能を向上させることができる。

本実施形態では、視覚素系列生成部１０２は、音素視覚素対応表に含まれる視覚素の数（すなわち、顔モデル記憶部１０５に格納されている顔モデルの数）Ｎと同じ次元数を持つベクトルとして視覚素系列を出力する。このベクトルを視覚素認識結果ベクトルと称する。時刻ｎにおける音素認識結果に対応する視覚素認識結果ベクトルは、下記数式（２）のように、Ｎ次元の列ベクトルｘ［ｎ］で表すことができる。数式（２）において、Ｔは転置を表す。視覚素認識結果ベクトルでは、フレームの認識結果と一致する視覚素に対応する要素が“１”であり、それ以外の要素が“０”である。例えば、視覚素数Ｎが１３であり、かつ、視覚素認識結果が視覚素９である場合、視覚素認識結果ベクトルは、下記数式（３）のように表される。

なお、音素視覚素対応表にない音素がフレームに割り当てられた場合や、フレームが音声区間でない場合には、視覚素認識結果ベクトルの全ての要素を“０”とする。視覚素系列の一例を図５に示す。図５では、音素／ａ／、／ｉ／、／ｕ／に対応する要素のみが示されている。図５に示すように、視覚素認識結果ベクトルの各要素の値は矩形パルス状に時間変化する。

なお、視覚素系列生成部１０２が視覚素系列を生成する方法は、上述した例に限らない。例えば、視覚素系列生成部１０２は、音響モデル及び言語モデルを使用して音声信号に対して音素セグメンテーションを行って音声信号を構成する音素列を生成した後に音素視覚素対応表を使用して音素列を視覚素列に変換する処理を一定時間ごとに行うことで、視覚素系列を生成してもよい。

混合重み生成部１０３は、視覚素系列を平滑化することにより、視覚素ごとの混合重みを生成する。混合重みは、表示用の顔画像を生成するために、視覚素に対応する顔モデルを使用する度合いを表す。例えば、音素／ａ／に対応する視覚素の混合重みが１であり、かつ、他の視覚素の混合重みが０である場合、音素／ａ／に対応する顔モデルの顔画像が表示用の顔画像として生成される。また、例えば、音素／ａ／に対応する視覚素の混合重みが０．５であり、かつ、他の視覚素の混合重みが０である場合、音素／ａ／に対応する顔モデルの顔画像と基本顔画像との中間の顔画像が表示用の顔画像として生成される。さらに、例えば、音素／ａ／に対応する視覚素と音素／ｉ／に対応する視覚素の混合重みが０．５であり、かつ、他の視覚素の混合重みが０である場合、音素／ａ／に対応する顔モデルの顔画像と音素／ｉ／に対応する顔画像との中間の顔画像が表示用の顔画像として生成される。本実施形態では、時刻ｎにおける視覚素ごとの混合重みをＮ次元ベクトルＷ［ｎ］で表す。このベクトルを混合重みベクトルと称する。この場合、混合重みベクトルＷ［ｎ］の第ｉ要素は視覚素ｉの混合重みを示す。

具体的には、混合重み生成部１０３は、予め用意された、各口形状が遷移する（動く）時間及び速さを調整するための視覚素依存フィルタ１３１、口形状間の遷移（ある口形状から他の口形状への遷移）を滑らかにするための混合重みフィルタ１３２、並びに、視覚素依存フィルタ１３１の出力及び混合重みフィルタ１３２の出力を混合するフィルタ出力混合部１３３を備える。まず、混合重み生成部１０３は、視覚素系列に視覚素依存フィルタ１３１を適用して第１のフィルタ出力を得る。本実施形態では、第１のフィルタ出力は、下記数式（４）に示すＮ行Ｎ列の行列Ｖである。

ここで、記号「＊」は畳み込み演算を表し、第１のフィルタ出力Ｖの（ｉ，ｊ）成分（ｖ_ｉ，ｊ）は、下記数式（５）に従って算出される。また、視覚素依存フィルタ１３１はＮ個の視覚素それぞれに対応して定められた視覚素依存フィルタ要素を含み、ｈ_ｉは視覚素ｉに対応する視覚素依存フィルタ要素である。

ここで、パラメータＬは、視覚素ｉの視覚素依存フィルタ長であり、口形状が遷移する時間を表すパラメータである。

視覚素依存フィルタ要素ｈ_ｉ［ｎ］は、下記数式（６）、（７）に示す設計条件を満たすように決定される。

さらに、下記数式（８）に示すように、ｈ_ｉ［ｎ］の最大値をＭとする。ｈ_ｉ［ｎ］の最大値Ｍは、口の動く速度の最大値に比例するパラメータである。

一例では、視覚素依存フィルタ要素ｈ_ｉ［ｎ］は下記数式（９）に示すように設計される。この場合、Ｍ＝π／（２Ｌ）である。

パラメータＬ、Ｍは、図６に示すように視覚素依存フィルタ要素を定めるパラメータであり、視覚素ごとに定められる。一例では、パラメータＭは、基本顔画像に対応する顔モデルと視覚素ｉの顔モデルとの間のユークリッド距離に応じて決定される。具体的には、口形状が大きく変化する音素／ａ／などの音素に対応する視覚素ではＬを大きく設定し、口形状がほとんど変化しない音素／Ｎ／などの音素に対応する視覚素ではＬを小さく設定する。他の例では、特定の口形状（例えば、音素／ｐ／、音素／ｂ／などの破裂音に対応する口形状）では、素早く口形状を遷移させることを優先させるためにＬを小さく設定する。音素／ａ／、／ｉ／、／ｕ／に対応する視覚素依存フィルタ要素の例を図７に示す。

さらに、混合重み生成部１０３は、視覚素系列に混合重みフィルタ１３２を適用して第２のフィルタ出力を得る。本実施形態では、第２のフィルタ出力は、下記数式（１０）に示すＮ次元の列ベクトルＢである。第２のフィルタ出力Ｂの第ｊ要素（ｂ_ｊ）は下記数式（１１）に従って算出される。

ここで、Ｌｂは混合重みフィルタ長を表す。混合重みフィルタの一例を図８に示す。図８の例では、混合重みフィルタは、時間区間［０，Ｌｂ］では定数であり、それ以外の時間ではゼロである。

混合重み生成部１０３のフィルタ出力混合部１３３は、第１のフィルタ出力及び第２のフィルタ出力から混合重みを計算する。例えば、混合重みＷ［ｎ］は、下記数式（１２）のように、第１のフィルタ出力Ｖ［ｎ］と第２のフィルタ出力Ｂ［ｎ］の積により算出される。

混合重み生成部１０３で算出された混合重みベクトルＷ［ｎ］の各要素は、時間経過とともに滑らかに変化する。図９は、図７に示される視覚素依存フィルタ及び図８に示される混合重みフィルタを使用して図５に示される視覚素系列を平滑化した結果を模式的に示している。図９に示されるように、混合重みベクトルＷ［ｎ］の各要素は連続的に変化する。

画像生成部１０４は、混合重み生成部１０３により算出された視覚素ごとの混合重みに従って顔モデル記憶部１０５に格納されている複数の顔モデルを混合（ブレンド）することで、顔画像を生成する。例えば、基本顔形状をＳ_０とし、視覚素ｉの顔形状をＳ_ｉとし、顔形状Ｓ_ｉと基本顔形状Ｓ_０との差分顔形状をＤ_ｉ（Ｄ_ｉ＝Ｓ_ｉ−Ｓ_０）とすると、時刻ｎにおける顔形状は、下記数式（１３）に従って計算される。例えば、画像生成部１０４は、所定のフレームレート（例えば３０ｆｐｓ（ｆｒａｍｅｐｅｒｓｅｃｏｎｄ））で漸次的に顔画像を生成する。

図１０は、一例として、音声「てんぷら」を入力した場合に算出される混合重みを示している。例えば１５０ミリ秒から２００ミリ秒にかけて、音素／ｔ／に対応する混合重みは単調に減少し、音素／ｅ／に対応する混合重みは単調に増加し、それ以外の音素に対応する混合重みは０である。この場合、この時間区間では音素／ｔ／を発音するときの口形状から音素／ｅ／を発音するときの口形状へと滑らかに変化する一連の顔画像が生成される。

上記構成を有する発話アニメーション生成装置１００では、音声信号に対して音声認識を漸次的に行うことで、発話者による発話の終了を待たずに、顔画像のアニメーションの生成を開始することができる。その結果、例えば３００ミリ秒程度の短い遅延でアニメーションを生成することができ、発話者の発話に対しリアルタイムにアニメーションを表示することができる。さらに、顔モデルの口形状に合わせて設計された視覚素依存フィルタ及び口形状間の遷移を滑らかにする混合重みフィルタを使用して視覚素系列を平滑化することにより、口形状が自然に変化する顔画像のアニメーションを生成することができる。また、アニメーション生成で生じる遅延と同程度だけ音声信号を遅延させてスピーカで出力することで、音声とアニメーションを同期させて再生することができる。このような発話アニメーション生成装置１００は、図１１（ａ）に示すようなＳｋｙｐｅなどの狭帯域音声通信環境下での音声コミュニケーション、図１１（ｂ）に示すようなオンラインゲームなどでの音声チャット、図１１（ｃ）に示すようなアニメーション作成時のプレビズなどに利用することができる。

次に、本実施形態に係る発話アニメーション生成装置１００の動作について説明する。
図１２は、発話アニメーション生成装置１００の処理手順例を示している。図１２のステップＳ１２０１では、視覚素系列生成部１０２は、予め用意された音響モデル、言語モデル、及び音素視覚素対応表を使用して、音声信号に対して音声認識を漸次的に行って視覚素系列を生成する。ステップＳ１２０２では、混合重み生成部１０３は、視覚素系列を平滑化して視覚素ごとの混合重みを生成する。具体的には、混合重み生成部１０３は、視覚素依存フィルタ１３１によって視覚素系列をフィルタ処理して第１のフィルタ出力を得て、混合重みフィルタ１３２によって視覚素系列をフィルタ処理して第２のフィルタ出力を得る。そして、混合重み生成部１０３は、第１のフィルタ出力及び第２のフィルタ出力から視覚素ごとの混合重みを算出する。ステップＳ１２０３では、画像生成部１０４は、視覚素ごとの混合重みに従って顔モデル記憶部１０５に格納されている顔モデルを混合して顔画像を生成する。

以上のように、本実施形態に係る発話アニメーション生成装置は、音声信号に対して音声認識を漸次的に行うことにより、発話者による発話の終了を待たずに、顔画像のアニメーションの生成を開始することができる。さらに、本実施形態に係る発話アニメーション生成装置は、視覚素依存フィルタ及び混合重みフィルタを使用して視覚素系列を平滑化することにより、口形状が自然に変化するアニメーションの生成が可能となる。この結果、音声に合わせて口形状が自然に変化する顔画像のアニメーションを短い遅延で生成することができ、発話者の発話に対してリアルタイムにアニメーションを表示することができる。

（第２の実施形態）
第１の実施形態では、視覚素依存フィルタが視覚素ごとに設計されている。視覚素依存フィルタは、口形状（視覚素）間の遷移を規定するものであるため、先行視覚素（直前の視覚素）を考慮して視覚素依存フィルタを設計するのがより好ましい。しかしながら、第１の実施形態の枠組みをそのまま拡張すると、視覚素に対応する口形状定義が複雑化し、さらに、対応する口形状数が膨大となる。具体的には、２つの口形状間の遷移に関する顔モデルを設計することが必要であり、視覚素の数をＮとすると、用意する顔モデルの数はＮ×Ｎ個となる。

第２の実施形態では、２つの要件、すなわち、（１）先行視覚素を考慮してフィルタを設計すること、及び（２）視覚素に対応する設計すべき口形状（顔モデル）を少数及び単純に保つことを満たす発話アニメーション生成の枠組みを説明する。第２の実施形態によれば、第１の実施形態よりも自然に口形状が変化する顔画像のアニメーションを生成することが可能になる。

図１３は、第２の実施形態に係る発話アニメーション生成装置１３００を概略的に示している。発話アニメーション生成装置１３００は、図１３に示すように、音声信号取得部１３０１、視覚素系列生成部１３０２、混合重み生成部１３０３、画像生成部１３０４、及び顔モデル記憶部１３０５を備える。図１３に示される音声信号取得部１３０１、視覚素系列生成部１３０２、画像生成部１３０４、及び顔モデル記憶部１３０５はそれぞれ、図１に示される音声信号取得部１０１、視覚素系列生成部１０２、画像生成部１０４、及び顔モデル記憶部１０５と同じ動作を行うので、これらについての説明は適宜省略する。

混合重み生成部１３０３は、視覚素系列を平滑化することによって、視覚素ごとの混合重みを生成する。本実施形態では、時刻ｎにおける視覚素ごとの混合重みをＮ次元ベクトルＷ［ｎ］で表す。このベクトルを混合重みベクトルと称する。この場合、混合重みベクトルＷ［ｎ］の第ｉ要素は視覚素ｉの混合重みを示す。

混合重み生成部１３０３は、視覚素系列変換部１３３１、視覚素対依存フィルタ１３３２、混合重みフィルタ１３３３、フィルタ出力混合部１３３４、及び重み統合部１３３５を備える。

視覚素系列変換部１３３１は、視覚素系列生成部１３０２から視覚素系列を受け取り、視覚素系列を視覚素対系列に変換する。視覚素対系列は、当該視覚素（現行視覚素とも称する）と先行視覚素との対の時系列データである。当該視覚素は、現在（着目している）時刻での音素（当該音素と称する）に対応する視覚素を指し、先行視覚素は、当該音素の直前の音素（先行音素と称する）に対応する視覚素を指す。例えば、図１４に示すように、音声信号の音素認識結果が／ｓｉｌ／、／ａ／、／ｋ／、／ｉ／と変化する場合を想定する。Ｔ_１≦Ｔ＜Ｔ_２を満たす時刻Ｔでは、当該視覚素が当該音素／ａ／に対応する視覚素であり、先行視覚素が先行音素／ｓｉｌ／に対応する視覚素であることを示す情報（例えば視覚素対ＩＤ）が出力される。一例では、先行音素に対応する視覚素ＩＤをｖ１、当該音素に対応する視覚素ＩＤをｖ２としたときに、視覚素対ＩＤを示すｖは、ｖ＝Ｎ×ｖ１＋ｖ２と簡単な計算式で決める。ここで、Ｎは用意された視覚素の数である。この場合、視覚素対の数Ｎ_ｐは、Ｎ×Ｎ個である。他の例では、視覚素対ＩＤは、図１５に示す音素視覚素対応表を参照して決定することができる。表を用いることで先行音素及び当該音素の組に適用する視覚素対依存フィルタ（後述する）を共通化することができる場合、前述の例と比べて視覚素対ＩＤを減らすことができる。これはユニークな視覚素対ＩＤの数、つまり実効的な視覚素対の数Ｎ_ｐをＮ^２以下に削減できることを意味する。例えば、当該音素が同じ／ａ／であって、先行音素が／ｒ,ｒｙ／又は／ｄ，ｎ，ｎｙ／である視覚素対依存フィルタを共通化する場合、それぞれに同じ視覚素対を割り当てればよい。以下では、ＩＤがｉである視覚素対を視覚素対ｉと記載する。

本実施形態では、視覚素系列変換部１３３１は、Ｎ_ｐ次元のベクトルとして視覚素対系列を出力する。このベクトルを視覚素対ベクトルと称する。時刻ｎにおける視覚素対ベクトルは、下記数式（１４）のように表すことができる。

数式（１４）において、ｘ_ｉは、視覚素対ｉの要素を表す。視覚素対ベクトルでは、変換により得られた視覚素対に対応する要素が“１”であり、それ以外の要素が“０”である。例えば、視覚素対ＩＤが７９である場合、７９番目の要素が“１”であり、それ以外の要素が“０”である。視覚素対系列の一例を図１６に示す。図１６では、３つの視覚素対に対応する要素のみが示されている。

視覚素系列から視覚素対系列への変換は、当該視覚素の直前の視覚素を記憶するバッファ（図示せず）を追加することで実現することができる。或いは、音響モデルとしてＴｒｉｐｈｏｎｅを用いて変換を行ってもよい。Ｔｒｉｐｈｏｎｅは、先行音素及び後続音素を考慮して学習された音響モデルである。

混合重み生成部１３０３は、視覚素対系列に視覚素対依存フィルタ１３３２を適用して第１のフィルタ出力を得る。本実施形態では、第１のフィルタ出力は、下記数式（１５）に示すＮ_ｐ行Ｎ_ｐ列の行列Ｖである。

ここで、パラメータＬは、視覚素対ｉの視覚素依存フィルタ長であり、視覚素対ｉを構成する先行視覚素の口形状から当該視覚素の口形状に遷移する時間を表すパラメータである。視覚素対依存フィルタ１３３２は、口形状が遷移する時間及び速さを調整するためのフィルタであり、Ｎ_ｐ個の視覚素対それぞれに対応して定められた視覚素対依存フィルタ要素を有する。ｈ_ｉは、視覚素対ｉの視覚素対依存フィルタ要素を表す。

視覚素対依存フィルタ要素ｈ_ｉ［ｎ］は、下記数式（１６）及び（１７）に示す設計条件を満たすように設計される。

視覚素対依存フィルタ要素ｈ_ｉ［ｎ］の最大値を定めるパラメータＭ及び前述したパラメータＬは、視覚素対を構成する２つの視覚素（すなわち先行視覚素及び当該視覚素）の顔モデル間のユークリッド距離に応じて決定することができる。３つの視覚素対依存フィルタ要素の例を図１７に示す。

さらに、混合重み生成部１３０３は、視覚素系列に混合重みフィルタ１３３３を適用して第２のフィルタ出力を得る。混合重みフィルタ１３３３は、口形状間の遷移（先行視覚素の口形状から当該視覚素の口形状への遷移）を滑らかにするためのフィルタである。本実施形態では、第２のフィルタ出力は、下記数式（１８）に示すＮ_ｐ次元の列ベクトルＢである。

ここで、Ｌｂは混合重みフィルタ長を表す。第２の実施形態の混合重みフィルタとしては、第１の実施形態と同じもの、例えば図８に示される混合重みフィルタを用いることができる。図８の例では、混合重みフィルタは、時間区間［０，Ｌｂ］では定数であり、それ以外の時間ではゼロである。

フィルタ出力混合部１３３４は、第１のフィルタ出力及び第２のフィルタ出力から視覚素対ごとの混合重みを計算する。例えば、視覚素対ごとの混合重みＷ′［ｎ］は、下記数式（１９）のように、第１のフィルタ出力Ｖ［ｎ］と第２のフィルタ出力Ｂ［ｎ］の積により算出される。

重み統合部１３３５は、フィルタ出力混合部１３３４の出力Ｗ′［ｎ］に基づいて、視覚素ごとの混合重みを計算する。視覚素ごとの混合重みは、下記数式（２０）のように、統合行列Ｕ［ｎ］と視覚素対ごとの混合重みＷ′［ｎ］の積により算出され、混合重みベクトルＷ［ｎ］で表すことができる。統合行列Ｕ［ｎ］の要素ｕ_ｉｊは、下記のように表すことができる。視覚素ｉの混合重みｗ_ｉ［ｎ］は、その視覚素ｉが当該視覚素である要素の総和である。

本実施形態の混合重み生成部１３０３から出力される情報は、第１の実施形態と同様に、視覚素ごとの混合重みである。すなわち、予め用意される顔モデルの数は、第１の実施形態と同様にＮ個である。本実施形態に係る処理は、視覚素を視覚素対に変換することで、ベクトルの次元数やフィルタの数が変わるが、第１の実施形態と同様にして処理することができ、基本的に線形演算によって実現可能である。

第１の実施形態の手法では、音素／ｓｉｌ／から音素／ａ／への変化に対応するフィルタと音素／ｓｉｌ／から音素／ｉ／への変化に対応するフィルタは、図１８に示すように、大きく異なる。しかし、逆に、音素／ａ／から音素／ｓｉｌ／へ変化する場合も音素／ｉ／から音素／ｓｉｌ／へ変化する場合も、当該視覚素が同じ／ｓｉｌ／であるため、第１の実施形態の手法では同じフィルタが適用される。つまり、形状の変化量が異なる先行視覚素間でも同じフィルタを用いるため、口形状変化速度の最大値がばらつく。第２の実施形態では、このばらつきを抑えるために、先行視覚素と当該視覚素との対にフィルタを割り当てている。

上記構成を有する発話アニメーション生成装置１３００は、第１の実施形態に係る発話アニメーション生成装置１００と同様に、顔画像のアニメーションを短時間の遅延で生成することができる。さらに、先行視覚素を考慮したフィルタを用いることにより、第１の実施形態に係る発話アニメーション生成装置１００と比較して、口形状変換のばらつきを小さくすることが可能であり、口形状がより滑らかに変化する顔画像のアニメーションを生成することができる。また、第１の実施形態における視覚素に対応する口形状定義、キャラクタ設計との親和性を確保することができる。具体的には、本実施形態においても、最終的に視覚素の混合重みを用いてアニメーション生成を制御するため、本実施形態の手法は第１の実施形態と同じ枠組みにも適用可能であり、アニメーション生成の枠組みを変えずに多様な口形状変化のパターンを扱うことが可能である。

次に、本実施形態に係る発話アニメーション生成装置１３００の動作について説明する。発話アニメーション生成装置１３００は、図１２に示した処理手順に従って動作することができる。ただし、ステップＳ１２０２の処理内容は、第１の実施形態と異なる。

図１２のステップＳ１２０１では、視覚素系列生成部１３０２は、予め用意された音響モデル、言語モデル、及び音素視覚素対応表を使用して、音声信号に対して音声認識を漸次的に行って視覚素系列を生成する。ステップＳ１２０２では、混合重み生成部１３０３は、視覚素系列を平滑化して視覚素ごとの混合重みを生成する。具体的には、まず、混合重み生成部１３０３は、視覚素系列変換部１３３１によって視覚素系列を視覚素対系列に変換する。混合重み生成部１３０３は、視覚素対依存フィルタ１３３２によって視覚素対系列をフィルタ処理して第１のフィルタ出力を得て、混合重みフィルタ１３３３によって視覚素対系列をフィルタ処理して第２のフィルタ出力を得る。そして、混合重み生成部１３０３は、フィルタ出力混合部１３３４によって第１のフィルタ出力及び第２のフィルタ出力から視覚素対ごとの混合重みを算出し、重み統合部１３３５によって視覚素対ごとの混合重みを視覚素ごとの混合重みに変換する。ステップＳ１２０３では、画像生成部１３０４は、視覚素ごとの混合重みに従って顔モデル記憶部１３０５に格納されている顔モデルを混合して顔画像を生成する。

以上のように、本実施形態に係る発話アニメーション生成装置は、音声信号に対して音声認識を漸次的に行うことにより、発話者による発話の終了を待たずに、顔画像のアニメーションの生成を開始することができる。さらに、本実施形態に係る発話アニメーション生成装置は、視覚素対について設計されたフィルタを使用して視覚素系列を平滑化することにより、口形状がより自然に変化するアニメーションの生成が可能となる。この結果、音声に合わせて口形状が自然に変化する顔画像のアニメーションを短い遅延で生成することができ、発話者の発話に対してリアルタイムにアニメーションを表示することができる。

（変形例）
上述した例では、画像生成部（例えば図１の画像生成部１０４）は、顔モデル記憶部（例えば図１の画像生成部１０４）に格納された顔モデルを混合することで、口形状が連続的に変形する一連の顔画像を生成している。

各実施形態の変形例に係る画像生成部は、視覚素ごとの混合重みに従って、顔モデルを離散的に切り替えることで、顔画像のアニメーションを作成することができる。具体的には、画像生成部は、顔モデル記憶部から、視覚素ごとの混合重みのうち最大の重みを持つ視覚素に対応する顔モデルを選択し、出力する。この場合、形状変形（混合）できない静止画像を顔モデルとして顔モデル記憶部に格納することができる。また、画像生成部は、静止画像の出力周期に合わせて混合重みのサンプリングを行い、重みが最大となる視覚素に対応する顔モデルを出力することで、日本のアニメーションのような２コマ打ち（リミテッドアニメーション）を表現することができる。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の発話アニメーション生成装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータ又は組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の発話アニメーション生成装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。

また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶又は一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータ又は組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００…発話アニメーション生成装置、１０１…音声信号取得部、１０２…視覚素系列生成部、１０３…混合重み生成部、１０４…画像生成部、１０５…顔モデル記憶部、１３１…視覚素依存フィルタ、１３２…混合重みフィルタ、１３３…フィルタ出力混合部、２０１…通信ネットワーク、２０２…外部装置、２０３…マイクロホン、１３００…発話アニメーション生成装置、１３０１…音声信号取得部、１３０２…視覚素系列生成部、１３０３…混合重み生成部、１３０４…画像生成部、１３０５…顔モデル記憶部、１３３１…視覚素系列変換部、１３３２…視覚素対依存フィルタ、１３３３…混合重みフィルタ、１３３４…フィルタ出力混合部、１３３５…重み統合部。

Claims

予め用意された音響モデル、言語モデル、及び複数の音素と複数の視覚素との間の対応表を使用して、音声信号に対して音声認識を漸次的に行って視覚素系列を生成する視覚素系列生成部と、
前記視覚素系列を平滑化して前記複数の視覚素ごとの混合重みを生成する混合重み生成部と、
前記複数の視覚素ごとの混合重みに従って、前記複数の視覚素それぞれに対応する複数の顔モデルを混合することにより、顔画像を生成する画像生成部と、
を具備することを特徴とする発話アニメーション生成装置。
前記混合重み生成部は、口形状が遷移する時間及び速さを調整するための視覚素依存フィルタ及び口形状間の遷移を滑らかにするための混合重みフィルタを使用して、前記視覚素系列を平滑化することを特徴とする請求項１に記載の発話アニメーション生成装置。
前記混合重み生成部は、前記視覚素系列を当該視覚素と先行視覚素との対からなる視覚素対系列に変換すること、並びに、複数の視覚素対それぞれについて用意された、口形状が遷移する時間及び速さを調整するための視覚素依存フィルタ及び口形状間の遷移を滑らかにするための混合重みフィルタを使用して、前記視覚素対系列をフィルタ処理することによって、前記視覚素系列を平滑化することを特徴とする請求項１に記載の発話アニメーション生成装置。
前記視覚素系列生成部は、一定時間ごとに、その時点までに入力された音声信号に対して音声認識を行うことを特徴とする請求項１乃至３のいずれか１項に記載の発話アニメーション生成装置。
予め用意された音響モデル、言語モデル、及び複数の音素と複数の視覚素との間の対応表を使用して、音声信号に対して音声認識を漸次的に行って視覚素系列を生成することと、
前記視覚素系列を平滑化して前記複数の視覚素ごとの混合重みを生成することと、
前記複数の視覚素ごとの混合重みに従って、前記複数の視覚素それぞれに対応する複数の顔モデルを混合することにより、顔画像を生成することと、
を具備することを特徴とする発話アニメーション生成方法。
コンピュータを、
予め用意された音響モデル、言語モデル、及び複数の音素と複数の視覚素との間の対応表を使用して、音声信号に対して音声認識を漸次的に行って視覚素系列を生成する手段と、
前記視覚素系列を平滑化して前記複数の視覚素ごとの混合重みを生成する手段と、
前記複数の視覚素ごとの混合重みに従って、前記複数の視覚素それぞれに対応する複数の顔モデルを混合することにより、顔画像を生成する手段として機能させるための発話アニメーション生成プログラム。
予め用意された音響モデル、言語モデル、及び複数の音素と複数の視覚素との間の対応表を使用して、音声信号に対して音声認識を漸次的に行って視覚素系列を生成する視覚素系列生成部と、
前記視覚素系列を平滑化して前記複数の視覚素ごとの重みを生成する混合重み生成部と、
前記複数の視覚素ごとの重みに従って、前記複数の視覚素それぞれに対応する複数の顔モデルを切り替えることにより、顔画像を生成する画像生成部と、
を具備することを特徴とする発話アニメーション生成装置。
予め用意された音響モデル、言語モデル、及び複数の音素と複数の視覚素との間の対応表を使用して、音声信号に対して音声認識を漸次的に行って視覚素系列を生成することと、
前記視覚素系列を平滑化して前記複数の視覚素ごとの重みを生成することと、
前記複数の視覚素ごとの重みに従って、前記複数の視覚素それぞれに対応する複数の顔モデルを切り替えることにより、顔画像を生成することと、
を具備することを特徴とする発話アニメーション生成方法。
コンピュータを、
予め用意された音響モデル、言語モデル、及び複数の音素と複数の視覚素との間の対応表を使用して、音声信号に対して音声認識を漸次的に行って視覚素系列を生成する手段と、
前記視覚素系列を平滑化して前記複数の視覚素ごとの重みを生成する手段と、
前記複数の視覚素ごとの重みに従って、前記複数の視覚素それぞれに対応する複数の顔モデルを切り替えることにより、顔画像を生成する手段として機能させるための発話アニメーション生成プログラム。