JP2002108382A

JP2002108382A - リップシンクを行うアニメーション方法および装置

Info

Publication number: JP2002108382A
Application number: JP2000294151A
Authority: JP
Inventors: Yasunori Oto; 康紀大戸; Yuichi Ueda; 裕一上田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-09-27
Filing date: 2000-09-27
Publication date: 2002-04-10

Abstract

(57)【要約】【課題】リップシンク・アニメーションを簡易に生成
する。【解決手段】音声データを受けとって音素解析を行
い、時間軸に沿って音素イベントを生成する（３１）。
１または複数の音素に対応した口形状アニメーションを
重み付け加算して明瞭な、あるいは、あいまいな音素に
対応した明瞭な口形状、あるいは、あいまいな口形状の
アニメーションを生成する（３２）。口の動きのほうが
発声より早い音素の場合には音素イベントを音声データ
タイミングより早めにする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、二次元あるいは三
次元形状のモデルにおいて、音声データに同期して、口
となる部分のアニメーションを生成する技術に関する。
本発明の技術はアニメーションの作成時あるいは実行時
に使用され、ゲームや映像コンテンツなどで活用され
る。

【０００２】

【従来の技術】従来のリップシンクアニメーションで
は、音声データを記録した後、そのデータに合わせてリ
ップアニメーションを作成する必要があった。もしく
は、予めあたりをつけておいた口のアニメーションに対
して音声データを当てていく必要があった。

【０００３】

【発明が解決しようとする課題】従来のリップシンクア
ニメーションでは、音声データを見ながらアニメーショ
ンを作成していく場合、かなりの入力が必要であった。
また、この場合、音声データとアニメーションとを分離
することが難しく、リップアニメーションの再利用性も
ほとんどなかった。また、音声データを追加する場合、
新たにリップアニメーションを作成したり、前に作成し
たアニメーションを修正する必要があった。

【０００４】また、アテレコによって音声データをアニ
メーションに付加していく場、アニメーションと音声の
間に明確な対応関係がなく、声優の経験によるところが
大きかった。

【０００５】本発明は上述の事情を考慮してなされたも
のであり、音声データ等に基づいて自動的に口の部分を
含むアニメーションを自動的に生成することができるア
ニメーション技術を提供することを目的としている。

【０００６】

【課題を解決するための手段】本発明によれば、上述の
目的を達成するために、特許請求の範囲に記載のとおり
の構成を採用している。ここでは、本発明について若干
補充的な説明を行う。

【０００７】本発明の原理的な構成例によれば、音声デ
ータの音素解析を行った後、解析で得られた音素の種類
に対する重みを計算し、あいまいな口形状を示すデータ
を作成する。次に、音素間の形状変化アニメーションの
作成を行い、音声データに対してイベント作成した口形
状アニメーションをマッピングする。この際、破裂音
（／ｐ／や／ｂ／）などにおいて口形状の変化が音素の
発音以前に行われるため、イベントを前方に修正する。
口形状のアニメーションを行う時点で、音声データを再
生し、これと同時に、イベントに基づいてアニメーショ
ン合成を行うことにより、同期の取れたアニメーション
の表示を行う。

【０００８】このような構成によれば、二次元あるいは
三次元モデルのアニメーションの作成とは別に、音声デ
ータのみを後から独立して追加することが可能であり、
モデル設計時においてリップシンクアニメーションを個
々に作成する必要がなくなる。さらに、音声データに対
して、インタラクティブにリップアニメーションを生成
することができる。また、／ａ／と／ｅ／の中間などの
あいまいな発音に対して、あいまいな口の動きを実現す
ることができる。また、子音に対して、有声音と無声音
（／ｚ／と／ｓ／なと）や、破裂音と摩擦音（／ｐ／と
／ｚ／）など、発音状態として同時にその状態を取り得
ない場合や、音素間の連続性として、／ｙ，ａ／、／
ｙ，ｙ／、／ｙ，ｏ／などが許されるのに対して、／
ｙ，ｉ／、／ｙ，ｅ／が許されないなどといった制約を
盛り込むことが可能になる。

【０００９】なお、音素としては、子音、母音単位であ
つかってもよいし、より大きな単位例えば音節のシンボ
ルとして扱ってもよい。要するに口形状とマッピング可
能な単位のものであればどのような音素を用いてもよ
い。

【００１０】また、本発明は方法としても装置としても
実現可能である。また、そのような方法をコンピュータ
で実現するために用いるプログラムを記録したコンピュ
ータ読取り可能な記録媒体も本発明の技術的な範囲に含
まれる。

【００１１】

【発明の実施の形態】ここでは、本発明におけるリップ
シンクアニメーション生成およびその表示を実現するた
めの装置の説明をした後、音声データの解析方法と、あ
いまいな発音に対する、口のあいまいなアニメーション
の生成方法について説明を行う。

【００１２】図１は、本発明の実施例のアニメーション
生成装置を全体として示しており、この図において、ア
ニメーション生成装置１は、音素イベント生成部（アプ
リケーション）２、アニメーション処理部（アプリケー
ション）３、オペレーティングシステム４、入力装置
５、出力装置６、その他のリソース（ハードウェア、ソ
フトウェア）７等を含んで構成されている。アニメーシ
ョン生成装置１は、実際には、ゲーム機、マルチメディ
アキオスク、パーソナルコンピュータ等に実装される。
アニメーション編集装置として構成してもよい。オペレ
ーティングシステム４は、実装環境に応じたものであ
り、パーソナルコンピュータ用の汎用のオペレーティン
グシステムでもよいし、機器独自の組み込みオペレーテ
ィングシステムでもよい。音素イベント生成部２は、入
力音声データを解析してアニメーション生成の音素イベ
ントを生成するものである。詳細については図４を参照
して後に説明する。アニメーション処理部３は、音素イ
ベント生成部２から音素イベントを受けとってリップシ
ンクのアニメーションを合成して画像データを生成する
ものである。図示しないが、画像生成の一部を、専用の
ハードウェアを用いて行ってもよい。

【００１３】図２は、図１の音素イベントおよびアニメ
ーション処理の関係を説明するものである。図１におい
て、音声データを解析して音素データ２１（「ｋｏ」、
「ｎｎ」、「ｎｉ」、「ｔｉ」、「ｗａ」）が生成さ
れ、音素データの出現タイミングに応じて対応するアニ
メーション２２、２３、２４が生成される。各アニメー
ション２２、２３、２４は音素に応じた口形状をしてお
り、音素イベントの出現に応じて対応するアニメーショ
ンを起動することによりリップシンクを実現できる。

【００１４】図３は、本実施例の動作を概要を示してお
り、この図に示すように、本実施例では、音声データに
対する前処理を行って音素イベントを生成し（３１）、
この後、音声データに同期した口のアニメーションを行
っている（３２）。もちろん、音声データに対する前処
理は逐次処理が可能であり、音声データをストリーミン
グ入力しながら、アニメーションを生成することも可能
となっている。これらの処理３１および３２は図１の音
素イベント生成部２およびアニメーション処理部３にそ
れぞれ対応しており、それぞれ後に詳述する。

【００１５】図４は、音声データに対して行う前処理の
流れを示す。図４において、音声データをシステムに入
力し（４０１）、音素解析を行った後（４０２）、状態
遷移を通すことによってその候補を制限する（４０
３）。同時に複数の音素が候補として残る場合には、こ
れによって得られた複数の音素分に対して口形状の重み
割合を計算し、口形状の合成情報を作成する（４０
４）。この後、音素遷移におけるアニメーションを作成
し（４０５）、音素データに対してイベントとアニメー
ションの登録を行う（４０６）。

【００１６】次に、これらの処理について一つずつ説明
を行う。

【００１７】図５に音声データの入力ソース（５０６）
の一例を示す。インターネットにおけるストリーミング
データ（５０１）や放送（５０２）、マイクによる直接
入力（５０３）や、ＣＤ（５０４）、ＭＤ（５０５）な
どの記録媒体からの入力が可能となっている。

【００１８】次に、音素解析について説明する。最初に
図６に示すように音声の波形データ（６０２）におい
て、ゼロに交わる点（６０１）を抽出し、その周期性を
調べる。子音が過渡的であるのに対し、母音部における
周期性が揃っていることから、解析フレームを適宜作成
していくことにより、母音・子音の分離と、スペクトル
解析の精度を向上させることができる。ここで、６０３
は波形の周期を示している。また６０４で示す部分は、
波形の周期が過渡的であることから子音フレームとして
判断されている。また、６０５で示す部分は波形の周期
が揃っていることから、母音フレームと判断されてい
る。

【００１９】次に、図７に示すように、入力された音声
データ（ａ）において、図６で判断した解析フレームご
とに周波数スペクトル（ｂ）、（ｃ）を求める。

【００２０】なお、周波数スペクトルの求め方としては
ＦＥＴ（高速フーリエ変換）やＭＥＭ（最大エントロピ
ー法）などがある。これらの手法は周知であるのでとく
に説明は行わない。詳細については例えば「時系列解析
プログラム」（北川源四郎著、岩波書店発行）を参照さ
れたい。

【００２１】取得した周波数スペクトルはいくつかの主
要となる周波数成分を持っており、図８（ａ）に示すよ
うに、低周波数側から、第一フォルマント（８０１）、
第二フォルマント（８０２）、第三フォルマント（８０
３）と言われている。本実施例ではこれらのフォルマン
ト間の関係を用いて音素解析を行う。なお、フォルマン
トに関しては、「フーリエの冒険」（トランスナショナ
ルカレッジオブブックス編集、ヒッポファミリークラブ
発行）等を参照されたい。

【００２２】ここで、リップシンクアニメーションにお
いては、同一モデルに対して一人の音声データ提供者が
担当することが普通であり、この実施例では、特定話者
を想定することにする。なお、不特定話者の場合に対し
ても、音素解析の手法が変化するだけであり、全体とし
ては同一の構成となる。

【００２３】そして、特定話者を想定することから、図
８（ｂ）に示すように、フォルマントと音素の関係につ
いてキャリブレーションを行っておく。ここで、８０４
〜８０８は、各母音の位置を示している。また、これは
話者の音質が変化しない限りにおいて、再度取り直す必
要がない。

【００２４】図９（ａ）に示すように、音声データに対
して設定した解析フレーム毎のフォルマントデータ９１
を取得し、図８（ｂ）において行った、キャリブレーシ
ョンしたフォルマント位置との関係を取得する。

【００２５】次に、図１０に示すような音素間の状態遷
移を考慮し、音素候補の絞込みを行う。図１０（ａ）の
状態遷移では、１００１は音素／ｋ／を表し、すべての
母音（図１００２〜１００６）への変化が可能であるこ
とを示している。一方、図１０（ｂ）の状態遷移では、
１００７は音素／ｙ／を表し、／ａ／（１００８）、／
ｕ／（１００９）、／ｏ／（１０１０）の母音へのみの
状態遷移が許されていることを示している。

【００２６】また、図１１における、図１１０１から１
１０２の遷移と、１１０３から１１０４への遷移によっ
て生成されるアニメーション（１１０５から１１０６へ
の変化）が同じものについては、一つにまとめて扱うこ
とができる。

【００２７】次に、図１２に示すように、音素候補（１
２０２，１２０３，１２０５，１２０６，１２０７）に
おけるフォルマント位置と計測されたフォルマント位置
（図１２０４）の距離を計算し、各音素候補毎の重みを
計算する。重み計算例を図１２０１に示す。この際、人
間の耳は実際の周波数より、オクターブとして認識する
ことから、各成分に対して対数を取った上で扱ってい
る。

【００２８】また、図１３に示すように、第三フォルマ
ントを用いる場合も、距離の計算方法（１３０１）が変
化する以外は、音素候補（１３０２，１３０３，１３０
５，１３０６）におけるフォルマント位置と計測された
フォルマント位置（１３０４）から、同様に計算するこ
とができる。

【００２９】次に、図１４に示すように、各音素フレー
ムにおける口形状を各音素に対応する口形状の重み付け
合成として表現する。ここで、１４０１〜１４０３は各
フレームにおける音素毎の重み配分を示している。ま
た、図１４０４〜１４０６は、各々の重み付け合成によ
って生成される口形状を示している。

【００３０】また、図１５に示すように、子音発音時に
おいて、前後の口形状（１４０１、１５０３）から、音
素間のアニメーション（１５０２）を作成する。このと
き、破裂音など、音素が実際に発音される前に口形状が
変化しているものに関しては、イベントを前に移動（１
５０４）しておく。また、アニメーション時間として、
移動後のフレーム時間を用いるとする。ここで、図１５
０５は／ｐ／の発音イベントを示しており、この時、ア
ニメーション（１５０２）に割り振っておく。また、図
１５０６は／ａ／の発音イベントを示している。

【００３１】図１６に示すように、図１５において作成
した音素アニメーションとイベントデータの発生（１６
０１）に従って、口形状のアニメーションを起動してい
く（１６０２）。次に、移動中のアニメーションの合成
（１６０３）したあと、画面への表示（１６０４）を行
う。

【００３２】なお、アニメーションの合成に関しては、
例えば、複数の基本のアニメーションを所定の係数で線
形加算して目的のアニメーションを合成することができ
る。線形加算による合成する手法は、周知の手法を採用
できる。例えば、特開平２０００−１１１９９号公報
「アニメーションの自動生成方法」を採用してもよい。

【００３３】アニメーション表示の様子を図１７に示
す。まず、音声データ（１７１３）の再生を行い、これ
にマッピングされているイベント（１７１０，１７１
１，１７１２）とアニメーションを起動していく。次
に、起動したアニメーションの合成を行い（１７０８）
最終的に口形状のアニメーションを表示する（１７０
１，１７０２，１７０３）。ここで、１７０９はイベン
トデータを示しており、また１７０５，１７０６，１７
０７は各アニメーションを示している。

【００３４】なお、ストリーミングによって音声データ
が配信される場合には、音素解析が行われている時間分
バッファリング（遅れ）が生じるが、これは計算機の能
力向上に伴って遅れ時間を短くすることが可能である。

【００３５】

【発明の効果】前記のように、本発明によれば、音素デ
ータに対するリップシンクアニメーションを予め作成し
ておくのではなく、音声データから適宜、合成によって
生成するために、後から音声データを作成し、追加する
ことが容易になる。また、音素解析におけるあいまいさ
に対してあいまいな口表現を行うという意味を付けるこ
とによって、より自然な口の表現が可能になる。

【図面の簡単な説明】

【図１】本発明の実施例の実現例を全体として示す図
である。

【図２】上述実施例の概要を説明する図である。

【図３】上実施例の動作の流れの概要を示す図であ
る。

【図４】上述実施例の音素イベントの生成を説明する
図である。

【図５】上述実施例における音声データの入力ソース
を説明する図である。

【図６】上述実施例における音素解析用の解析フレー
ムを説明する図である。

【図７】上述実施例の解析フレーム単位の周波数スペ
クトルの取得を説明する図である。

【図８】周波数スペクトルのフォルマント位置のキャ
リブレーションを説明する図である。

【図９】解析フレーム単位でフォルマントを取り出す
ことを説明する図である。

【図１０】音素間の状態遷移図を説明する図である。

【図１１】同じ口のアニメーションとして集約できる
状態遷移を一つにまとめる態様を説明する図である。

【図１２】計測されたフォルマントと、キャリブレー
ションとの関係から重みを計算する態様を説明する図で
ある。

【図１３】子音に関して重み計算を行う態様を説明す
る図である。

【図１４】音素に対応した口の形状の合成状態として
あいまいな口を表現することを示す図である。

【図１５】音素間における口形状のアニメーションを
作成することを示す図である。

【図１６】くりアニメーションの合成と表示の流れを
説明する図である。

【図１７】音声データの再生に合わせて口形状を表す
アニメーションを合成していく様子を説明する図であ
る。

【符号の説明】

１アニメーション生成装置２音素イベント生成部３アニメーション処理部４オペレーティングシステム５入力装置６出力装置

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 21/06 Ｇ１０Ｌ 3/00 Ｓ 15/22 ５６１ＣＦターム(参考） 5B050 BA08 BA12 EA19 EA24 FA10 5D015 AA05 BB02 CC03 CC04 DD02 KK01 LL12 5D045 AB01 AB11

Claims

【特許請求の範囲】

【請求項１】音声データから音素データを生成するス
テップと、上記音素データに基づいて二次元ないし三次元のモデル
の口の部分のアニメーションを生成するステップとを有
することを特徴とするアニメーション生成方法。
【請求項２】上記口の部分のアニメーションを生成す
るステップは、音素データの組合せによりあいまいな音
声を表し、この組合せに含まれる音素データにそれぞれ
対応する口の部分のアニメーションを重み付け合成する
請求項１記載のアニメーション生成方法。
【請求項３】所定の音素データについては、音素デー
タのタイミングより、対応する口の部分のアニメーショ
ンの生成のタイミングが所定時間早くする請求項１記載
のアニメーション生成方法。
【請求項４】音素データの生成を有限状態オートマト
ンを参照して行い音素間の遷移に所定の制約を設ける請
求項１記載のアニメーション生成方法。
【請求項５】音声データから音素データを生成するス
テップと、上記音素データに基づいて二次元ないし三次元のモデル
の口の部分のアニメーションを生成するステップと、上記音素データを基準にして上記音声データと上記アニ
メーションとを同期させて再生するステップとを有する
ことを特徴とするアニメーション生成方法。
【請求項６】音素データに基づいて二次元ないし三次
元のモデルの口の部分のアニメーションを生成し、さら
に、音素データの組合せによりあいまいな音声を表し、
この組合せに含まれる音素データにそれぞれ対応する口
の部分のアニメーションを重み付け合成することを特徴
とするアニメーション生成方法。
【請求項７】音素データに基づいて二次元ないし三次
元のモデルの口の部分のアニメーションを生成し、さら
に、所定の音素データについては、音素データのタイミ
ングより、対応する口の部分のアニメーションの生成の
タイミングが所定時間早くすることを特徴とするアニメ
ーション生成方法。
【請求項８】音素データの組合せによりあいまいな音
声を表し、この組合せに含まれる音素データにそれぞれ
対応する口の部分のアニメーションを重み付け合成する
請求項７記載のアニメーション生成方法。
【請求項９】音声データから音素データを生成する手
段と、上記音素データに基づいて二次元ないし三次元のモデル
の口の部分のアニメーションを生成する手段とを有する
ことを特徴とするアニメーション生成装置。
【請求項１０】音声データから音素データを生成する
手段と、上記音素データに基づいて二次元ないし三次元のモデル
の口の部分のアニメーションを生成する手段と、上記音素データを基準にして上記音声データと上記アニ
メーションとを同期させて再生する手段とを有すること
を特徴とするアニメーション生成装置。
【請求項１１】音声データから音素データを生成する
ステップと、上記音素データに基づいて二次元ないし三次元のモデル
の口の部分のアニメーションを生成するステップと、上記音素データを基準にして上記音声データと上記アニ
メーションとを同期させて再生するステップとをコンピ
ュータに実行させるために用いるコンピュータプログラ
ムをコンピュータ読取り可能に記録するアニメーション
生成用の記録媒体。