JP2001509933A

JP2001509933A - コンピュータアニメーションモデルをオーディオ波出力と同期させる方法及び装置

Info

Publication number: JP2001509933A
Application number: JP51648399A
Authority: JP
Inventors: ダグラスニールテッド
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1997-09-01
Filing date: 1998-08-07
Publication date: 2001-07-24
Also published as: DE69829947T2; DE69829947D1; WO1999012128A1; US6408274B2; EP0960389B1; EP0960389A1; US20010041983A1

Abstract

(57)【要約】ビデオモデルのコンピュータアニメーション画像をオーディオ波と同期出力させるために蓄積する。オーディオ波表現の受信時に、モデルをオーディオ波の制御の下でダイナミックに変化させるとともにオーディオ波と一緒に出力させる。特に、所定の画像パラメータをモデルに関連させる。実際のオーディオ波振幅を測定し、その振幅を画像パラメータに多値的に又はアナログ的にマッピングさせることによりモデルとオーディオ波の出力を同期させる。

Description

【発明の詳細な説明】コンピュータアニメーションモデルをオーディオ波出力と同期させる方法及び装置発明の背景本発明は、コンピュータアニメーションモデルをオーディオ波と同期させるために、前記モデルのコンピュータアニメーション画像を蓄積し、オーディオ波表現を受信し、前記モデルを前記オーディオ波の制御の下でダイナミックに変化させ、前記ダイナミックに変化するモデルを前記オーディオ波と一緒に出力させるステップを具える、コンピュータアニメーションモデルをオーディオ波出力と同期させる方法及び装置に関するものである。いくつかのシステムはコンピュータ発生グラフィックモデルをオーディオ波パターンの出力と一緒にアニメートさせてモデルが出力される音声を実際に話しているような印象を生成する必要がある。このような方法はＵＳ５，６１３，０５６号に開示されている。この米国特許の方法は複雑なプロシージャを使用し、一般に予め記録された音声を必要とする。本発明はもっと簡単なプロシージャを使用し、特に予め記録されてない音声とリアルタイムで動作し得るようにする。発明の概要従って、本発明の目的は、特に、画像の制御にごく僅かの即時インタラクションを必要とするのみであってユーザに全く自然な印象を与えるストレートフォワード処理を提供することにある。従って、本発明の特徴の一つは、コンピュータアニメーションモデルをオーディオ波と同期させるために、前記モデルのコンピュータアニメーション画像を蓄積し、オーディオ波表現を受信し、前記モデルを前記オーディオ波の制御の下でダイナミックに変化させ、前記ダイナミックに変化するモデルを前記オーディオ波と一緒に出力させるステップを具えるコンピュータアニメーションモデルをオーディオ波出力と同期させる方法において、前記モデルに画像パラメータを関連させ、実際のオーディオ波振幅を測定し、前記オーディオ波振幅を前記画像パラメータに多値的に又はアナログ的にマッピング（写像）させて前記モデルと前記オーディオ波を同期出力させることを特徴とする。本発明者は、人間は音声とアニメーション可視表現との小さな差異でも検出し得るので、アニメーション画像の人形の口を単に開閉させるだけでは実際に話している印象を与えることはできず、可視表現を出力される音声とできるだけ密接に同期した状態に維持する（口合わせ）必要もあることを確かめた。ここで、“ 多値”とはアナログ又は多値ディジタルのいずれか一方を意味する。音声が瞬間的に受信される場合には、その再生を装置がビデオ表現を修正することができる０．１秒ぐらいの時間だけずらせてもよい。本発明は本発明の方法を実施するよう構成された装置にも関する。本発明の他の利点は縦続請求項について記載する。図面の簡単な説明本発明のこれらの特徴及び利点及び他の特徴及び利点を好適実施例につき、特に図面を参照して以下に詳細に説明する。図面において、図１は本発明装置の構成図を示し、図２はオーディオ波エンベロープのサンプルピースを示し、図３はコンピュータ発生グラフィックモデルの一例を示す。好適実施例の詳細な説明図１は本発明装置の構成図を示す。この装置は入力端子２０に画像の情報を受信する。この情報は静止画像、又は周囲を動く、例えば歩く、飛ぶ、又は他の特徴的な動きをする動画像を表わすものとすることができる。画像はビットマップ、線画、又は他の有用な表現で表わすことができる。特に、画像の１以上のパラメータを関連するアナログ量又は多値ディジタル量で表わすことができる。ブロック２２は次のアドレッシングのために画像を蓄積することができ、各画像はシステムに対し識別子又は他の個別の修飾を有する。入力端子２６は適切なオーディオ波表現を受信する。基本的な場合には、このオーディオ波表現はスピーカ３８で再生される音声とすることができる。他の場合には、音声はＬＰＣのような標準の方法に従って符号化されているものとすることができる。適用可能な場合には、入力端子２４は例えば複数の人物画像のうちの１つを選択する可視表示の識別子又は複数の移動パターン等のうちの１つを選択する他の高レベル選択機構の識別子を受信する。こうして画像記述が出力端子２３に供給される。ブロック２８において、実際のオーディオ波振幅が測定され、その値を同期出力のために相互接続３０に沿って関連する１以上の画像パラメータに多値的に又はアナログ的にマッピング（写像）させる。出力端子３２にオーディオ及び画像情報の両方が互いに同期して出力され、画像がモニタ３６上に表示されるとともに音声がスピーカ３８で再生される。図２は出力されるオーディオ波エンベロープのサンプルピースを示す。縦軸はオーディオ波振幅を示し、横軸は時間を示す。周期ｓは振幅値を測定し平均化するサンプル周期である。実際には、この周期は実際のピッチ周期より幾分長い場合が多く、０．００１〜０．１秒の範囲内とすることができる。この平均振幅ａはスケーリングファクタｆでスケーリングされ、物体の位置をアニメートするのに使用される。このスケーリングファクタにより他の制御メカニズムが可能になる。或いは又、このファクタは実際に話す“人”又は種々の他の物体に依存させることができる。例えば、つぶやいている人には小さな口の開閉を与えることができる。物体をサンプルされたオーディオ波が再生される瞬時と同期させるために、予測時間ｐを用いてサンプル周期を現時刻ｔからオフセットさせる。この予測時間は、装置がグラフィック物体を新しい物体位置に再び描写するのに要する時間を見込むものとすることができる。図３はコンピュータ発生グラフィックモデルの一例を示し、本例では楕円頭部輪郭線５０、２つの円形の目５２及び下顎部分５４に簡単化した基本コンピュータ発生人間頭部の正面画像である。このモデルは下顎部分と頭部本体の残部の位置との間のアナログ又は多値ディジタル距離ａ＊ｆによりパラメータ化され、下顎部分は（ｙ_j−ａ＊ｆ）として表わされる。下顎の開き距離は再生中のオーディオ波のスケーリングされた（ａ＊ｆ）出力振幅に関連する。他の実施例ではこれを顎の開き角又は他の位置パラメータにすることができる。オーディオは有音及び無声期間を含むものとすることができ、大声及び小声の期間も含むものとすることができる。この場合にはオーディオ波振幅が増大するとき顎を大きく開けさせ、オーディオ波振幅が減少するときこれに応じて顎を閉させることができる。会話中の口の動き量が再生される音声とともに変化し、従って話している印象を与えることができる。更に、物体のｘ及びｚ座標のような他の特性をアニメートし、物体を回転又は拡大縮小することもできる。この技術は音楽のような音声再生だけでなく他の可視表示に適用することもできる。スケーリングファクタｆの使用は本発明の方法を種々のサイズのモデルに使用することを可能にする。更に、スケーリングファクタは“会話明瞭度”の種々のレベルに対し設定することができる。モデルがつぶやいている場合には、その口は比較的僅かに動かす必要がある。モデルが力説している場合には、その口は大きく動かす必要がある。本発明は種々の用途、例えばユーザ照会システム、公衆アドレスシステム、及び表現の芸術的レベルがあまり重要でない他のシステムに使用することができる。本発明方法は音声を出力するのみである一方向システムにおいて実行することもできる。或いは又、本発明本発明法は双方向会話システムにおいて実行することもでき、このシステムでは音声認識をユーザからの音声入力にも適用する。画像の種々の他の特性又はパラメータを実際の音声振幅により制御することができる。例えば、顔の色を高い音声振幅時に赤くすることができ、また例えば画像が異常なユーザ反応時に声を張り上げることにより反応するとき髪の毛を逆立てたり、目をしばたかせることができる。更に、口の開閉は常にほぼ瞬間的にする必要があるが、画像の種々の反応の時定数は一定にする必要はない。

Claims

【特許請求の範囲】１．コンピュータアニメーションモデルをオーディオ波出力と同期させるために、前記モデルのコンピュータアニメーション画像を蓄積するステップと、オーディオ波表現を受信するステップと、前記モデルを前記オーディオ波の制御の下でダイナミックに変化させるステップと、前記ダイナミックに変化するモデルを前記オーディオ波と一緒に出力させるステップとを具える方法において、前記モデルに画像パラメータを関連させ、実際のオーディオ波振幅を測定し、前記オーディオ波振幅を同期出力のために前記画像パラメータに多値的に又はアナログ的にマッピングさせることを特徴とするコンピュータアニメーションモデルをオーディオ波出力と同期させる方法。２．前記オーディオは音声であることを特徴とする請求項１記載の方法。３．前記オーディオは人類似物の音声であることを特徴とする請求項１記載の方法。４．前記画像パラメータは位置パラメータであることを特徴とする請求項１記載の方法。５．前記画像パラメータは人類似物の口のサイズパラメータでることを特徴とする請求項１記載の方法。６．前記画像パラメータは色、顔の表情又は体の動きのうちの１つであることを特徴とする請求項１記載の方法。７．前記マッピングは不均一な時定数に関連することを特徴とする請求項１記載の方法。８．リアルタイムで実行するよう構成されていることを特徴とする請求項１記載の方法。９．更に、前記画像パラメータをスケーリングファクタによりスケーリングし、オーディオ波の出力を時間オフセットさせてビデオ表現を修正し得ることを特徴とする請求項１記載の方法。 10．請求項１記載の方法を実施するよう構成された装置。