JP2009266240A

JP2009266240A - ビデオと音とを整合させる方法および装置、コンピュータ可読媒体、ならびにデータを複合化する方法およびデコーダ

Info

Publication number: JP2009266240A
Application number: JP2009135960A
Authority: JP
Inventors: Andrea Basso; バッソアンドレア; Mark Charles Beutnagel; チャールスビュートナゲルマーク; Joern Ostermann; オスターマンジョアン
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1997-08-05
Filing date: 2009-06-05
Publication date: 2009-11-12
Anticipated expiration: 2018-08-05
Also published as: EP0896322B1; US6862569B1; JP4716532B2; EP0896322A2; US6567779B1; CA2244624C; EP0896322A3; US20050119877A1; US7110950B2; JP4783449B2; CA2244624A1; DE69819624D1; DE69819624T2; JPH11144073A

Abstract

【課題】顔面アニメーションのイメージ符号化において、デコーダにて生成される音声との整合が可能な装置を提供する。
【解決手段】フェイシャルアニメーションは、テキスト及びフェイシャルアニメーションパラメータを含んで作成でき、入力テキストは、顔面の口の形状を動かすデコーダ内のテキスト／スピーチコンバータ５へ伝送され、フェイシャルアニメーションパラメータは、エンコーダから顔面位置へ通信チャンネルを通じ伝送される。テキスト／スピーチコンバータへ伝送されるテキストにはブックマークが配置され、エンコーダタイムスタンプを含む。フェイシャルアニメーションパラメータ列も、エンコーダタイムスタンプを含む。システムはブックマークを読み取り、フェイシャルアニメーションシステムに、エンコーダタイムスタンプとリアルタイムタイムスタンプとを供給する。
【選択図】図２

Description

本発明は、画像の符号化／復号化方法及び符号化／復号化システムに関し、より詳細には、フェイシャルアニメーションを符号化／復号化する方法及びシステムに関する。

ＭＰＥＧ−４のＴＴＳアーキテクチャによれば、フェイシャルアニメーション（facial animation）は、テキストとフェイシャルアニメーションパラメータ（ＦＡＰ）の２つのデータ列を同時に入力して作成される。このアーキテクチャにおいて、テキスト入力は、顔画（フェイス）の口の形を作成するデコーダの音声合成（ＴＴＳ）コンバータに送られる。ＦＡＰは、通信チャネルによりエンコーダからフェイス位置に送られる。現在、ヴェリフィケーションモデル（ＶＭ）では、テキスト入力サイドとＦＡＰ入力列との間の同期は、トランスミッタ側で発せられたタイミングにより得られるとされている。

しかしながら、このトランスミッタは、デコーダＴＴＳのタイミングを知ることができない。したがって、エンコーダは、合成された単語とフェイシャルアニメーションとの一致を特定することができない。さらに、異なるＴＴＳシステム間では、タイミングも異なる。このように、現在では、表情画（例えば、微笑や表情など）をスピーチ（言語）に合わせる方法がない。

したがって、本発明は、表情画と、デコーダで生成されたスピーチとを整合させることのできる、フェイシャルアニメーション画像の符号化／復号化システム及び符号化／復号化方法の開発に向けられる。

本発明では、単語内および単語間に挿入できるブックマークとして知られる符号を、音声合成（ＴＴＳ）コンバータに送られるテキスト列に含ませることにより、上記課題を解決する。本発明によれば、ブックマークは、エンコーダタイムスタンプ（ＥＴＳ）を有する。音声合成変換の本質によれば、エンコーダタイムスタンプは現実の時間と関連がなく、カウンタとして解釈されるべきである。本発明では、さらに、フェイシャルアニメーションパラメータ（ＦＡＰ）列も、テキスト中のブックマークと同一のエンコーダタイムスタンプを有している。本発明のシステムは、ブックマークを読み取り、エンコーダタイムスタンプと、ＴＴＳコンバータのタイミングから作成されたリアルタイムタイムスタンプ（ＲＴＳ）とをフェイシャルアニメーションシステムに供給する。最終的に、フェイシャルアニメーションシステムは、ブックマークのエンコーダタイムスタンプを参照して、的確なフェイシャルアニメーションパラメータをリアルタイムタイムスタンプに関連付ける。なお、エンコーダタイムスタンプと、リアルタイムタイムスタンプとのコンフリクトを避けるため、広範囲のデコーダが機能するようにエンコーダタイムスタンプを選択する必要がある。

よって、本発明によれば、少なくとも一つの表情画と、テキスト列で示されたスピーチとを含むフェイシャルアニメーションを符号化する方法は、前記少なくとも一つの表情画に所定の符号を割り当てるステップと、特定の表情画の存在を示す前記所定の符号を前記テキスト列内に入れるステップとから成る。この所定の符号は、ＴＴＳ合成器の通常の動作を干渉しない独自の拡張シーケンスである。

上記方法を用いた一実施形態では、表情画の列に対するポインタとして所定の符号を用いることにより、テキスト列と表情画列との間の同期関係が示される。

上記所定の符号の一実施例として、拡張シーケンスがあり、これに表情画の一つを決定する複数ビットが追従する。この場合、所定の符号は、テキスト列中の単語間、あるいはテキスト列中の文字間に挿入できる。

本発明によるフェイシャルアニメーションを符号化する別の方法は、テキスト列を作成するステップと、表情画列を作成するステップと、テキスト列中に、表情画列中の対応する複数の表情画を指す複数のポインタを挿入するステップとを含み、前記複数のポインタが前記テキストと表情画との間の同期関係を確立する。

本発明によれば、スピーチと少なくとも一つの表情画とを含むフェイシャルアニメーションを復号化する方法は、表情画の組に対応する所定の符号の組を求めてテキスト列をモニタするステップと、ビジュアルデコーダに信号を送信し、前記所定の符号の組の存在が検出されると特定の表情画をスタートさせるステップとを含む。

本発明によれば、符号化されたアニメーションを復号化する装置は、デマルチプレクサと、このデマルチプレクサに結合されたテキスト／スピーチコンバータと、テキスト／スピーチコンバータに結合された音素／ビデオコンバータとを含む。デマルチプレクサは、符号化されたアニメーションを受信し、テキスト列とフェイシャルアニメーションパラメータ列とを出力する。前記テキスト列は、フェイシャルアニメーションパラメータの複数の表情画とテキスト列中のテキストとの同期関係を示す複数の符号を含む。テキスト／スピーチコンバータは、テキスト列をスピーチに変換し、複数の音素、及び複数のリアルタイムタイムスタンプと前記複数の符号を１対１の対応で出力し、これにより前記複数のリアルタイムタイムスタンプと複数の符号によって前記複数の表情画と複数の音素との間の同期関係を示す。さらに、音素／ビデオコンバータは、前記複数のリアルタイムタイムスタンプと複数の符号とに基づき、複数の表情画を複数の音素と同期させる。

上記装置において、前記音素／ビデオコンバータが、同期化された複数の音素と複数の表情画に基づき、ワイヤフレーム画像を作成するフェイシャルアニメータと、前記デマルチプレクサとフェイシャルアニメータとに結合され、前記ワイヤフレーム画像に基づいてビデオイメージを作成するビジュアルデコーダとを含めば、特に効果的である。

本発明が応用される環境を表す略図である。音声合成変換を用いるＭＰＥＧ−４デコーダのアーキテクチャを示す略図である。

本発明によれば、デコーダシステムの同期は、ＦＡ／ＡＰ／ＭＰおよび音声デコーダの入力においてイベントバッファーによるローカル同期を用いて達成できる。または、広域的同期制御を用いることもできる。

テキスト中のエンコーダタイムスタンプ（ＥＴＳ）と、フェイシャルアニメーションパラメータ（ＦＡＰ）列中のＥＴＳとの間のドリフトは、最大で８０ｍｓｅｃまで許容される。

テキスト列に配置されるブックマークの構文法の一実施形態としては、例えば＼！Ｍ｛ブックマークの内容｝のように、拡張記号に続いてブックマークの内容を含むことが可能である。ブックマークの内容は、１６ビット整数タイムスタンプのＥＴＳおよび他の情報を含む。同じＥＴＳが、対応するＦＡＰ列に加えられ、同期できるようにする。フェイシャルアニメーションパラメータのクラスは、オプションのＥＴＳを含むよう拡張されている。

絶対クロック基準（ＡＣＲ）が設けられている場合、ドリフト補償処理を実施することができる。ここで、ＦＡＰ列とテキストとの関係には、マスタ−スレーブ概念は存在しないことに留意されたい。顔面イメージがその周囲で起こる視覚的事象に反応する場合などには、デコーダが、テキストの速度を変動させることもあるし、顔面アニメーションを変化させることも考えられるからである。

例えば、第１の顔面イメージがユーザに向かって話しているところに、新たな顔面イメージが登場するとする。第１顔面イメージは自然な反応として第２顔面イメージを見て、微笑みながら、話されるテキストの速度を落とす。

概ねテキストにより駆動される自律アニメーション
フェイシャルアニメーションがテキストによって作成される場合、顔面の追加的アニメーションに対しては、概ね３０フレーム／秒の割合でアニメーション化する必要がないという限定を受ける。特に微笑などの高度な動作ユニットは、かなり低い割合にて形成されるべきである。更に、デコーダは受信機から厳重な制御を受けることなく、異なる動作間の補間を実施する。

本発明は、アニメーション化される動作ユニットと、追加の情報であるブックマークにおける動作ユニットの表示強度とを含む。連続したブックマークの間における、動作ユニットおよびそれの表示強度の間を補間するために、デコーダが必要である。

本発明により、テキスト編集プログラムなどの単純なツールを用いてアニメーションを作成でき、使用帯域幅を著しく減少することができるという利点がある。

図１は、本発明が応用される環境を表す。アニメーションは、エンコーダ１にて作成され符号化される。符号化されたアニメーションは、通信チャンネル（または記憶装置）を通じて遠隔目的地に伝送される。遠隔目的地にて、アニメーションはデコーダ２によって再形成される。この段階でデコーダ２は、元のアニメーションと共に符号化された情報のみを用いて、フェイシャルアニメーションを顔面イメージが話す音声に同期させる必要がある。

図２は、本発明に従った動作をするよう構成された、ＭＰＥＧ−４アーキテクチャのデコーダを示す。エンコーダ１（図示せず）からの信号は、伝送チャンネル（またはチャンネルとしても形成できる記憶装置）を通じてデマルチプレクサ（ＤＭＵＸ）３に入力される。ＤＭＵＸ３は、テキストとビデオデータを分離し、更に制御情報と補助情報をも分離する。ＤＭＵＸ３は更に、エンコーダタイムスタンプ（ＥＴＳ）を含むＦＡＰ列を直接、ＦＡ／ＡＰ／ＭＰ４へ出力する。ＦＡ／ＡＰ／ＭＰ４は、テキスト／スピーチコンバータ（ＴＴＳ）５、音素／ビデオＦＡＰコンバータ６、合成器７、およびビジュアルデコーダ８に連結されている。口唇形状アナライザ９には、ビジュアルデコーダ８およびＴＴＳ５が接続されている。ユーザ入力は、合成器７より入力され、ＴＴＳ５およびＦＡ／ＡＰ／ＭＰ４へ出力される。この入力は、始動や停止などの指令を含む。

ＴＴＳ５はブックマークを読み取り、音素に加えて、ＥＴＳとリアルタイムタイムスタンプ（ＲＴＳ）とを、音素／ビデオＦＡＰコンバータ６へ出力する。音素は、ワイヤーフレームイメージの各描画頂点を正しく配置するために使われる。この時点では、イメージは再現されない。

このデータは次に、イメージを再現するビジュアルデコーダ８へ出力される。ビジュアルデコーダ８は、イメージをビデオ状態にして合成器７へ出力する。この段階で、ＥＴＳ／ＲＴＳの組み合わせを有する音素を、対応するＥＴＳを有するＦＡＰと同期させることにより、ＦＡＰは音素と整合される。

ＭＰＥＧ−４ハイブリッド音声合成（ＴＴＳ）コンバータ５への入力テキストは、符号化された音声として音声デコーダ１０へ出力される。このシステムでは、音声デコーダ１０は音声を合成器７に出力し、合成器７は、ビデオディスプレイ（図示せず）、スピーカ（図示せず）、およびユーザに対するインターフェースとして作動する。

他方、ＤＭＵＸ３から出力されたビデオデータは、ビジュアルデコーダ８へ伝送される。ビジュアルデコーダは、ビデオデータとＦＡ／ＡＰ／ＭＰ４からの出力とに基づいて、複合ビデオ信号を生成する。

本発明には、二つの実施形態が挙げられる。第一の実施形態においては、テキスト列に配置されたＥＴＳは、フェイシャルアニメーションを含む。即ち、ブックマーク（拡張シーケンス）の後には、その時点で音声と同期されるべき所定のフェイシャルアニメーションを表す、１６ビットのコードワードが続く。

第二の実施形態としては、テキスト列に配置されたＥＴＳは、ＦＡＰ列内の特定のフェイシャルアニメーションに対する時間的ポインタとして作用させることもできる。即ち、拡張シーケンスの後には、ＦＡＰ列内のある箇所を特定する１６ビットコードが続く。

本発明は、アニメーションデータに関連して説明されるが、アニメーションデータの代わりに自然音声データまたはビデオデータを用いることもできる。詳細に言えば、上述の説明は、アニメーションデータと音声合成データとを整合させる方法およびシステムについてであるが、同じ方法およびシステムは、音声合成データを音声またはビデオに置き換えれば応用できる。少なくともＴＴＳデータ列に関して言えば、二つのデータ列の整合は、基礎になるデータとは関係なく実施される。

１エンコーダ、２デコーダ、３ＤＭＵＸ、４ＦＡ／ＡＰ／ＭＰ、５ＭＰＥＧ−４ハイブリッドＴＴＳコンバータ、６音声／ビデオＦＡＰコンバータ、７合成器、８ビジュアルデコーダ、９口唇形状アナライザ、１０音声デコーダ。

Claims

少なくとも一つの表情画と、テキスト列で示されたスピーチとを含むフェイシャルアニメーションを符号化する方法であって、
前記少なくとも一つの表情画に所定の符号を割り当てるステップと、
特定の表情画の存在を示す前記所定の符号を前記テキスト列内に入れるステップと、
から成る符号化方法。
請求項１の方法において、前記所定の符号は、表情画データ列のポインタとして機能することにより、テキストデータ列と表情画データ列との間の同期関係を示すことを特徴とする方法。
請求項１の方法において、前記所定の符号は拡張シーケンス（escape sequence）を含み、前記拡張シーケンスは、選択しうる表情画の一つを決定する複数のビットに追従されることを特徴とする方法。
請求項１の方法において、テキストデータ列中の単語の間に前記所定の符号を入れるステップをさらに含むことを特徴とする方法。
請求項１の方法において、テキストデータ列中の文字の間に前記所定の符号を入れるステップをさらに含むことを特徴とする方法。
請求項１の方法において、テキストデータ列中の単語中に前記所定の符号を入れるステップをさらに含むことを特徴とする方法。
フェイシャルアニメーションを符号化する方法であって、
データ列を作成するステップと、
表情画列を作成するステップと、
データ列中に、表情画列中の対応する複数の表情画を指す複数のポインタを挿入するステップと、
から成り、前記複数のポインタは前記データと表情画との間の同期関係を確立することを特徴とする方法。
請求項７の方法において、前記複数のポインタのそれぞれはタイムスタンプから成ることを特徴とする方法。
請求項７の方法において、前記データ列は、復号化行程においてスピーチに変換されるテキスト列から成ることを特徴とする方法。
請求項９の方法において、前記複数のポインタの少なくとも一つを、テキスト列の単語間に入れるステップをさらに含む方法。
請求項９の方法において、前記複数のポインタの少なくとも一つを、テキスト列の音節間に入れるステップをさらに含む方法。
請求項７の方法において、前記複数のポインタの少なくとも一つを、テキスト列の単語間に入れるステップをさらに含む方法。
請求項７の方法において、データ列はビデオ列から成ることを特徴とする方法。
請求項７の方法において、データ列はオーディオ列から成ることを特徴とする方法。
スピーチと少なくとも一つの表情画とを含むフェイシャルアニメーションを復号化する方法であって、
ａ）表情画の組に対応する所定の符号の組を求めてテキスト列をモニタするステップと、
ｂ）ビジュアルデコーダに信号を送信し、前記所定の符号の組の存在が検出されると特定の表情画をスタートさせるステップと、
から成る方法。
請求項１５の方法において、前記所定の符号は、表情画データ列へのポインタとして機能することにより、テキストデータ列と表情画データ列との間の同期関係を示すことを特徴とする方法。
請求項１５の方法において、前記所定の符号は拡張シーケンスから成ることを特徴とする方法。
請求項１５の方法において、前記所定の符号をテキスト列中の単語間に入れるステップをさらに含む方法。
請求項１５の方法において、前記所定の符号をテキスト列中の音素間に入れるステップをさらに含む方法。
請求項１５の方法において、前記所定の符号をテキスト列中の単語内に入れるステップをさらに含む方法。
符号化されたアニメーションを復号化する装置であって、ａ）前記符号化されたアニメーションを受信し、テキスト列とフェイシャルアニメーションパラメータ列とを出力するデマルチプレクサであって、前記テキスト列は、フェイシャルアニメーションパラメータ中の複数の表情画とテキスト列中のテキストとの同期関係を示す複数の符号を含む、デマルチプレクサと、
ｂ）前記デマルチプレクサに結合されたテキスト／スピーチコンバータであって、テキスト列をスピーチに変換し、複数の音素、及び複数のリアルタイムタイムスタンプと複数の符号を１対１の対応で出力し、前記複数のリアルタイムタイムスタンプと複数の符号が前記複数の表情画と複数の音素との間の同期関係を示す、テキスト／スピーチコンバータと、
ｃ）前記テキスト／スピーチコンバータに結合された音素／ビデオコンバータであって、前記複数のリアルタイムタイムスタンプと複数の符号とに基づき、複数の表情画を複数の音素に同期させる音素／ビデオコンバータと、
から成る装置。
請求項２１の装置において、前記スピーチとビデオを合成ビデオ信号に変換する合成器（compositor）をさらに含むことを特徴とする装置。
請求項２１の装置において、前記音素／ビデオコンバータは、
ａ）同期化された複数の音素と複数の表情画に基づき、ワイヤフレーム画像を作成するフェイシャルアニメータと、
ｂ）前記デマルチプレクサとフェイシャルアニメータとに結合され、前記ワイヤフレーム画像に基づいてビデオイメージを作成するビジュアルデコーダと、
を含むことを特徴とする装置。