JP2009266240A - ビデオと音とを整合させる方法および装置、コンピュータ可読媒体、ならびにデータを複合化する方法およびデコーダ - Google Patents

ビデオと音とを整合させる方法および装置、コンピュータ可読媒体、ならびにデータを複合化する方法およびデコーダ Download PDF

Info

Publication number
JP2009266240A
JP2009266240A JP2009135960A JP2009135960A JP2009266240A JP 2009266240 A JP2009266240 A JP 2009266240A JP 2009135960 A JP2009135960 A JP 2009135960A JP 2009135960 A JP2009135960 A JP 2009135960A JP 2009266240 A JP2009266240 A JP 2009266240A
Authority
JP
Japan
Prior art keywords
text
facial
sequence
speech
predetermined code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009135960A
Other languages
English (en)
Other versions
JP4783449B2 (ja
Inventor
Andrea Basso
バッソ アンドレア
Mark Charles Beutnagel
チャールス ビュートナゲル マーク
Joern Ostermann
オスターマン ジョアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JP2009266240A publication Critical patent/JP2009266240A/ja
Application granted granted Critical
Publication of JP4783449B2 publication Critical patent/JP4783449B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】 顔面アニメーションのイメージ符号化において、デコーダにて生成される音声との整合が可能な装置を提供する。
【解決手段】 フェイシャルアニメーションは、テキスト及びフェイシャルアニメーションパラメータを含んで作成でき、入力テキストは、顔面の口の形状を動かすデコーダ内のテキスト/スピーチコンバータ5へ伝送され、フェイシャルアニメーションパラメータは、エンコーダから顔面位置へ通信チャンネルを通じ伝送される。テキスト/スピーチコンバータへ伝送されるテキストにはブックマークが配置され、エンコーダタイムスタンプを含む。フェイシャルアニメーションパラメータ列も、エンコーダタイムスタンプを含む。システムはブックマークを読み取り、フェイシャルアニメーションシステムに、エンコーダタイムスタンプとリアルタイムタイムスタンプとを供給する。
【選択図】図2

Description

本発明は、画像の符号化/復号化方法及び符号化/復号化システムに関し、より詳細には、フェイシャルアニメーションを符号化/復号化する方法及びシステムに関する。
MPEG−4のTTSアーキテクチャによれば、フェイシャルアニメーション(facial animation)は、テキストとフェイシャルアニメーションパラメータ(FAP)の2つのデータ列を同時に入力して作成される。このアーキテクチャにおいて、テキスト入力は、顔画(フェイス)の口の形を作成するデコーダの音声合成(TTS)コンバータに送られる。FAPは、通信チャネルによりエンコーダからフェイス位置に送られる。現在、ヴェリフィケーションモデル(VM)では、テキスト入力サイドとFAP入力列との間の同期は、トランスミッタ側で発せられたタイミングにより得られるとされている。
しかしながら、このトランスミッタは、デコーダTTSのタイミングを知ることができない。したがって、エンコーダは、合成された単語とフェイシャルアニメーションとの一致を特定することができない。さらに、異なるTTSシステム間では、タイミングも異なる。このように、現在では、表情画(例えば、微笑や表情など)をスピーチ(言語)に合わせる方法がない。
したがって、本発明は、表情画と、デコーダで生成されたスピーチとを整合させることのできる、フェイシャルアニメーション画像の符号化/復号化システム及び符号化/復号化方法の開発に向けられる。
本発明では、単語内および単語間に挿入できるブックマークとして知られる符号を、音声合成(TTS)コンバータに送られるテキスト列に含ませることにより、上記課題を解決する。本発明によれば、ブックマークは、エンコーダタイムスタンプ(ETS)を有する。音声合成変換の本質によれば、エンコーダタイムスタンプは現実の時間と関連がなく、カウンタとして解釈されるべきである。本発明では、さらに、フェイシャルアニメーションパラメータ(FAP)列も、テキスト中のブックマークと同一のエンコーダタイムスタンプを有している。本発明のシステムは、ブックマークを読み取り、エンコーダタイムスタンプと、TTSコンバータのタイミングから作成されたリアルタイムタイムスタンプ(RTS)とをフェイシャルアニメーションシステムに供給する。最終的に、フェイシャルアニメーションシステムは、ブックマークのエンコーダタイムスタンプを参照して、的確なフェイシャルアニメーションパラメータをリアルタイムタイムスタンプに関連付ける。なお、エンコーダタイムスタンプと、リアルタイムタイムスタンプとのコンフリクトを避けるため、広範囲のデコーダが機能するようにエンコーダタイムスタンプを選択する必要がある。
よって、本発明によれば、少なくとも一つの表情画と、テキスト列で示されたスピーチとを含むフェイシャルアニメーションを符号化する方法は、前記少なくとも一つの表情画に所定の符号を割り当てるステップと、特定の表情画の存在を示す前記所定の符号を前記テキスト列内に入れるステップとから成る。この所定の符号は、TTS合成器の通常の動作を干渉しない独自の拡張シーケンスである。
上記方法を用いた一実施形態では、表情画の列に対するポインタとして所定の符号を用いることにより、テキスト列と表情画列との間の同期関係が示される。
上記所定の符号の一実施例として、拡張シーケンスがあり、これに表情画の一つを決定する複数ビットが追従する。この場合、所定の符号は、テキスト列中の単語間、あるいはテキスト列中の文字間に挿入できる。
本発明によるフェイシャルアニメーションを符号化する別の方法は、テキスト列を作成するステップと、表情画列を作成するステップと、テキスト列中に、表情画列中の対応する複数の表情画を指す複数のポインタを挿入するステップとを含み、前記複数のポインタが前記テキストと表情画との間の同期関係を確立する。
本発明によれば、スピーチと少なくとも一つの表情画とを含むフェイシャルアニメーションを復号化する方法は、表情画の組に対応する所定の符号の組を求めてテキスト列をモニタするステップと、ビジュアルデコーダに信号を送信し、前記所定の符号の組の存在が検出されると特定の表情画をスタートさせるステップとを含む。
本発明によれば、符号化されたアニメーションを復号化する装置は、デマルチプレクサと、このデマルチプレクサに結合されたテキスト/スピーチコンバータと、テキスト/スピーチコンバータに結合された音素/ビデオコンバータとを含む。デマルチプレクサは、符号化されたアニメーションを受信し、テキスト列とフェイシャルアニメーションパラメータ列とを出力する。前記テキスト列は、フェイシャルアニメーションパラメータの複数の表情画とテキスト列中のテキストとの同期関係を示す複数の符号を含む。テキスト/スピーチコンバータは、テキスト列をスピーチに変換し、複数の音素、及び複数のリアルタイムタイムスタンプと前記複数の符号を1対1の対応で出力し、これにより前記複数のリアルタイムタイムスタンプと複数の符号によって前記複数の表情画と複数の音素との間の同期関係を示す。さらに、音素/ビデオコンバータは、前記複数のリアルタイムタイムスタンプと複数の符号とに基づき、複数の表情画を複数の音素と同期させる。
上記装置において、前記音素/ビデオコンバータが、同期化された複数の音素と複数の表情画に基づき、ワイヤフレーム画像を作成するフェイシャルアニメータと、前記デマルチプレクサとフェイシャルアニメータとに結合され、前記ワイヤフレーム画像に基づいてビデオイメージを作成するビジュアルデコーダとを含めば、特に効果的である。
本発明が応用される環境を表す略図である。 音声合成変換を用いるMPEG−4デコーダのアーキテクチャを示す略図である。
本発明によれば、デコーダシステムの同期は、FA/AP/MPおよび音声デコーダの入力においてイベントバッファーによるローカル同期を用いて達成できる。または、広域的同期制御を用いることもできる。
テキスト中のエンコーダタイムスタンプ(ETS)と、フェイシャルアニメーションパラメータ(FAP)列中のETSとの間のドリフトは、最大で80msecまで許容される。
テキスト列に配置されるブックマークの構文法の一実施形態としては、例えば\!M{ブックマークの内容}のように、拡張記号に続いてブックマークの内容を含むことが可能である。ブックマークの内容は、16ビット整数タイムスタンプのETSおよび他の情報を含む。同じETSが、対応するFAP列に加えられ、同期できるようにする。フェイシャルアニメーションパラメータのクラスは、オプションのETSを含むよう拡張されている。
絶対クロック基準(ACR)が設けられている場合、ドリフト補償処理を実施することができる。ここで、FAP列とテキストとの関係には、マスタ−スレーブ概念は存在しないことに留意されたい。顔面イメージがその周囲で起こる視覚的事象に反応する場合などには、デコーダが、テキストの速度を変動させることもあるし、顔面アニメーションを変化させることも考えられるからである。
例えば、第1の顔面イメージがユーザに向かって話しているところに、新たな顔面イメージが登場するとする。第1顔面イメージは自然な反応として第2顔面イメージを見て、微笑みながら、話されるテキストの速度を落とす。
概ねテキストにより駆動される自律アニメーション
フェイシャルアニメーションがテキストによって作成される場合、顔面の追加的アニメーションに対しては、概ね30フレーム/秒の割合でアニメーション化する必要がないという限定を受ける。特に微笑などの高度な動作ユニットは、かなり低い割合にて形成されるべきである。更に、デコーダは受信機から厳重な制御を受けることなく、異なる動作間の補間を実施する。
本発明は、アニメーション化される動作ユニットと、追加の情報であるブックマークにおける動作ユニットの表示強度とを含む。連続したブックマークの間における、動作ユニットおよびそれの表示強度の間を補間するために、デコーダが必要である。
本発明により、テキスト編集プログラムなどの単純なツールを用いてアニメーションを作成でき、使用帯域幅を著しく減少することができるという利点がある。
図1は、本発明が応用される環境を表す。アニメーションは、エンコーダ1にて作成され符号化される。符号化されたアニメーションは、通信チャンネル(または記憶装置)を通じて遠隔目的地に伝送される。遠隔目的地にて、アニメーションはデコーダ2によって再形成される。この段階でデコーダ2は、元のアニメーションと共に符号化された情報のみを用いて、フェイシャルアニメーションを顔面イメージが話す音声に同期させる必要がある。
図2は、本発明に従った動作をするよう構成された、MPEG−4アーキテクチャのデコーダを示す。エンコーダ1(図示せず)からの信号は、伝送チャンネル(またはチャンネルとしても形成できる記憶装置)を通じてデマルチプレクサ(DMUX)3に入力される。DMUX3は、テキストとビデオデータを分離し、更に制御情報と補助情報をも分離する。DMUX3は更に、エンコーダタイムスタンプ(ETS)を含むFAP列を直接、FA/AP/MP4へ出力する。FA/AP/MP4は、テキスト/スピーチコンバータ(TTS)5、音素/ビデオFAPコンバータ6、合成器7、およびビジュアルデコーダ8に連結されている。口唇形状アナライザ9には、ビジュアルデコーダ8およびTTS5が接続されている。ユーザ入力は、合成器7より入力され、TTS5およびFA/AP/MP4へ出力される。この入力は、始動や停止などの指令を含む。
TTS5はブックマークを読み取り、音素に加えて、ETSとリアルタイムタイムスタンプ(RTS)とを、音素/ビデオFAPコンバータ6へ出力する。音素は、ワイヤーフレームイメージの各描画頂点を正しく配置するために使われる。この時点では、イメージは再現されない。
このデータは次に、イメージを再現するビジュアルデコーダ8へ出力される。ビジュアルデコーダ8は、イメージをビデオ状態にして合成器7へ出力する。この段階で、ETS/RTSの組み合わせを有する音素を、対応するETSを有するFAPと同期させることにより、FAPは音素と整合される。
MPEG−4ハイブリッド音声合成(TTS)コンバータ5への入力テキストは、符号化された音声として音声デコーダ10へ出力される。このシステムでは、音声デコーダ10は音声を合成器7に出力し、合成器7は、ビデオディスプレイ(図示せず)、スピーカ(図示せず)、およびユーザに対するインターフェースとして作動する。
他方、DMUX3から出力されたビデオデータは、ビジュアルデコーダ8へ伝送される。ビジュアルデコーダは、ビデオデータとFA/AP/MP4からの出力とに基づいて、複合ビデオ信号を生成する。
本発明には、二つの実施形態が挙げられる。第一の実施形態においては、テキスト列に配置されたETSは、フェイシャルアニメーションを含む。即ち、ブックマーク(拡張シーケンス)の後には、その時点で音声と同期されるべき所定のフェイシャルアニメーションを表す、16ビットのコードワードが続く。
第二の実施形態としては、テキスト列に配置されたETSは、FAP列内の特定のフェイシャルアニメーションに対する時間的ポインタとして作用させることもできる。即ち、拡張シーケンスの後には、FAP列内のある箇所を特定する16ビットコードが続く。
本発明は、アニメーションデータに関連して説明されるが、アニメーションデータの代わりに自然音声データまたはビデオデータを用いることもできる。詳細に言えば、上述の説明は、アニメーションデータと音声合成データとを整合させる方法およびシステムについてであるが、同じ方法およびシステムは、音声合成データを音声またはビデオに置き換えれば応用できる。少なくともTTSデータ列に関して言えば、二つのデータ列の整合は、基礎になるデータとは関係なく実施される。
1 エンコーダ、2 デコーダ、3 DMUX、4 FA/AP/MP、5 MPEG−4ハイブリッドTTSコンバータ、6 音声/ビデオFAPコンバータ、7 合成器、8 ビジュアルデコーダ、9 口唇形状アナライザ、10 音声デコーダ。

Claims (23)

  1. 少なくとも一つの表情画と、テキスト列で示されたスピーチとを含むフェイシャルアニメーションを符号化する方法であって、
    前記少なくとも一つの表情画に所定の符号を割り当てるステップと、
    特定の表情画の存在を示す前記所定の符号を前記テキスト列内に入れるステップと、
    から成る符号化方法。
  2. 請求項1の方法において、前記所定の符号は、表情画データ列のポインタとして機能することにより、テキストデータ列と表情画データ列との間の同期関係を示すことを特徴とする方法。
  3. 請求項1の方法において、前記所定の符号は拡張シーケンス(escape sequence)を含み、前記拡張シーケンスは、選択しうる表情画の一つを決定する複数のビットに追従されることを特徴とする方法。
  4. 請求項1の方法において、テキストデータ列中の単語の間に前記所定の符号を入れるステップをさらに含むことを特徴とする方法。
  5. 請求項1の方法において、テキストデータ列中の文字の間に前記所定の符号を入れるステップをさらに含むことを特徴とする方法。
  6. 請求項1の方法において、テキストデータ列中の単語中に前記所定の符号を入れるステップをさらに含むことを特徴とする方法。
  7. フェイシャルアニメーションを符号化する方法であって、
    データ列を作成するステップと、
    表情画列を作成するステップと、
    データ列中に、表情画列中の対応する複数の表情画を指す複数のポインタを挿入するステップと、
    から成り、前記複数のポインタは前記データと表情画との間の同期関係を確立することを特徴とする方法。
  8. 請求項7の方法において、前記複数のポインタのそれぞれはタイムスタンプから成ることを特徴とする方法。
  9. 請求項7の方法において、前記データ列は、復号化行程においてスピーチに変換されるテキスト列から成ることを特徴とする方法。
  10. 請求項9の方法において、前記複数のポインタの少なくとも一つを、テキスト列の単語間に入れるステップをさらに含む方法。
  11. 請求項9の方法において、前記複数のポインタの少なくとも一つを、テキスト列の音節間に入れるステップをさらに含む方法。
  12. 請求項7の方法において、前記複数のポインタの少なくとも一つを、テキスト列の単語間に入れるステップをさらに含む方法。
  13. 請求項7の方法において、データ列はビデオ列から成ることを特徴とする方法。
  14. 請求項7の方法において、データ列はオーディオ列から成ることを特徴とする方法。
  15. スピーチと少なくとも一つの表情画とを含むフェイシャルアニメーションを復号化する方法であって、
    a)表情画の組に対応する所定の符号の組を求めてテキスト列をモニタするステップと、
    b)ビジュアルデコーダに信号を送信し、前記所定の符号の組の存在が検出されると特定の表情画をスタートさせるステップと、
    から成る方法。
  16. 請求項15の方法において、前記所定の符号は、表情画データ列へのポインタとして機能することにより、テキストデータ列と表情画データ列との間の同期関係を示すことを特徴とする方法。
  17. 請求項15の方法において、前記所定の符号は拡張シーケンスから成ることを特徴とする方法。
  18. 請求項15の方法において、前記所定の符号をテキスト列中の単語間に入れるステップをさらに含む方法。
  19. 請求項15の方法において、前記所定の符号をテキスト列中の音素間に入れるステップをさらに含む方法。
  20. 請求項15の方法において、前記所定の符号をテキスト列中の単語内に入れるステップをさらに含む方法。
  21. 符号化されたアニメーションを復号化する装置であって、 a)前記符号化されたアニメーションを受信し、テキスト列とフェイシャルアニメーションパラメータ列とを出力するデマルチプレクサであって、前記テキスト列は、フェイシャルアニメーションパラメータ中の複数の表情画とテキスト列中のテキストとの同期関係を示す複数の符号を含む、デマルチプレクサと、
    b)前記デマルチプレクサに結合されたテキスト/スピーチコンバータであって、テキスト列をスピーチに変換し、複数の音素、及び複数のリアルタイムタイムスタンプと複数の符号を1対1の対応で出力し、前記複数のリアルタイムタイムスタンプと複数の符号が前記複数の表情画と複数の音素との間の同期関係を示す、テキスト/スピーチコンバータと、
    c)前記テキスト/スピーチコンバータに結合された音素/ビデオコンバータであって、前記複数のリアルタイムタイムスタンプと複数の符号とに基づき、複数の表情画を複数の音素に同期させる音素/ビデオコンバータと、
    から成る装置。
  22. 請求項21の装置において、前記スピーチとビデオを合成ビデオ信号に変換する合成器(compositor)をさらに含むことを特徴とする装置。
  23. 請求項21の装置において、前記音素/ビデオコンバータは、
    a)同期化された複数の音素と複数の表情画に基づき、ワイヤフレーム画像を作成するフェイシャルアニメータと、
    b)前記デマルチプレクサとフェイシャルアニメータとに結合され、前記ワイヤフレーム画像に基づいてビデオイメージを作成するビジュアルデコーダと、
    を含むことを特徴とする装置。
JP2009135960A 1997-08-05 2009-06-05 符号列を整合させる方法および装置、ならびにデコーダ Expired - Lifetime JP4783449B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/905,931 1997-08-05
US08/905,931 US6567779B1 (en) 1997-08-05 1997-08-05 Method and system for aligning natural and synthetic video to speech synthesis

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP22207298A Division JP4716532B2 (ja) 1997-08-05 1998-08-05 アニメーション復号化装置

Publications (2)

Publication Number Publication Date
JP2009266240A true JP2009266240A (ja) 2009-11-12
JP4783449B2 JP4783449B2 (ja) 2011-09-28

Family

ID=25421706

Family Applications (2)

Application Number Title Priority Date Filing Date
JP22207298A Expired - Lifetime JP4716532B2 (ja) 1997-08-05 1998-08-05 アニメーション復号化装置
JP2009135960A Expired - Lifetime JP4783449B2 (ja) 1997-08-05 2009-06-05 符号列を整合させる方法および装置、ならびにデコーダ

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP22207298A Expired - Lifetime JP4716532B2 (ja) 1997-08-05 1998-08-05 アニメーション復号化装置

Country Status (5)

Country Link
US (3) US6567779B1 (ja)
EP (1) EP0896322B1 (ja)
JP (2) JP4716532B2 (ja)
CA (1) CA2244624C (ja)
DE (1) DE69819624T2 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6567779B1 (en) * 1997-08-05 2003-05-20 At&T Corp. Method and system for aligning natural and synthetic video to speech synthesis
US7366670B1 (en) 1997-08-05 2008-04-29 At&T Corp. Method and system for aligning natural and synthetic video to speech synthesis
JP3720230B2 (ja) * 2000-02-18 2005-11-24 シャープ株式会社 表現データ制御システム、および、それを構成する表現データ制御装置、並びに、そのプログラムが記録された記録媒体
FR2807188B1 (fr) * 2000-03-30 2002-12-20 Vrtv Studios Equipement pour production automatique en temps reel de sequences audiovisuelles virtuelles a partir d'un message textuel et pour la diffusion de telles sequences
AU2001248996A1 (en) * 2000-04-19 2001-10-30 Telefonaktiebolaget Lm Ericsson (Publ) System and method for rapid serial visual presentation with audio
KR100343006B1 (ko) * 2000-06-01 2002-07-02 김상덕 언어 입력형 얼굴 표정 제어방법
US7149686B1 (en) * 2000-06-23 2006-12-12 International Business Machines Corporation System and method for eliminating synchronization errors in electronic audiovisual transmissions and presentations
US7120583B2 (en) * 2000-10-02 2006-10-10 Canon Kabushiki Kaisha Information presentation system, information presentation apparatus, control method thereof and computer readable memory
US8046010B2 (en) 2006-03-07 2011-10-25 Sybase 365, Inc. System and method for subscription management
AU2008100836B4 (en) * 2007-08-30 2009-07-16 Machinima Pty Ltd Real-time realistic natural voice(s) for simulated electronic games
US10248931B2 (en) * 2008-06-23 2019-04-02 At&T Intellectual Property I, L.P. Collaborative annotation of multimedia content
US20090319884A1 (en) * 2008-06-23 2009-12-24 Brian Scott Amento Annotation based navigation of multimedia content
US20100070858A1 (en) * 2008-09-12 2010-03-18 At&T Intellectual Property I, L.P. Interactive Media System and Method Using Context-Based Avatar Configuration
US8225348B2 (en) 2008-09-12 2012-07-17 At&T Intellectual Property I, L.P. Moderated interactive media sessions
US9697535B2 (en) * 2008-12-23 2017-07-04 International Business Machines Corporation System and method in a virtual universe for identifying spam avatars based upon avatar multimedia characteristics
US9704177B2 (en) * 2008-12-23 2017-07-11 International Business Machines Corporation Identifying spam avatars in a virtual universe (VU) based upon turing tests
US8656476B2 (en) 2009-05-28 2014-02-18 International Business Machines Corporation Providing notification of spam avatars
KR102117082B1 (ko) 2014-12-29 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63225875A (ja) * 1986-11-26 1988-09-20 エロン・ギャスパー スピーチ同期アニメーション
JPH02234285A (ja) * 1989-03-08 1990-09-17 Kokusai Denshin Denwa Co Ltd <Kdd> 画像合成方法及びその装置
JPH04245789A (ja) * 1991-01-30 1992-09-02 Nec Corp データ管理方法
JPH0778074A (ja) * 1992-11-18 1995-03-20 Canon Inf Syst Inc マルチメディアのスクリプト作成方法とその装置
JPH08194494A (ja) * 1995-01-13 1996-07-30 Canon Inc 文解析方法および装置
JPH0916195A (ja) * 1995-07-03 1997-01-17 Canon Inc 情報処理装置及びその方法
JPH0922565A (ja) * 1995-07-06 1997-01-21 Sony Corp データ処理装置および方法
JPH0982040A (ja) * 1995-09-14 1997-03-28 Toshiba Corp 記録媒体とこの記録媒体へのデータの記録装置とその記録方法、その記録媒体からのデータの再生装置とその再生方法
JPH09138767A (ja) * 1995-11-14 1997-05-27 Fujitsu Ten Ltd 感情表現の通信装置
JPH09160575A (ja) * 1995-12-08 1997-06-20 Yamaha Corp カラオケ表示装置

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4520501A (en) * 1982-10-19 1985-05-28 Ear Three Systems Manufacturing Company Speech presentation system and method
GB8528143D0 (en) * 1985-11-14 1985-12-18 British Telecomm Image encoding & synthesis
US5111409A (en) * 1989-07-21 1992-05-05 Elon Gasper Authoring and use systems for sound synchronized animation
US5878396A (en) * 1993-01-21 1999-03-02 Apple Computer, Inc. Method and apparatus for synthetic speech in facial animation
US5473726A (en) * 1993-07-06 1995-12-05 The United States Of America As Represented By The Secretary Of The Air Force Audio and amplitude modulated photo data collection for speech recognition
US5608839A (en) * 1994-03-18 1997-03-04 Lucent Technologies Inc. Sound-synchronized video system
DE4331710A1 (de) * 1993-09-17 1995-03-23 Sel Alcatel Ag Verfahren und Vorrichtung zum Erstellen und Bearbeiten von Textdokumenten
US5623587A (en) * 1993-10-15 1997-04-22 Kideo Productions, Inc. Method and apparatus for producing an electronic image
US5657426A (en) * 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
US5634084A (en) * 1995-01-20 1997-05-27 Centigram Communications Corporation Abbreviation and acronym/initialism expansion procedures for a text to speech reader
US5930450A (en) * 1995-02-28 1999-07-27 Kabushiki Kaisha Toshiba Recording medium, apparatus and method of recording data on the same, and apparatus and method of reproducing data from the recording medium
US5806036A (en) * 1995-08-17 1998-09-08 Ricoh Company, Ltd. Speechreading using facial feature parameters from a non-direct frontal view of the speaker
US6477239B1 (en) * 1995-08-30 2002-11-05 Hitachi, Ltd. Sign language telephone device
SE519244C2 (sv) * 1995-12-06 2003-02-04 Telia Ab Anordning och metod vid talsyntes
US5880731A (en) * 1995-12-14 1999-03-09 Microsoft Corporation Use of avatars with automatic gesturing and bounded interaction in on-line chat session
US5802220A (en) * 1995-12-15 1998-09-01 Xerox Corporation Apparatus and method for tracking facial motion through a sequence of images
US5793365A (en) * 1996-01-02 1998-08-11 Sun Microsystems, Inc. System and method providing a computer user interface enabling access to distributed workgroup members
US5732232A (en) * 1996-09-17 1998-03-24 International Business Machines Corp. Method and apparatus for directing the expression of emotion for a graphical user interface
US5884029A (en) * 1996-11-14 1999-03-16 International Business Machines Corporation User interaction with intelligent virtual objects, avatars, which interact with other avatars controlled by different users
US5963217A (en) * 1996-11-18 1999-10-05 7Thstreet.Com, Inc. Network conference system using limited bandwidth to generate locally animated displays
KR100236974B1 (ko) * 1996-12-13 2000-02-01 정선종 동화상과 텍스트/음성변환기 간의 동기화 시스템
US5812126A (en) * 1996-12-31 1998-09-22 Intel Corporation Method and apparatus for masquerading online
US5920834A (en) * 1997-01-31 1999-07-06 Qualcomm Incorporated Echo canceller with talk state determination to control speech processor functional elements in a digital telephone system
US5818463A (en) * 1997-02-13 1998-10-06 Rockwell Science Center, Inc. Data compression for animated three dimensional objects
US5977968A (en) * 1997-03-14 1999-11-02 Mindmeld Multimedia Inc. Graphical user interface to communicate attitude or emotion to a computer program
US5983190A (en) * 1997-05-19 1999-11-09 Microsoft Corporation Client server animation system for managing interactive user interface characters
US6567779B1 (en) * 1997-08-05 2003-05-20 At&T Corp. Method and system for aligning natural and synthetic video to speech synthesis
US6177928B1 (en) * 1997-08-22 2001-01-23 At&T Corp. Flexible synchronization framework for multimedia streams having inserted time stamp
US5907328A (en) * 1997-08-27 1999-05-25 International Business Machines Corporation Automatic and configurable viewpoint switching in a 3D scene

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63225875A (ja) * 1986-11-26 1988-09-20 エロン・ギャスパー スピーチ同期アニメーション
JPH02234285A (ja) * 1989-03-08 1990-09-17 Kokusai Denshin Denwa Co Ltd <Kdd> 画像合成方法及びその装置
JPH04245789A (ja) * 1991-01-30 1992-09-02 Nec Corp データ管理方法
JPH0778074A (ja) * 1992-11-18 1995-03-20 Canon Inf Syst Inc マルチメディアのスクリプト作成方法とその装置
JPH08194494A (ja) * 1995-01-13 1996-07-30 Canon Inc 文解析方法および装置
JPH0916195A (ja) * 1995-07-03 1997-01-17 Canon Inc 情報処理装置及びその方法
JPH0922565A (ja) * 1995-07-06 1997-01-21 Sony Corp データ処理装置および方法
JPH0982040A (ja) * 1995-09-14 1997-03-28 Toshiba Corp 記録媒体とこの記録媒体へのデータの記録装置とその記録方法、その記録媒体からのデータの再生装置とその再生方法
JPH09138767A (ja) * 1995-11-14 1997-05-27 Fujitsu Ten Ltd 感情表現の通信装置
JPH09160575A (ja) * 1995-12-08 1997-06-20 Yamaha Corp カラオケ表示装置

Also Published As

Publication number Publication date
EP0896322B1 (en) 2003-11-12
US6862569B1 (en) 2005-03-01
JP4716532B2 (ja) 2011-07-06
EP0896322A2 (en) 1999-02-10
US6567779B1 (en) 2003-05-20
CA2244624C (en) 2002-05-28
EP0896322A3 (en) 1999-10-06
US20050119877A1 (en) 2005-06-02
US7110950B2 (en) 2006-09-19
JP4783449B2 (ja) 2011-09-28
CA2244624A1 (en) 1999-02-05
DE69819624D1 (de) 2003-12-18
DE69819624T2 (de) 2004-09-23
JPH11144073A (ja) 1999-05-28

Similar Documents

Publication Publication Date Title
JP4783449B2 (ja) 符号列を整合させる方法および装置、ならびにデコーダ
US6177928B1 (en) Flexible synchronization framework for multimedia streams having inserted time stamp
US7844463B2 (en) Method and system for aligning natural and synthetic video to speech synthesis
US5657426A (en) Method and apparatus for producing audio-visual synthetic speech
KR100240637B1 (ko) 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치
JP3215823B2 (ja) 人間の顔の合成モデルの音声信号駆動アニメーションの方法及び装置
US7145606B2 (en) Post-synchronizing an information stream including lip objects replacement
JPH10171486A (ja) 動画像とテキスト/音声変換器間の同期化システム
US7076426B1 (en) Advance TTS for facial animation
CN103902531A (zh) 汉语与外语自动实时语音翻译并标注字幕的音像录播方法
US6781581B1 (en) Apparatus for interfacing timing information in digital display device
KR19980036074A (ko) 디코더 시스템의 비디오/오디오 동기화 장치
JP2003339023A (ja) 動画再生装置
JPH06162168A (ja) 合成画像表示システム
JP2001119302A (ja) 符号化装置、復号装置、情報処理システム、情報処理方法、及び記憶媒体
KR980007659A (ko) 대사자막 변환 및 입력장치
JP2006191463A (ja) 符号化装置及び復号装置並びに符号化伝送システム
JP2002271738A (ja) 情報処理装置及びその制御方法及びコンピュータプログラム及び記憶媒体
KR20070054269A (ko) 영상 재생장치에서 영상 프레임의 재생 방법 및 장치
KR20080068377A (ko) 디지털 방송 수신기의 립싱크 방법
JP2003153260A (ja) 動画像ファイル生成装置
JP2003134516A (ja) 画像データまたは音声データ符号化ミドルウェア
JPH09238335A (ja) 音声信号付き動画像生成方式

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091110

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100204

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100209

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100310

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100810

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101210

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110705

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110708

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140715

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term