JP2007507784A - オーディオビジュアルコンテント合成システム及び方法 - Google Patents

オーディオビジュアルコンテント合成システム及び方法 Download PDF

Info

Publication number
JP2007507784A
JP2007507784A JP2006530945A JP2006530945A JP2007507784A JP 2007507784 A JP2007507784 A JP 2007507784A JP 2006530945 A JP2006530945 A JP 2006530945A JP 2006530945 A JP2006530945 A JP 2006530945A JP 2007507784 A JP2007507784 A JP 2007507784A
Authority
JP
Japan
Prior art keywords
speaker
audiovisual
face
speech
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006530945A
Other languages
English (en)
Inventor
ディミトロワ,ネヴェンカ
ミラー,アンドリュー
リ,ドォンゴォ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2007507784A publication Critical patent/JP2007507784A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23412Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs for generating or manipulating the scene composition of objects, e.g. MPEG-4 objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4314Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for fitting data in a restricted space on the screen, e.g. EPG data in a rectangular grid
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4751End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for defining user accounts, e.g. accounts for children
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Child & Adolescent Psychology (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Processing Or Creating Images (AREA)

Abstract

ビデオ画像プロセッサにおけるオーディオビジュアルコンテントを合成するシステムと方法を提供する。コンテント合成アプリケーションプロセッサは、話している話者を表すオーディオビジュアル入力信号からオーディオ的特徴とビデオ的特徴を抽出する。プロセッサは、抽出したビジュアル的特徴を用いて、話者の顔のコンピュータ生成アニメーションを生成する。プロセッサは、話者の顔のアニメーションの動きを、話者のスピーチを表す音素等の複数のオーディオ論理ユニットと同期させる。このように、プロセッサは、話者のスピーチと適正に同期した話者の顔のオーディオビジュアル表現を合成する。

Description

発明の詳細な説明
本発明は、一般的に、オーディオビジュアルシステムに関し、特に、ビデオ画像プロセッサにおけるオーディオビジュアルコンテントの合成システム及び方法に関する。
コンピュータサイエンスの発展により、コンピュータの速さと計算パワーが大きくなっている。コンピュータが人間のコンピュータユーザとコミュニケーションする時、そのコミュニケーションの大部分は、グラフィックスディスプレイに表示されたテキストメッセージの形式で行われ、人間のコンピュータユーザはコンピュータの画面からそのテキストメッセージを読み取る。一部のコンピュータアプリケーション、特にコンピュータゲームグラフィックスを表示するために開発されたものは、コンピュータにより生成された人間が話す視覚画像の形式で、コンピュータユーザにコンピュータ出力を提示することができる。特に、コンピュータは、人間の顔を動かし、離している話し手を表し、同時にその話者のスピーチを出力する。
話している人物の現実的な視覚的画像の生成は、コンピュータシステムには非常に難しい。その理由は、人間の顔は、話している間に、広い範囲の表情をすることができるからである。人間の顔は、感情を表す多数のかすかな特徴を示すことができ、話された言葉に追加的意味を与えることができる。各人間は生まれた時から表情を認識し解釈してきている。それゆえ、人間のコンピュータユーザは、コンピュータにより生成されたあまりうまくできていない動く人間の顔をすぐに見分けることができる。あまりうまくできていない動く人間の顔は、人間のコンピュータユーザにとって邪魔であることが多い。最悪の場合、あまりうまくできていない動く人間の顔により、それが話しているメッセージの理解を妨げることもある。
それゆえ、話している話者の現実的なオーディオビジュアル表現を生成することができるシステムと方法が必要である。コンピュータにより生成された動く人間の顔のために現実的な表情を生成することができるシステムと方法も必要とされている。
上述の先行技術の欠点を解決するため、本発明によるシステムと方法は、話している話者の現実的なオーディオビジュアル表現を提供することができる。本発明のシステムと方法は、コンピュータ生成のアニメーションの人間の顔の現実的な動きも生成することができる。
本発明のシステムと方法は、ビデオ画像プロセッサのコンピュータシステムにあるコンテント合成アプリケーションプロセッサを有する。そのコンテント合成アプリケーションプロセッサは、話している話者を表すオーディオビジュアル入力信号からオーディオ的特徴とビデオ的特徴を抽出する。プロセッサは、抽出したビジュアル的特徴を用いて、話者の顔のコンピュータ生成アニメーションを生成する。そのプロセッサは、話す顔の動きコンポーネントを表す隠れマルコフモデルまたは時間遅れニューラルネットワークのいずれかを用いて、話者の顔の特徴のビジュアルな顔の動きコンポーネントを分類する。
コンテント合成アプリケーションプロセッサは、話者のスピーチのオーディオ的特徴とビデオ的特徴の両方を抽出し分類する学習モジュールを有する。そのプロセッサは、音素等のオーディオ論理ユニットを表すため、隠れマルコフモデルまたは時間遅れニューラルネットワークのいずれかを用いて話者のスピーチの抽出したオーディオ的特徴を分類する。プロセッサは、次に、話者の顔のアニメーションの動きを、話者のスピーチを表す複数のオーディオ論理ユニットと同期させる。このように、プロセッサは、話者のスピーチと適正に同期した話者の顔の現実的なオーディオビジュアル表現を合成する。
本発明の有利な一実施形態において、トレーニングフェーズにおいて、プロセッサは、オーディオ的特徴と話者の顔のビデオ的特徴からオーディオビジュアル入力ベクトルを生成する。プロセッサは、次に、隠れマルコフモデルまたは時間遅れニューラルネットワークのいずれかを用いて、オーディオビジュアル入力ベクトルからオーディオビジュアル的な話す顔の動きコンポーネントを生成する。プロセッサは、次に、前記オーディオビジュアル入力ベクトルに意味的連想プロシージャを実行して、前記話者のスピーチを表す音素と前記話者の顔を現すvisemeとの間の関連を取得する。
認識フェーズにおいて、プロセッサは新しい入力ビデオを分析する。プロセッサは、話者のスピーチのオーディオ的特徴を抽出し、意味的連想プロシージャを用いてそのオーディオ的特徴に対する対応するビデオ表現を見つける。プロセッサは、次に、隠れマルコフモデルまたは時間遅れニューラルネットワークのいずれかを用いて、対応するビデオ表現をオーディオビジュアル的話す顔の動きコンポーネントとマッチさせる。プロセッサは、各選択されたオーディオビジュアル的話す顔の動きコンポーネントに対するコンピュータ生成アニメーションを生成し、各コンピュータ生成アニメーションの顔を話者のスピーチと同期させる。この最後の結果は、前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現を提供する出力である。
本発明の目的は、人間の顔に関するマルチメディア情報を生成し表示するためのシステムと方法を提供することである。
本発明の他の目的は、話している話者の現実的なオーディオビジュアル表現を生成し表示するシステムと方法を提供することである。
本発明の目的は、コンピュータ生成アニメーションの人間の顔の現実的な動きを生成し表示するためのシステムと方法を提供することである。
本発明の他の目的は、話者の顔のアニメーションの動きを話者のスピーチを表す複数のオーディオ論理ユニットと同期させるシステムと方法を提供することである。
本発明の目的は、また、ビデオ画像プロセッサにおけるオーディオビジュアルコンテントを合成するシステムと方法を提供することである。
前記は、当業者が以下に続く本発明の詳細な説明をよりよく理解できるように、本発明の特徴と技術的に有利な点を広く概説したものである。本発明の請求項の主題を形成する本発明の他の特徴と有利な点は、以下に説明する。当業者は、本発明と同じ目的を実行する他の構成を修正または設計する基礎として、開示した概念と具体的な実施形態を容易に使用することができることを理解すべきである。このような均等な構成は、本発明の技術分野の当業者は、最も広い形体の本発明の精神と範囲から逸脱しないことにも気づくべきである。
本発明の詳細な説明を理解する前に、この特許文献を通して使用される単語とフレーズの定義を規定しておくことは有利である。「含む」及び「有する」という用語とその派生形は、限定ではなく包含を意味する。
「または」という用語は包含的であり、「及び/または」を意味する。
「関連する」及び「これに関連する」という用語はその派生形も合わせて、含む、内部に含む、相互接続されている、含まれる、内部に含まれている、接続されている、結合している、通信可能である、協働する、インターリーブしている、並列する、隣接する、結合している、有する、特性を有する、その他の意味である。
「コントローラ」、「プロセッサ」、または「装置」という用語は、装置、システム、または少なくとも1つの動作を制御するシステムの一部を意味する。
このような装置は、ハードウェア、ファームウェア、またはソフトウェア、またはこれらの少なくとも2つの組み合わせで実施される。
留意すべきことは、具体的なコントローラと関連する機能は、集中していてもよいし分散していてもよく、ローカルでもリモートでもよい。特に、コントローラは、1つ以上のアプリケーションプログラム及び/またはオペレーティングシステムプログラムを実行する、1つ以上のデータプロセッサ、関連する入出力装置、メモリを有する。一部の単語及びフレーズの定義は、この特許文献を通して提供される。当業者は、それらの定義は、ほとんどでなくても多くの場合、それらの定義された単語とフレーズの、将来の使用のみではなく前の使用にも適用されることを理解すべきである。
本発明とその有利な点をより完全に理解するため、添付した図面を参照して、以下に説明する。同じ番号は同じ対象を指す。
図1ないし8(以下に説明する)及びこの特許文献において本発明の原理を説明するために使用するいろいろな実施形態は、例示であって、いかなる方法であっても本発明の範囲を限定するものと解釈してはならない。本発明は、いかなる好適なオーディオビジュアルシステムに使用してもよい。
図1は、本発明の原理によるコンテント合成アプリケーションプロセッサ109を有する(ディスプレイスクリーン115を有する)ディスプレイ部110とコンピュータ120の例を示すブロック図である。コンピュータ120は、オーディオビジュアル信号源130からオーディオビジュアル信号を受信する。信号源130は、事前に記録したオーディオビジュアル信号をコンピュータ120に供給してもよい。信号源130は、ライブまたは「ストリーミング」のオーディオビジュアル信号をコンピュータ120に供給してもよい。コンピュータ120は、ユーザ入力部140からユーザ入力信号も受信する。ユーザ入力部140は、(例えば、キーボード、マウス、コンピュータディスクファイルである)いかなる従来のユーザ入力信号源を有していてもよい。
コンピュータ120は、中央処理部(CPU)150とメモリ160とを有する。メモリ160は、オペレーティングシステムソフトウェア170とアプリケーションプログラム180とを有する。コンピュータ120は、また、本発明のコンテント合成アプリケーションプロセッサ190も有する。説明の都合上、CPU150とメモリ160とは別のユニットとして、コンテント合成アプリケーションプロセッサ190の構造と動作を説明する。しかし、当然のことながら、コンテント合成アプリケーションプロセッサ190は、本発明の方法を実行するために、コンピュータ120内のCPU150とメモリ160にアクセスし、これを利用してもよい。
より十分に説明するが、コンテント合成アプリケーションプロセッサ190は、話している話者を表す信号源130からのオーディオビジュアル入力信号を分析する。コンテント合成アプリケーションプロセッサ190は、信号源130からのオーディオビジュアル入力信号からオーディオ的特徴とビジュアル的特徴を抽出し、そのオーディオ的特徴とビジュアル的特徴を用いて、コンピュータで生成した話者の顔のアニメーションを生成し、話者のスピーチを伴う話者の顔のアニメーションを合成する。(同期したスピーチを有する)コンピュータ生成の話者の顔のアニメーションは、ディスプレイ部110のディスプレイ画面115に表示される。ディスプレイ部110は、従来のいかなるタイプのディスプレイ部(例えば、テレビジョン、コンピュータモニター、フラットパネルディスプレイスクリーン)を有していてもよい。
図2は、本発明のコンテント合成アプリケーションプロセッサをより詳細に示すブロック図である。コンテント合成アプリケーションプロセッサ190は、オーディオビジュアル信号(及びそのいろいろなコンポーネント)をメモリ部220に格納することができる。メモリ部220は、ランダムアクセスメモリ(RAM)を有する。メモリ部220は、フラッシュメモリ等の不揮発性ランダムアクセスメモリ(RAM)を有していてもよい。メモリ部220は、ハードディスクドライブ(図示せず)等の大容量記憶データ装置を有していてもよい。メモリ部220は、リード/ライトDVDや再書き込み可能CD−ROMを読み出す、外付けの周辺ドライブまたは(組み込みまたは外付けの)リムーバブルディスクドライブを有していてもよい。図2に示したように、このタイプのリムーバブルディスクドライブは、再書き込み可能CD−ROMディスク225に記録と読み出しが可能である。
コンテント合成アプリケーションプロセッサ190は、オーディオビジュアル信号をコントローラ230に供給する。コントローラ230は、コンテント合成アプリケーションプロセッサ190から制御信号を受け取り、コンテント合成アプリケーションプロセッサ190に制御信号を送ることができる。コントローラ230は、また、メモリ部220を介してコンテント合成アプリケーションプロセッサ190に結合している。
図2に示したように、コントローラ230は、コンテント合成アプリケーションソフトウェア235を有する。コンテント合成アプリケーションソフトウェア235は、本発明の方法を実行することができるコンピュータソフトウェアを含む。本発明のソフトウェアモジュールの一部を図3に示した。
コンテント合成アプリケーションソフトウェア235は、(1)顔のビジュアル表示をするモジュール310、(2)顔の特徴をトラッキングするモジュール320、(3)学習モジュール330、(4)オーディオのスピーチ部分を取得するモジュール340、(5)スピーチのオーディオ的特徴を抽出するモジュール350、(6)顔のオーディオビジュアル的特徴マッチング及び分類モジュール360、(7)選択パラメータ用の顔アニメーションモジュール370、及び(8)話す顔アニメーション及び同期モジュール380を有する。ソフトウェアモジュールの機能は以下により詳しく説明する。
コンテント合成アプリケーションプロセッサ190は、コントローラ230とコンテント合成アプリケーションソフトウェア235とを有する。コントローラ230とコンテント合成アプリケーションソフトウェア235は共に、本発明を実行することができるコンテント合成アプリケーションプロセッサを有する。
前述したように、コンテント合成アプリケーションプロセッサ190は、オーディオビジュアル入力信号からオーディオ的特徴とビジュアル的特徴を抽出し、そのオーディオ的特徴とビジュアル的特徴を用いてコンピュータ生成した話者の顔のアニメーションを生成する。コンテント合成アプリケーションプロセッサ190は、また、コンピュータ生成した話者の顔のアニメーションをその話者のスピーチに同期させる。この結果を達成するために、コンテント合成アプリケーションプロセッサ190は、オーディオビジュアル信号からオーディオ的特徴とビジュアル的特徴を最初に取得する。
図4は、コンテント合成アプリケーションプロセッサ190が、オーディオビジュアル信号から話す顔の動くコンポーネント(SFMC)をいかに取得するかを示す図である。図4に示した要素は、参照数字400により集合的に参照される。図4の入力オーディオビジュアル信号は、信号源410により表される。信号源410は、オーディオビジュアル信号をモジュール310に供給する。モジュール310は、オーディオビジュアル信号から話者の顔のビジュアル表示を取得する。モジュール310は、W. R. RabinerとA. Jacquinによる論文「Object Tracking Using Motion-Adaptive Modeling of Scene Content」Proceedings of Globecom '96, Volume 2, pp. 877-881 (November 1996)に記載されたタイプのシステムを有する。モジュール310は、モジュール320に話者の顔のビジュアル表示を供給する。
モジュール320は、話者の顔の表面的特徴をトラッキングする。モジュール320は、G. Hager and K. Toyamaによる論文「The XVision System: A General Purpose Substrate for Portable Real-Time Vision Applications」Computer Vision and Understanding, Volume 69(1), pp. 23-37 (1997)に記載されたタイプのXVisionソフトウェアシステムを有していてもよい。XVisionシステムは、ビデオストリーム内のエッジ、コーナー、または領域を追跡することができる特徴ベースで相関ベースの複数の異なるトラッカーを備えている。モジュール320は、話者の顔の特徴のトラッキング情報を学習モジュール330に供給する。
オーディオビジュアル信号源410は、また、オーディオビジュアル信号をモジュール340に供給する。モジュール340は、モジュール310により顔が識別された話者のオーディオ信号のスピーチ部分を取得する。モジュール340は、Dongge Li, Ishwar K. Seti, Nevenka Dimitrova及びThomas McGeeによる論文「Classification of General Audio Data for Content-Based Retrieval」Pattern Recognition Letters, Volume 22 (5), pp. 533-544 (2001)に記載されたタイプのシステムを有する。モジュール340は、話者のスピーチをモジュール350に供給する。モジュール350は、話者のスピーチのオーディオ的特徴を抽出する。モジュール350は、また、前述の論文「"Classification of General Audio Data for Content-Based Retrieval」に記載されたタイプのシステムを有する。モジュール350は、その後、抽出した話者のスピーチのオーディオ的特徴を学習モジュール330に供給する。以下により詳細に説明するように、学習モジュール330は、モジュール320からの入力とモジュール350からの入力を分類し、話す顔の動きコンポーネント(SFMC)420を求める。話す顔の動きコンポーネント(SFMC)420は、データベース(図5に示した)に格納される。
学習モジュール330は、複数の異なるタイプの過程を実行することができるソフトウェアモジュールを有する。学習モジュール330により実行される過程の1つのタイプは、隠れマルコフモデルを用いてバウム・ウェルチアルゴリズムを用いたトレーニングを行うものである。学習モジュール330により実行される過程の他のタイプは、隠れマルコフモデルを用いてビタビアルゴリズムを用いて認識するものである。学習モジュール330は、隠れマルコフモデルの替わりに時間遅れニューラルネットワーク(TDNN)を用いることもできる。学習モジュール330は、意味的連想計算を実行するプロセスを実行することもできる。
本発明の有利な一実施形態において、学習モジュール330は、隠れマルコフモデル(HMM)を用いて、(モジュール320から入力される)話者の顔の特徴と、(モジュール350からの入力される)抽出された話者のスピーチのオーディオ的特徴を分類する。モジュール320とモジュール350からのデータの値は、n次元の特徴ベクトルf=f(f1,f2,f3,...,fn)の要素として用いられる。特徴ベクトルが時間セグメントに対して記録される。そして、観測シンボルは隠れマルコフモデル(HMM)に入力される。
隠れマルコフモデル(HMM)は、信号処理の分野で広く用いられている方法である。隠れマルコフモデル(HMM)は、観測(シンボル)の生起を説明するモデルを構成し、そのモデルを用いて他の観測シーケンスを特定する。隠れマルコフモデル(HMM)とその応用に関する背景情報については、L. R. Rabinerによる論文「A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition」Proceedings of the IEEE, Volume 77, Pages 257-285 (1989)を参照せよ。
HMMでは、利用可能な状態数は有限であり、いずもそれらの状態の1つにいる。各クロック時間において、HMMは、前の状態に依存する遷移確率分布に基づく新しい状態に入る。遷移後、HMMは、現在の状態に依存する確率分布に基づき出力シンボルを生成する。HMMの形式的定義においては、状態はQ={q1,q2,q3,...,qN}と表される。ここで、Nは状態数である。観測シンボルはV={v1,v2,v3,...,vM}と表される。ここで、Mはシンボル数である。状態間の遷移確率分布は行列A={aij}で表される。ここで、aij=Pr{qj at t+1|qi at t}である。観測シンボル確率分布は、行列B={bj(k)}により表される。ここで、bj(k)は、現在の状態がqjであるときにvkを生成する確率である。
学習モジュール330におけるHMMの動作は、2つのフェーズで進行する。第1のフェーズはトレーニングであり、第2のフェーズは分類フェーズである。トレーニングフェーズを最初に説明する。学習モジュール330は、複数の異なるHMMを構成し、ここで各HMMは異なる論理ユニットに対応する。論理ユニットは単語、音素、またはvisemeである。本発明の有利な一実施形態において、論理ユニットは音素である。音素は、話言葉の音の単位であり、それにより発話が表現される。各話し言葉は異なる音素の組を有する。ロングマン米語辞典によると、米語には46個の音素がある。米語の音素数については議論がなされている。人によっては、40、43、48、または50の音素があるとしている。
本発明の有利な他の実施形態において、論理ユニットはvisemeである。visemeは、音を記述するのに仕様できる一般的な顔の画像である。人がそれぞれ区別できる音を発音するとき、話者の唇の動きは異なる。音に対応する顔の画像はvisemeと呼ばれる。visemeは、音素の視覚的等価物である。耳の不自由な人は、visemeを見ることにより音を視覚的に見ている。このように、耳の不自由な人は話者の「唇を読み」、話されていることを判断する。
学習モジュール330は、特徴ベクトル値の集まりを用いてトレーニングを積むことによって、複数の異なるHMMを構成する。ラムダ(λ)=(A,B,π)として、HMMトレーニングは、観測シーケンスPr(O|λ)を最大化するために、λのパラメータを調節する段階を有する。記号πは、初期状態分布を表し、π={πi}として定義される。ここで、πiは、状態qiがHMMの初期状態である確率である。文字Oは観測シーケンスを表す。
学習モジュール330は、話している人物を正面から記録することにより取得したデータの組を収集する。所定数のセンテンス(例えば、200センテンス)をスピーチデータベースのテキストコーパスから選択する。オーディオ信号とビデオ信号の両方を毎秒30フレーム(30fps)でデジタル化し、分析する。これにより、オーディオビジュアルトレーニングデータサンプルができる。データサンプルの半分をトレーニング用に用いる。データサンプルの半分を分類(すなわち、テスト)用に用いる。
最初に、オーディオデータサンプルを考える。各スピーチセグメントについて、オーディオ的特徴として、異なるオーディオ係数のセレクションを計算する。分類に使用できる音響的特徴は複数ある。それには、MFCC(Mel Cepstral Frequency Coefficients)、LPC(線形予測コーディング係数)、デルタMFCC、デルタLPC、自己相関MFCC、いくつかの時間的特徴、及びいくつかのスペクトル的特徴が含まれる。MFCC特徴は、フィルターバンクされた高速フーリエ変換(FFT)スペクトルの離散余弦変換(DCT)を用いて抽出される。例えば、A. M. Nollによる論文「Cepstrum Pitch Determination」The Journal of the Acoustical Society of America, Volume 41, No. 2, pp. 293-309 (1967)を参照せよ。MFCCの計算は、時間軸に沿ってウィンドウされた入力データについて、フレーム毎に実行される。使用するウィンドウには、方形ウィンドウとハミングウィンドウが含まれる。
LPC特徴は、自己相関法を用いて抽出してもよい。例えば、R. P. Ramachandrian et al.による論文「A Comparative Study of Robust Linear Predictive Analysis Methods with Applications to Speaker Identification」、IEEE Transactions on Speech and Audio Processing, Volume 3, No. 2, pp. 117-125 (March 1995)を参照せよ。
デルタMFCC特徴は、次の関係を用いて、MFCC特徴を用いて抽出される:
Figure 2007507784
デルタMFCCの値は、MFCCの隣接する値間の差である。
デルタLPC特徴は、次の関係を用いて、LPC特徴を用いて抽出される:
Figure 2007507784
デルタLPCの値は、LPCの隣接する値間の差である。
自己相関MFCC特徴は、次の関係を用いて、MFCC特徴を用いて抽出される:
Figure 2007507784
ここで、値Lはウィンドウの長さを表し、インデックスiは時刻を表し、インデックスjは他の時刻を表す。
ここで、ビジュアルデータサンプルを考える。コンテント合成アプリケーションプロセッサ190は、顔の動きトラッキングアルゴリズムを用いて、ビジュアルな顔の動きコンポーネントを分析する。ビジュアルな顔の動きコンポーネントは、一定レベルの精度(例えば単語、音)における顔の歪み(すなわち、静的モデルからの変形)に対応する。出力は、具体的な話す顔の動きコンポーネント(SFMC)に対応するトレーニングされたHMMである。このデータセットを用いて、オーディオからビジュアルへのマッピングのトレーニングを行う。トレーニングの目的は、HMMであるの全てに対するモデルλを見つけることである。本発明のグラフィックスドリブンの顔のアニメーションシステム及び方法により、人間の顔に関係するマルチメディア情報を配信及び表示する問題に対する効果的な解決策が提供される。
本発明の有利な他の実施形態において、論理ユニットはオーディオビジュアル入力ベクトルである。トレーニングプロセスの間、学習モジュール330は、オーディオ的特徴とビデオ的特徴を連結し、オーディオビジュアル入力ベクトルを生成する。オーディオビジュアル入力ベクトルは、ハイブリッドな論理ユニットである。というのは、話された音素を表す特定のオーディオビジュアルな話す顔の動きコンポーネントに対応する音素とvisemeの両方の特性を表す論理ユニットだからである。出力は、具体的な話す顔の動きコンポーネント(SFMC)に対応するトレーニングされたHMMである。
Matthew Brandによる論文「Voice Puppetry」Computer Graphics Proceedings, ACM SIGGRAPH, pp. 21-28 (August 1999)に記載されたような、先行技術によるシステムを考える。ボイスパペトリー(Voice Puppetry)システムにおいては、関連する話す顔の動きコンポーネントはビジュアル空間にしかない。これとは対照的に、本発明においては、関連する話す顔の動きコンポーネントはオーディオビジュアル空間にある。オーディオビジュアル空間にある動く顔の動きコンポーネントを使用する有利な点は、それにより分析がより包括的かつ正しくなるからである。例えば、ビジュアル空間において、シラブル「pa」とシラブル「ba」とは同じように見える。しかし、これらのシラブルの発音は異なる。本発明のオーディオビジュアル空間においては、「pa」シラブルのオーディオビジュアル入力ベクトルと「ba」シラブルのオーディオビジュアル入力ベクトルは、明らかに区別される。
学習モジュール330も、各オーディオビジュアル入力ベクトルの音素とviseme間のマッピングを特定するために、意味的連想(クロスモデル連想とも呼ぶ)を提供する。クロスモデル連想の場合、異なる媒体源(例えば、オーディオと画像)から抽出した低レベルの特徴を、同期した相関パターンに基づいて互いにマッチさせることができる。また、クロスモデル連想を利用して、第1のタイプの媒体源(例えばオーディオ)からのクエリーを用いて、異なるタイプの媒体源(例えば、画像シーケンス)のコンテントをサーチする。例えば、D. LiとN. Dimitrovaにより2002年11月15日に出願された米国特許出願(DocketNo.703002)「Content Retrieval Based on Semantic Association」を参照せよ。特許出願「Content Retrieval Based on Semantic Association」は本発明の譲受人により保有されており、ここで全ての目的のために参照により援用する。
学習モジュール330により利用されるクロスモデル法は、前述のボイスパペトリーシステムで利用されるような先行技術による方法よりも、非常に効率的である。ボイスパペトリーシステムは、オーディオとビジュアルのパターンを関連づけるために非常に複雑かつコストの高い方法を必要とする。学習モジュール330により利用されるクロスモデル法は、従来のコンテントベースのマルチメディアリトリーバルシステムと同様の方法による低レベルの機能に直接基づくものである。学習モジュール330により利用されるクロスモデル法は、(1)潜在意味的インデックス、(2)カノニカル相関、または(3)クロスモデル要因分析のいずれかを利用してもよい。
潜在的意味的インデックス(LSI)は、異なるテキストユニット(例えば、キーワードとパラグラフ)間の根底にある意味的関係を発見するために使用するテキスト情報リトリーバルにおける強力なツールである。ビジュアルな顔とそれと関連するスピーチの間の意味的相関を検出する方法は、LSIに基づいている。この方法は、4つの段階を有する:ジョイントマルチモデル特徴空間の構成、規格化、特異値分解(SVD)、及び意味的連想測定である。
t個のビデオフレームにおけるn個のビジュアル的特徴とm個のオーディオ的特徴が与えられた場合、ジョイント特徴空間は次のように表される:
Figure 2007507784
ここで、
Figure 2007507784
であり、かつ
Figure 2007507784
いろいろなビジュアル的特徴とオーディオ的特徴は非常に異なる値を取り得る。それゆえ、ジョイント空間中の各特徴をその最大要素(または他の一定の統計的測定)により正規化する必要があり、次のように表すことができる:
Figure 2007507784
規格化後、規格化された行列
Figure 2007507784
中の全ての要素は−1から1の間の値を有する。SVDを次のように実行することができる:
Figure 2007507784
ここで、SとDは、左と右の特異ベクトルを構成する行列であり、Vは特異値が降順に並んだ対角行列である。
SとDの最初の最も重要なk個の特異ベクトルのみを残して、特徴次元を下げて
Figure 2007507784
の最適近似を導くことができる。ここで、ビジュアル的及びオーディオ的特徴の間の意味的(相関)情報が最も保存され、無関係のノイズは大幅に削減される。従来のピアソン相関または相互情報計算を用いて、異なるモダリティ間の意味的連想の有効な特定と測定をすることができる。実験によると、LSIは有効であり、従来の相関計算に直接使用することができるという有利な点もある。
最小自乗という意味での
Figure 2007507784
の上記最適化は、次のように表すことができる。
Figure 2007507784
ここで、
Figure 2007507784
Figure 2007507784
、及び
Figure 2007507784
は、それぞれ、S、V、D中の最初のk個のベクトルから構成されている。kの適当な値の選択については、まだ議論が固まっていない。一般に、kは、意味的構造のほとんどを保存するくらい大きく、無関係なノイズの一部を削減するくらい小さくなければならない。分解はすぐに実行しなければならないので、式(6)は、グローバルまたはオフラインのトレーニングを用いるアプリケーションには適用できない。しかし、特異ベクトルは直交性があるので、式(6)を新しく次のように書き換えることができる。
Figure 2007507784
この導出された新しい式(7)は、グローバルまたはオフラインのトレーニングがされたSVDの結果を必要とするアプリケーションにとって重要である。
新しく入来するオーディオの分析は、マッチするビデオと最もありそうな顔の動きを見つける意味的連想法により実行される。意味的連想の3つの方法において、すべて、変換行列を用いて、低レベルの特徴を下げられた特徴空間に変換する。ここで、異なるタイプの媒体源の候補のクエリーとサーチの間のマッチングが評価される。例えば、潜在的意味的インデックスの場合、上の式(7)から導き出した変換行列を用いる。マッチングの評価は、最も高い相関(すなわち、最もよい一致)を探すために、変換後の空間におけるピアソン相関または相互情報に基づき実行される。
本発明の有利な他の実施形態において、学習モジュール330は、時間遅れニューラルネットワーク(TDNN)を用いて、(モジュール320から入力される)話者の顔の特徴と、(モジュール350からの入力される)抽出された話者のスピーチのオーディオ的特徴を分類する。時間遅れニューラルネットワーク(TDNN)の一般的アーキテクチャに関する背景情報は、S. Curinga et al.による論文「Lip Movements Synthesis Using Time-Delay」Proceedings of the European Signal Processing Conference, 1996 (1996)を参照せよ。
TDNNは、音素認識をせずに調音パラメータの推定をすることができ、共調音効果を好適にモデル化することができる。TDNNにおけるニューロンの活性化は、ウィンドウの各位置における入力ウィンドウの加重合計を計算し、その合計にシグモイド活性化関数を適用することにより、各ニューロンに対して計算される。入力ノードの各グループ(重み付き受容フィールドと呼ばれる)は、入力シンボルストリームの小さなウィンドウしかとらず、各時間ステップにウィンドウ中を1ステップずつ「進む」。隠れレイヤーの出力も、シェアードウェイトを用いて受容ウィンドウでカバーされる。ネットワーク出力は、出力ニューロンの異なる時間ステップの自乗合計により構成される。
トレーニングプロセスのTDNNへの入力は、HMMの場合と同じように、一連の入力シンボルにより構成される。TDNNにより実行される分類プロセスは、HMMにより実行されるものと同様である。学習モジュール330は、TDNNを用いて、話者の顔の特徴(モジュール320からの入力)と、話者の抽出されたオーディオ的特徴(モジュール350からの入力)を分類し、前述のタイプのオーディオビジュアル入力ベクトルを生成することができる。
図5は、コンテント合成アプリケーションプロセッサ190が話す顔の動きコンポーネント(SFMC)とその他のパラメータをどのように用い、話す顔のアニメーションを話者のスピーチとどのように合成し同期させるかを示す図である。図5に示した要素は、顔のアニメーション部500として集合的に参照される。離れた場所へコミュニケーションチャンネルを介して信号を伝送するアプリケーションにおいては、顔のアニメーション部500は、コミュニケーションチャンネルのレシーバ側に置かれる。分類プロセスは、コミュニケーションチャンネルの送信者側で実行される。顔のアニメーション及び同期プロセスは、コミュニケーションチャンネルのレシーバ側で実行される。
顔のアニメーション部500の顔のオーディオビジュアル的特徴マッチングと分類モジュール360は、データベース505と結合しており、それからの入力を受信する。データベース505は、話す顔の動きコンポーネント(SFMC)を含む。顔のオーディオビジュアル的特徴マッチングと分類モジュール360は、話す顔のビジュアルパラメータモジュール510から、話す顔のビジュアルパラメータも受信する。スピーチモジュール520は、オーディオ的特徴抽出モジュール530に話者の話した言葉のオーディオを供給する。オーディオ的特徴抽出モジュール530は、スピーチからオーディオ的特徴を抽出し、それを顔のオーディオビジュアル的特徴マッチングと分類モジュール360に供給する。
分類プロセスの際、同じオーディオビジュアルシンボルが、トレーニングプロセスについて前述したのと同じ方法でオーディオビジュアル信号から抽出される。顔のオーディオビジュアル的特徴マッチングと分類モジュール360は、分類プロセスを実行し、オーディオビジュアル的特徴をトレーニングプロセスについて前述した所定のクラスの1つに分類する。分類プロセスの精度(例えば、単語、音素)は、トレーニングプロセスの精度と同じレベルである。
そして、顔のオーディオビジュアル的特徴マッチングと分類モジュール360は、選択されたパラメータ用顔のアニメーションモジュール370にその分類情報を送る。選択されたパラメータ用顔のアニメーションモジュール370は、3次元(3D)顔モデルモジュール540とテクスチャマップモジュール550からの追加的入力を受信する。選択パラメータ用顔アニメーションモジュール370は、適当な分類に対応する顔のアニメーションパラメータを用いて話者の顔を合成する(すなわち、コンピュータで生成した話者の顔のアニメーションを生成する)。
先行技術システムのほとんどは、音素ベース及びvisemeベースの唇同期システムである。このようなシステムは、話者の顔を合成する問題を、ポーズ間の補間またはスプライニングにより解決する。対照的に、本発明は、意味的(クロスモーダル)連想を用いて、個々のvisemeシーケンスのみだけではなく、個々のvisemeシーケンスも使用する。
選択パラメータ用顔アニメーションモジュール370の出力は、話す顔のアニメーション及び同期モジュール380に送られる。話す顔のアニメーション及び同期モジュール380は、スピーチモジュール520からも入力を受け取る。話す顔のアニメーション及び同期モジュール380は、顔のアニメーション情報をスピーチモジュール520からのスピーチ入力と同期させ、話者のスピーチと同期した話者の顔のアニメーション画像を生成し、出力する。
任意的オーディオ表示分類モジュール560は、オーディオ的特徴抽出モジュール530と話す顔のアニメーション及び同期モジュール380の間に結合される。オーディオ表示分類モジュール560は、オーディオ表示のレベル(例えば、大きな声、興奮した声、普通の声、柔らかい声)を決定し、その決定に従ってオーディオを分類する。オーディオ表示分類に応じて、話す顔のアニメーション及び同期モジュール380は、アニメーションの顔のパラメータを修正して、話者の顔のアニメーションをより正しく表すように一定の特徴を強調する。
図6は、本発明の方法の有利な実施形態の第1部分のステップを示すフローチャートである。図6に示した方法のステップは、参照数字600により集合的に参照される。最初のステップにおいて、コンテント合成アプリケーションプロセッサ190は、話している話者のオーディオビジュアル信号を受信する(ステップ610)。コンテント合成アプリケーションプロセッサ190は、そのオーディオビジュアル信号を分析し、話者の顔のビジュアル表示を取得する(ステップ620)。コンテント合成アプリケーションプロセッサ190は、その次に、話者の空間的特徴のトラッキング情報を取得する(ステップ630)。学習モジュール330は、隠れマルコフモデルを用いてビジュアルな顔の動きコンポーネントを分類し、各話す顔の動きコンポーネント(SFMC)を表す(ステップ640)。本発明の方法は、図7に示したステップ710に続く(ステップ650)。
ステップ620に記載した動作と同時に、コンテント合成アプリケーションプロセッサ190は、話者のスピーチを含むオーディオの一部を取得する(ステップ660)。コンテント合成アプリケーションプロセッサ190は、その次に、話者のスピーチのオーディオ的特徴を抽出する(ステップ670)。学習モジュール330は、隠れマルコフモデルを用いてオーディオ的特徴を分類し、各オーディオ論理ユニット(例えば、音素)を表す(ステップ680)。本発明の方法は、図7に示したステップ710に続く(ステップ650)。
図7は、本発明の方法の有利な実施形態の第2部分のステップを示すフローチャートである。図7に示した方法のステップは、参照数字700により集合的に参照される。図7に示した最初のステップにおいて、コンテント合成アプリケーションプロセッサ190は、入力として、(1)分析すべき新しいオーディオ信号、(2)ステップ640からの話す顔の動きコンポーネント(SFMC)、及び(3)ステップ680からの分類されたオーディオ的特徴を受け取る(ステップ710)。コンテント合成アプリケーションプロセッサ190は、次に、各動く顔のコンポーネント(SFMC)を各対応する分類されたオーディオ的特徴とマッチさせる(ステップ720)。コンテント合成アプリケーションプロセッサ190は、各選択されたオーディオビジュアルパラメータに対して話者を表現するコンピュータ合成のアニメーションの顔を生成する(ステップ730)。
コンテント合成アプリケーションプロセッサ190は、コンピュータ生成した話者の顔の各アニメーションをその話者のスピーチに同期させる(ステップ740)。 これにより、前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現が生成される。話者の顔のオーディオビジュアル表現は、ディスプレイ部110に出力される(ステップ750)。
図8は、本発明の方法の有利な実施形態の第3部分のステップを示すフローチャートである。図8に示した方法のステップは、参照数字800により集合的に参照される。学習モジュール330は、オーディオビジュアル入力ベクトルを受け取り、オーディオビジュアル的話す顔の動きコンポーネント(SFMC)を隠れマルコフモデルを用いて生成する(ステップ810)。学習モジュール330は、オーディオビジュアル入力ベクトルを受信し、オーディオビジュアル的話す顔の動きコンポーネント(SFMC)を生成し、意味的連想を用いて、音素とviseme間の関連性(すなわち、マッピング)を取得する(ステップ820)。
コンテント合成アプリケーションプロセッサ190は、次に、分析すべき新しいオーディオ信号を受信し、モジュール350を用いて話者のスピーチのオーディオ的特徴を抽出する(ステップ830)。コンテント合成アプリケーションプロセッサ190は、次に、意味的連想を用いて、抽出したオーディオ的特徴に対応するビデオ表現を見つける(ステップ840)。コンテント合成アプリケーションプロセッサ190は、次に、隠れマルコフモデルを用いて、オーディオ表現をオーディオビジュアル的話す顔の動きコンポーネント(SFMC)とマッチさせる(ステップ850)。
コンテント合成アプリケーションプロセッサ190は、各選択されたオーディオビジュアル的話す顔動きコンポーネント(SFMC)に対して話者を表現するコンピュータ合成のアニメーションの顔を生成する(ステップ860)。コンテント合成アプリケーションプロセッサ190は、コンピュータ生成した話者の顔の各アニメーションをその話者のスピーチに同期させる(ステップ870)。これにより、前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現が生成される。話者の顔のオーディオビジュアル表現は、ディスプレイ部110に出力される(ステップ880)。
前述のステップ730、740、及び750と、前述のステップ860、870、880において、顔のアニメーションを生成するのにコンピュータグラフィックスアプローチを使用した。しかし、別の方法を用いてもよい。別の方法において、話されたフレーズやセンテンスに対応するビジュアル出力を生成するために、話者の格納されたビデオセグメントを用いてもよい。意味的連想を用いてオーディオビジュアルセグメントを取得した後、ビデオセグメントのシーケンスを取得する。これらのセグメントはそれぞれ個々の音素に対応している。しかし、時間点を「縫い合わせる」プロセスにおいて、結果として得られるビデオの動きはぎくしゃくしてしまうことがある。これらのセグメントをセンテンスまたはフレーズ全体に対応する単一のビデオに編集することができる。ビデオのモーフィングと編集を用いて、個々のビデオセグメント間のぎくしゃくした感じを減らすことができる。このアプローチの有利な点は、コンピュータグラフィックスアプローチの基礎である3次元モデルとテクスチャマッピングを使用する必要が無いことである。
本発明のシステムと方法は、例えば、テレビ会議、インターラクティブビデオアプリケーション、及びオブジェクトレベルビデオ編集で使用することができる。話されたスピーチに対応する顔の動きを正しく表すアニメーションの顔を表すために、ユーザはテキストまたはスピーチを送信するだけでよい。本発明は、アニメーションの話す顔を生成し、伝送の受信側においてビジュアルなスピーチ要素を合成することにより、話されたテキストを表示する。本発明のシステムと方法は、伝送チャンネルを介してオーディオ信号を伝送する。本発明のシステムと方法は、伝送の受信側に、話された言葉の正しいビジュアル的特徴を表出させるためにどのようにアニメーションの顔を駆動するかを知らせる少数のパラメータも伝送する。パラメータは、送信者側で実行されたオーディオビジュアル分類に関係する。
この特許出願書類を通して、話す顔の動きコンポーネント(SFMC)を生成し使用することができるとして本発明を説明した。当然のことながら、本発明は、話す顔の動きコンポーネント(SFMC)を生成及び使用することに限定はされない。本発明は、他のタイプのオーディオビジュアル設定を生成及び使用することもできる。話す顔の動きコンポーネントは、本発明が生成し使用することができるオーディオビジュアル設定の1つの具体的な実施形態に過ぎない。
本発明をその実施形態を参照して詳細に説明したが、当業者は、本発明の最も広い形体におけるコンセプトと範囲から逸脱することなく、本発明にいろいろな変更、挿入、修正、改変、適応をできることを理解すべきである。
本発明の原理によるコンテント合成アプリケーションプロセッサを有するディスプレイとコンピュータの例を示すブロック図である。 本発明のコンテント合成アプリケーションプロセッサをより詳細に示すブロック図である。 本発明のソフトウェアモジュールの一部を示すブロック図である。 本発明のコンテント合成アプリケーションプロセッサが話す顔の動きコンポーネント(SFMC)をどのように求めるかを示すブロック図である。 本発明のコンテント合成アプリケーションプロセッサが話す顔の動きコンポーネント(SFMC)と他のパラメータをどのように用いて、話す顔のアニメーションを話者のスピーチと同期させるかを示すブロック図である。 本発明の方法の有利な実施形態の第1部分のステップを示すフローチャートである。 本発明の方法の有利な実施形態の第2部分のステップを示すフローチャートである。 本発明の方法の有利な実施形態の第3部分のステップを示すフローチャートである。

Claims (33)

  1. 話している話者を表すオーディオビジュアル入力信号を受け取り、話者のスピーチを表す複数のオーディオ論理ユニットを用いて前記話者の顔のアニメーションを生成する、デジタルコミュニケーションシステムにおける装置であって、
    前記装置はコンテント合成アプリケーションプロセッサを有し、前記コンテント合成アプリケーションプロセッサは、
    前記オーディオビジュアル入力信号から話者のスピーチのオーディオ的特徴と話者の顔のビジュアル的特徴とを抽出し、
    前記オーディオ的特徴と前記ビジュアル的特徴とからオーディオビジュアル入力ベクトルを生成し、
    前記オーディオビジュアル入力ベクトルからオーディオビジュアル設定を生成し、
    前記オーディオビジュアル入力ベクトルに意味的連想プロシージャを実行して、前記話者のスピーチを表す音素と前記話者の顔を現すvisemeとの間の関連を取得することを特徴とする装置。
  2. 請求項1に記載の装置であって、
    前記コンテント合成アプリケーションプロセッサは、
    話者のスピーチのオーディオ的特徴を抽出し、
    意味的連想プロシージャを用いて前記オーディオ的特徴に対する対応するビデオ表現を見つけ、
    前記対応するビデオ表現を前記オーディオビジュアル設定とマッチングすることにより、入力オーディオ信号を分析することを特徴とする装置。
  3. 請求項2に記載の装置であって、
    前記コンテント合成アプリケーションプロセッサは、さらに、
    選択された各オーディオビジュアル設定に対するコンピュータ生成のアニメーションの顔を生成し、
    コンピュータ生成のアニメーションの各顔を前記話者のスピーチと同期させ、
    前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現を出力することができることを特徴とする装置。
  4. 請求項1に記載の装置であって、
    前記コンテント合成アプリケーションプロセッサが前記オーディオビジュアル入力信号から抽出する前記オーディオ的特徴は、Mel Cepstral周波数係数、線形予測符号化係数、デルタMel Cepstral周波数係数、デルタ線形予測符号化係数、及び自己相関Mel Cepstral周波数係数のうちの1つを有することを特徴とする装置。
  5. 請求項1に記載の装置であって、
    前記コンテント合成アプリケーションプロセッサは、隠れマルコフモデルと時間遅れニューラルネットワークの1つを用いて前記オーディオビジュアル入力ベクトルからオーディオビジュアル設定を生成することを特徴とする装置。
  6. 請求項2に記載の装置であって、
    前記コンテント合成アプリケーションプロセッサは、隠れマルコフモデルと時間遅れニューラルネットワークの1つを用いて前記対応するビデオ表現を前記オーディオビジュアル設定とマッチさせることを特徴とする装置。
  7. 請求項3に記載の装置であって、
    前記コンテント合成アプリケーションプロセッサは、さらに、
    複数のオーディオビジュアル設定のそれぞれを対応する分類されたオーディオ的特徴とマッチさせ、顔のアニメーションのパラメータを生成する顔のオーディオビジュアル的特徴マッチング及び分類モジュールと、
    選択された顔のアニメーションパラメータに対して前記話者の顔のアニメーションを生成する選択されたパラメータ用の顔アニメーションモジュールと、を有することを特徴とする装置。
  8. 請求項7に記載の装置であって、
    前記選択されたパラメータ用顔アニメーションモジュールは、(1)テクスチャマッピングを有する3次元モデルと(2)ビデオ編集の1つを用いることにより、話者の顔のアニメーションを生成することを特徴とする装置。
  9. 請求項2に記載の装置であって、
    前記意味的連想プロシージャは、潜在的意味的インデックス、カノニカル相関、及びクロスモデルファクタ分析のうち1つを有することを特徴とする装置。
  10. 請求項1に記載の装置であって、
    前記オーディオビジュアル設定は、オーディオビジュアル的話す顔の動きコンポーネントを有することを特徴とする装置。
  11. 請求項8に記載の装置であって、
    前記コンテント合成アプリケーションプロセッサは、さらに、
    前記話者の顔の各アニメーションを前記話者のスピーチの前記オーディオ的特徴と同期させ、前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現を生成する話す顔アニメーション及び同期モジュールと、
    前記話者のスピーチのオーディオ表示のレベルを決定し、前記話者のスピーチの前記オーディオ表示のレベルを前記話す顔アニメーション及び同期モジュールに供給して前記話者のアニメーションにした顔のパラメータを修正するために使用するオーディオ表現分類モジュールと、を有することを特徴とする装置。
  12. ビデオ画像プロセッサにおけるオーディオビジュアルコンテントの合成に使用する方法であって、
    話している話者を表すオーディオビジュアル入力信号を受け取る段階と、
    前記オーディオ入力信号から話者のスピーチのオーディオ的特徴と話者の顔のビジュアル的特徴とを抽出する段階と、
    前記オーディオ的特徴と前記ビジュアル的特徴とからオーディオビジュアル入力ベクトルを生成する段階と、
    前記オーディオビジュアル入力ベクトルからオーディオビジュアル設定を生成する段階と、
    前記オーディオビジュアル入力ベクトルに意味的連想プロシージャを実行して、前記話者のスピーチを表す音素と前記話者の顔を現すvisemeとの間の関連を取得する段階と、を有することを特徴とする方法。
  13. 請求項12に記載の方法であって、
    話者のスピーチの入力オーディオ信号を分析する段階と、
    前記話者のスピーチのオーディオ的特徴を抽出する段階と、
    意味的連想プロシージャを用いて前記オーディオ的特徴に対する対応するビデオ表現を見つける段階と、
    前記対応するビデオ表現を前記オーディオビジュアル設定とマッチングすることにより、入力オーディオ信号を分析する段階と、を有することを特徴とする方法。
  14. 請求項13に記載の方法であって、
    選択された各オーディオビジュアル設定に対するコンピュータ生成のアニメーションの顔を生成し、
    コンピュータ生成のアニメーションの各顔を前記話者のスピーチと同期させ、
    前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現を出力する段階と、を有することを特徴とする方法。
  15. 請求項12に記載の方法であって、
    前記オーディオビジュアル入力信号から抽出された前記オーディオ的特徴は、Mel Cepstral周波数係数、線形予測符号化係数、デルタMel Cepstral周波数係数、デルタ線形予測符号化係数、及び自己相関Mel Cepstral周波数係数のうちの1つを有することを特徴とする方法。
  16. 請求項12に記載の方法であって、
    前記オーディオビジュアル設定は、隠れマルコフモデルと時間遅れニューラルネットワークのうち1つを用いて前記オーディオビジュアル入力ベクトルから生成されることを特徴とする方法。
  17. 請求項13に記載の方法であって、
    隠れマルコフモデルと時間遅れニューラルネットワークのうち1つを用いて前記対応するビデオ表現を前記オーディオビジュアル設定とマッチさせることを特徴とする方法。
  18. 請求項12に記載の方法であって、
    複数のオーディオビジュアル設定のそれぞれを対応する分類されたオーディオ特徴とマッチさせて顔のアニメーションパラメータを生成する段階と、
    選択された顔のアニメーションパラメータに対して、前記話者の顔のアニメーションを生成する段階と、を有することを特徴とする方法。
  19. 請求項18に記載の方法であって、
    (1)テクスチャマッピングを有する3次元モデルと(2)ビデオ編集の1つを用いることにより、話者の顔のアニメーションを生成する段階をさらに有することを特徴とする方法。
  20. 請求項13に記載の方法であって、
    前記意味的連想プロシージャは、潜在的意味的インデックス、カノニカル相関、及びクロスモデルファクタ分析のうち1つを有することを特徴とする方法。
  21. 請求項12に記載の方法であって、
    前記オーディオビジュアル設定は、オーディオビジュアル的話す顔の動きコンポーネントを有することを特徴とする方法。
  22. 請求項20に記載の方法であって、
    前記話者の顔の各アニメーションを前記話者のスピーチの前記オーディオ的特徴と同期させる段階と、
    前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現を生成する段階と、
    前記話者のスピーチのオーディオ表示のレベルを決定する段階と、
    前記話者のスピーチのオーディオ表示のレベルの決定に応じて、前記話者のアニメーションの顔のパラメータを修正する段階と、を有することを特徴とする方法。
  23. ビデオ画像プロセッサにおいてオーディオビジュアルコンテントを同期させる方法により生成された同期オーディオビジュアル信号であって、前記方法は、
    話している話者を表すオーディオビジュアル入力信号を受け取る段階と、
    前記オーディオ入力信号から話者のスピーチのオーディオ的特徴と話者の顔のビジュアル的特徴とを抽出する段階と、
    前記オーディオ的特徴と前記ビジュアル的特徴とからオーディオビジュアル入力ベクトルを生成する段階と、
    前記オーディオビジュアル入力ベクトルからオーディオビジュアル設定を生成する段階と、
    前記オーディオビジュアル入力ベクトルに意味的連想プロシージャを実行して、前記話者のスピーチを表す音素と前記話者の顔を現すvisemeとの間の関連を取得する段階と、を有することを特徴とする信号。
  24. 請求項23に記載の同期オーディオビジュアル信号であって、
    前記方法は、さらに、
    話者のスピーチの入力オーディオ信号を分析する段階と、
    前記話者のスピーチのオーディオ的特徴を抽出する段階と、
    意味的連想プロシージャを用いて前記オーディオ的特徴に対する対応するビデオ表現を見つける段階と、
    前記対応するビデオ表現を前記オーディオビジュアル設定とマッチングすることにより、入力オーディオ信号を分析する段階と、を有することを特徴とする信号。
  25. 請求項24に記載の同期オーディオビジュアル信号であって、
    前記方法は、さらに、
    選択された各オーディオビジュアル設定に対するコンピュータ生成のアニメーションの顔を生成する段階と、
    コンピュータ生成のアニメーションの各顔を前記話者のスピーチと同期させる段階と、
    前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現を出力する段階と、を有することを特徴とする信号。
  26. 請求項23に記載の同期オーディオビジュアル信号であって、
    前記オーディオビジュアル入力信号から抽出された前記オーディオ的特徴は、Mel Cepstral周波数係数、線形予測符号化係数、デルタMel Cepstral周波数係数、デルタ線形予測符号化係数、及び自己相関Mel Cepstral周波数係数のうちの1つを有することを特徴とする信号。
  27. 請求項23に記載の同期オーディオビジュアル信号であって、
    前記オーディオビジュアル設定は、隠れマルコフモデルと時間遅れニューラルネットワークのうち1つを用いて前記オーディオビジュアル入力ベクトルから生成されることを特徴とする信号。
  28. 請求項24に記載の同期オーディオビジュアル信号であって、
    隠れマルコフモデルと時間遅れニューラルネットワークのうち1つを用いて前記対応するビデオ表現を前記オーディオビジュアル設定とマッチさせることを特徴とする信号。
  29. 請求項25に記載の同期オーディオビジュアル信号であって、
    前記方法は、さらに、
    複数のオーディオビジュアル設定のそれぞれを対応する分類されたオーディオ特徴とマッチさせて顔のアニメーションパラメータを生成する段階と、
    選択された顔のアニメーションパラメータに対して、前記話者の顔のアニメーションを生成する段階と、を有することを特徴とする信号。
  30. 請求項29に記載の同期オーディオビジュアル信号であって、
    前記方法は、さらに、
    (1)テクスチャマッピングを有する3次元モデルと(2)ビデオ編集の1つを用いることにより、話者の顔のアニメーションを生成する段階をさらに有することを特徴とする信号。
  31. 請求項24に記載の同期オーディオビジュアル信号であって、
    前記意味的連想プロシージャは、潜在的意味的インデックス、カノニカル相関、及びクロスモデルファクタ分析のうち1つを有することを特徴とする信号。
  32. 請求項23に記載の同期オーディオビジュアル信号であって、
    前記オーディオビジュアル設定は、オーディオビジュアル的話す顔の動きコンポーネントを有することを特徴とする信号。
  33. 請求項31に記載の同期オーディオビジュアル信号であって、
    前記方法は、さらに、
    前記話者の顔の各アニメーションを前記話者のスピーチの前記オーディオ的特徴と同期させる段階と、
    前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現を生成する段階と、
    前記話者のスピーチのオーディオ表示のレベルを決定する段階と、
    前記話者のスピーチのオーディオ表示のレベルの決定に応じて、前記話者のアニメーションの顔のパラメータを修正する段階と、を有することを特徴とする信号。
JP2006530945A 2003-09-30 2004-09-28 オーディオビジュアルコンテント合成システム及び方法 Withdrawn JP2007507784A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US50709803P 2003-09-30 2003-09-30
PCT/IB2004/051903 WO2005031654A1 (en) 2003-09-30 2004-09-28 System and method for audio-visual content synthesis

Publications (1)

Publication Number Publication Date
JP2007507784A true JP2007507784A (ja) 2007-03-29

Family

ID=34393213

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006530945A Withdrawn JP2007507784A (ja) 2003-09-30 2004-09-28 オーディオビジュアルコンテント合成システム及び方法

Country Status (6)

Country Link
US (1) US7636662B2 (ja)
EP (1) EP1671277A1 (ja)
JP (1) JP2007507784A (ja)
KR (1) KR20060090687A (ja)
CN (1) CN1860504A (ja)
WO (1) WO2005031654A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014146340A (ja) * 2013-01-29 2014-08-14 Toshiba Corp コンピュータ生成ヘッド
JP2016042362A (ja) * 2013-01-29 2016-03-31 株式会社東芝 コンピュータ生成ヘッド

Families Citing this family (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735253B1 (en) 1997-05-16 2004-05-11 The Trustees Of Columbia University In The City Of New York Methods and architecture for indexing and editing compressed video over the world wide web
US7143434B1 (en) 1998-11-06 2006-11-28 Seungyup Paek Video description system and method
WO2003051031A2 (en) 2001-12-06 2003-06-19 The Trustees Of Columbia University In The City Of New York Method and apparatus for planarization of a material by growing and removing a sacrificial film
WO2006096612A2 (en) 2005-03-04 2006-09-14 The Trustees Of Columbia University In The City Of New York System and method for motion estimation and mode decision for low-complexity h.264 decoder
GB2430073A (en) * 2005-09-08 2007-03-14 Univ East Anglia Analysis and transcription of music
US8024189B2 (en) * 2006-06-22 2011-09-20 Microsoft Corporation Identification of people using multiple types of input
WO2009126785A2 (en) 2008-04-10 2009-10-15 The Trustees Of Columbia University In The City Of New York Systems and methods for image archaeology
WO2009155281A1 (en) 2008-06-17 2009-12-23 The Trustees Of Columbia University In The City Of New York System and method for dynamically and interactively searching media data
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
US8224652B2 (en) * 2008-09-26 2012-07-17 Microsoft Corporation Speech and text driven HMM-based body animation synthesis
US8671069B2 (en) 2008-12-22 2014-03-11 The Trustees Of Columbia University, In The City Of New York Rapid image annotation via brain state decoding and visual pattern mining
US8212924B2 (en) * 2009-05-12 2012-07-03 Himax Technologies Limited System and method for processing multimedia data using an audio-video link
US20100332229A1 (en) * 2009-06-30 2010-12-30 Sony Corporation Apparatus control based on visual lip share recognition
KR101615262B1 (ko) 2009-08-12 2016-04-26 삼성전자주식회사 시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치
US8419534B2 (en) * 2009-09-30 2013-04-16 Disney Enterprises, Inc. Systems and methods for using images to generate gameplay content
US8135221B2 (en) * 2009-10-07 2012-03-13 Eastman Kodak Company Video concept classification using audio-visual atoms
CN102455847A (zh) * 2010-10-15 2012-05-16 宏碁股份有限公司 基于语义的视觉效果产生系统
CN102547298B (zh) * 2010-12-17 2014-09-10 中国移动通信集团公司 图像信息输出方法、装置及终端
WO2012088403A2 (en) 2010-12-22 2012-06-28 Seyyer, Inc. Video transmission and sharing over ultra-low bitrate wireless communication channel
CN103650002B (zh) * 2011-05-06 2018-02-23 西尔股份有限公司 基于文本的视频生成
KR101328466B1 (ko) * 2011-10-18 2013-11-13 한국과학기술원 객체 움직임 예측을 위한 컴퓨터로 구현된 계층적 시간적 메모리 네트워크에서의 마르코프 모델의 입력 제공방법 및 이를 이용한 움직임 예측 방법
CN102820030B (zh) * 2012-07-27 2014-03-26 中国科学院自动化研究所 发音器官可视语音合成系统
US9104467B2 (en) * 2012-10-14 2015-08-11 Ari M Frank Utilizing eye tracking to reduce power consumption involved in measuring affective response
CN104756502A (zh) * 2012-12-10 2015-07-01 英特尔公司 通信设备之间的视频和音频共享的方法、设备和系统
WO2014146258A1 (en) * 2013-03-20 2014-09-25 Intel Corporation Avatar-based transfer protocols, icon generation and doll animation
CN103279970B (zh) * 2013-05-10 2016-12-28 中国科学技术大学 一种实时的语音驱动人脸动画的方法
US9576587B2 (en) * 2013-06-12 2017-02-21 Technion Research & Development Foundation Ltd. Example-based cross-modal denoising
GB2516965B (en) 2013-08-08 2018-01-31 Toshiba Res Europe Limited Synthetic audiovisual storyteller
KR20150068609A (ko) * 2013-12-12 2015-06-22 삼성전자주식회사 이미지 정보 표시 방법 및 장치
CN104092654B (zh) * 2014-01-22 2016-03-02 腾讯科技(深圳)有限公司 媒体播放方法、客户端及系统
CN105898667A (zh) 2014-12-22 2016-08-24 杜比实验室特许公司 从音频内容基于投影提取音频对象
EP3054451A1 (en) * 2015-02-03 2016-08-10 Thomson Licensing Method, apparatus and system for synchronizing audiovisual content with inertial measurements
CN104732593B (zh) * 2015-03-27 2018-04-27 厦门幻世网络科技有限公司 一种基于移动终端的3d动画编辑方法
US9659570B2 (en) 2015-10-08 2017-05-23 International Business Machines Corporation Audiovisual information processing in videoconferencing
US10534955B2 (en) * 2016-01-22 2020-01-14 Dreamworks Animation L.L.C. Facial capture analysis and training system
US11783524B2 (en) * 2016-02-10 2023-10-10 Nitin Vats Producing realistic talking face with expression using images text and voice
US10460732B2 (en) * 2016-03-31 2019-10-29 Tata Consultancy Services Limited System and method to insert visual subtitles in videos
CN106101858A (zh) * 2016-06-27 2016-11-09 乐视控股(北京)有限公司 一种视频生成方法及装置
US10139780B2 (en) * 2016-10-11 2018-11-27 Charles Rinker Motion communication system and method
US10595039B2 (en) 2017-03-31 2020-03-17 Nvidia Corporation System and method for content and motion controlled action video generation
US10225516B2 (en) 2017-06-23 2019-03-05 Cisco Technology, Inc. Latency mitigation through intelligent extrapolation in multimedia systems
US10636193B1 (en) * 2017-06-29 2020-04-28 Facebook Technologies, Llc Generating graphical representation of a user's face and body using a monitoring system included on a head mounted display
US10636192B1 (en) 2017-06-30 2020-04-28 Facebook Technologies, Llc Generating a graphical representation of a face of a user wearing a head mounted display
US10586368B2 (en) * 2017-10-26 2020-03-10 Snap Inc. Joint audio-video facial animation system
US11082662B2 (en) 2017-12-19 2021-08-03 Koninklijke Kpn N.V. Enhanced audiovisual multiuser communication
WO2019161229A1 (en) 2018-02-15 2019-08-22 DMAI, Inc. System and method for reconstructing unoccupied 3d space
WO2019161198A1 (en) * 2018-02-15 2019-08-22 DMAI, Inc. System and method for speech understanding via integrated audio and visual based speech recognition
US11468885B2 (en) 2018-02-15 2022-10-11 DMAI, Inc. System and method for conversational agent via adaptive caching of dialogue tree
US11538455B2 (en) * 2018-02-16 2022-12-27 Dolby Laboratories Licensing Corporation Speech style transfer
US10951859B2 (en) 2018-05-30 2021-03-16 Microsoft Technology Licensing, Llc Videoconferencing device and method
KR102079453B1 (ko) * 2018-07-31 2020-02-19 전자부품연구원 비디오 특성에 부합하는 오디오 합성 방법
CN109558853B (zh) * 2018-12-05 2021-05-25 维沃移动通信有限公司 一种音频合成方法及终端设备
JP7278307B2 (ja) * 2018-12-18 2023-05-19 グリー株式会社 コンピュータプログラム、サーバ装置、端末装置及び表示方法
KR20210114521A (ko) * 2019-01-25 2021-09-23 소울 머신스 리미티드 스피치 애니메이션의 실시간 생성
WO2020256475A1 (ko) * 2019-06-21 2020-12-24 주식회사 머니브레인 텍스트를 이용한 발화 동영상 생성 방법 및 장치
KR102360839B1 (ko) * 2019-06-21 2022-02-09 주식회사 딥브레인에이아이 머신 러닝 기반의 발화 동영상 생성 방법 및 장치
KR102360840B1 (ko) * 2019-06-21 2022-02-09 주식회사 딥브레인에이아이 텍스트를 이용한 발화 동영상 생성 방법 및 장치
WO2020256472A1 (ko) * 2019-06-21 2020-12-24 주식회사 머니브레인 음성 신호를 이용한 발화 동영상 생성 방법 및 장치
WO2020256471A1 (ko) * 2019-06-21 2020-12-24 주식회사 머니브레인 머신 러닝 기반의 발화 동영상 생성 방법 및 장치
KR102346755B1 (ko) * 2019-06-21 2022-01-03 주식회사 딥브레인에이아이 음성 신호를 이용한 발화 동영상 생성 방법 및 장치
WO2021112365A1 (ko) * 2019-12-02 2021-06-10 삼성전자 주식회사 음성 신호에서 헤드 모델 애니메이션을 생성하는 방법 및 이를 구현하는 전자 장치
US11544886B2 (en) * 2019-12-17 2023-01-03 Samsung Electronics Co., Ltd. Generating digital avatar
JP7299572B2 (ja) * 2019-12-26 2023-06-28 浙江大学 音声信号により駆動される顔アニメーションの生成方法
US11417041B2 (en) * 2020-02-12 2022-08-16 Adobe Inc. Style-aware audio-driven talking head animation from a single image
KR102331517B1 (ko) * 2020-07-13 2021-12-01 주식회사 딥브레인에이아이 발화 동영상 생성 방법 및 장치
KR20220013850A (ko) * 2020-07-27 2022-02-04 주식회사 딥브레인에이아이 발화 영상 생성 방법 및 장치
US11610356B2 (en) 2020-07-28 2023-03-21 Samsung Electronics Co., Ltd. Method and electronic device for providing sign language
KR102483416B1 (ko) * 2020-08-25 2022-12-30 주식회사 딥브레인에이아이 발화 동영상 생성 방법 및 장치
KR102501773B1 (ko) * 2020-08-28 2023-02-21 주식회사 딥브레인에이아이 랜드마크를 함께 생성하는 발화 동영상 생성 장치 및 방법
JP7083380B2 (ja) * 2020-09-28 2022-06-10 グリー株式会社 コンピュータプログラム、方法及びサーバ装置
US20220374637A1 (en) * 2021-05-20 2022-11-24 Nvidia Corporation Synthesizing video from audio using one or more neural networks
CN113435357B (zh) * 2021-06-30 2022-09-02 平安科技(深圳)有限公司 语音播报方法、装置、设备及存储介质
CN115272537A (zh) * 2021-08-06 2022-11-01 宿迁硅基智能科技有限公司 基于因果卷积的音频驱动表情方法及装置
CN114255737B (zh) * 2022-02-28 2022-05-17 北京世纪好未来教育科技有限公司 语音生成方法、装置、电子设备
CN117635784B (zh) * 2023-12-19 2024-04-19 世优(北京)科技有限公司 三维数字人脸部动画自动生成系统
CN117689783B (zh) * 2024-02-02 2024-04-30 湖南马栏山视频先进技术研究院有限公司 一种基于超参数神经辐射场的人脸语音驱动方法及装置
CN117932161B (zh) * 2024-03-22 2024-05-28 成都数据集团股份有限公司 一种多源多模态数据的可视化搜索方法及系统

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6839672B1 (en) * 1998-01-30 2005-01-04 At&T Corp. Integration of talking heads and text-to-speech synthesizers for visual TTS
US6052132A (en) * 1998-02-06 2000-04-18 Digital Equipment Corporation Technique for providing a computer generated face having coordinated eye and head movement
US6449595B1 (en) * 1998-03-11 2002-09-10 Microsoft Corporation Face synthesis system and methodology
US6735566B1 (en) * 1998-10-09 2004-05-11 Mitsubishi Electric Research Laboratories, Inc. Generating realistic facial animation from speech
US6593936B1 (en) * 1999-02-01 2003-07-15 At&T Corp. Synthetic audiovisual description scheme, method and system for MPEG-7
US6366885B1 (en) * 1999-08-27 2002-04-02 International Business Machines Corporation Speech driven lip synthesis using viseme based hidden markov models
US6539354B1 (en) * 2000-03-24 2003-03-25 Fluent Speech Technologies, Inc. Methods and devices for producing and using synthetic visual speech based on natural coarticulation
IT1320002B1 (it) * 2000-03-31 2003-11-12 Cselt Centro Studi Lab Telecom Procedimento per l'animazione di un modello sintetizzato di voltoumano pilotata da un segnale audio.
GB0008537D0 (en) * 2000-04-06 2000-05-24 Ananova Ltd Character animation
US7149686B1 (en) * 2000-06-23 2006-12-12 International Business Machines Corporation System and method for eliminating synchronization errors in electronic audiovisual transmissions and presentations
EP1299814A1 (en) 2000-07-11 2003-04-09 Abraham Glezerman Agent for guiding children in a virtual learning environment
US20020008716A1 (en) * 2000-07-21 2002-01-24 Colburn Robert A. System and method for controlling expression characteristics of a virtual agent
US6661418B1 (en) * 2001-01-22 2003-12-09 Digital Animations Limited Character animation system
US7630932B2 (en) * 2002-01-31 2009-12-08 Transunion Interactive, Inc. Loan rate and lending information analysis system
US7133535B2 (en) * 2002-12-21 2006-11-07 Microsoft Corp. System and method for real time lip synchronization
US7168953B1 (en) * 2003-01-27 2007-01-30 Massachusetts Institute Of Technology Trainable videorealistic speech animation
US7990384B2 (en) * 2003-09-15 2011-08-02 At&T Intellectual Property Ii, L.P. Audio-visual selection process for the synthesis of photo-realistic talking-head animations

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014146340A (ja) * 2013-01-29 2014-08-14 Toshiba Corp コンピュータ生成ヘッド
JP2016042362A (ja) * 2013-01-29 2016-03-31 株式会社東芝 コンピュータ生成ヘッド

Also Published As

Publication number Publication date
US7636662B2 (en) 2009-12-22
EP1671277A1 (en) 2006-06-21
US20060290699A1 (en) 2006-12-28
CN1860504A (zh) 2006-11-08
WO2005031654A1 (en) 2005-04-07
KR20060090687A (ko) 2006-08-14

Similar Documents

Publication Publication Date Title
US7636662B2 (en) System and method for audio-visual content synthesis
Czyzewski et al. An audio-visual corpus for multimodal automatic speech recognition
US6735566B1 (en) Generating realistic facial animation from speech
US11587548B2 (en) Text-driven video synthesis with phonetic dictionary
Zhang et al. Text2video: Text-driven talking-head video synthesis with personalized phoneme-pose dictionary
Ivanko et al. Multimodal speech recognition: increasing accuracy using high speed video data
Bozkurt et al. Comparison of phoneme and viseme based acoustic units for speech driven realistic lip animation
Greenwood et al. Predicting head pose in dyadic conversation
Wang et al. Synthesizing photo-real talking head via trajectory-guided sample selection
Karpov An automatic multimodal speech recognition system with audio and video information
Wang et al. HMM trajectory-guided sample selection for photo-realistic talking head
Xia et al. Audiovisual speech recognition: A review and forecast
Ivanko et al. Using a high-speed video camera for robust audio-visual speech recognition in acoustically noisy conditions
Christoudias et al. Co-adaptation of audio-visual speech and gesture classifiers
Filntisis et al. Video-realistic expressive audio-visual speech synthesis for the Greek language
McCowan et al. Towards computer understanding of human interactions
Hussen Abdelaziz et al. Speaker-independent speech-driven visual speech synthesis using domain-adapted acoustic models
Asadiabadi et al. Multimodal speech driven facial shape animation using deep neural networks
Chelali Bimodal fusion of visual and speech data for audiovisual speaker recognition in noisy environment
Paleček Experimenting with lipreading for large vocabulary continuous speech recognition
CN114363531B (zh) 基于h5的文案解说视频生成方法、装置、设备以及介质
Zorić et al. Real-time language independent lip synchronization method using a genetic algorithm
Pawar et al. Recent advances in audio-visual speech recognition: Deep learning perspective
Shih et al. Speech-driven talking face using embedded confusable system for real time mobile multimedia
Narwekar et al. PRAV: A Phonetically Rich Audio Visual Corpus.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070926

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20100219