JP2007507784A - オーディオビジュアルコンテント合成システム及び方法 - Google Patents
オーディオビジュアルコンテント合成システム及び方法 Download PDFInfo
- Publication number
- JP2007507784A JP2007507784A JP2006530945A JP2006530945A JP2007507784A JP 2007507784 A JP2007507784 A JP 2007507784A JP 2006530945 A JP2006530945 A JP 2006530945A JP 2006530945 A JP2006530945 A JP 2006530945A JP 2007507784 A JP2007507784 A JP 2007507784A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- audiovisual
- face
- speech
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 94
- 239000000203 mixture Substances 0.000 title claims description 32
- 230000033001 locomotion Effects 0.000 claims abstract description 42
- 230000000007 visual effect Effects 0.000 claims abstract description 41
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 27
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 27
- 230000001360 synchronised effect Effects 0.000 claims abstract description 25
- 239000000284 extract Substances 0.000 claims abstract description 11
- 230000001815 facial effect Effects 0.000 claims description 53
- 239000013598 vector Substances 0.000 claims description 31
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 230000005236 sound signal Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 238000000556 factor analysis Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 16
- 238000012549 training Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008921 facial expression Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 208000032041 Hearing impaired Diseases 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23412—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs for generating or manipulating the scene composition of objects, e.g. MPEG-4 objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/2368—Multiplexing of audio and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
- H04N21/43072—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
- H04N21/4314—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for fitting data in a restricted space on the screen, e.g. EPG data in a rectangular grid
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
- H04N21/4341—Demultiplexing of audio and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/475—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
- H04N21/4751—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for defining user accounts, e.g. accounts for children
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/04—Synchronising
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
- H04N5/60—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Child & Adolescent Psychology (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Bioinformatics & Computational Biology (AREA)
- Processing Or Creating Images (AREA)
Abstract
ビデオ画像プロセッサにおけるオーディオビジュアルコンテントを合成するシステムと方法を提供する。コンテント合成アプリケーションプロセッサは、話している話者を表すオーディオビジュアル入力信号からオーディオ的特徴とビデオ的特徴を抽出する。プロセッサは、抽出したビジュアル的特徴を用いて、話者の顔のコンピュータ生成アニメーションを生成する。プロセッサは、話者の顔のアニメーションの動きを、話者のスピーチを表す音素等の複数のオーディオ論理ユニットと同期させる。このように、プロセッサは、話者のスピーチと適正に同期した話者の顔のオーディオビジュアル表現を合成する。
Description
本発明は、一般的に、オーディオビジュアルシステムに関し、特に、ビデオ画像プロセッサにおけるオーディオビジュアルコンテントの合成システム及び方法に関する。
コンピュータサイエンスの発展により、コンピュータの速さと計算パワーが大きくなっている。コンピュータが人間のコンピュータユーザとコミュニケーションする時、そのコミュニケーションの大部分は、グラフィックスディスプレイに表示されたテキストメッセージの形式で行われ、人間のコンピュータユーザはコンピュータの画面からそのテキストメッセージを読み取る。一部のコンピュータアプリケーション、特にコンピュータゲームグラフィックスを表示するために開発されたものは、コンピュータにより生成された人間が話す視覚画像の形式で、コンピュータユーザにコンピュータ出力を提示することができる。特に、コンピュータは、人間の顔を動かし、離している話し手を表し、同時にその話者のスピーチを出力する。
話している人物の現実的な視覚的画像の生成は、コンピュータシステムには非常に難しい。その理由は、人間の顔は、話している間に、広い範囲の表情をすることができるからである。人間の顔は、感情を表す多数のかすかな特徴を示すことができ、話された言葉に追加的意味を与えることができる。各人間は生まれた時から表情を認識し解釈してきている。それゆえ、人間のコンピュータユーザは、コンピュータにより生成されたあまりうまくできていない動く人間の顔をすぐに見分けることができる。あまりうまくできていない動く人間の顔は、人間のコンピュータユーザにとって邪魔であることが多い。最悪の場合、あまりうまくできていない動く人間の顔により、それが話しているメッセージの理解を妨げることもある。
それゆえ、話している話者の現実的なオーディオビジュアル表現を生成することができるシステムと方法が必要である。コンピュータにより生成された動く人間の顔のために現実的な表情を生成することができるシステムと方法も必要とされている。
上述の先行技術の欠点を解決するため、本発明によるシステムと方法は、話している話者の現実的なオーディオビジュアル表現を提供することができる。本発明のシステムと方法は、コンピュータ生成のアニメーションの人間の顔の現実的な動きも生成することができる。
本発明のシステムと方法は、ビデオ画像プロセッサのコンピュータシステムにあるコンテント合成アプリケーションプロセッサを有する。そのコンテント合成アプリケーションプロセッサは、話している話者を表すオーディオビジュアル入力信号からオーディオ的特徴とビデオ的特徴を抽出する。プロセッサは、抽出したビジュアル的特徴を用いて、話者の顔のコンピュータ生成アニメーションを生成する。そのプロセッサは、話す顔の動きコンポーネントを表す隠れマルコフモデルまたは時間遅れニューラルネットワークのいずれかを用いて、話者の顔の特徴のビジュアルな顔の動きコンポーネントを分類する。
コンテント合成アプリケーションプロセッサは、話者のスピーチのオーディオ的特徴とビデオ的特徴の両方を抽出し分類する学習モジュールを有する。そのプロセッサは、音素等のオーディオ論理ユニットを表すため、隠れマルコフモデルまたは時間遅れニューラルネットワークのいずれかを用いて話者のスピーチの抽出したオーディオ的特徴を分類する。プロセッサは、次に、話者の顔のアニメーションの動きを、話者のスピーチを表す複数のオーディオ論理ユニットと同期させる。このように、プロセッサは、話者のスピーチと適正に同期した話者の顔の現実的なオーディオビジュアル表現を合成する。
本発明の有利な一実施形態において、トレーニングフェーズにおいて、プロセッサは、オーディオ的特徴と話者の顔のビデオ的特徴からオーディオビジュアル入力ベクトルを生成する。プロセッサは、次に、隠れマルコフモデルまたは時間遅れニューラルネットワークのいずれかを用いて、オーディオビジュアル入力ベクトルからオーディオビジュアル的な話す顔の動きコンポーネントを生成する。プロセッサは、次に、前記オーディオビジュアル入力ベクトルに意味的連想プロシージャを実行して、前記話者のスピーチを表す音素と前記話者の顔を現すvisemeとの間の関連を取得する。
認識フェーズにおいて、プロセッサは新しい入力ビデオを分析する。プロセッサは、話者のスピーチのオーディオ的特徴を抽出し、意味的連想プロシージャを用いてそのオーディオ的特徴に対する対応するビデオ表現を見つける。プロセッサは、次に、隠れマルコフモデルまたは時間遅れニューラルネットワークのいずれかを用いて、対応するビデオ表現をオーディオビジュアル的話す顔の動きコンポーネントとマッチさせる。プロセッサは、各選択されたオーディオビジュアル的話す顔の動きコンポーネントに対するコンピュータ生成アニメーションを生成し、各コンピュータ生成アニメーションの顔を話者のスピーチと同期させる。この最後の結果は、前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現を提供する出力である。
本発明の目的は、人間の顔に関するマルチメディア情報を生成し表示するためのシステムと方法を提供することである。
本発明の他の目的は、話している話者の現実的なオーディオビジュアル表現を生成し表示するシステムと方法を提供することである。
本発明の目的は、コンピュータ生成アニメーションの人間の顔の現実的な動きを生成し表示するためのシステムと方法を提供することである。
本発明の他の目的は、話者の顔のアニメーションの動きを話者のスピーチを表す複数のオーディオ論理ユニットと同期させるシステムと方法を提供することである。
本発明の目的は、また、ビデオ画像プロセッサにおけるオーディオビジュアルコンテントを合成するシステムと方法を提供することである。
前記は、当業者が以下に続く本発明の詳細な説明をよりよく理解できるように、本発明の特徴と技術的に有利な点を広く概説したものである。本発明の請求項の主題を形成する本発明の他の特徴と有利な点は、以下に説明する。当業者は、本発明と同じ目的を実行する他の構成を修正または設計する基礎として、開示した概念と具体的な実施形態を容易に使用することができることを理解すべきである。このような均等な構成は、本発明の技術分野の当業者は、最も広い形体の本発明の精神と範囲から逸脱しないことにも気づくべきである。
本発明の詳細な説明を理解する前に、この特許文献を通して使用される単語とフレーズの定義を規定しておくことは有利である。「含む」及び「有する」という用語とその派生形は、限定ではなく包含を意味する。
「または」という用語は包含的であり、「及び/または」を意味する。
「関連する」及び「これに関連する」という用語はその派生形も合わせて、含む、内部に含む、相互接続されている、含まれる、内部に含まれている、接続されている、結合している、通信可能である、協働する、インターリーブしている、並列する、隣接する、結合している、有する、特性を有する、その他の意味である。
「コントローラ」、「プロセッサ」、または「装置」という用語は、装置、システム、または少なくとも1つの動作を制御するシステムの一部を意味する。
このような装置は、ハードウェア、ファームウェア、またはソフトウェア、またはこれらの少なくとも2つの組み合わせで実施される。
留意すべきことは、具体的なコントローラと関連する機能は、集中していてもよいし分散していてもよく、ローカルでもリモートでもよい。特に、コントローラは、1つ以上のアプリケーションプログラム及び/またはオペレーティングシステムプログラムを実行する、1つ以上のデータプロセッサ、関連する入出力装置、メモリを有する。一部の単語及びフレーズの定義は、この特許文献を通して提供される。当業者は、それらの定義は、ほとんどでなくても多くの場合、それらの定義された単語とフレーズの、将来の使用のみではなく前の使用にも適用されることを理解すべきである。
「または」という用語は包含的であり、「及び/または」を意味する。
「関連する」及び「これに関連する」という用語はその派生形も合わせて、含む、内部に含む、相互接続されている、含まれる、内部に含まれている、接続されている、結合している、通信可能である、協働する、インターリーブしている、並列する、隣接する、結合している、有する、特性を有する、その他の意味である。
「コントローラ」、「プロセッサ」、または「装置」という用語は、装置、システム、または少なくとも1つの動作を制御するシステムの一部を意味する。
このような装置は、ハードウェア、ファームウェア、またはソフトウェア、またはこれらの少なくとも2つの組み合わせで実施される。
留意すべきことは、具体的なコントローラと関連する機能は、集中していてもよいし分散していてもよく、ローカルでもリモートでもよい。特に、コントローラは、1つ以上のアプリケーションプログラム及び/またはオペレーティングシステムプログラムを実行する、1つ以上のデータプロセッサ、関連する入出力装置、メモリを有する。一部の単語及びフレーズの定義は、この特許文献を通して提供される。当業者は、それらの定義は、ほとんどでなくても多くの場合、それらの定義された単語とフレーズの、将来の使用のみではなく前の使用にも適用されることを理解すべきである。
本発明とその有利な点をより完全に理解するため、添付した図面を参照して、以下に説明する。同じ番号は同じ対象を指す。
図1ないし8(以下に説明する)及びこの特許文献において本発明の原理を説明するために使用するいろいろな実施形態は、例示であって、いかなる方法であっても本発明の範囲を限定するものと解釈してはならない。本発明は、いかなる好適なオーディオビジュアルシステムに使用してもよい。
図1は、本発明の原理によるコンテント合成アプリケーションプロセッサ109を有する(ディスプレイスクリーン115を有する)ディスプレイ部110とコンピュータ120の例を示すブロック図である。コンピュータ120は、オーディオビジュアル信号源130からオーディオビジュアル信号を受信する。信号源130は、事前に記録したオーディオビジュアル信号をコンピュータ120に供給してもよい。信号源130は、ライブまたは「ストリーミング」のオーディオビジュアル信号をコンピュータ120に供給してもよい。コンピュータ120は、ユーザ入力部140からユーザ入力信号も受信する。ユーザ入力部140は、(例えば、キーボード、マウス、コンピュータディスクファイルである)いかなる従来のユーザ入力信号源を有していてもよい。
コンピュータ120は、中央処理部(CPU)150とメモリ160とを有する。メモリ160は、オペレーティングシステムソフトウェア170とアプリケーションプログラム180とを有する。コンピュータ120は、また、本発明のコンテント合成アプリケーションプロセッサ190も有する。説明の都合上、CPU150とメモリ160とは別のユニットとして、コンテント合成アプリケーションプロセッサ190の構造と動作を説明する。しかし、当然のことながら、コンテント合成アプリケーションプロセッサ190は、本発明の方法を実行するために、コンピュータ120内のCPU150とメモリ160にアクセスし、これを利用してもよい。
より十分に説明するが、コンテント合成アプリケーションプロセッサ190は、話している話者を表す信号源130からのオーディオビジュアル入力信号を分析する。コンテント合成アプリケーションプロセッサ190は、信号源130からのオーディオビジュアル入力信号からオーディオ的特徴とビジュアル的特徴を抽出し、そのオーディオ的特徴とビジュアル的特徴を用いて、コンピュータで生成した話者の顔のアニメーションを生成し、話者のスピーチを伴う話者の顔のアニメーションを合成する。(同期したスピーチを有する)コンピュータ生成の話者の顔のアニメーションは、ディスプレイ部110のディスプレイ画面115に表示される。ディスプレイ部110は、従来のいかなるタイプのディスプレイ部(例えば、テレビジョン、コンピュータモニター、フラットパネルディスプレイスクリーン)を有していてもよい。
図2は、本発明のコンテント合成アプリケーションプロセッサをより詳細に示すブロック図である。コンテント合成アプリケーションプロセッサ190は、オーディオビジュアル信号(及びそのいろいろなコンポーネント)をメモリ部220に格納することができる。メモリ部220は、ランダムアクセスメモリ(RAM)を有する。メモリ部220は、フラッシュメモリ等の不揮発性ランダムアクセスメモリ(RAM)を有していてもよい。メモリ部220は、ハードディスクドライブ(図示せず)等の大容量記憶データ装置を有していてもよい。メモリ部220は、リード/ライトDVDや再書き込み可能CD−ROMを読み出す、外付けの周辺ドライブまたは(組み込みまたは外付けの)リムーバブルディスクドライブを有していてもよい。図2に示したように、このタイプのリムーバブルディスクドライブは、再書き込み可能CD−ROMディスク225に記録と読み出しが可能である。
コンテント合成アプリケーションプロセッサ190は、オーディオビジュアル信号をコントローラ230に供給する。コントローラ230は、コンテント合成アプリケーションプロセッサ190から制御信号を受け取り、コンテント合成アプリケーションプロセッサ190に制御信号を送ることができる。コントローラ230は、また、メモリ部220を介してコンテント合成アプリケーションプロセッサ190に結合している。
図2に示したように、コントローラ230は、コンテント合成アプリケーションソフトウェア235を有する。コンテント合成アプリケーションソフトウェア235は、本発明の方法を実行することができるコンピュータソフトウェアを含む。本発明のソフトウェアモジュールの一部を図3に示した。
コンテント合成アプリケーションソフトウェア235は、(1)顔のビジュアル表示をするモジュール310、(2)顔の特徴をトラッキングするモジュール320、(3)学習モジュール330、(4)オーディオのスピーチ部分を取得するモジュール340、(5)スピーチのオーディオ的特徴を抽出するモジュール350、(6)顔のオーディオビジュアル的特徴マッチング及び分類モジュール360、(7)選択パラメータ用の顔アニメーションモジュール370、及び(8)話す顔アニメーション及び同期モジュール380を有する。ソフトウェアモジュールの機能は以下により詳しく説明する。
コンテント合成アプリケーションプロセッサ190は、コントローラ230とコンテント合成アプリケーションソフトウェア235とを有する。コントローラ230とコンテント合成アプリケーションソフトウェア235は共に、本発明を実行することができるコンテント合成アプリケーションプロセッサを有する。
前述したように、コンテント合成アプリケーションプロセッサ190は、オーディオビジュアル入力信号からオーディオ的特徴とビジュアル的特徴を抽出し、そのオーディオ的特徴とビジュアル的特徴を用いてコンピュータ生成した話者の顔のアニメーションを生成する。コンテント合成アプリケーションプロセッサ190は、また、コンピュータ生成した話者の顔のアニメーションをその話者のスピーチに同期させる。この結果を達成するために、コンテント合成アプリケーションプロセッサ190は、オーディオビジュアル信号からオーディオ的特徴とビジュアル的特徴を最初に取得する。
図4は、コンテント合成アプリケーションプロセッサ190が、オーディオビジュアル信号から話す顔の動くコンポーネント(SFMC)をいかに取得するかを示す図である。図4に示した要素は、参照数字400により集合的に参照される。図4の入力オーディオビジュアル信号は、信号源410により表される。信号源410は、オーディオビジュアル信号をモジュール310に供給する。モジュール310は、オーディオビジュアル信号から話者の顔のビジュアル表示を取得する。モジュール310は、W. R. RabinerとA. Jacquinによる論文「Object Tracking Using Motion-Adaptive Modeling of Scene Content」Proceedings of Globecom '96, Volume 2, pp. 877-881 (November 1996)に記載されたタイプのシステムを有する。モジュール310は、モジュール320に話者の顔のビジュアル表示を供給する。
モジュール320は、話者の顔の表面的特徴をトラッキングする。モジュール320は、G. Hager and K. Toyamaによる論文「The XVision System: A General Purpose Substrate for Portable Real-Time Vision Applications」Computer Vision and Understanding, Volume 69(1), pp. 23-37 (1997)に記載されたタイプのXVisionソフトウェアシステムを有していてもよい。XVisionシステムは、ビデオストリーム内のエッジ、コーナー、または領域を追跡することができる特徴ベースで相関ベースの複数の異なるトラッカーを備えている。モジュール320は、話者の顔の特徴のトラッキング情報を学習モジュール330に供給する。
オーディオビジュアル信号源410は、また、オーディオビジュアル信号をモジュール340に供給する。モジュール340は、モジュール310により顔が識別された話者のオーディオ信号のスピーチ部分を取得する。モジュール340は、Dongge Li, Ishwar K. Seti, Nevenka Dimitrova及びThomas McGeeによる論文「Classification of General Audio Data for Content-Based Retrieval」Pattern Recognition Letters, Volume 22 (5), pp. 533-544 (2001)に記載されたタイプのシステムを有する。モジュール340は、話者のスピーチをモジュール350に供給する。モジュール350は、話者のスピーチのオーディオ的特徴を抽出する。モジュール350は、また、前述の論文「"Classification of General Audio Data for Content-Based Retrieval」に記載されたタイプのシステムを有する。モジュール350は、その後、抽出した話者のスピーチのオーディオ的特徴を学習モジュール330に供給する。以下により詳細に説明するように、学習モジュール330は、モジュール320からの入力とモジュール350からの入力を分類し、話す顔の動きコンポーネント(SFMC)420を求める。話す顔の動きコンポーネント(SFMC)420は、データベース(図5に示した)に格納される。
学習モジュール330は、複数の異なるタイプの過程を実行することができるソフトウェアモジュールを有する。学習モジュール330により実行される過程の1つのタイプは、隠れマルコフモデルを用いてバウム・ウェルチアルゴリズムを用いたトレーニングを行うものである。学習モジュール330により実行される過程の他のタイプは、隠れマルコフモデルを用いてビタビアルゴリズムを用いて認識するものである。学習モジュール330は、隠れマルコフモデルの替わりに時間遅れニューラルネットワーク(TDNN)を用いることもできる。学習モジュール330は、意味的連想計算を実行するプロセスを実行することもできる。
本発明の有利な一実施形態において、学習モジュール330は、隠れマルコフモデル(HMM)を用いて、(モジュール320から入力される)話者の顔の特徴と、(モジュール350からの入力される)抽出された話者のスピーチのオーディオ的特徴を分類する。モジュール320とモジュール350からのデータの値は、n次元の特徴ベクトルf=f(f1,f2,f3,...,fn)の要素として用いられる。特徴ベクトルが時間セグメントに対して記録される。そして、観測シンボルは隠れマルコフモデル(HMM)に入力される。
隠れマルコフモデル(HMM)は、信号処理の分野で広く用いられている方法である。隠れマルコフモデル(HMM)は、観測(シンボル)の生起を説明するモデルを構成し、そのモデルを用いて他の観測シーケンスを特定する。隠れマルコフモデル(HMM)とその応用に関する背景情報については、L. R. Rabinerによる論文「A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition」Proceedings of the IEEE, Volume 77, Pages 257-285 (1989)を参照せよ。
HMMでは、利用可能な状態数は有限であり、いずもそれらの状態の1つにいる。各クロック時間において、HMMは、前の状態に依存する遷移確率分布に基づく新しい状態に入る。遷移後、HMMは、現在の状態に依存する確率分布に基づき出力シンボルを生成する。HMMの形式的定義においては、状態はQ={q1,q2,q3,...,qN}と表される。ここで、Nは状態数である。観測シンボルはV={v1,v2,v3,...,vM}と表される。ここで、Mはシンボル数である。状態間の遷移確率分布は行列A={aij}で表される。ここで、aij=Pr{qj at t+1|qi at t}である。観測シンボル確率分布は、行列B={bj(k)}により表される。ここで、bj(k)は、現在の状態がqjであるときにvkを生成する確率である。
学習モジュール330におけるHMMの動作は、2つのフェーズで進行する。第1のフェーズはトレーニングであり、第2のフェーズは分類フェーズである。トレーニングフェーズを最初に説明する。学習モジュール330は、複数の異なるHMMを構成し、ここで各HMMは異なる論理ユニットに対応する。論理ユニットは単語、音素、またはvisemeである。本発明の有利な一実施形態において、論理ユニットは音素である。音素は、話言葉の音の単位であり、それにより発話が表現される。各話し言葉は異なる音素の組を有する。ロングマン米語辞典によると、米語には46個の音素がある。米語の音素数については議論がなされている。人によっては、40、43、48、または50の音素があるとしている。
本発明の有利な他の実施形態において、論理ユニットはvisemeである。visemeは、音を記述するのに仕様できる一般的な顔の画像である。人がそれぞれ区別できる音を発音するとき、話者の唇の動きは異なる。音に対応する顔の画像はvisemeと呼ばれる。visemeは、音素の視覚的等価物である。耳の不自由な人は、visemeを見ることにより音を視覚的に見ている。このように、耳の不自由な人は話者の「唇を読み」、話されていることを判断する。
学習モジュール330は、特徴ベクトル値の集まりを用いてトレーニングを積むことによって、複数の異なるHMMを構成する。ラムダ(λ)=(A,B,π)として、HMMトレーニングは、観測シーケンスPr(O|λ)を最大化するために、λのパラメータを調節する段階を有する。記号πは、初期状態分布を表し、π={πi}として定義される。ここで、πiは、状態qiがHMMの初期状態である確率である。文字Oは観測シーケンスを表す。
学習モジュール330は、話している人物を正面から記録することにより取得したデータの組を収集する。所定数のセンテンス(例えば、200センテンス)をスピーチデータベースのテキストコーパスから選択する。オーディオ信号とビデオ信号の両方を毎秒30フレーム(30fps)でデジタル化し、分析する。これにより、オーディオビジュアルトレーニングデータサンプルができる。データサンプルの半分をトレーニング用に用いる。データサンプルの半分を分類(すなわち、テスト)用に用いる。
最初に、オーディオデータサンプルを考える。各スピーチセグメントについて、オーディオ的特徴として、異なるオーディオ係数のセレクションを計算する。分類に使用できる音響的特徴は複数ある。それには、MFCC(Mel Cepstral Frequency Coefficients)、LPC(線形予測コーディング係数)、デルタMFCC、デルタLPC、自己相関MFCC、いくつかの時間的特徴、及びいくつかのスペクトル的特徴が含まれる。MFCC特徴は、フィルターバンクされた高速フーリエ変換(FFT)スペクトルの離散余弦変換(DCT)を用いて抽出される。例えば、A. M. Nollによる論文「Cepstrum Pitch Determination」The Journal of the Acoustical Society of America, Volume 41, No. 2, pp. 293-309 (1967)を参照せよ。MFCCの計算は、時間軸に沿ってウィンドウされた入力データについて、フレーム毎に実行される。使用するウィンドウには、方形ウィンドウとハミングウィンドウが含まれる。
LPC特徴は、自己相関法を用いて抽出してもよい。例えば、R. P. Ramachandrian et al.による論文「A Comparative Study of Robust Linear Predictive Analysis Methods with Applications to Speaker Identification」、IEEE Transactions on Speech and Audio Processing, Volume 3, No. 2, pp. 117-125 (March 1995)を参照せよ。
デルタMFCC特徴は、次の関係を用いて、MFCC特徴を用いて抽出される:
デルタLPC特徴は、次の関係を用いて、LPC特徴を用いて抽出される:
自己相関MFCC特徴は、次の関係を用いて、MFCC特徴を用いて抽出される:
ここで、ビジュアルデータサンプルを考える。コンテント合成アプリケーションプロセッサ190は、顔の動きトラッキングアルゴリズムを用いて、ビジュアルな顔の動きコンポーネントを分析する。ビジュアルな顔の動きコンポーネントは、一定レベルの精度(例えば単語、音)における顔の歪み(すなわち、静的モデルからの変形)に対応する。出力は、具体的な話す顔の動きコンポーネント(SFMC)に対応するトレーニングされたHMMである。このデータセットを用いて、オーディオからビジュアルへのマッピングのトレーニングを行う。トレーニングの目的は、HMMであるの全てに対するモデルλを見つけることである。本発明のグラフィックスドリブンの顔のアニメーションシステム及び方法により、人間の顔に関係するマルチメディア情報を配信及び表示する問題に対する効果的な解決策が提供される。
本発明の有利な他の実施形態において、論理ユニットはオーディオビジュアル入力ベクトルである。トレーニングプロセスの間、学習モジュール330は、オーディオ的特徴とビデオ的特徴を連結し、オーディオビジュアル入力ベクトルを生成する。オーディオビジュアル入力ベクトルは、ハイブリッドな論理ユニットである。というのは、話された音素を表す特定のオーディオビジュアルな話す顔の動きコンポーネントに対応する音素とvisemeの両方の特性を表す論理ユニットだからである。出力は、具体的な話す顔の動きコンポーネント(SFMC)に対応するトレーニングされたHMMである。
Matthew Brandによる論文「Voice Puppetry」Computer Graphics Proceedings, ACM SIGGRAPH, pp. 21-28 (August 1999)に記載されたような、先行技術によるシステムを考える。ボイスパペトリー(Voice Puppetry)システムにおいては、関連する話す顔の動きコンポーネントはビジュアル空間にしかない。これとは対照的に、本発明においては、関連する話す顔の動きコンポーネントはオーディオビジュアル空間にある。オーディオビジュアル空間にある動く顔の動きコンポーネントを使用する有利な点は、それにより分析がより包括的かつ正しくなるからである。例えば、ビジュアル空間において、シラブル「pa」とシラブル「ba」とは同じように見える。しかし、これらのシラブルの発音は異なる。本発明のオーディオビジュアル空間においては、「pa」シラブルのオーディオビジュアル入力ベクトルと「ba」シラブルのオーディオビジュアル入力ベクトルは、明らかに区別される。
学習モジュール330も、各オーディオビジュアル入力ベクトルの音素とviseme間のマッピングを特定するために、意味的連想(クロスモデル連想とも呼ぶ)を提供する。クロスモデル連想の場合、異なる媒体源(例えば、オーディオと画像)から抽出した低レベルの特徴を、同期した相関パターンに基づいて互いにマッチさせることができる。また、クロスモデル連想を利用して、第1のタイプの媒体源(例えばオーディオ)からのクエリーを用いて、異なるタイプの媒体源(例えば、画像シーケンス)のコンテントをサーチする。例えば、D. LiとN. Dimitrovaにより2002年11月15日に出願された米国特許出願(DocketNo.703002)「Content Retrieval Based on Semantic Association」を参照せよ。特許出願「Content Retrieval Based on Semantic Association」は本発明の譲受人により保有されており、ここで全ての目的のために参照により援用する。
学習モジュール330により利用されるクロスモデル法は、前述のボイスパペトリーシステムで利用されるような先行技術による方法よりも、非常に効率的である。ボイスパペトリーシステムは、オーディオとビジュアルのパターンを関連づけるために非常に複雑かつコストの高い方法を必要とする。学習モジュール330により利用されるクロスモデル法は、従来のコンテントベースのマルチメディアリトリーバルシステムと同様の方法による低レベルの機能に直接基づくものである。学習モジュール330により利用されるクロスモデル法は、(1)潜在意味的インデックス、(2)カノニカル相関、または(3)クロスモデル要因分析のいずれかを利用してもよい。
潜在的意味的インデックス(LSI)は、異なるテキストユニット(例えば、キーワードとパラグラフ)間の根底にある意味的関係を発見するために使用するテキスト情報リトリーバルにおける強力なツールである。ビジュアルな顔とそれと関連するスピーチの間の意味的相関を検出する方法は、LSIに基づいている。この方法は、4つの段階を有する:ジョイントマルチモデル特徴空間の構成、規格化、特異値分解(SVD)、及び意味的連想測定である。
t個のビデオフレームにおけるn個のビジュアル的特徴とm個のオーディオ的特徴が与えられた場合、ジョイント特徴空間は次のように表される:
SとDの最初の最も重要なk個の特異ベクトルのみを残して、特徴次元を下げて
最小自乗という意味での
新しく入来するオーディオの分析は、マッチするビデオと最もありそうな顔の動きを見つける意味的連想法により実行される。意味的連想の3つの方法において、すべて、変換行列を用いて、低レベルの特徴を下げられた特徴空間に変換する。ここで、異なるタイプの媒体源の候補のクエリーとサーチの間のマッチングが評価される。例えば、潜在的意味的インデックスの場合、上の式(7)から導き出した変換行列を用いる。マッチングの評価は、最も高い相関(すなわち、最もよい一致)を探すために、変換後の空間におけるピアソン相関または相互情報に基づき実行される。
本発明の有利な他の実施形態において、学習モジュール330は、時間遅れニューラルネットワーク(TDNN)を用いて、(モジュール320から入力される)話者の顔の特徴と、(モジュール350からの入力される)抽出された話者のスピーチのオーディオ的特徴を分類する。時間遅れニューラルネットワーク(TDNN)の一般的アーキテクチャに関する背景情報は、S. Curinga et al.による論文「Lip Movements Synthesis Using Time-Delay」Proceedings of the European Signal Processing Conference, 1996 (1996)を参照せよ。
TDNNは、音素認識をせずに調音パラメータの推定をすることができ、共調音効果を好適にモデル化することができる。TDNNにおけるニューロンの活性化は、ウィンドウの各位置における入力ウィンドウの加重合計を計算し、その合計にシグモイド活性化関数を適用することにより、各ニューロンに対して計算される。入力ノードの各グループ(重み付き受容フィールドと呼ばれる)は、入力シンボルストリームの小さなウィンドウしかとらず、各時間ステップにウィンドウ中を1ステップずつ「進む」。隠れレイヤーの出力も、シェアードウェイトを用いて受容ウィンドウでカバーされる。ネットワーク出力は、出力ニューロンの異なる時間ステップの自乗合計により構成される。
トレーニングプロセスのTDNNへの入力は、HMMの場合と同じように、一連の入力シンボルにより構成される。TDNNにより実行される分類プロセスは、HMMにより実行されるものと同様である。学習モジュール330は、TDNNを用いて、話者の顔の特徴(モジュール320からの入力)と、話者の抽出されたオーディオ的特徴(モジュール350からの入力)を分類し、前述のタイプのオーディオビジュアル入力ベクトルを生成することができる。
図5は、コンテント合成アプリケーションプロセッサ190が話す顔の動きコンポーネント(SFMC)とその他のパラメータをどのように用い、話す顔のアニメーションを話者のスピーチとどのように合成し同期させるかを示す図である。図5に示した要素は、顔のアニメーション部500として集合的に参照される。離れた場所へコミュニケーションチャンネルを介して信号を伝送するアプリケーションにおいては、顔のアニメーション部500は、コミュニケーションチャンネルのレシーバ側に置かれる。分類プロセスは、コミュニケーションチャンネルの送信者側で実行される。顔のアニメーション及び同期プロセスは、コミュニケーションチャンネルのレシーバ側で実行される。
顔のアニメーション部500の顔のオーディオビジュアル的特徴マッチングと分類モジュール360は、データベース505と結合しており、それからの入力を受信する。データベース505は、話す顔の動きコンポーネント(SFMC)を含む。顔のオーディオビジュアル的特徴マッチングと分類モジュール360は、話す顔のビジュアルパラメータモジュール510から、話す顔のビジュアルパラメータも受信する。スピーチモジュール520は、オーディオ的特徴抽出モジュール530に話者の話した言葉のオーディオを供給する。オーディオ的特徴抽出モジュール530は、スピーチからオーディオ的特徴を抽出し、それを顔のオーディオビジュアル的特徴マッチングと分類モジュール360に供給する。
分類プロセスの際、同じオーディオビジュアルシンボルが、トレーニングプロセスについて前述したのと同じ方法でオーディオビジュアル信号から抽出される。顔のオーディオビジュアル的特徴マッチングと分類モジュール360は、分類プロセスを実行し、オーディオビジュアル的特徴をトレーニングプロセスについて前述した所定のクラスの1つに分類する。分類プロセスの精度(例えば、単語、音素)は、トレーニングプロセスの精度と同じレベルである。
そして、顔のオーディオビジュアル的特徴マッチングと分類モジュール360は、選択されたパラメータ用顔のアニメーションモジュール370にその分類情報を送る。選択されたパラメータ用顔のアニメーションモジュール370は、3次元(3D)顔モデルモジュール540とテクスチャマップモジュール550からの追加的入力を受信する。選択パラメータ用顔アニメーションモジュール370は、適当な分類に対応する顔のアニメーションパラメータを用いて話者の顔を合成する(すなわち、コンピュータで生成した話者の顔のアニメーションを生成する)。
先行技術システムのほとんどは、音素ベース及びvisemeベースの唇同期システムである。このようなシステムは、話者の顔を合成する問題を、ポーズ間の補間またはスプライニングにより解決する。対照的に、本発明は、意味的(クロスモーダル)連想を用いて、個々のvisemeシーケンスのみだけではなく、個々のvisemeシーケンスも使用する。
選択パラメータ用顔アニメーションモジュール370の出力は、話す顔のアニメーション及び同期モジュール380に送られる。話す顔のアニメーション及び同期モジュール380は、スピーチモジュール520からも入力を受け取る。話す顔のアニメーション及び同期モジュール380は、顔のアニメーション情報をスピーチモジュール520からのスピーチ入力と同期させ、話者のスピーチと同期した話者の顔のアニメーション画像を生成し、出力する。
任意的オーディオ表示分類モジュール560は、オーディオ的特徴抽出モジュール530と話す顔のアニメーション及び同期モジュール380の間に結合される。オーディオ表示分類モジュール560は、オーディオ表示のレベル(例えば、大きな声、興奮した声、普通の声、柔らかい声)を決定し、その決定に従ってオーディオを分類する。オーディオ表示分類に応じて、話す顔のアニメーション及び同期モジュール380は、アニメーションの顔のパラメータを修正して、話者の顔のアニメーションをより正しく表すように一定の特徴を強調する。
図6は、本発明の方法の有利な実施形態の第1部分のステップを示すフローチャートである。図6に示した方法のステップは、参照数字600により集合的に参照される。最初のステップにおいて、コンテント合成アプリケーションプロセッサ190は、話している話者のオーディオビジュアル信号を受信する(ステップ610)。コンテント合成アプリケーションプロセッサ190は、そのオーディオビジュアル信号を分析し、話者の顔のビジュアル表示を取得する(ステップ620)。コンテント合成アプリケーションプロセッサ190は、その次に、話者の空間的特徴のトラッキング情報を取得する(ステップ630)。学習モジュール330は、隠れマルコフモデルを用いてビジュアルな顔の動きコンポーネントを分類し、各話す顔の動きコンポーネント(SFMC)を表す(ステップ640)。本発明の方法は、図7に示したステップ710に続く(ステップ650)。
ステップ620に記載した動作と同時に、コンテント合成アプリケーションプロセッサ190は、話者のスピーチを含むオーディオの一部を取得する(ステップ660)。コンテント合成アプリケーションプロセッサ190は、その次に、話者のスピーチのオーディオ的特徴を抽出する(ステップ670)。学習モジュール330は、隠れマルコフモデルを用いてオーディオ的特徴を分類し、各オーディオ論理ユニット(例えば、音素)を表す(ステップ680)。本発明の方法は、図7に示したステップ710に続く(ステップ650)。
図7は、本発明の方法の有利な実施形態の第2部分のステップを示すフローチャートである。図7に示した方法のステップは、参照数字700により集合的に参照される。図7に示した最初のステップにおいて、コンテント合成アプリケーションプロセッサ190は、入力として、(1)分析すべき新しいオーディオ信号、(2)ステップ640からの話す顔の動きコンポーネント(SFMC)、及び(3)ステップ680からの分類されたオーディオ的特徴を受け取る(ステップ710)。コンテント合成アプリケーションプロセッサ190は、次に、各動く顔のコンポーネント(SFMC)を各対応する分類されたオーディオ的特徴とマッチさせる(ステップ720)。コンテント合成アプリケーションプロセッサ190は、各選択されたオーディオビジュアルパラメータに対して話者を表現するコンピュータ合成のアニメーションの顔を生成する(ステップ730)。
コンテント合成アプリケーションプロセッサ190は、コンピュータ生成した話者の顔の各アニメーションをその話者のスピーチに同期させる(ステップ740)。 これにより、前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現が生成される。話者の顔のオーディオビジュアル表現は、ディスプレイ部110に出力される(ステップ750)。
図8は、本発明の方法の有利な実施形態の第3部分のステップを示すフローチャートである。図8に示した方法のステップは、参照数字800により集合的に参照される。学習モジュール330は、オーディオビジュアル入力ベクトルを受け取り、オーディオビジュアル的話す顔の動きコンポーネント(SFMC)を隠れマルコフモデルを用いて生成する(ステップ810)。学習モジュール330は、オーディオビジュアル入力ベクトルを受信し、オーディオビジュアル的話す顔の動きコンポーネント(SFMC)を生成し、意味的連想を用いて、音素とviseme間の関連性(すなわち、マッピング)を取得する(ステップ820)。
コンテント合成アプリケーションプロセッサ190は、次に、分析すべき新しいオーディオ信号を受信し、モジュール350を用いて話者のスピーチのオーディオ的特徴を抽出する(ステップ830)。コンテント合成アプリケーションプロセッサ190は、次に、意味的連想を用いて、抽出したオーディオ的特徴に対応するビデオ表現を見つける(ステップ840)。コンテント合成アプリケーションプロセッサ190は、次に、隠れマルコフモデルを用いて、オーディオ表現をオーディオビジュアル的話す顔の動きコンポーネント(SFMC)とマッチさせる(ステップ850)。
コンテント合成アプリケーションプロセッサ190は、各選択されたオーディオビジュアル的話す顔動きコンポーネント(SFMC)に対して話者を表現するコンピュータ合成のアニメーションの顔を生成する(ステップ860)。コンテント合成アプリケーションプロセッサ190は、コンピュータ生成した話者の顔の各アニメーションをその話者のスピーチに同期させる(ステップ870)。これにより、前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現が生成される。話者の顔のオーディオビジュアル表現は、ディスプレイ部110に出力される(ステップ880)。
前述のステップ730、740、及び750と、前述のステップ860、870、880において、顔のアニメーションを生成するのにコンピュータグラフィックスアプローチを使用した。しかし、別の方法を用いてもよい。別の方法において、話されたフレーズやセンテンスに対応するビジュアル出力を生成するために、話者の格納されたビデオセグメントを用いてもよい。意味的連想を用いてオーディオビジュアルセグメントを取得した後、ビデオセグメントのシーケンスを取得する。これらのセグメントはそれぞれ個々の音素に対応している。しかし、時間点を「縫い合わせる」プロセスにおいて、結果として得られるビデオの動きはぎくしゃくしてしまうことがある。これらのセグメントをセンテンスまたはフレーズ全体に対応する単一のビデオに編集することができる。ビデオのモーフィングと編集を用いて、個々のビデオセグメント間のぎくしゃくした感じを減らすことができる。このアプローチの有利な点は、コンピュータグラフィックスアプローチの基礎である3次元モデルとテクスチャマッピングを使用する必要が無いことである。
本発明のシステムと方法は、例えば、テレビ会議、インターラクティブビデオアプリケーション、及びオブジェクトレベルビデオ編集で使用することができる。話されたスピーチに対応する顔の動きを正しく表すアニメーションの顔を表すために、ユーザはテキストまたはスピーチを送信するだけでよい。本発明は、アニメーションの話す顔を生成し、伝送の受信側においてビジュアルなスピーチ要素を合成することにより、話されたテキストを表示する。本発明のシステムと方法は、伝送チャンネルを介してオーディオ信号を伝送する。本発明のシステムと方法は、伝送の受信側に、話された言葉の正しいビジュアル的特徴を表出させるためにどのようにアニメーションの顔を駆動するかを知らせる少数のパラメータも伝送する。パラメータは、送信者側で実行されたオーディオビジュアル分類に関係する。
この特許出願書類を通して、話す顔の動きコンポーネント(SFMC)を生成し使用することができるとして本発明を説明した。当然のことながら、本発明は、話す顔の動きコンポーネント(SFMC)を生成及び使用することに限定はされない。本発明は、他のタイプのオーディオビジュアル設定を生成及び使用することもできる。話す顔の動きコンポーネントは、本発明が生成し使用することができるオーディオビジュアル設定の1つの具体的な実施形態に過ぎない。
本発明をその実施形態を参照して詳細に説明したが、当業者は、本発明の最も広い形体におけるコンセプトと範囲から逸脱することなく、本発明にいろいろな変更、挿入、修正、改変、適応をできることを理解すべきである。
Claims (33)
- 話している話者を表すオーディオビジュアル入力信号を受け取り、話者のスピーチを表す複数のオーディオ論理ユニットを用いて前記話者の顔のアニメーションを生成する、デジタルコミュニケーションシステムにおける装置であって、
前記装置はコンテント合成アプリケーションプロセッサを有し、前記コンテント合成アプリケーションプロセッサは、
前記オーディオビジュアル入力信号から話者のスピーチのオーディオ的特徴と話者の顔のビジュアル的特徴とを抽出し、
前記オーディオ的特徴と前記ビジュアル的特徴とからオーディオビジュアル入力ベクトルを生成し、
前記オーディオビジュアル入力ベクトルからオーディオビジュアル設定を生成し、
前記オーディオビジュアル入力ベクトルに意味的連想プロシージャを実行して、前記話者のスピーチを表す音素と前記話者の顔を現すvisemeとの間の関連を取得することを特徴とする装置。 - 請求項1に記載の装置であって、
前記コンテント合成アプリケーションプロセッサは、
話者のスピーチのオーディオ的特徴を抽出し、
意味的連想プロシージャを用いて前記オーディオ的特徴に対する対応するビデオ表現を見つけ、
前記対応するビデオ表現を前記オーディオビジュアル設定とマッチングすることにより、入力オーディオ信号を分析することを特徴とする装置。 - 請求項2に記載の装置であって、
前記コンテント合成アプリケーションプロセッサは、さらに、
選択された各オーディオビジュアル設定に対するコンピュータ生成のアニメーションの顔を生成し、
コンピュータ生成のアニメーションの各顔を前記話者のスピーチと同期させ、
前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現を出力することができることを特徴とする装置。 - 請求項1に記載の装置であって、
前記コンテント合成アプリケーションプロセッサが前記オーディオビジュアル入力信号から抽出する前記オーディオ的特徴は、Mel Cepstral周波数係数、線形予測符号化係数、デルタMel Cepstral周波数係数、デルタ線形予測符号化係数、及び自己相関Mel Cepstral周波数係数のうちの1つを有することを特徴とする装置。 - 請求項1に記載の装置であって、
前記コンテント合成アプリケーションプロセッサは、隠れマルコフモデルと時間遅れニューラルネットワークの1つを用いて前記オーディオビジュアル入力ベクトルからオーディオビジュアル設定を生成することを特徴とする装置。 - 請求項2に記載の装置であって、
前記コンテント合成アプリケーションプロセッサは、隠れマルコフモデルと時間遅れニューラルネットワークの1つを用いて前記対応するビデオ表現を前記オーディオビジュアル設定とマッチさせることを特徴とする装置。 - 請求項3に記載の装置であって、
前記コンテント合成アプリケーションプロセッサは、さらに、
複数のオーディオビジュアル設定のそれぞれを対応する分類されたオーディオ的特徴とマッチさせ、顔のアニメーションのパラメータを生成する顔のオーディオビジュアル的特徴マッチング及び分類モジュールと、
選択された顔のアニメーションパラメータに対して前記話者の顔のアニメーションを生成する選択されたパラメータ用の顔アニメーションモジュールと、を有することを特徴とする装置。 - 請求項7に記載の装置であって、
前記選択されたパラメータ用顔アニメーションモジュールは、(1)テクスチャマッピングを有する3次元モデルと(2)ビデオ編集の1つを用いることにより、話者の顔のアニメーションを生成することを特徴とする装置。 - 請求項2に記載の装置であって、
前記意味的連想プロシージャは、潜在的意味的インデックス、カノニカル相関、及びクロスモデルファクタ分析のうち1つを有することを特徴とする装置。 - 請求項1に記載の装置であって、
前記オーディオビジュアル設定は、オーディオビジュアル的話す顔の動きコンポーネントを有することを特徴とする装置。 - 請求項8に記載の装置であって、
前記コンテント合成アプリケーションプロセッサは、さらに、
前記話者の顔の各アニメーションを前記話者のスピーチの前記オーディオ的特徴と同期させ、前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現を生成する話す顔アニメーション及び同期モジュールと、
前記話者のスピーチのオーディオ表示のレベルを決定し、前記話者のスピーチの前記オーディオ表示のレベルを前記話す顔アニメーション及び同期モジュールに供給して前記話者のアニメーションにした顔のパラメータを修正するために使用するオーディオ表現分類モジュールと、を有することを特徴とする装置。 - ビデオ画像プロセッサにおけるオーディオビジュアルコンテントの合成に使用する方法であって、
話している話者を表すオーディオビジュアル入力信号を受け取る段階と、
前記オーディオ入力信号から話者のスピーチのオーディオ的特徴と話者の顔のビジュアル的特徴とを抽出する段階と、
前記オーディオ的特徴と前記ビジュアル的特徴とからオーディオビジュアル入力ベクトルを生成する段階と、
前記オーディオビジュアル入力ベクトルからオーディオビジュアル設定を生成する段階と、
前記オーディオビジュアル入力ベクトルに意味的連想プロシージャを実行して、前記話者のスピーチを表す音素と前記話者の顔を現すvisemeとの間の関連を取得する段階と、を有することを特徴とする方法。 - 請求項12に記載の方法であって、
話者のスピーチの入力オーディオ信号を分析する段階と、
前記話者のスピーチのオーディオ的特徴を抽出する段階と、
意味的連想プロシージャを用いて前記オーディオ的特徴に対する対応するビデオ表現を見つける段階と、
前記対応するビデオ表現を前記オーディオビジュアル設定とマッチングすることにより、入力オーディオ信号を分析する段階と、を有することを特徴とする方法。 - 請求項13に記載の方法であって、
選択された各オーディオビジュアル設定に対するコンピュータ生成のアニメーションの顔を生成し、
コンピュータ生成のアニメーションの各顔を前記話者のスピーチと同期させ、
前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現を出力する段階と、を有することを特徴とする方法。 - 請求項12に記載の方法であって、
前記オーディオビジュアル入力信号から抽出された前記オーディオ的特徴は、Mel Cepstral周波数係数、線形予測符号化係数、デルタMel Cepstral周波数係数、デルタ線形予測符号化係数、及び自己相関Mel Cepstral周波数係数のうちの1つを有することを特徴とする方法。 - 請求項12に記載の方法であって、
前記オーディオビジュアル設定は、隠れマルコフモデルと時間遅れニューラルネットワークのうち1つを用いて前記オーディオビジュアル入力ベクトルから生成されることを特徴とする方法。 - 請求項13に記載の方法であって、
隠れマルコフモデルと時間遅れニューラルネットワークのうち1つを用いて前記対応するビデオ表現を前記オーディオビジュアル設定とマッチさせることを特徴とする方法。 - 請求項12に記載の方法であって、
複数のオーディオビジュアル設定のそれぞれを対応する分類されたオーディオ特徴とマッチさせて顔のアニメーションパラメータを生成する段階と、
選択された顔のアニメーションパラメータに対して、前記話者の顔のアニメーションを生成する段階と、を有することを特徴とする方法。 - 請求項18に記載の方法であって、
(1)テクスチャマッピングを有する3次元モデルと(2)ビデオ編集の1つを用いることにより、話者の顔のアニメーションを生成する段階をさらに有することを特徴とする方法。 - 請求項13に記載の方法であって、
前記意味的連想プロシージャは、潜在的意味的インデックス、カノニカル相関、及びクロスモデルファクタ分析のうち1つを有することを特徴とする方法。 - 請求項12に記載の方法であって、
前記オーディオビジュアル設定は、オーディオビジュアル的話す顔の動きコンポーネントを有することを特徴とする方法。 - 請求項20に記載の方法であって、
前記話者の顔の各アニメーションを前記話者のスピーチの前記オーディオ的特徴と同期させる段階と、
前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現を生成する段階と、
前記話者のスピーチのオーディオ表示のレベルを決定する段階と、
前記話者のスピーチのオーディオ表示のレベルの決定に応じて、前記話者のアニメーションの顔のパラメータを修正する段階と、を有することを特徴とする方法。 - ビデオ画像プロセッサにおいてオーディオビジュアルコンテントを同期させる方法により生成された同期オーディオビジュアル信号であって、前記方法は、
話している話者を表すオーディオビジュアル入力信号を受け取る段階と、
前記オーディオ入力信号から話者のスピーチのオーディオ的特徴と話者の顔のビジュアル的特徴とを抽出する段階と、
前記オーディオ的特徴と前記ビジュアル的特徴とからオーディオビジュアル入力ベクトルを生成する段階と、
前記オーディオビジュアル入力ベクトルからオーディオビジュアル設定を生成する段階と、
前記オーディオビジュアル入力ベクトルに意味的連想プロシージャを実行して、前記話者のスピーチを表す音素と前記話者の顔を現すvisemeとの間の関連を取得する段階と、を有することを特徴とする信号。 - 請求項23に記載の同期オーディオビジュアル信号であって、
前記方法は、さらに、
話者のスピーチの入力オーディオ信号を分析する段階と、
前記話者のスピーチのオーディオ的特徴を抽出する段階と、
意味的連想プロシージャを用いて前記オーディオ的特徴に対する対応するビデオ表現を見つける段階と、
前記対応するビデオ表現を前記オーディオビジュアル設定とマッチングすることにより、入力オーディオ信号を分析する段階と、を有することを特徴とする信号。 - 請求項24に記載の同期オーディオビジュアル信号であって、
前記方法は、さらに、
選択された各オーディオビジュアル設定に対するコンピュータ生成のアニメーションの顔を生成する段階と、
コンピュータ生成のアニメーションの各顔を前記話者のスピーチと同期させる段階と、
前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現を出力する段階と、を有することを特徴とする信号。 - 請求項23に記載の同期オーディオビジュアル信号であって、
前記オーディオビジュアル入力信号から抽出された前記オーディオ的特徴は、Mel Cepstral周波数係数、線形予測符号化係数、デルタMel Cepstral周波数係数、デルタ線形予測符号化係数、及び自己相関Mel Cepstral周波数係数のうちの1つを有することを特徴とする信号。 - 請求項23に記載の同期オーディオビジュアル信号であって、
前記オーディオビジュアル設定は、隠れマルコフモデルと時間遅れニューラルネットワークのうち1つを用いて前記オーディオビジュアル入力ベクトルから生成されることを特徴とする信号。 - 請求項24に記載の同期オーディオビジュアル信号であって、
隠れマルコフモデルと時間遅れニューラルネットワークのうち1つを用いて前記対応するビデオ表現を前記オーディオビジュアル設定とマッチさせることを特徴とする信号。 - 請求項25に記載の同期オーディオビジュアル信号であって、
前記方法は、さらに、
複数のオーディオビジュアル設定のそれぞれを対応する分類されたオーディオ特徴とマッチさせて顔のアニメーションパラメータを生成する段階と、
選択された顔のアニメーションパラメータに対して、前記話者の顔のアニメーションを生成する段階と、を有することを特徴とする信号。 - 請求項29に記載の同期オーディオビジュアル信号であって、
前記方法は、さらに、
(1)テクスチャマッピングを有する3次元モデルと(2)ビデオ編集の1つを用いることにより、話者の顔のアニメーションを生成する段階をさらに有することを特徴とする信号。 - 請求項24に記載の同期オーディオビジュアル信号であって、
前記意味的連想プロシージャは、潜在的意味的インデックス、カノニカル相関、及びクロスモデルファクタ分析のうち1つを有することを特徴とする信号。 - 請求項23に記載の同期オーディオビジュアル信号であって、
前記オーディオビジュアル設定は、オーディオビジュアル的話す顔の動きコンポーネントを有することを特徴とする信号。 - 請求項31に記載の同期オーディオビジュアル信号であって、
前記方法は、さらに、
前記話者の顔の各アニメーションを前記話者のスピーチの前記オーディオ的特徴と同期させる段階と、
前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現を生成する段階と、
前記話者のスピーチのオーディオ表示のレベルを決定する段階と、
前記話者のスピーチのオーディオ表示のレベルの決定に応じて、前記話者のアニメーションの顔のパラメータを修正する段階と、を有することを特徴とする信号。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US50709803P | 2003-09-30 | 2003-09-30 | |
PCT/IB2004/051903 WO2005031654A1 (en) | 2003-09-30 | 2004-09-28 | System and method for audio-visual content synthesis |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007507784A true JP2007507784A (ja) | 2007-03-29 |
Family
ID=34393213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006530945A Withdrawn JP2007507784A (ja) | 2003-09-30 | 2004-09-28 | オーディオビジュアルコンテント合成システム及び方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7636662B2 (ja) |
EP (1) | EP1671277A1 (ja) |
JP (1) | JP2007507784A (ja) |
KR (1) | KR20060090687A (ja) |
CN (1) | CN1860504A (ja) |
WO (1) | WO2005031654A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014146340A (ja) * | 2013-01-29 | 2014-08-14 | Toshiba Corp | コンピュータ生成ヘッド |
JP2016042362A (ja) * | 2013-01-29 | 2016-03-31 | 株式会社東芝 | コンピュータ生成ヘッド |
Families Citing this family (77)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6735253B1 (en) | 1997-05-16 | 2004-05-11 | The Trustees Of Columbia University In The City Of New York | Methods and architecture for indexing and editing compressed video over the world wide web |
US7143434B1 (en) | 1998-11-06 | 2006-11-28 | Seungyup Paek | Video description system and method |
WO2003051031A2 (en) | 2001-12-06 | 2003-06-19 | The Trustees Of Columbia University In The City Of New York | Method and apparatus for planarization of a material by growing and removing a sacrificial film |
WO2006096612A2 (en) | 2005-03-04 | 2006-09-14 | The Trustees Of Columbia University In The City Of New York | System and method for motion estimation and mode decision for low-complexity h.264 decoder |
GB2430073A (en) * | 2005-09-08 | 2007-03-14 | Univ East Anglia | Analysis and transcription of music |
US8024189B2 (en) * | 2006-06-22 | 2011-09-20 | Microsoft Corporation | Identification of people using multiple types of input |
WO2009126785A2 (en) | 2008-04-10 | 2009-10-15 | The Trustees Of Columbia University In The City Of New York | Systems and methods for image archaeology |
WO2009155281A1 (en) | 2008-06-17 | 2009-12-23 | The Trustees Of Columbia University In The City Of New York | System and method for dynamically and interactively searching media data |
US8463053B1 (en) | 2008-08-08 | 2013-06-11 | The Research Foundation Of State University Of New York | Enhanced max margin learning on multimodal data mining in a multimedia database |
US8224652B2 (en) * | 2008-09-26 | 2012-07-17 | Microsoft Corporation | Speech and text driven HMM-based body animation synthesis |
US8671069B2 (en) | 2008-12-22 | 2014-03-11 | The Trustees Of Columbia University, In The City Of New York | Rapid image annotation via brain state decoding and visual pattern mining |
US8212924B2 (en) * | 2009-05-12 | 2012-07-03 | Himax Technologies Limited | System and method for processing multimedia data using an audio-video link |
US20100332229A1 (en) * | 2009-06-30 | 2010-12-30 | Sony Corporation | Apparatus control based on visual lip share recognition |
KR101615262B1 (ko) | 2009-08-12 | 2016-04-26 | 삼성전자주식회사 | 시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치 |
US8419534B2 (en) * | 2009-09-30 | 2013-04-16 | Disney Enterprises, Inc. | Systems and methods for using images to generate gameplay content |
US8135221B2 (en) * | 2009-10-07 | 2012-03-13 | Eastman Kodak Company | Video concept classification using audio-visual atoms |
CN102455847A (zh) * | 2010-10-15 | 2012-05-16 | 宏碁股份有限公司 | 基于语义的视觉效果产生系统 |
CN102547298B (zh) * | 2010-12-17 | 2014-09-10 | 中国移动通信集团公司 | 图像信息输出方法、装置及终端 |
WO2012088403A2 (en) | 2010-12-22 | 2012-06-28 | Seyyer, Inc. | Video transmission and sharing over ultra-low bitrate wireless communication channel |
CN103650002B (zh) * | 2011-05-06 | 2018-02-23 | 西尔股份有限公司 | 基于文本的视频生成 |
KR101328466B1 (ko) * | 2011-10-18 | 2013-11-13 | 한국과학기술원 | 객체 움직임 예측을 위한 컴퓨터로 구현된 계층적 시간적 메모리 네트워크에서의 마르코프 모델의 입력 제공방법 및 이를 이용한 움직임 예측 방법 |
CN102820030B (zh) * | 2012-07-27 | 2014-03-26 | 中国科学院自动化研究所 | 发音器官可视语音合成系统 |
US9104467B2 (en) * | 2012-10-14 | 2015-08-11 | Ari M Frank | Utilizing eye tracking to reduce power consumption involved in measuring affective response |
CN104756502A (zh) * | 2012-12-10 | 2015-07-01 | 英特尔公司 | 通信设备之间的视频和音频共享的方法、设备和系统 |
WO2014146258A1 (en) * | 2013-03-20 | 2014-09-25 | Intel Corporation | Avatar-based transfer protocols, icon generation and doll animation |
CN103279970B (zh) * | 2013-05-10 | 2016-12-28 | 中国科学技术大学 | 一种实时的语音驱动人脸动画的方法 |
US9576587B2 (en) * | 2013-06-12 | 2017-02-21 | Technion Research & Development Foundation Ltd. | Example-based cross-modal denoising |
GB2516965B (en) | 2013-08-08 | 2018-01-31 | Toshiba Res Europe Limited | Synthetic audiovisual storyteller |
KR20150068609A (ko) * | 2013-12-12 | 2015-06-22 | 삼성전자주식회사 | 이미지 정보 표시 방법 및 장치 |
CN104092654B (zh) * | 2014-01-22 | 2016-03-02 | 腾讯科技(深圳)有限公司 | 媒体播放方法、客户端及系统 |
CN105898667A (zh) | 2014-12-22 | 2016-08-24 | 杜比实验室特许公司 | 从音频内容基于投影提取音频对象 |
EP3054451A1 (en) * | 2015-02-03 | 2016-08-10 | Thomson Licensing | Method, apparatus and system for synchronizing audiovisual content with inertial measurements |
CN104732593B (zh) * | 2015-03-27 | 2018-04-27 | 厦门幻世网络科技有限公司 | 一种基于移动终端的3d动画编辑方法 |
US9659570B2 (en) | 2015-10-08 | 2017-05-23 | International Business Machines Corporation | Audiovisual information processing in videoconferencing |
US10534955B2 (en) * | 2016-01-22 | 2020-01-14 | Dreamworks Animation L.L.C. | Facial capture analysis and training system |
US11783524B2 (en) * | 2016-02-10 | 2023-10-10 | Nitin Vats | Producing realistic talking face with expression using images text and voice |
US10460732B2 (en) * | 2016-03-31 | 2019-10-29 | Tata Consultancy Services Limited | System and method to insert visual subtitles in videos |
CN106101858A (zh) * | 2016-06-27 | 2016-11-09 | 乐视控股(北京)有限公司 | 一种视频生成方法及装置 |
US10139780B2 (en) * | 2016-10-11 | 2018-11-27 | Charles Rinker | Motion communication system and method |
US10595039B2 (en) | 2017-03-31 | 2020-03-17 | Nvidia Corporation | System and method for content and motion controlled action video generation |
US10225516B2 (en) | 2017-06-23 | 2019-03-05 | Cisco Technology, Inc. | Latency mitigation through intelligent extrapolation in multimedia systems |
US10636193B1 (en) * | 2017-06-29 | 2020-04-28 | Facebook Technologies, Llc | Generating graphical representation of a user's face and body using a monitoring system included on a head mounted display |
US10636192B1 (en) | 2017-06-30 | 2020-04-28 | Facebook Technologies, Llc | Generating a graphical representation of a face of a user wearing a head mounted display |
US10586368B2 (en) * | 2017-10-26 | 2020-03-10 | Snap Inc. | Joint audio-video facial animation system |
US11082662B2 (en) | 2017-12-19 | 2021-08-03 | Koninklijke Kpn N.V. | Enhanced audiovisual multiuser communication |
WO2019161229A1 (en) | 2018-02-15 | 2019-08-22 | DMAI, Inc. | System and method for reconstructing unoccupied 3d space |
WO2019161198A1 (en) * | 2018-02-15 | 2019-08-22 | DMAI, Inc. | System and method for speech understanding via integrated audio and visual based speech recognition |
US11468885B2 (en) | 2018-02-15 | 2022-10-11 | DMAI, Inc. | System and method for conversational agent via adaptive caching of dialogue tree |
US11538455B2 (en) * | 2018-02-16 | 2022-12-27 | Dolby Laboratories Licensing Corporation | Speech style transfer |
US10951859B2 (en) | 2018-05-30 | 2021-03-16 | Microsoft Technology Licensing, Llc | Videoconferencing device and method |
KR102079453B1 (ko) * | 2018-07-31 | 2020-02-19 | 전자부품연구원 | 비디오 특성에 부합하는 오디오 합성 방법 |
CN109558853B (zh) * | 2018-12-05 | 2021-05-25 | 维沃移动通信有限公司 | 一种音频合成方法及终端设备 |
JP7278307B2 (ja) * | 2018-12-18 | 2023-05-19 | グリー株式会社 | コンピュータプログラム、サーバ装置、端末装置及び表示方法 |
KR20210114521A (ko) * | 2019-01-25 | 2021-09-23 | 소울 머신스 리미티드 | 스피치 애니메이션의 실시간 생성 |
WO2020256475A1 (ko) * | 2019-06-21 | 2020-12-24 | 주식회사 머니브레인 | 텍스트를 이용한 발화 동영상 생성 방법 및 장치 |
KR102360839B1 (ko) * | 2019-06-21 | 2022-02-09 | 주식회사 딥브레인에이아이 | 머신 러닝 기반의 발화 동영상 생성 방법 및 장치 |
KR102360840B1 (ko) * | 2019-06-21 | 2022-02-09 | 주식회사 딥브레인에이아이 | 텍스트를 이용한 발화 동영상 생성 방법 및 장치 |
WO2020256472A1 (ko) * | 2019-06-21 | 2020-12-24 | 주식회사 머니브레인 | 음성 신호를 이용한 발화 동영상 생성 방법 및 장치 |
WO2020256471A1 (ko) * | 2019-06-21 | 2020-12-24 | 주식회사 머니브레인 | 머신 러닝 기반의 발화 동영상 생성 방법 및 장치 |
KR102346755B1 (ko) * | 2019-06-21 | 2022-01-03 | 주식회사 딥브레인에이아이 | 음성 신호를 이용한 발화 동영상 생성 방법 및 장치 |
WO2021112365A1 (ko) * | 2019-12-02 | 2021-06-10 | 삼성전자 주식회사 | 음성 신호에서 헤드 모델 애니메이션을 생성하는 방법 및 이를 구현하는 전자 장치 |
US11544886B2 (en) * | 2019-12-17 | 2023-01-03 | Samsung Electronics Co., Ltd. | Generating digital avatar |
JP7299572B2 (ja) * | 2019-12-26 | 2023-06-28 | 浙江大学 | 音声信号により駆動される顔アニメーションの生成方法 |
US11417041B2 (en) * | 2020-02-12 | 2022-08-16 | Adobe Inc. | Style-aware audio-driven talking head animation from a single image |
KR102331517B1 (ko) * | 2020-07-13 | 2021-12-01 | 주식회사 딥브레인에이아이 | 발화 동영상 생성 방법 및 장치 |
KR20220013850A (ko) * | 2020-07-27 | 2022-02-04 | 주식회사 딥브레인에이아이 | 발화 영상 생성 방법 및 장치 |
US11610356B2 (en) | 2020-07-28 | 2023-03-21 | Samsung Electronics Co., Ltd. | Method and electronic device for providing sign language |
KR102483416B1 (ko) * | 2020-08-25 | 2022-12-30 | 주식회사 딥브레인에이아이 | 발화 동영상 생성 방법 및 장치 |
KR102501773B1 (ko) * | 2020-08-28 | 2023-02-21 | 주식회사 딥브레인에이아이 | 랜드마크를 함께 생성하는 발화 동영상 생성 장치 및 방법 |
JP7083380B2 (ja) * | 2020-09-28 | 2022-06-10 | グリー株式会社 | コンピュータプログラム、方法及びサーバ装置 |
US20220374637A1 (en) * | 2021-05-20 | 2022-11-24 | Nvidia Corporation | Synthesizing video from audio using one or more neural networks |
CN113435357B (zh) * | 2021-06-30 | 2022-09-02 | 平安科技(深圳)有限公司 | 语音播报方法、装置、设备及存储介质 |
CN115272537A (zh) * | 2021-08-06 | 2022-11-01 | 宿迁硅基智能科技有限公司 | 基于因果卷积的音频驱动表情方法及装置 |
CN114255737B (zh) * | 2022-02-28 | 2022-05-17 | 北京世纪好未来教育科技有限公司 | 语音生成方法、装置、电子设备 |
CN117635784B (zh) * | 2023-12-19 | 2024-04-19 | 世优(北京)科技有限公司 | 三维数字人脸部动画自动生成系统 |
CN117689783B (zh) * | 2024-02-02 | 2024-04-30 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于超参数神经辐射场的人脸语音驱动方法及装置 |
CN117932161B (zh) * | 2024-03-22 | 2024-05-28 | 成都数据集团股份有限公司 | 一种多源多模态数据的可视化搜索方法及系统 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6839672B1 (en) * | 1998-01-30 | 2005-01-04 | At&T Corp. | Integration of talking heads and text-to-speech synthesizers for visual TTS |
US6052132A (en) * | 1998-02-06 | 2000-04-18 | Digital Equipment Corporation | Technique for providing a computer generated face having coordinated eye and head movement |
US6449595B1 (en) * | 1998-03-11 | 2002-09-10 | Microsoft Corporation | Face synthesis system and methodology |
US6735566B1 (en) * | 1998-10-09 | 2004-05-11 | Mitsubishi Electric Research Laboratories, Inc. | Generating realistic facial animation from speech |
US6593936B1 (en) * | 1999-02-01 | 2003-07-15 | At&T Corp. | Synthetic audiovisual description scheme, method and system for MPEG-7 |
US6366885B1 (en) * | 1999-08-27 | 2002-04-02 | International Business Machines Corporation | Speech driven lip synthesis using viseme based hidden markov models |
US6539354B1 (en) * | 2000-03-24 | 2003-03-25 | Fluent Speech Technologies, Inc. | Methods and devices for producing and using synthetic visual speech based on natural coarticulation |
IT1320002B1 (it) * | 2000-03-31 | 2003-11-12 | Cselt Centro Studi Lab Telecom | Procedimento per l'animazione di un modello sintetizzato di voltoumano pilotata da un segnale audio. |
GB0008537D0 (en) * | 2000-04-06 | 2000-05-24 | Ananova Ltd | Character animation |
US7149686B1 (en) * | 2000-06-23 | 2006-12-12 | International Business Machines Corporation | System and method for eliminating synchronization errors in electronic audiovisual transmissions and presentations |
EP1299814A1 (en) | 2000-07-11 | 2003-04-09 | Abraham Glezerman | Agent for guiding children in a virtual learning environment |
US20020008716A1 (en) * | 2000-07-21 | 2002-01-24 | Colburn Robert A. | System and method for controlling expression characteristics of a virtual agent |
US6661418B1 (en) * | 2001-01-22 | 2003-12-09 | Digital Animations Limited | Character animation system |
US7630932B2 (en) * | 2002-01-31 | 2009-12-08 | Transunion Interactive, Inc. | Loan rate and lending information analysis system |
US7133535B2 (en) * | 2002-12-21 | 2006-11-07 | Microsoft Corp. | System and method for real time lip synchronization |
US7168953B1 (en) * | 2003-01-27 | 2007-01-30 | Massachusetts Institute Of Technology | Trainable videorealistic speech animation |
US7990384B2 (en) * | 2003-09-15 | 2011-08-02 | At&T Intellectual Property Ii, L.P. | Audio-visual selection process for the synthesis of photo-realistic talking-head animations |
-
2004
- 2004-09-28 JP JP2006530945A patent/JP2007507784A/ja not_active Withdrawn
- 2004-09-28 US US10/573,736 patent/US7636662B2/en not_active Expired - Fee Related
- 2004-09-28 KR KR1020067006256A patent/KR20060090687A/ko not_active Application Discontinuation
- 2004-09-28 WO PCT/IB2004/051903 patent/WO2005031654A1/en active Application Filing
- 2004-09-28 CN CNA2004800282271A patent/CN1860504A/zh active Pending
- 2004-09-28 EP EP04770119A patent/EP1671277A1/en not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014146340A (ja) * | 2013-01-29 | 2014-08-14 | Toshiba Corp | コンピュータ生成ヘッド |
JP2016042362A (ja) * | 2013-01-29 | 2016-03-31 | 株式会社東芝 | コンピュータ生成ヘッド |
Also Published As
Publication number | Publication date |
---|---|
US7636662B2 (en) | 2009-12-22 |
EP1671277A1 (en) | 2006-06-21 |
US20060290699A1 (en) | 2006-12-28 |
CN1860504A (zh) | 2006-11-08 |
WO2005031654A1 (en) | 2005-04-07 |
KR20060090687A (ko) | 2006-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7636662B2 (en) | System and method for audio-visual content synthesis | |
Czyzewski et al. | An audio-visual corpus for multimodal automatic speech recognition | |
US6735566B1 (en) | Generating realistic facial animation from speech | |
US11587548B2 (en) | Text-driven video synthesis with phonetic dictionary | |
Zhang et al. | Text2video: Text-driven talking-head video synthesis with personalized phoneme-pose dictionary | |
Ivanko et al. | Multimodal speech recognition: increasing accuracy using high speed video data | |
Bozkurt et al. | Comparison of phoneme and viseme based acoustic units for speech driven realistic lip animation | |
Greenwood et al. | Predicting head pose in dyadic conversation | |
Wang et al. | Synthesizing photo-real talking head via trajectory-guided sample selection | |
Karpov | An automatic multimodal speech recognition system with audio and video information | |
Wang et al. | HMM trajectory-guided sample selection for photo-realistic talking head | |
Xia et al. | Audiovisual speech recognition: A review and forecast | |
Ivanko et al. | Using a high-speed video camera for robust audio-visual speech recognition in acoustically noisy conditions | |
Christoudias et al. | Co-adaptation of audio-visual speech and gesture classifiers | |
Filntisis et al. | Video-realistic expressive audio-visual speech synthesis for the Greek language | |
McCowan et al. | Towards computer understanding of human interactions | |
Hussen Abdelaziz et al. | Speaker-independent speech-driven visual speech synthesis using domain-adapted acoustic models | |
Asadiabadi et al. | Multimodal speech driven facial shape animation using deep neural networks | |
Chelali | Bimodal fusion of visual and speech data for audiovisual speaker recognition in noisy environment | |
Paleček | Experimenting with lipreading for large vocabulary continuous speech recognition | |
CN114363531B (zh) | 基于h5的文案解说视频生成方法、装置、设备以及介质 | |
Zorić et al. | Real-time language independent lip synchronization method using a genetic algorithm | |
Pawar et al. | Recent advances in audio-visual speech recognition: Deep learning perspective | |
Shih et al. | Speech-driven talking face using embedded confusable system for real time mobile multimedia | |
Narwekar et al. | PRAV: A Phonetically Rich Audio Visual Corpus. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070926 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20100219 |