JP2007507784A

JP2007507784A - オーディオビジュアルコンテント合成システム及び方法

Info

Publication number: JP2007507784A
Application number: JP2006530945A
Authority: JP
Inventors: ディミトロワ，ネヴェンカ; ミラー，アンドリュー; リ，ドォンゴォ
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-09-30
Filing date: 2004-09-28
Publication date: 2007-03-29
Also published as: US7636662B2; EP1671277A1; US20060290699A1; CN1860504A; WO2005031654A1; KR20060090687A

Abstract

ビデオ画像プロセッサにおけるオーディオビジュアルコンテントを合成するシステムと方法を提供する。コンテント合成アプリケーションプロセッサは、話している話者を表すオーディオビジュアル入力信号からオーディオ的特徴とビデオ的特徴を抽出する。プロセッサは、抽出したビジュアル的特徴を用いて、話者の顔のコンピュータ生成アニメーションを生成する。プロセッサは、話者の顔のアニメーションの動きを、話者のスピーチを表す音素等の複数のオーディオ論理ユニットと同期させる。このように、プロセッサは、話者のスピーチと適正に同期した話者の顔のオーディオビジュアル表現を合成する。

Description

発明の詳細な説明

本発明は、一般的に、オーディオビジュアルシステムに関し、特に、ビデオ画像プロセッサにおけるオーディオビジュアルコンテントの合成システム及び方法に関する。

コンピュータサイエンスの発展により、コンピュータの速さと計算パワーが大きくなっている。コンピュータが人間のコンピュータユーザとコミュニケーションする時、そのコミュニケーションの大部分は、グラフィックスディスプレイに表示されたテキストメッセージの形式で行われ、人間のコンピュータユーザはコンピュータの画面からそのテキストメッセージを読み取る。一部のコンピュータアプリケーション、特にコンピュータゲームグラフィックスを表示するために開発されたものは、コンピュータにより生成された人間が話す視覚画像の形式で、コンピュータユーザにコンピュータ出力を提示することができる。特に、コンピュータは、人間の顔を動かし、離している話し手を表し、同時にその話者のスピーチを出力する。

話している人物の現実的な視覚的画像の生成は、コンピュータシステムには非常に難しい。その理由は、人間の顔は、話している間に、広い範囲の表情をすることができるからである。人間の顔は、感情を表す多数のかすかな特徴を示すことができ、話された言葉に追加的意味を与えることができる。各人間は生まれた時から表情を認識し解釈してきている。それゆえ、人間のコンピュータユーザは、コンピュータにより生成されたあまりうまくできていない動く人間の顔をすぐに見分けることができる。あまりうまくできていない動く人間の顔は、人間のコンピュータユーザにとって邪魔であることが多い。最悪の場合、あまりうまくできていない動く人間の顔により、それが話しているメッセージの理解を妨げることもある。

それゆえ、話している話者の現実的なオーディオビジュアル表現を生成することができるシステムと方法が必要である。コンピュータにより生成された動く人間の顔のために現実的な表情を生成することができるシステムと方法も必要とされている。

上述の先行技術の欠点を解決するため、本発明によるシステムと方法は、話している話者の現実的なオーディオビジュアル表現を提供することができる。本発明のシステムと方法は、コンピュータ生成のアニメーションの人間の顔の現実的な動きも生成することができる。

本発明のシステムと方法は、ビデオ画像プロセッサのコンピュータシステムにあるコンテント合成アプリケーションプロセッサを有する。そのコンテント合成アプリケーションプロセッサは、話している話者を表すオーディオビジュアル入力信号からオーディオ的特徴とビデオ的特徴を抽出する。プロセッサは、抽出したビジュアル的特徴を用いて、話者の顔のコンピュータ生成アニメーションを生成する。そのプロセッサは、話す顔の動きコンポーネントを表す隠れマルコフモデルまたは時間遅れニューラルネットワークのいずれかを用いて、話者の顔の特徴のビジュアルな顔の動きコンポーネントを分類する。

コンテント合成アプリケーションプロセッサは、話者のスピーチのオーディオ的特徴とビデオ的特徴の両方を抽出し分類する学習モジュールを有する。そのプロセッサは、音素等のオーディオ論理ユニットを表すため、隠れマルコフモデルまたは時間遅れニューラルネットワークのいずれかを用いて話者のスピーチの抽出したオーディオ的特徴を分類する。プロセッサは、次に、話者の顔のアニメーションの動きを、話者のスピーチを表す複数のオーディオ論理ユニットと同期させる。このように、プロセッサは、話者のスピーチと適正に同期した話者の顔の現実的なオーディオビジュアル表現を合成する。

本発明の有利な一実施形態において、トレーニングフェーズにおいて、プロセッサは、オーディオ的特徴と話者の顔のビデオ的特徴からオーディオビジュアル入力ベクトルを生成する。プロセッサは、次に、隠れマルコフモデルまたは時間遅れニューラルネットワークのいずれかを用いて、オーディオビジュアル入力ベクトルからオーディオビジュアル的な話す顔の動きコンポーネントを生成する。プロセッサは、次に、前記オーディオビジュアル入力ベクトルに意味的連想プロシージャを実行して、前記話者のスピーチを表す音素と前記話者の顔を現すｖｉｓｅｍｅとの間の関連を取得する。

認識フェーズにおいて、プロセッサは新しい入力ビデオを分析する。プロセッサは、話者のスピーチのオーディオ的特徴を抽出し、意味的連想プロシージャを用いてそのオーディオ的特徴に対する対応するビデオ表現を見つける。プロセッサは、次に、隠れマルコフモデルまたは時間遅れニューラルネットワークのいずれかを用いて、対応するビデオ表現をオーディオビジュアル的話す顔の動きコンポーネントとマッチさせる。プロセッサは、各選択されたオーディオビジュアル的話す顔の動きコンポーネントに対するコンピュータ生成アニメーションを生成し、各コンピュータ生成アニメーションの顔を話者のスピーチと同期させる。この最後の結果は、前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現を提供する出力である。

本発明の目的は、人間の顔に関するマルチメディア情報を生成し表示するためのシステムと方法を提供することである。

本発明の他の目的は、話している話者の現実的なオーディオビジュアル表現を生成し表示するシステムと方法を提供することである。

本発明の目的は、コンピュータ生成アニメーションの人間の顔の現実的な動きを生成し表示するためのシステムと方法を提供することである。

本発明の他の目的は、話者の顔のアニメーションの動きを話者のスピーチを表す複数のオーディオ論理ユニットと同期させるシステムと方法を提供することである。

本発明の目的は、また、ビデオ画像プロセッサにおけるオーディオビジュアルコンテントを合成するシステムと方法を提供することである。

前記は、当業者が以下に続く本発明の詳細な説明をよりよく理解できるように、本発明の特徴と技術的に有利な点を広く概説したものである。本発明の請求項の主題を形成する本発明の他の特徴と有利な点は、以下に説明する。当業者は、本発明と同じ目的を実行する他の構成を修正または設計する基礎として、開示した概念と具体的な実施形態を容易に使用することができることを理解すべきである。このような均等な構成は、本発明の技術分野の当業者は、最も広い形体の本発明の精神と範囲から逸脱しないことにも気づくべきである。

本発明の詳細な説明を理解する前に、この特許文献を通して使用される単語とフレーズの定義を規定しておくことは有利である。「含む」及び「有する」という用語とその派生形は、限定ではなく包含を意味する。
「または」という用語は包含的であり、「及び／または」を意味する。
「関連する」及び「これに関連する」という用語はその派生形も合わせて、含む、内部に含む、相互接続されている、含まれる、内部に含まれている、接続されている、結合している、通信可能である、協働する、インターリーブしている、並列する、隣接する、結合している、有する、特性を有する、その他の意味である。
「コントローラ」、「プロセッサ」、または「装置」という用語は、装置、システム、または少なくとも１つの動作を制御するシステムの一部を意味する。
このような装置は、ハードウェア、ファームウェア、またはソフトウェア、またはこれらの少なくとも２つの組み合わせで実施される。
留意すべきことは、具体的なコントローラと関連する機能は、集中していてもよいし分散していてもよく、ローカルでもリモートでもよい。特に、コントローラは、１つ以上のアプリケーションプログラム及び／またはオペレーティングシステムプログラムを実行する、１つ以上のデータプロセッサ、関連する入出力装置、メモリを有する。一部の単語及びフレーズの定義は、この特許文献を通して提供される。当業者は、それらの定義は、ほとんどでなくても多くの場合、それらの定義された単語とフレーズの、将来の使用のみではなく前の使用にも適用されることを理解すべきである。

本発明とその有利な点をより完全に理解するため、添付した図面を参照して、以下に説明する。同じ番号は同じ対象を指す。

図１ないし８（以下に説明する）及びこの特許文献において本発明の原理を説明するために使用するいろいろな実施形態は、例示であって、いかなる方法であっても本発明の範囲を限定するものと解釈してはならない。本発明は、いかなる好適なオーディオビジュアルシステムに使用してもよい。

図１は、本発明の原理によるコンテント合成アプリケーションプロセッサ１０９を有する（ディスプレイスクリーン１１５を有する）ディスプレイ部１１０とコンピュータ１２０の例を示すブロック図である。コンピュータ１２０は、オーディオビジュアル信号源１３０からオーディオビジュアル信号を受信する。信号源１３０は、事前に記録したオーディオビジュアル信号をコンピュータ１２０に供給してもよい。信号源１３０は、ライブまたは「ストリーミング」のオーディオビジュアル信号をコンピュータ１２０に供給してもよい。コンピュータ１２０は、ユーザ入力部１４０からユーザ入力信号も受信する。ユーザ入力部１４０は、（例えば、キーボード、マウス、コンピュータディスクファイルである）いかなる従来のユーザ入力信号源を有していてもよい。

コンピュータ１２０は、中央処理部（ＣＰＵ）１５０とメモリ１６０とを有する。メモリ１６０は、オペレーティングシステムソフトウェア１７０とアプリケーションプログラム１８０とを有する。コンピュータ１２０は、また、本発明のコンテント合成アプリケーションプロセッサ１９０も有する。説明の都合上、ＣＰＵ１５０とメモリ１６０とは別のユニットとして、コンテント合成アプリケーションプロセッサ１９０の構造と動作を説明する。しかし、当然のことながら、コンテント合成アプリケーションプロセッサ１９０は、本発明の方法を実行するために、コンピュータ１２０内のＣＰＵ１５０とメモリ１６０にアクセスし、これを利用してもよい。

より十分に説明するが、コンテント合成アプリケーションプロセッサ１９０は、話している話者を表す信号源１３０からのオーディオビジュアル入力信号を分析する。コンテント合成アプリケーションプロセッサ１９０は、信号源１３０からのオーディオビジュアル入力信号からオーディオ的特徴とビジュアル的特徴を抽出し、そのオーディオ的特徴とビジュアル的特徴を用いて、コンピュータで生成した話者の顔のアニメーションを生成し、話者のスピーチを伴う話者の顔のアニメーションを合成する。（同期したスピーチを有する）コンピュータ生成の話者の顔のアニメーションは、ディスプレイ部１１０のディスプレイ画面１１５に表示される。ディスプレイ部１１０は、従来のいかなるタイプのディスプレイ部（例えば、テレビジョン、コンピュータモニター、フラットパネルディスプレイスクリーン）を有していてもよい。

図２は、本発明のコンテント合成アプリケーションプロセッサをより詳細に示すブロック図である。コンテント合成アプリケーションプロセッサ１９０は、オーディオビジュアル信号（及びそのいろいろなコンポーネント）をメモリ部２２０に格納することができる。メモリ部２２０は、ランダムアクセスメモリ（ＲＡＭ）を有する。メモリ部２２０は、フラッシュメモリ等の不揮発性ランダムアクセスメモリ（ＲＡＭ）を有していてもよい。メモリ部２２０は、ハードディスクドライブ（図示せず）等の大容量記憶データ装置を有していてもよい。メモリ部２２０は、リード／ライトＤＶＤや再書き込み可能ＣＤ−ＲＯＭを読み出す、外付けの周辺ドライブまたは（組み込みまたは外付けの）リムーバブルディスクドライブを有していてもよい。図２に示したように、このタイプのリムーバブルディスクドライブは、再書き込み可能ＣＤ−ＲＯＭディスク２２５に記録と読み出しが可能である。

コンテント合成アプリケーションプロセッサ１９０は、オーディオビジュアル信号をコントローラ２３０に供給する。コントローラ２３０は、コンテント合成アプリケーションプロセッサ１９０から制御信号を受け取り、コンテント合成アプリケーションプロセッサ１９０に制御信号を送ることができる。コントローラ２３０は、また、メモリ部２２０を介してコンテント合成アプリケーションプロセッサ１９０に結合している。

図２に示したように、コントローラ２３０は、コンテント合成アプリケーションソフトウェア２３５を有する。コンテント合成アプリケーションソフトウェア２３５は、本発明の方法を実行することができるコンピュータソフトウェアを含む。本発明のソフトウェアモジュールの一部を図３に示した。

コンテント合成アプリケーションソフトウェア２３５は、（１）顔のビジュアル表示をするモジュール３１０、（２）顔の特徴をトラッキングするモジュール３２０、（３）学習モジュール３３０、（４）オーディオのスピーチ部分を取得するモジュール３４０、（５）スピーチのオーディオ的特徴を抽出するモジュール３５０、（６）顔のオーディオビジュアル的特徴マッチング及び分類モジュール３６０、（７）選択パラメータ用の顔アニメーションモジュール３７０、及び（８）話す顔アニメーション及び同期モジュール３８０を有する。ソフトウェアモジュールの機能は以下により詳しく説明する。

コンテント合成アプリケーションプロセッサ１９０は、コントローラ２３０とコンテント合成アプリケーションソフトウェア２３５とを有する。コントローラ２３０とコンテント合成アプリケーションソフトウェア２３５は共に、本発明を実行することができるコンテント合成アプリケーションプロセッサを有する。

前述したように、コンテント合成アプリケーションプロセッサ１９０は、オーディオビジュアル入力信号からオーディオ的特徴とビジュアル的特徴を抽出し、そのオーディオ的特徴とビジュアル的特徴を用いてコンピュータ生成した話者の顔のアニメーションを生成する。コンテント合成アプリケーションプロセッサ１９０は、また、コンピュータ生成した話者の顔のアニメーションをその話者のスピーチに同期させる。この結果を達成するために、コンテント合成アプリケーションプロセッサ１９０は、オーディオビジュアル信号からオーディオ的特徴とビジュアル的特徴を最初に取得する。

図４は、コンテント合成アプリケーションプロセッサ１９０が、オーディオビジュアル信号から話す顔の動くコンポーネント（ＳＦＭＣ）をいかに取得するかを示す図である。図４に示した要素は、参照数字４００により集合的に参照される。図４の入力オーディオビジュアル信号は、信号源４１０により表される。信号源４１０は、オーディオビジュアル信号をモジュール３１０に供給する。モジュール３１０は、オーディオビジュアル信号から話者の顔のビジュアル表示を取得する。モジュール３１０は、W. R. RabinerとA. Jacquinによる論文「Object Tracking Using Motion-Adaptive Modeling of Scene Content」Proceedings of Globecom '96, Volume 2, pp. 877-881 (November 1996)に記載されたタイプのシステムを有する。モジュール３１０は、モジュール３２０に話者の顔のビジュアル表示を供給する。

モジュール３２０は、話者の顔の表面的特徴をトラッキングする。モジュール３２０は、G. Hager and K. Toyamaによる論文「The XVision System: A General Purpose Substrate for Portable Real-Time Vision Applications」Computer Vision and Understanding, Volume 69(1), pp. 23-37 (1997)に記載されたタイプのＸＶｉｓｉｏｎソフトウェアシステムを有していてもよい。ＸＶｉｓｉｏｎシステムは、ビデオストリーム内のエッジ、コーナー、または領域を追跡することができる特徴ベースで相関ベースの複数の異なるトラッカーを備えている。モジュール３２０は、話者の顔の特徴のトラッキング情報を学習モジュール３３０に供給する。

オーディオビジュアル信号源４１０は、また、オーディオビジュアル信号をモジュール３４０に供給する。モジュール３４０は、モジュール３１０により顔が識別された話者のオーディオ信号のスピーチ部分を取得する。モジュール３４０は、Dongge Li, Ishwar K. Seti, Nevenka Dimitrova及びThomas McGeeによる論文「Classification of General Audio Data for Content-Based Retrieval」Pattern Recognition Letters, Volume 22 (5), pp. 533-544 (2001)に記載されたタイプのシステムを有する。モジュール３４０は、話者のスピーチをモジュール３５０に供給する。モジュール３５０は、話者のスピーチのオーディオ的特徴を抽出する。モジュール３５０は、また、前述の論文「"Classification of General Audio Data for Content-Based Retrieval」に記載されたタイプのシステムを有する。モジュール３５０は、その後、抽出した話者のスピーチのオーディオ的特徴を学習モジュール３３０に供給する。以下により詳細に説明するように、学習モジュール３３０は、モジュール３２０からの入力とモジュール３５０からの入力を分類し、話す顔の動きコンポーネント（ＳＦＭＣ）４２０を求める。話す顔の動きコンポーネント（ＳＦＭＣ）４２０は、データベース（図５に示した）に格納される。

学習モジュール３３０は、複数の異なるタイプの過程を実行することができるソフトウェアモジュールを有する。学習モジュール３３０により実行される過程の１つのタイプは、隠れマルコフモデルを用いてバウム・ウェルチアルゴリズムを用いたトレーニングを行うものである。学習モジュール３３０により実行される過程の他のタイプは、隠れマルコフモデルを用いてビタビアルゴリズムを用いて認識するものである。学習モジュール３３０は、隠れマルコフモデルの替わりに時間遅れニューラルネットワーク（ＴＤＮＮ）を用いることもできる。学習モジュール３３０は、意味的連想計算を実行するプロセスを実行することもできる。

本発明の有利な一実施形態において、学習モジュール３３０は、隠れマルコフモデル（ＨＭＭ）を用いて、（モジュール３２０から入力される）話者の顔の特徴と、（モジュール３５０からの入力される）抽出された話者のスピーチのオーディオ的特徴を分類する。モジュール３２０とモジュール３５０からのデータの値は、ｎ次元の特徴ベクトルｆ＝ｆ（ｆ１，ｆ２，ｆ３，．．．，ｆｎ）の要素として用いられる。特徴ベクトルが時間セグメントに対して記録される。そして、観測シンボルは隠れマルコフモデル（ＨＭＭ）に入力される。

隠れマルコフモデル（ＨＭＭ）は、信号処理の分野で広く用いられている方法である。隠れマルコフモデル（ＨＭＭ）は、観測（シンボル）の生起を説明するモデルを構成し、そのモデルを用いて他の観測シーケンスを特定する。隠れマルコフモデル（ＨＭＭ）とその応用に関する背景情報については、L. R. Rabinerによる論文「A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition」Proceedings of the IEEE, Volume 77, Pages 257-285 (1989)を参照せよ。

ＨＭＭでは、利用可能な状態数は有限であり、いずもそれらの状態の１つにいる。各クロック時間において、ＨＭＭは、前の状態に依存する遷移確率分布に基づく新しい状態に入る。遷移後、ＨＭＭは、現在の状態に依存する確率分布に基づき出力シンボルを生成する。ＨＭＭの形式的定義においては、状態はＱ＝｛ｑ１，ｑ２，ｑ３，．．．，ｑＮ｝と表される。ここで、Ｎは状態数である。観測シンボルはＶ＝｛ｖ１，ｖ２，ｖ３，．．．，ｖＭ｝と表される。ここで、Ｍはシンボル数である。状態間の遷移確率分布は行列Ａ＝｛ａｉｊ｝で表される。ここで、ａｉｊ＝Ｐｒ｛ｑｊａｔｔ＋１｜ｑｉａｔｔ｝である。観測シンボル確率分布は、行列Ｂ＝｛ｂｊ（ｋ）｝により表される。ここで、ｂｊ（ｋ）は、現在の状態がｑｊであるときにｖｋを生成する確率である。

学習モジュール３３０におけるＨＭＭの動作は、２つのフェーズで進行する。第１のフェーズはトレーニングであり、第２のフェーズは分類フェーズである。トレーニングフェーズを最初に説明する。学習モジュール３３０は、複数の異なるＨＭＭを構成し、ここで各ＨＭＭは異なる論理ユニットに対応する。論理ユニットは単語、音素、またはｖｉｓｅｍｅである。本発明の有利な一実施形態において、論理ユニットは音素である。音素は、話言葉の音の単位であり、それにより発話が表現される。各話し言葉は異なる音素の組を有する。ロングマン米語辞典によると、米語には４６個の音素がある。米語の音素数については議論がなされている。人によっては、４０、４３、４８、または５０の音素があるとしている。

本発明の有利な他の実施形態において、論理ユニットはｖｉｓｅｍｅである。ｖｉｓｅｍｅは、音を記述するのに仕様できる一般的な顔の画像である。人がそれぞれ区別できる音を発音するとき、話者の唇の動きは異なる。音に対応する顔の画像はｖｉｓｅｍｅと呼ばれる。ｖｉｓｅｍｅは、音素の視覚的等価物である。耳の不自由な人は、ｖｉｓｅｍｅを見ることにより音を視覚的に見ている。このように、耳の不自由な人は話者の「唇を読み」、話されていることを判断する。

学習モジュール３３０は、特徴ベクトル値の集まりを用いてトレーニングを積むことによって、複数の異なるＨＭＭを構成する。ラムダ（λ）＝（Ａ，Ｂ，π）として、ＨＭＭトレーニングは、観測シーケンスＰｒ（Ｏ｜λ）を最大化するために、λのパラメータを調節する段階を有する。記号πは、初期状態分布を表し、π＝｛πｉ｝として定義される。ここで、πｉは、状態ｑｉがＨＭＭの初期状態である確率である。文字Ｏは観測シーケンスを表す。

学習モジュール３３０は、話している人物を正面から記録することにより取得したデータの組を収集する。所定数のセンテンス（例えば、２００センテンス）をスピーチデータベースのテキストコーパスから選択する。オーディオ信号とビデオ信号の両方を毎秒３０フレーム（３０ｆｐｓ）でデジタル化し、分析する。これにより、オーディオビジュアルトレーニングデータサンプルができる。データサンプルの半分をトレーニング用に用いる。データサンプルの半分を分類（すなわち、テスト）用に用いる。

最初に、オーディオデータサンプルを考える。各スピーチセグメントについて、オーディオ的特徴として、異なるオーディオ係数のセレクションを計算する。分類に使用できる音響的特徴は複数ある。それには、MFCC（Mel Cepstral Frequency Coefficients）、LPC（線形予測コーディング係数）、デルタMFCC、デルタLPC、自己相関MFCC、いくつかの時間的特徴、及びいくつかのスペクトル的特徴が含まれる。ＭＦＣＣ特徴は、フィルターバンクされた高速フーリエ変換（ＦＦＴ）スペクトルの離散余弦変換（ＤＣＴ）を用いて抽出される。例えば、A. M. Nollによる論文「Cepstrum Pitch Determination」The Journal of the Acoustical Society of America, Volume 41, No. 2, pp. 293-309 (1967)を参照せよ。ＭＦＣＣの計算は、時間軸に沿ってウィンドウされた入力データについて、フレーム毎に実行される。使用するウィンドウには、方形ウィンドウとハミングウィンドウが含まれる。

ＬＰＣ特徴は、自己相関法を用いて抽出してもよい。例えば、R. P. Ramachandrian et al.による論文「A Comparative Study of Robust Linear Predictive Analysis Methods with Applications to Speaker Identification」、IEEE Transactions on Speech and Audio Processing, Volume 3, No. 2, pp. 117-125 (March 1995)を参照せよ。

デルタＭＦＣＣ特徴は、次の関係を用いて、ＭＦＣＣ特徴を用いて抽出される：

デルタＭＦＣＣの値は、ＭＦＣＣの隣接する値間の差である。

デルタＬＰＣ特徴は、次の関係を用いて、ＬＰＣ特徴を用いて抽出される：

デルタＬＰＣの値は、ＬＰＣの隣接する値間の差である。

自己相関ＭＦＣＣ特徴は、次の関係を用いて、ＭＦＣＣ特徴を用いて抽出される：

ここで、値Ｌはウィンドウの長さを表し、インデックスｉは時刻を表し、インデックスｊは他の時刻を表す。

ここで、ビジュアルデータサンプルを考える。コンテント合成アプリケーションプロセッサ１９０は、顔の動きトラッキングアルゴリズムを用いて、ビジュアルな顔の動きコンポーネントを分析する。ビジュアルな顔の動きコンポーネントは、一定レベルの精度（例えば単語、音）における顔の歪み（すなわち、静的モデルからの変形）に対応する。出力は、具体的な話す顔の動きコンポーネント（ＳＦＭＣ）に対応するトレーニングされたＨＭＭである。このデータセットを用いて、オーディオからビジュアルへのマッピングのトレーニングを行う。トレーニングの目的は、ＨＭＭであるの全てに対するモデルλを見つけることである。本発明のグラフィックスドリブンの顔のアニメーションシステム及び方法により、人間の顔に関係するマルチメディア情報を配信及び表示する問題に対する効果的な解決策が提供される。

本発明の有利な他の実施形態において、論理ユニットはオーディオビジュアル入力ベクトルである。トレーニングプロセスの間、学習モジュール３３０は、オーディオ的特徴とビデオ的特徴を連結し、オーディオビジュアル入力ベクトルを生成する。オーディオビジュアル入力ベクトルは、ハイブリッドな論理ユニットである。というのは、話された音素を表す特定のオーディオビジュアルな話す顔の動きコンポーネントに対応する音素とｖｉｓｅｍｅの両方の特性を表す論理ユニットだからである。出力は、具体的な話す顔の動きコンポーネント（ＳＦＭＣ）に対応するトレーニングされたＨＭＭである。

Matthew Brandによる論文「Voice Puppetry」Computer Graphics Proceedings, ACM SIGGRAPH, pp. 21-28 (August 1999)に記載されたような、先行技術によるシステムを考える。ボイスパペトリー（Voice Puppetry）システムにおいては、関連する話す顔の動きコンポーネントはビジュアル空間にしかない。これとは対照的に、本発明においては、関連する話す顔の動きコンポーネントはオーディオビジュアル空間にある。オーディオビジュアル空間にある動く顔の動きコンポーネントを使用する有利な点は、それにより分析がより包括的かつ正しくなるからである。例えば、ビジュアル空間において、シラブル「ｐａ」とシラブル「ｂａ」とは同じように見える。しかし、これらのシラブルの発音は異なる。本発明のオーディオビジュアル空間においては、「ｐａ」シラブルのオーディオビジュアル入力ベクトルと「ｂａ」シラブルのオーディオビジュアル入力ベクトルは、明らかに区別される。

学習モジュール３３０も、各オーディオビジュアル入力ベクトルの音素とｖｉｓｅｍｅ間のマッピングを特定するために、意味的連想（クロスモデル連想とも呼ぶ）を提供する。クロスモデル連想の場合、異なる媒体源（例えば、オーディオと画像）から抽出した低レベルの特徴を、同期した相関パターンに基づいて互いにマッチさせることができる。また、クロスモデル連想を利用して、第１のタイプの媒体源（例えばオーディオ）からのクエリーを用いて、異なるタイプの媒体源（例えば、画像シーケンス）のコンテントをサーチする。例えば、D. LiとN. Dimitrovaにより２００２年１１月１５日に出願された米国特許出願（ＤｏｃｋｅｔＮｏ．７０３００２）「Content Retrieval Based on Semantic Association」を参照せよ。特許出願「Content Retrieval Based on Semantic Association」は本発明の譲受人により保有されており、ここで全ての目的のために参照により援用する。

学習モジュール３３０により利用されるクロスモデル法は、前述のボイスパペトリーシステムで利用されるような先行技術による方法よりも、非常に効率的である。ボイスパペトリーシステムは、オーディオとビジュアルのパターンを関連づけるために非常に複雑かつコストの高い方法を必要とする。学習モジュール３３０により利用されるクロスモデル法は、従来のコンテントベースのマルチメディアリトリーバルシステムと同様の方法による低レベルの機能に直接基づくものである。学習モジュール３３０により利用されるクロスモデル法は、（１）潜在意味的インデックス、（２）カノニカル相関、または（３）クロスモデル要因分析のいずれかを利用してもよい。

潜在的意味的インデックス（ＬＳＩ）は、異なるテキストユニット（例えば、キーワードとパラグラフ）間の根底にある意味的関係を発見するために使用するテキスト情報リトリーバルにおける強力なツールである。ビジュアルな顔とそれと関連するスピーチの間の意味的相関を検出する方法は、ＬＳＩに基づいている。この方法は、４つの段階を有する：ジョイントマルチモデル特徴空間の構成、規格化、特異値分解（ＳＶＤ）、及び意味的連想測定である。

ｔ個のビデオフレームにおけるｎ個のビジュアル的特徴とｍ個のオーディオ的特徴が与えられた場合、ジョイント特徴空間は次のように表される：

ここで、

であり、かつ

いろいろなビジュアル的特徴とオーディオ的特徴は非常に異なる値を取り得る。それゆえ、ジョイント空間中の各特徴をその最大要素（または他の一定の統計的測定）により正規化する必要があり、次のように表すことができる：

規格化後、規格化された行列

中の全ての要素は−１から１の間の値を有する。ＳＶＤを次のように実行することができる：

ここで、ＳとＤは、左と右の特異ベクトルを構成する行列であり、Ｖは特異値が降順に並んだ対角行列である。

ＳとＤの最初の最も重要なｋ個の特異ベクトルのみを残して、特徴次元を下げて

の最適近似を導くことができる。ここで、ビジュアル的及びオーディオ的特徴の間の意味的（相関）情報が最も保存され、無関係のノイズは大幅に削減される。従来のピアソン相関または相互情報計算を用いて、異なるモダリティ間の意味的連想の有効な特定と測定をすることができる。実験によると、ＬＳＩは有効であり、従来の相関計算に直接使用することができるという有利な点もある。

最小自乗という意味での

の上記最適化は、次のように表すことができる。

ここで、

、

、及び

は、それぞれ、Ｓ、Ｖ、Ｄ中の最初のｋ個のベクトルから構成されている。ｋの適当な値の選択については、まだ議論が固まっていない。一般に、ｋは、意味的構造のほとんどを保存するくらい大きく、無関係なノイズの一部を削減するくらい小さくなければならない。分解はすぐに実行しなければならないので、式（６）は、グローバルまたはオフラインのトレーニングを用いるアプリケーションには適用できない。しかし、特異ベクトルは直交性があるので、式（６）を新しく次のように書き換えることができる。

この導出された新しい式（７）は、グローバルまたはオフラインのトレーニングがされたＳＶＤの結果を必要とするアプリケーションにとって重要である。

新しく入来するオーディオの分析は、マッチするビデオと最もありそうな顔の動きを見つける意味的連想法により実行される。意味的連想の３つの方法において、すべて、変換行列を用いて、低レベルの特徴を下げられた特徴空間に変換する。ここで、異なるタイプの媒体源の候補のクエリーとサーチの間のマッチングが評価される。例えば、潜在的意味的インデックスの場合、上の式（７）から導き出した変換行列を用いる。マッチングの評価は、最も高い相関（すなわち、最もよい一致）を探すために、変換後の空間におけるピアソン相関または相互情報に基づき実行される。

本発明の有利な他の実施形態において、学習モジュール３３０は、時間遅れニューラルネットワーク（ＴＤＮＮ）を用いて、（モジュール３２０から入力される）話者の顔の特徴と、（モジュール３５０からの入力される）抽出された話者のスピーチのオーディオ的特徴を分類する。時間遅れニューラルネットワーク（ＴＤＮＮ）の一般的アーキテクチャに関する背景情報は、S. Curinga et al.による論文「Lip Movements Synthesis Using Time-Delay」Proceedings of the European Signal Processing Conference, 1996 (1996)を参照せよ。

ＴＤＮＮは、音素認識をせずに調音パラメータの推定をすることができ、共調音効果を好適にモデル化することができる。ＴＤＮＮにおけるニューロンの活性化は、ウィンドウの各位置における入力ウィンドウの加重合計を計算し、その合計にシグモイド活性化関数を適用することにより、各ニューロンに対して計算される。入力ノードの各グループ（重み付き受容フィールドと呼ばれる）は、入力シンボルストリームの小さなウィンドウしかとらず、各時間ステップにウィンドウ中を１ステップずつ「進む」。隠れレイヤーの出力も、シェアードウェイトを用いて受容ウィンドウでカバーされる。ネットワーク出力は、出力ニューロンの異なる時間ステップの自乗合計により構成される。

トレーニングプロセスのＴＤＮＮへの入力は、ＨＭＭの場合と同じように、一連の入力シンボルにより構成される。ＴＤＮＮにより実行される分類プロセスは、ＨＭＭにより実行されるものと同様である。学習モジュール３３０は、ＴＤＮＮを用いて、話者の顔の特徴（モジュール３２０からの入力）と、話者の抽出されたオーディオ的特徴（モジュール３５０からの入力）を分類し、前述のタイプのオーディオビジュアル入力ベクトルを生成することができる。

図５は、コンテント合成アプリケーションプロセッサ１９０が話す顔の動きコンポーネント（ＳＦＭＣ）とその他のパラメータをどのように用い、話す顔のアニメーションを話者のスピーチとどのように合成し同期させるかを示す図である。図５に示した要素は、顔のアニメーション部５００として集合的に参照される。離れた場所へコミュニケーションチャンネルを介して信号を伝送するアプリケーションにおいては、顔のアニメーション部５００は、コミュニケーションチャンネルのレシーバ側に置かれる。分類プロセスは、コミュニケーションチャンネルの送信者側で実行される。顔のアニメーション及び同期プロセスは、コミュニケーションチャンネルのレシーバ側で実行される。

顔のアニメーション部５００の顔のオーディオビジュアル的特徴マッチングと分類モジュール３６０は、データベース５０５と結合しており、それからの入力を受信する。データベース５０５は、話す顔の動きコンポーネント（ＳＦＭＣ）を含む。顔のオーディオビジュアル的特徴マッチングと分類モジュール３６０は、話す顔のビジュアルパラメータモジュール５１０から、話す顔のビジュアルパラメータも受信する。スピーチモジュール５２０は、オーディオ的特徴抽出モジュール５３０に話者の話した言葉のオーディオを供給する。オーディオ的特徴抽出モジュール５３０は、スピーチからオーディオ的特徴を抽出し、それを顔のオーディオビジュアル的特徴マッチングと分類モジュール３６０に供給する。

分類プロセスの際、同じオーディオビジュアルシンボルが、トレーニングプロセスについて前述したのと同じ方法でオーディオビジュアル信号から抽出される。顔のオーディオビジュアル的特徴マッチングと分類モジュール３６０は、分類プロセスを実行し、オーディオビジュアル的特徴をトレーニングプロセスについて前述した所定のクラスの１つに分類する。分類プロセスの精度（例えば、単語、音素）は、トレーニングプロセスの精度と同じレベルである。

そして、顔のオーディオビジュアル的特徴マッチングと分類モジュール３６０は、選択されたパラメータ用顔のアニメーションモジュール３７０にその分類情報を送る。選択されたパラメータ用顔のアニメーションモジュール３７０は、３次元（３Ｄ）顔モデルモジュール５４０とテクスチャマップモジュール５５０からの追加的入力を受信する。選択パラメータ用顔アニメーションモジュール３７０は、適当な分類に対応する顔のアニメーションパラメータを用いて話者の顔を合成する（すなわち、コンピュータで生成した話者の顔のアニメーションを生成する）。

先行技術システムのほとんどは、音素ベース及びｖｉｓｅｍｅベースの唇同期システムである。このようなシステムは、話者の顔を合成する問題を、ポーズ間の補間またはスプライニングにより解決する。対照的に、本発明は、意味的（クロスモーダル）連想を用いて、個々のｖｉｓｅｍｅシーケンスのみだけではなく、個々のｖｉｓｅｍｅシーケンスも使用する。

選択パラメータ用顔アニメーションモジュール３７０の出力は、話す顔のアニメーション及び同期モジュール３８０に送られる。話す顔のアニメーション及び同期モジュール３８０は、スピーチモジュール５２０からも入力を受け取る。話す顔のアニメーション及び同期モジュール３８０は、顔のアニメーション情報をスピーチモジュール５２０からのスピーチ入力と同期させ、話者のスピーチと同期した話者の顔のアニメーション画像を生成し、出力する。

任意的オーディオ表示分類モジュール５６０は、オーディオ的特徴抽出モジュール５３０と話す顔のアニメーション及び同期モジュール３８０の間に結合される。オーディオ表示分類モジュール５６０は、オーディオ表示のレベル（例えば、大きな声、興奮した声、普通の声、柔らかい声）を決定し、その決定に従ってオーディオを分類する。オーディオ表示分類に応じて、話す顔のアニメーション及び同期モジュール３８０は、アニメーションの顔のパラメータを修正して、話者の顔のアニメーションをより正しく表すように一定の特徴を強調する。

図６は、本発明の方法の有利な実施形態の第１部分のステップを示すフローチャートである。図６に示した方法のステップは、参照数字６００により集合的に参照される。最初のステップにおいて、コンテント合成アプリケーションプロセッサ１９０は、話している話者のオーディオビジュアル信号を受信する（ステップ６１０）。コンテント合成アプリケーションプロセッサ１９０は、そのオーディオビジュアル信号を分析し、話者の顔のビジュアル表示を取得する（ステップ６２０）。コンテント合成アプリケーションプロセッサ１９０は、その次に、話者の空間的特徴のトラッキング情報を取得する（ステップ６３０）。学習モジュール３３０は、隠れマルコフモデルを用いてビジュアルな顔の動きコンポーネントを分類し、各話す顔の動きコンポーネント（ＳＦＭＣ）を表す（ステップ６４０）。本発明の方法は、図７に示したステップ７１０に続く（ステップ６５０）。

ステップ６２０に記載した動作と同時に、コンテント合成アプリケーションプロセッサ１９０は、話者のスピーチを含むオーディオの一部を取得する（ステップ６６０）。コンテント合成アプリケーションプロセッサ１９０は、その次に、話者のスピーチのオーディオ的特徴を抽出する（ステップ６７０）。学習モジュール３３０は、隠れマルコフモデルを用いてオーディオ的特徴を分類し、各オーディオ論理ユニット（例えば、音素）を表す（ステップ６８０）。本発明の方法は、図７に示したステップ７１０に続く（ステップ６５０）。

図７は、本発明の方法の有利な実施形態の第２部分のステップを示すフローチャートである。図７に示した方法のステップは、参照数字７００により集合的に参照される。図７に示した最初のステップにおいて、コンテント合成アプリケーションプロセッサ１９０は、入力として、（１）分析すべき新しいオーディオ信号、（２）ステップ６４０からの話す顔の動きコンポーネント（ＳＦＭＣ）、及び（３）ステップ６８０からの分類されたオーディオ的特徴を受け取る（ステップ７１０）。コンテント合成アプリケーションプロセッサ１９０は、次に、各動く顔のコンポーネント（ＳＦＭＣ）を各対応する分類されたオーディオ的特徴とマッチさせる（ステップ７２０）。コンテント合成アプリケーションプロセッサ１９０は、各選択されたオーディオビジュアルパラメータに対して話者を表現するコンピュータ合成のアニメーションの顔を生成する（ステップ７３０）。

コンテント合成アプリケーションプロセッサ１９０は、コンピュータ生成した話者の顔の各アニメーションをその話者のスピーチに同期させる（ステップ７４０）。これにより、前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現が生成される。話者の顔のオーディオビジュアル表現は、ディスプレイ部１１０に出力される（ステップ７５０）。

図８は、本発明の方法の有利な実施形態の第３部分のステップを示すフローチャートである。図８に示した方法のステップは、参照数字８００により集合的に参照される。学習モジュール３３０は、オーディオビジュアル入力ベクトルを受け取り、オーディオビジュアル的話す顔の動きコンポーネント（ＳＦＭＣ）を隠れマルコフモデルを用いて生成する（ステップ８１０）。学習モジュール３３０は、オーディオビジュアル入力ベクトルを受信し、オーディオビジュアル的話す顔の動きコンポーネント（ＳＦＭＣ）を生成し、意味的連想を用いて、音素とｖｉｓｅｍｅ間の関連性（すなわち、マッピング）を取得する（ステップ８２０）。

コンテント合成アプリケーションプロセッサ１９０は、次に、分析すべき新しいオーディオ信号を受信し、モジュール３５０を用いて話者のスピーチのオーディオ的特徴を抽出する（ステップ８３０）。コンテント合成アプリケーションプロセッサ１９０は、次に、意味的連想を用いて、抽出したオーディオ的特徴に対応するビデオ表現を見つける（ステップ８４０）。コンテント合成アプリケーションプロセッサ１９０は、次に、隠れマルコフモデルを用いて、オーディオ表現をオーディオビジュアル的話す顔の動きコンポーネント（ＳＦＭＣ）とマッチさせる（ステップ８５０）。

コンテント合成アプリケーションプロセッサ１９０は、各選択されたオーディオビジュアル的話す顔動きコンポーネント（ＳＦＭＣ）に対して話者を表現するコンピュータ合成のアニメーションの顔を生成する（ステップ８６０）。コンテント合成アプリケーションプロセッサ１９０は、コンピュータ生成した話者の顔の各アニメーションをその話者のスピーチに同期させる（ステップ８７０）。これにより、前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現が生成される。話者の顔のオーディオビジュアル表現は、ディスプレイ部１１０に出力される（ステップ８８０）。

前述のステップ７３０、７４０、及び７５０と、前述のステップ８６０、８７０、８８０において、顔のアニメーションを生成するのにコンピュータグラフィックスアプローチを使用した。しかし、別の方法を用いてもよい。別の方法において、話されたフレーズやセンテンスに対応するビジュアル出力を生成するために、話者の格納されたビデオセグメントを用いてもよい。意味的連想を用いてオーディオビジュアルセグメントを取得した後、ビデオセグメントのシーケンスを取得する。これらのセグメントはそれぞれ個々の音素に対応している。しかし、時間点を「縫い合わせる」プロセスにおいて、結果として得られるビデオの動きはぎくしゃくしてしまうことがある。これらのセグメントをセンテンスまたはフレーズ全体に対応する単一のビデオに編集することができる。ビデオのモーフィングと編集を用いて、個々のビデオセグメント間のぎくしゃくした感じを減らすことができる。このアプローチの有利な点は、コンピュータグラフィックスアプローチの基礎である３次元モデルとテクスチャマッピングを使用する必要が無いことである。

本発明のシステムと方法は、例えば、テレビ会議、インターラクティブビデオアプリケーション、及びオブジェクトレベルビデオ編集で使用することができる。話されたスピーチに対応する顔の動きを正しく表すアニメーションの顔を表すために、ユーザはテキストまたはスピーチを送信するだけでよい。本発明は、アニメーションの話す顔を生成し、伝送の受信側においてビジュアルなスピーチ要素を合成することにより、話されたテキストを表示する。本発明のシステムと方法は、伝送チャンネルを介してオーディオ信号を伝送する。本発明のシステムと方法は、伝送の受信側に、話された言葉の正しいビジュアル的特徴を表出させるためにどのようにアニメーションの顔を駆動するかを知らせる少数のパラメータも伝送する。パラメータは、送信者側で実行されたオーディオビジュアル分類に関係する。

この特許出願書類を通して、話す顔の動きコンポーネント（ＳＦＭＣ）を生成し使用することができるとして本発明を説明した。当然のことながら、本発明は、話す顔の動きコンポーネント（ＳＦＭＣ）を生成及び使用することに限定はされない。本発明は、他のタイプのオーディオビジュアル設定を生成及び使用することもできる。話す顔の動きコンポーネントは、本発明が生成し使用することができるオーディオビジュアル設定の１つの具体的な実施形態に過ぎない。

本発明をその実施形態を参照して詳細に説明したが、当業者は、本発明の最も広い形体におけるコンセプトと範囲から逸脱することなく、本発明にいろいろな変更、挿入、修正、改変、適応をできることを理解すべきである。

本発明の原理によるコンテント合成アプリケーションプロセッサを有するディスプレイとコンピュータの例を示すブロック図である。本発明のコンテント合成アプリケーションプロセッサをより詳細に示すブロック図である。本発明のソフトウェアモジュールの一部を示すブロック図である。本発明のコンテント合成アプリケーションプロセッサが話す顔の動きコンポーネント（ＳＦＭＣ）をどのように求めるかを示すブロック図である。本発明のコンテント合成アプリケーションプロセッサが話す顔の動きコンポーネント（ＳＦＭＣ）と他のパラメータをどのように用いて、話す顔のアニメーションを話者のスピーチと同期させるかを示すブロック図である。本発明の方法の有利な実施形態の第１部分のステップを示すフローチャートである。本発明の方法の有利な実施形態の第２部分のステップを示すフローチャートである。本発明の方法の有利な実施形態の第３部分のステップを示すフローチャートである。

Claims

話している話者を表すオーディオビジュアル入力信号を受け取り、話者のスピーチを表す複数のオーディオ論理ユニットを用いて前記話者の顔のアニメーションを生成する、デジタルコミュニケーションシステムにおける装置であって、
前記装置はコンテント合成アプリケーションプロセッサを有し、前記コンテント合成アプリケーションプロセッサは、
前記オーディオビジュアル入力信号から話者のスピーチのオーディオ的特徴と話者の顔のビジュアル的特徴とを抽出し、
前記オーディオ的特徴と前記ビジュアル的特徴とからオーディオビジュアル入力ベクトルを生成し、
前記オーディオビジュアル入力ベクトルからオーディオビジュアル設定を生成し、
前記オーディオビジュアル入力ベクトルに意味的連想プロシージャを実行して、前記話者のスピーチを表す音素と前記話者の顔を現すｖｉｓｅｍｅとの間の関連を取得することを特徴とする装置。
請求項１に記載の装置であって、
前記コンテント合成アプリケーションプロセッサは、
話者のスピーチのオーディオ的特徴を抽出し、
意味的連想プロシージャを用いて前記オーディオ的特徴に対する対応するビデオ表現を見つけ、
前記対応するビデオ表現を前記オーディオビジュアル設定とマッチングすることにより、入力オーディオ信号を分析することを特徴とする装置。
請求項２に記載の装置であって、
前記コンテント合成アプリケーションプロセッサは、さらに、
選択された各オーディオビジュアル設定に対するコンピュータ生成のアニメーションの顔を生成し、
コンピュータ生成のアニメーションの各顔を前記話者のスピーチと同期させ、
前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現を出力することができることを特徴とする装置。
請求項１に記載の装置であって、
前記コンテント合成アプリケーションプロセッサが前記オーディオビジュアル入力信号から抽出する前記オーディオ的特徴は、Mel Cepstral周波数係数、線形予測符号化係数、デルタMel Cepstral周波数係数、デルタ線形予測符号化係数、及び自己相関Mel Cepstral周波数係数のうちの１つを有することを特徴とする装置。
請求項１に記載の装置であって、
前記コンテント合成アプリケーションプロセッサは、隠れマルコフモデルと時間遅れニューラルネットワークの１つを用いて前記オーディオビジュアル入力ベクトルからオーディオビジュアル設定を生成することを特徴とする装置。
請求項２に記載の装置であって、
前記コンテント合成アプリケーションプロセッサは、隠れマルコフモデルと時間遅れニューラルネットワークの１つを用いて前記対応するビデオ表現を前記オーディオビジュアル設定とマッチさせることを特徴とする装置。
請求項３に記載の装置であって、
前記コンテント合成アプリケーションプロセッサは、さらに、
複数のオーディオビジュアル設定のそれぞれを対応する分類されたオーディオ的特徴とマッチさせ、顔のアニメーションのパラメータを生成する顔のオーディオビジュアル的特徴マッチング及び分類モジュールと、
選択された顔のアニメーションパラメータに対して前記話者の顔のアニメーションを生成する選択されたパラメータ用の顔アニメーションモジュールと、を有することを特徴とする装置。
請求項７に記載の装置であって、
前記選択されたパラメータ用顔アニメーションモジュールは、（１）テクスチャマッピングを有する３次元モデルと（２）ビデオ編集の１つを用いることにより、話者の顔のアニメーションを生成することを特徴とする装置。
請求項２に記載の装置であって、
前記意味的連想プロシージャは、潜在的意味的インデックス、カノニカル相関、及びクロスモデルファクタ分析のうち１つを有することを特徴とする装置。
請求項１に記載の装置であって、
前記オーディオビジュアル設定は、オーディオビジュアル的話す顔の動きコンポーネントを有することを特徴とする装置。
請求項８に記載の装置であって、
前記コンテント合成アプリケーションプロセッサは、さらに、
前記話者の顔の各アニメーションを前記話者のスピーチの前記オーディオ的特徴と同期させ、前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現を生成する話す顔アニメーション及び同期モジュールと、
前記話者のスピーチのオーディオ表示のレベルを決定し、前記話者のスピーチの前記オーディオ表示のレベルを前記話す顔アニメーション及び同期モジュールに供給して前記話者のアニメーションにした顔のパラメータを修正するために使用するオーディオ表現分類モジュールと、を有することを特徴とする装置。
ビデオ画像プロセッサにおけるオーディオビジュアルコンテントの合成に使用する方法であって、
話している話者を表すオーディオビジュアル入力信号を受け取る段階と、
前記オーディオ入力信号から話者のスピーチのオーディオ的特徴と話者の顔のビジュアル的特徴とを抽出する段階と、
前記オーディオ的特徴と前記ビジュアル的特徴とからオーディオビジュアル入力ベクトルを生成する段階と、
前記オーディオビジュアル入力ベクトルからオーディオビジュアル設定を生成する段階と、
前記オーディオビジュアル入力ベクトルに意味的連想プロシージャを実行して、前記話者のスピーチを表す音素と前記話者の顔を現すｖｉｓｅｍｅとの間の関連を取得する段階と、を有することを特徴とする方法。
請求項１２に記載の方法であって、
話者のスピーチの入力オーディオ信号を分析する段階と、
前記話者のスピーチのオーディオ的特徴を抽出する段階と、
意味的連想プロシージャを用いて前記オーディオ的特徴に対する対応するビデオ表現を見つける段階と、
前記対応するビデオ表現を前記オーディオビジュアル設定とマッチングすることにより、入力オーディオ信号を分析する段階と、を有することを特徴とする方法。
請求項１３に記載の方法であって、
選択された各オーディオビジュアル設定に対するコンピュータ生成のアニメーションの顔を生成し、
コンピュータ生成のアニメーションの各顔を前記話者のスピーチと同期させ、
前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現を出力する段階と、を有することを特徴とする方法。
請求項１２に記載の方法であって、
前記オーディオビジュアル入力信号から抽出された前記オーディオ的特徴は、Mel Cepstral周波数係数、線形予測符号化係数、デルタMel Cepstral周波数係数、デルタ線形予測符号化係数、及び自己相関Mel Cepstral周波数係数のうちの１つを有することを特徴とする方法。
請求項１２に記載の方法であって、
前記オーディオビジュアル設定は、隠れマルコフモデルと時間遅れニューラルネットワークのうち１つを用いて前記オーディオビジュアル入力ベクトルから生成されることを特徴とする方法。
請求項１３に記載の方法であって、
隠れマルコフモデルと時間遅れニューラルネットワークのうち１つを用いて前記対応するビデオ表現を前記オーディオビジュアル設定とマッチさせることを特徴とする方法。
請求項１２に記載の方法であって、
複数のオーディオビジュアル設定のそれぞれを対応する分類されたオーディオ特徴とマッチさせて顔のアニメーションパラメータを生成する段階と、
選択された顔のアニメーションパラメータに対して、前記話者の顔のアニメーションを生成する段階と、を有することを特徴とする方法。
請求項１８に記載の方法であって、
（１）テクスチャマッピングを有する３次元モデルと（２）ビデオ編集の１つを用いることにより、話者の顔のアニメーションを生成する段階をさらに有することを特徴とする方法。
請求項１３に記載の方法であって、
前記意味的連想プロシージャは、潜在的意味的インデックス、カノニカル相関、及びクロスモデルファクタ分析のうち１つを有することを特徴とする方法。
請求項１２に記載の方法であって、
前記オーディオビジュアル設定は、オーディオビジュアル的話す顔の動きコンポーネントを有することを特徴とする方法。
請求項２０に記載の方法であって、
前記話者の顔の各アニメーションを前記話者のスピーチの前記オーディオ的特徴と同期させる段階と、
前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現を生成する段階と、
前記話者のスピーチのオーディオ表示のレベルを決定する段階と、
前記話者のスピーチのオーディオ表示のレベルの決定に応じて、前記話者のアニメーションの顔のパラメータを修正する段階と、を有することを特徴とする方法。
ビデオ画像プロセッサにおいてオーディオビジュアルコンテントを同期させる方法により生成された同期オーディオビジュアル信号であって、前記方法は、
話している話者を表すオーディオビジュアル入力信号を受け取る段階と、
前記オーディオ入力信号から話者のスピーチのオーディオ的特徴と話者の顔のビジュアル的特徴とを抽出する段階と、
前記オーディオ的特徴と前記ビジュアル的特徴とからオーディオビジュアル入力ベクトルを生成する段階と、
前記オーディオビジュアル入力ベクトルからオーディオビジュアル設定を生成する段階と、
前記オーディオビジュアル入力ベクトルに意味的連想プロシージャを実行して、前記話者のスピーチを表す音素と前記話者の顔を現すｖｉｓｅｍｅとの間の関連を取得する段階と、を有することを特徴とする信号。
請求項２３に記載の同期オーディオビジュアル信号であって、
前記方法は、さらに、
話者のスピーチの入力オーディオ信号を分析する段階と、
前記話者のスピーチのオーディオ的特徴を抽出する段階と、
意味的連想プロシージャを用いて前記オーディオ的特徴に対する対応するビデオ表現を見つける段階と、
前記対応するビデオ表現を前記オーディオビジュアル設定とマッチングすることにより、入力オーディオ信号を分析する段階と、を有することを特徴とする信号。
請求項２４に記載の同期オーディオビジュアル信号であって、
前記方法は、さらに、
選択された各オーディオビジュアル設定に対するコンピュータ生成のアニメーションの顔を生成する段階と、
コンピュータ生成のアニメーションの各顔を前記話者のスピーチと同期させる段階と、
前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現を出力する段階と、を有することを特徴とする信号。
請求項２３に記載の同期オーディオビジュアル信号であって、
前記オーディオビジュアル入力信号から抽出された前記オーディオ的特徴は、Mel Cepstral周波数係数、線形予測符号化係数、デルタMel Cepstral周波数係数、デルタ線形予測符号化係数、及び自己相関Mel Cepstral周波数係数のうちの１つを有することを特徴とする信号。
請求項２３に記載の同期オーディオビジュアル信号であって、
前記オーディオビジュアル設定は、隠れマルコフモデルと時間遅れニューラルネットワークのうち１つを用いて前記オーディオビジュアル入力ベクトルから生成されることを特徴とする信号。
請求項２４に記載の同期オーディオビジュアル信号であって、
隠れマルコフモデルと時間遅れニューラルネットワークのうち１つを用いて前記対応するビデオ表現を前記オーディオビジュアル設定とマッチさせることを特徴とする信号。
請求項２５に記載の同期オーディオビジュアル信号であって、
前記方法は、さらに、
複数のオーディオビジュアル設定のそれぞれを対応する分類されたオーディオ特徴とマッチさせて顔のアニメーションパラメータを生成する段階と、
選択された顔のアニメーションパラメータに対して、前記話者の顔のアニメーションを生成する段階と、を有することを特徴とする信号。
請求項２９に記載の同期オーディオビジュアル信号であって、
前記方法は、さらに、
（１）テクスチャマッピングを有する３次元モデルと（２）ビデオ編集の１つを用いることにより、話者の顔のアニメーションを生成する段階をさらに有することを特徴とする信号。
請求項２４に記載の同期オーディオビジュアル信号であって、
前記意味的連想プロシージャは、潜在的意味的インデックス、カノニカル相関、及びクロスモデルファクタ分析のうち１つを有することを特徴とする信号。
請求項２３に記載の同期オーディオビジュアル信号であって、
前記オーディオビジュアル設定は、オーディオビジュアル的話す顔の動きコンポーネントを有することを特徴とする信号。
請求項３１に記載の同期オーディオビジュアル信号であって、
前記方法は、さらに、
前記話者の顔の各アニメーションを前記話者のスピーチの前記オーディオ的特徴と同期させる段階と、
前記話者のスピーチと同期した前記話者の顔のオーディオビジュアル表現を生成する段階と、
前記話者のスピーチのオーディオ表示のレベルを決定する段階と、
前記話者のスピーチのオーディオ表示のレベルの決定に応じて、前記話者のアニメーションの顔のパラメータを修正する段階と、を有することを特徴とする信号。