JP2000508845A

JP2000508845A - ビデオ画像シーケンスの新たなサウンドトラックに対する自動同期

Info

Publication number: JP2000508845A
Application number: JP9534555A
Authority: JP
Inventors: ブルグラー，クリストフ
Original assignee: インターバルリサーチコーポレイション
Priority date: 1996-03-25
Filing date: 1997-03-25
Publication date: 2000-07-11
Also published as: AU716673B2; EP0890171A1; CA2250462C; US5880788A; CA2250462A1; DE69716413T2; WO1997036297A1; EP0890171B1; AU2544697A; DE69716413D1

Abstract

(57)【要約】既存のビデオの新たなサウンドトラックへの同期を、元のサウンドトラックおよび新たなサウンドトラックの音素分析を通じて達成する。音素のような個々の音を、元のビデオ記録に対するサウンドトラック内で識別し、それに対応する画像を格納する。同様に、新たなサウンドトラックも分析し、個々の音を識別する。これらを用いて、格納されている画像を選択し、新たなビデオ・シーケンスを作成する。次に、画像のシーケンスを互いに円滑に調和させてビデオ・ストリームを形成し、新たなサウンドトラックに同期させる。この手法は、所与のビデオ・シーケンスをいずれの任意のオーディオ・トラックとも同期させることができる。更に、ビデオ画像の新たな音に対する一致は、高度に自動化して実行することができ、これによって、必要な手作業の手間を減少させる。

Description

【発明の詳細な説明】ビデオ画像シーケンスの新たなサウンドトラックに対する自動同期発明の分野本発明は、ビデオ画像シーケンスの音声サウンドトラックとの同期に関し、更に特定すれば、いずれの任意の文章を発声する自然人についても、その現実的なビデオ・シーケンスを提供するシステムに関するものである。発明の背景発声中の人のビデオ記録に、当該ビデオ画像の元の記録中で発声されたせりふとは異なるせりふを正確に辿らせることが望ましい様々な状況がある。かかる用途の１つは、元の記録サウンドトラックを、異なるサウンドトラックと置き換える、オーディオ・ダビングの分野である。単純な場合では、一文を発声する俳優の画像を記録した後、その文を記録し直し、例えば、強調部分を変えたり、または異なるアクセントを与えることが望ましい場合がある。再びビデオ・シーケンス全体を記録する代わりに、リダビング（再ダビング）・プロセスは、所望の変更を加えて俳優にその文を繰り返させ、繰り返した文を元の記録した文と置き換えることができる。これよりも更に精巧なビデオ制作では、ある俳優の保存フィルムを利用し、その俳優が発声するせりふを、全く異なる音声のサウンドトラック、場合によっては異なる声で置き換えることが望ましい場合もある。例えば、元の文が異なる言語で表現されている場合や、有名な政治家の元の声で子供がスピーチを行うというような、様々な特殊効果を作成することができる。これらの種類の用途では、元の記録画像を修正し、話者の唇の動きを新たなサウンドトラックに同期させなければならない。これまで、かかる同期を達成する方法は、大量の手作業による入力および／または特殊な処理を必要とし、その適用可能性を狭めていた。画像整合（イメージ・アラインメント）を基本とする従来技術の手法の一例が、米国特許第４，８２７，５３２号に記載されている。この特許は、特に、ある言語のサウンドトラックを第２の言語の新たなサウンドトラックに置き換えることを対象とし、話者に異なる唇の動きを要求する。この特許に開示されている技法では、新たな俳優が新たな言語で文を発声する場面のビデオ記録を行う。特殊なマーカを用いて、俳優が新たな言語で発声している新たな記録画像において、俳優の唇の輪郭をマークし、元のビデオには手作業でマークしなければならない。一旦古いビデオ画像および新たなビデオ画像の対応部分を識別したなら、元のムービー・フレームの画素を修正し、元の俳優が新たなサウンドトラックのせりふを発声しているかのように見せる。 ’５３２特許に開示されている手順は、２種類のビデオ修正を伴う。第１に、元の画像のフレームを新たなサウンドと整合させる作業において、ビデオ・シーケンスを時間的にワープすることにより、唇の形状を互いに一致させる。その後、画像の視覚的ワーピング、例えば、モーフィングを行い、フレームを飛ばした結果生ずる可能性がある画像の不連続部分間で遷移の調整を行なう。これらのワーピング工程は双方共、大量の手作業による入力を必要とする。その結果、せりふのダビングを伴う長いビデオ・シーケンスの制作は容易ではない。更に、全ての場合において、新しい唇の形状が元の形状に一致するようにビデオ・シーケンスを時間的にワープすることは不可能である。例えば、唇を閉じる発音に画像は、唇を開く発音の画像にはワープすることはできない。何故なら、歯および／または舌が見えないからである。同様の問題は、異なる唇の突出で生成される音にも起こるものである。このように、実行可能な変更の種類は限られている。加えて、新たなサウンドトラックは、２つの記録シーケンスを視覚的に整合するために、第２のビデオ記録を必要とする。したがって、この手順は、あらゆる任意の発声を新たなサウンドトラックとして使用可能とする訳ではない。むしろ、ビデオ画像を伴うサウンドトラックのみが採用できるに過ぎない。アニメーションの分野では、発声されるせりふをキャラクタの口が正確に辿るようにするために、他の手法が用いられている。しかしながら、これらの手法で用いられる画像は合成であり、それらに関連する同期技法は、自然な人の顔のビデオ画像に使用するには適していない。したがって、いずれの所与の音の発声でも、以前に記録したビデオ・シーケンスのサンドトラックと交換可能であり、しかも新たに音を発声させてビデオ記録を行なう必要がない技法を提供できれば望ましい。更に、かかる方法が容易に自動化に対応し、必要な手作業の入力量を最少に抑えることができれば、一層望ましいであろう。発明の概要本発明によれば、これらの目的は、音声認識技法および画像処理の組み合わせを用いて、既存のビデオ・シーケンスのフレームを修正し、あらゆる任意の発声にも一致する新たなビデオ・ストリームを作成することによって達成される。同期プロセスの一実施形態では、３つの主要工程が含まれる。第１に、元のビデオ・シーケンスを分析し、可能な全ての唇の動きを定義し、データベースに格納する。実際には、発声される全ての音の視覚的な外観に近似させるには、１０種類の異なる視覚画像シーケンスのみをデータベースに格納すればよい。第２の工程として、新たなサウンドトラックを音声学的に転写し、各転写音に対する画像シーケンスをデータベースから読み出す。最終工程として、読み出した画像シーケンスを互いに円滑に調和させ、新たなサウンドトラックに同期した、修正ビデオ・ストリームを提示する。この手順の関連用途の１つでは、新たなサウンドトラックは、元のビデオ・シーケンスにおいて発声されたものと同じ文章から成る。しかしながら、新たな文章は、異なる強調、アクセント、声、性または年齢を与えることができる。適切なタイム・ワーピングによって、ビデオ画像を時間的に新たなオーディオ・トラックと一致させ、ビデオを新たなオーディオ・メッセージに同期させる。したがって、概して言えば、本発明は、オーディオ・トラックを音声学的に分析し、それに関連する画像を分類し、続いて元のビデオ・シーケンスからの画像を新たな音の音声成分に一致させることから成る。この技法によって、所与の元のビデオ・シーケンスを、あらゆる任意のオーディオ・トラックに同期させることができ、しかも新たなサウンドトラックのビデオ記録や、人工音声またはグラフィックスの発生を全く必要としない。更に、ビデオ・シーケンスの新たなサウンドに対する一致は、高度に自動化して行うことができるので、これによって、オーディオ・ダビング等に必要な手作業の手間の量が減少する。本発明の更に別の特徴、およびそれによって得られる利点については、添付図面に示す特定例を参照しながら、以下に詳細に説明する。図面の簡単な説明図１は、本発明のプロセス全体のフロー・チャートである。図２は、音声関連画像シーケンスの注釈付きデータベースを作成する手順の、一層詳細なフロー・チャートである。図３は、ビデオ記録からビジーム(viseme)・データベースを作成するプロセスの概略機能図である。図４は、新たなオーディオ・トラックと同期した新たなビデオ・ストリームを作成するプロセスの概略機能図である。図５は、データベースからの新たなビデオ・ストリングを新たなサウンドトラックとを組み合わせる手順の更に詳細なフロー・チャートである。図６は、話者の唇上に制御点をマークしたビデオ・フレームの一例である。図７は、新たな唇の画像を組み込んだビデオ・フレームの一例である。図８は、ビデオ・シーケンスを新たなサウンドトラックに同期させる代替手順の概略機能図である。図９は、図８に示す代替手順のフロー・チャートである。詳細な説明本発明の理解を容易にするために、これより、音を発声する人のビデオ・シーケンスのためのサウンドトラックを、異なるサウンドトラックに置き換えるという具体例を参照しながら、説明を行う。これらの例は、１組の発声された単語、即ち、文章を、他の組の発声された単語に置き換えることに関連する。しかしながら、本発明の実用的な用途は、単語に限定される訳ではない。むしろ、その原理は、歌唱のような他の音響にも同様に適用可能である。したがって、本発明の関連では、「発声」という用語は、発声される単語、韻律的な音調、および口で発声し分類が可能なその他のあらゆる音に言及する、汎用的な意味で用いるものとする。以下の本発明の例を説明する際、様々な種類のビデオおよびオーディオ分析のために、ある特定の技法について明記する。しかしながら、そのような技法は例示的なものであり、本発明は、同等の結果が得られる他の技法を用いても、実施可能であることは認められよう。更に、本発明の原理は、ここに記載する具体的な例示実施態様に限定されるのではないことも理解されよう。むしろ、明細書の結びにおいて一層詳しく論ずるように、本発明には多数の実用的用途がある。本発明において元のビデオ記録を新たなサウンドトラックに同期させるために採用する手順の概要を、図１のフロー・チャートに示す。これを参照すると、発声または歌唱している自然人のビデオ記録をステップＳ１において分析し、発声における特徴的な音を、特定のビデオ画像シーケンスと関連付ける。これらのビデオ画像シーケンスは、ステップＳ２においてデータベースに格納する。データベースには、各画像シーケンスに関連付けられた特徴音にしたがって、インデックスが付けられている。その後、ステップＳ３において、異なる話者の声のような、新たな音の発声を分析し、その中の特徴音を識別する。ステップＳ４において、各々の特徴音を一致させることによって、元のビデオ記録を新たなサウンドトラックと同期させる。本発明の一実施形態では、新たなサウンドトラック内で識別された各音に対して、データベースから適切な画像シーケンスを読み出し、ステップＳ５Ａにおいて、読み出した画像シーケンスを全て一列に並べる。次に、ステップＳ６Ａにおいて、例えば、モーフィング・プロセスによって、画像のシーケンスにスムージングを行い、人が新たな発声を行っているビデオ・ストリームを制作する。本発明の代替実施例において、新たなサウンドトラックが元の記録のそれに近く、例えば、同じ文章が発声されている場合では、ステップＳ５Ｂにおいて、元のビデオまたは新たなオーディオを、必要に応じて、時間的にワープし、元の記録の特徴音を新たなサウンドトラックのそれらと整合させることによって、同期を取る。図１のステップＳ１およびＳ２における音声インデックス付き画像のデータベースの作成を、図２のフロー・チャートに更に詳しく示す。基本的に、オーディオ・トラックを伴うビデオ記録には、最初に音声認識手順を実行する。この手順の目的は、記録されている音を構成する認識可能な成分、即ち、特徴を識別することである。一実施形態では、これらの成分は、音声の個々の音素、即ち、音声の最少単位の集合から成る。より好ましくは、音声の個々の二重音素および三重音素も利用する。何故なら、これらはその視覚的および聴覚的面において非常に一定した、十分な内容を含むからである。異なる単語または同じ単語の異なる発音は、従来からの発音辞書を用いて、これらの音素単位を一体配列することによって、発生することができる。あるいは、音声の部分を分類するために使用可能な他の認識可能な音響成分、例えば、ＭＦＣＣ、ＲＡＳＴＡ−ＰＬＰおよびＬＰＣ分析によって発生する音響特徴ベクトルも利用可能である。様々な種類の音声認識装置が、当技術分野では公知であり、記録した音声の成分音響を識別するために使用することができる。本発明の好適な実施形態では、隠れマルコフ・モデル（ＨＭＭ：Hidden Markov Model）システムを、音声認識装置として用いる。かかる目的のためにＨＭＭシステムを使用することは、Rabi ner，Laurence R.，"A Tutorial on Hidden Markov Models and Selected Appli cations in Speech Recognition"（ラビナ、ローレンスＲ．「隠れマルコフ・モデルに関する指導書および音声認識における特定の応用」；Proceedings of t he IEEE，Vol．77，No．２,pp．257-286、１９８９年２月）に記載されており、その内容は、この言及により本願にも含まれるものとする。図２を参照すると、ステップＳ１０において、最初に分類の目的のために採用する音響成分を認識するために、音声認識装置の訓練を行う。例えば、ＨＭＭシステムは、エントロピックリサーチ研究所（Entropic Research Lab.）の隠れマルコフ・ツールキット（Hidden Markov Toolkit）のような訓練用装置によって、音素を認識するように訓練することができる。同じ人の声を元のビデオ・シーケンスおよび新たなオーディオ・トラック双方に用いる場合、ＨＭＭシステムは、その人の声のみについて訓練することができる。あるいは、各話者に十分な訓練データが使用可能であれば、１つの話者依存ＨＭＭシステムを元のサウンドトラックに用いることができ、更に異なる話者依存システムを、新たな音の発声を分析するために用いることができる。しかしながら、更に好ましくは、音声認識装置を、話者に独立して訓練することにより、あらゆる任意の発声音を、元のサウンドトラックに置き換えることができるようにする。この手法は、元のサウンドトラックが短く、当該話者について非常に少ない訓練データしか得られないような状況では特に望ましいものである。元のサウンドトラックおよび新たなサウンドトラックにおいて用いた異なるマイクロフォンの各特性からの悪影響を回避するために、チャネル不変音響特徴抽出システムを用いて、入力情報をＨＭＭシステムに供給することが好ましい。かかるシステムの一例は、Hermansky et al，"Compensation for the Effect of t he Communication Channel in Auditory"（ヘルマンスキーらによる「聴覚における通信チャネルの影響に対する補償」；Proc．Euror．Conf．on．Speech Comm ．and Tech.，1991，pp．1367-1370）、および米国特許第５，４５０，５２２号に記載されている、RASTA-PLPシステムである。これらの文献の開示内容は、この言及により本願にも含まるものとする。チャネル不変性に対する別の手法を用いることも可能である。音声認識装置を、発声音における個々の音素を識別するように訓練した後、これを用いて、対象のビデオ記録に付随するサウンドトラックを分析する。対応する画像シーケンスおよび音響のデータベースを作成する手順を、図３に概略的に示す。これを参照すると、ビデオ記録１０は、一連の画像フレーム１２および付随する音響トラック１４から成る。ビデオ記録を再生し、記録されている音響を音声認識装置１６において分析し、記録されている音声における個々の音素を識別する（図２におけるステップＳ１１）。記録されたサウンドトラックにおいて認識された各音素について、識別された音に対応するビデオ画像データをデータベース１８に記録する（ステップＳ１２）。記録された画像データについてデータベース１８において注釈を付け、それに関連する特定の音素を識別する（ステップＳ１３）。格納されたビデオ画像データは、単一の画像、例えば１つのビデオ・フレームを各音素毎に備えることができる。より良い結果のために、画像のシーケンス、例えば、当該音素の完全な発音を含む３ないし４フレームを格納する。 TIMIT音素集合として知られている、音声認識に対して確立されている１つの規格によれば、人の音声を特徴付ける６１個の異なる音素カテゴリがある。基本的に、各音素は、人が発声可能な異なる音を表す。しかしながら、異なる音素が、見る人によっては同じ視覚的外観を有する場合もある。例えば、話者の唇は、文字「ｂ」および「ｐ」の各々の音を発声する際、同じ位置にある。同様に、子音「ｄ」および「ｔ」に関連する音の発声は、同じ視覚的印象を与える。本発明の関連においては、発声される音素の視覚的外観を、「ビジーム(viseme)」として識別する。聴覚的音素の６１カテゴリは、１０個のビジームの集合にマップすることができる。このように、簡潔に変形したデータベースは、１０個のビジームにそれぞれ関連する１０個のエントリのみを含めばよい。完成されたデータベースは、記録された各発声音に対応する、話者の唇位置のビデオ画像シーケンスを含む。一旦データベース１８を構築したなら、新たな発声に同期させるビデオ・ストリームを組み立てるために用いることができる。このプロセスを、図４の概略図および図５のフロー・チャートに示す。これらを参照して、新たなサウンドトラックを音声認識装置１６に供給する。図示の例では、サウンドトラックは、磁気テープ２０のような、適切な媒体上に記録されている。しかしながら、実際には、新たなサウンドトラックを予め記録しておく必要はない。例えば、ある話者によって発声された単語は、それらが発声されているときに、マイクロフォンを通じて直接音声認識装置１６に供給することができる。ステップＳ２０において、音声認識装置は、新たな発声、例えば、連続音素における個々の音の各々を識別する。ステップＳ２１において、識別された各々の音は、データベース１８にアクセスする際に用いられるインデックスを与える。ステップＳ２２において、このような音の各々に対して、対応するビデオ画像シーケンス、例えば、ビジームがデータベースから選択され、読み出されたビジームはステップＳ２３においてビデオ画像シーケンスのストリング２２に組み立てられる。図４の例では、４つの選択された画像シーケンス２２は、それぞれ、磁気テープ２０上の新たなサウンドトラックにおける４つの連続する音素に対応する。組み立てられたストリング２２における隣接する画像シーケンスは、元のビデオ画像の非連続部分に関連する可能性があるので、ある画像シーケンスから次の画像シーケンスに急激な変化がある場合もあり得る。したがって、連続画像を互いに円滑に調和させることが望ましい。この目的のために、データベース１８から読み出した画像のシーケンスを、画像モーフィング・デバイス２４において処理することが望ましい（ステップＳ２４）。このデバイスは、本質的に、所定数のビデオ・フレーム期間にわたって、１つの画像を次の連続画像にモーフィングするように機能する。その結果、画像は次々に円滑に遷移し、話者の自然な動きに一層近づくことになる。次に、ステップＳ２５において、円滑に調和させた画像を、新たなサウンドトラック２０と組み合わせ、話者の画像が新たなサウンドトラックにおける音と同期した新たなビデオ・ストリームを生成する。データベース１８を組み立て、格納されている画像情報を連続的に読み出して画像シーケンス２２を構築するには、いくつかの異なる手法を使用することができる。前述の比較的単純な実施形態では、約１０個の最少数のビジームをデーターベースに格納すればよい。この実施形態では、新たなサウンドトラックにおいて識別された各音素を用いて、データベースから対応するビジームを選択し、画像シーケンス２２のストリングを形成する。この特定の実施態様は、特に、得られるデータ量が限られている場合、例えば、元の画像の分析部分が比較的短い場合に有用である。更に複雑化した実施形態では、データベース１８に格納する情報は、バイ・ビジームから成るものとすることができる。バイ・ビジームとは、ある音素から次の音素への遷移に対応する視覚画像のことである。バイ・ビジームは、二重音素、即ち、時間的音素対によって、データベース１８においてインデックス付けされる。この実施形態では、新たなサウンドトラック内において識別された二重音素に基づいて、データベース１８から画像を読み出す。例えば、発声された単語 "bar"は、"b"，"ah"，および"r"に対応する一連の音素から成り、その開始および終了時にポーズを伴う。この発声された単語を分析する場合、音声認識装置１６は、二重音素"sil-b"に対する出力信号、即ち、子音"b"に対する音に続くポーズを生成する。この二重音素に対するバイ・ビジームをデータベース１８から選択する。次に、音声認識装置１６は、二重音素"b-ah"に対する出力信号を生成し、対応するバイ・ビジームをデータベースから読み出し、ストリング２２における次の画像シーケンスを形成する。次の二重音素は音"ah-r"に対応し、それに対応するバイ・ビジームをデータベースから読み出し、ストリング２２における次の画像シーケンスを形成する。最後に、二重音素"r-sil"に対するバイ・ビジーム、即ち、この単語の終端におけるポーズをデータベースから選択する。特定の二重音素に対するバイ・ビジームがデータベースに格納されていない場合、対応する単一のビジームを選択する。このように、前述の例では、音"ah-r"に対するバイ・ビジームが格納されていない場合、音素"r"に対する単一のビジームを選択する。この実施形態の更に精巧な実施態様では、動的なプログラミング技法を用いることによって、いくつかの代わりのバイ・ビジームを選択することができる。この実施態様では、３つの項から成るエネルギー関数を定義することができる。１つの項は、新たな発声における連続バイ・ビジーム間の視覚的一致の質を測定する。この一致は、例えば、連続するバイ・ビジームにおける対応する画素のグレースケール値を比較することによって実行すればよい。エネルギー関数における第２の項は、データベースに格納されているバイ・ビジームの長さと、新たな発声における対応する二重音素との間の差を測定する。エネルギー関数の第３の項は、単一のビジームをバイ・ビジームの代わりに用いる状況において割り当てられるペナルティ値である。エネルギー関数は、バイ・ビジームに代わる組み合わせの各々について計算し、最少のエネルギー関数を示すものを、画像シーケンス２２に用いるために選択する。データベース１８に格納されているビデオ・データは、元の記録１０からの完全なビデオ・フレームを構成することができ、その各々は、話者の頭部全体を含む場合がある。発声された素材がかなりの長さである場合、話者の頭部が記録セッションの間に動く可能性は非常に高い。話者の胴体部分の方を長く含む非ポートレート画像では、動きの可能性は更に高くなる。元の記録におけるこれらの動きのために、種々のフレームを組み立てし直して新たなシーケンス２２を作成する場合、話者の頭部または胴体の動きがぎくしゃくする結果となる。同様に、話者が誇張した表現を示す場合、例えば、まゆ毛をつり上げたりすると、不自然な動きが再生シーケンス２２内に現れる場合がある。このような可能性を制限するために、完全なビデオ・フレームを格納し用いる代わりに、新たな発声との同期を達成するために必要なビデオ・フレームの部分のみを含む副画像を用いることが好ましい。したがって、副画像は話者の唇、および恐らく口周囲の小さな区域を含めばよい。人のあごは典型的に発声の間、下唇と一緒に動くので、あごも副画像に同様に含ませることが好ましい。副画像を用いる実施態様では、同期した画像ストリーム２６は、副画像の各読み取りシーケンスを話者の頭部の完全な画像に「ペースト」即ち融合することによって形成する。一実施形態では、連続する副画像を、話者の静止フレーム画像上にペーストすることができる。更に一層自然に見える表現のためには、話者のプレゼンテーションの最中に副画像を組み込む。ビデオ・フレーム内に副画像を正しく配置することを確実に行なうために、対応する制御点を、元の記録および格納した副画像内で識別する。例えば、単一の制御点を、話者の上唇の上端中央部に配置するとよい。この制御点は、元の記録および格納した副画像の各々において識別される。副画像を元の記録にペーストした場合、副画像シーケンスにおける各フレームの制御点は、元の記録の対応するフレームのそれと整合され、口の副画像がビデオ・フレーム内の適正な位置に置かれることを保証する。更に好ましくは、話者の唇の輪郭を描く複数の制御点を用いる。このために、自動視覚追跡アルゴリズムを利用し、話者の唇の境界を識別することが好ましい。従来の輪郭追跡アルゴリズムを用いて、話者の唇の外側の境界を定義することができる。適切な輪郭追跡アルゴリズムの一例は、Kaas et al.，"SNAKES:Activ e Contour Models"（カースらによる「ＳＮＡＫＥＳ：アクティブな輪郭モデル」；Proc．of the First Int．Conf．on Computer Vision，Landon 1987）に記載されている。ビデオ画像の解像度が低い場合、Pentland et al，"View-Based and Modular Eigenspaces for Face Recognition"（ペントランドらによる「顔の認識のための視覚に基づくモジュール状固有空間」;Proceedings of the IEEE Co mputer Society Conference on Computer Vision and Pattern Recognition，１９９４年６月、pp.84-91）に記載されている固有画像手法のような、グレー・レベルに基づくアルゴリズムを使用することができる。最も好ましくは、追跡アルゴリズムは、話者の唇の外側および内側の境界双方の上で制御点を識別するものである。内側および外側唇制御点が識別された話者のビデオ画像の一例を図６に示す。これらの制御点は、データベース１８に記録されている各副画像と共に格納されている。記録された制御点を利用するモーフィング・プロセスによって、副画像のシーケンス２２を最終ビデオ・ストリーム２６内にペーストする。粗いレベルでは、最初に制御点を用いてビデオ・フレーム内における新たな唇画像の位置を判定し、それらに何らかの回転およびスケーリングを適用する必要があるか否かについて判定する。概略的な位置の判定の後、画像のスケーリングおよび方向付けを決定し、制御点を用いて元のビデオ画像をワープし、新たな唇の画像をフレーム内にフェードする。この手順は、いずれかの適切な従来からのモーフィング・プログラムを用いて実行することができる。この関連において使用可能なモーフィング・プログラムの一例は、パブリック・ドメイン・ソフトウエア"Morphine"である。図６の元の画像に対応するビデオ・フレームの一例であるが、新たにモーフィングされた唇の副画像を有するものを図７に示す。１つの音素の持続期間は比較的短く、ビデオ・シーケンスにおいてわずか３または４つの連続フレームを包含する程度である。かかる場合、画像の円滑な調和を得るためには、画像のクロス・フェーディングおよびワーピング双方から成る、モーフィング・プロセスを用いる必要はない場合もある。むしろ、単純に数フレームの間にわたって画像をクロス・フェードし、副画像の元のビデオ記録への容認可能な融合が得られれば十分な場合もある。例えば、副画像に適切なスケーリングおよび回転を行なった後、話者の上唇の位置を元の画像および新たな画像双方において同一に保つように、副画像を元の記録にクロス・フェードする。前述の本発明の例では、データベースは、識別された音に対応する画像シーケンスで構成され、新たなビデオ・ストリームは、新たなサウンドトラックにしたがって記録された画像から組み立てられる。しかしながら、新たなサウンドトラックが元々記録されている音と実質的に同様である場合、ビデオ・ストリームの再構築は不要な場合もある。例えば、テレビジョン広告の制作では、例えば、不要なポーズを削除し、異なる強調を加える等というように、俳優にある文章を再度記録させることが望ましい場合もときとしてある。このような場合、新たなサウンドトラックにおけるせりふは、元の記録のせりふと同一であるが、タイミングは異なる場合がある。この種の状況では、本発明を用いて、元々記録されているビデオを修正し、タイム・ワーピング技法を用いて、再記録されたサウンドトラックとそれを同期させることができる。本発明のこの実施形態を、図８の概略図および図９のフロー・チャートに示す。これらを参照すると、ステップＳ３１において元の記録１０を分析し、音声の個々の音素またはその他の特徴的成分を識別する。ステップＳ３２において、異なる成分に対応する特定のフレームを記録する。ステップＳ３３において、同様に新たな音声記録２０を分析する。これは、同じ音成分から成る可能性があるが、これらの間のタイミングは元の記録とは異なる場合もあり得る。一旦元の記録および新たなサウンドトラックにおいて対応する成分を識別したなら、ステップ３４において、タイム・ワーピング・プロセスを記録に施し、これを新たなサウンドトラックに同期させる。図８の例では、元の記録からフレームを間引きして、新たなシーケンス２７内に残っているフレームが新たなサウンドトラック２０のタイミングに対応するようにする。元のビデオ記録を修正する代わりとして、新たなサウンドトラックにタイム・ワーピングを行い、時間的にそれを元のビデオと整合することも可能である。元の記録ビデオまたは新たなサウンドトラックのどちらを時間的にワープし、それを他方に整合するかは、選択の問題とすることができる。しがしながら、概して言えば、２つの内、遅い方にワーピングを行い、それを速い方の記録に同期させることが望ましい。同期重複および追加（ＳＯＬＡ：synchronous overlap-and- add）のような、いずれかの適切なタイム−スケール修正技法を用いて、オーディオまたはビデオ・トラックを時間的にワープすることができる。一旦タイム・ワーピング・プロセスが完了したなら、ステップＳ３５においてビデオ・シーケンスを新たなサウンドトラック２０と組み合わせ、新たなビデオ・ストリーム２８を形成する。本発明のこの実施形態は、特に、２つのサウンドトラックにおけるせりふが互いに同一かあるいは実質的に同一である場合に望ましい。何故なら、唇の追跡や、制御点の指定や、ビジームの制御が不要となるからである。この実施形態に相応しい応用の例には、ムービー・サウンドトラックのリダビング、付随するビデオ表示に合わせて人が歌唱するカラオケ・システムが含まれる。本発明の前述の態様は、音声認識および画像モーフィングの機能を実行するように適切にプログラムされたコンピュータ・システム（図示せず）に実施することが好ましい。これらの手順はそれ自体従来から公知であるので、ここでは詳しく説明しなかった。データーベースは、例えば、磁気ハード・ディスクのように、コンピュータ・システムと連動するいずれの適切なメモリにも格納可能である。元のビデオ記録および新たなサウンドトラックは、同様にコンピュータ・システムに格納することができる。新たなサウンドトラックに同期した出力ビデオ・ストリームは、最初にコンピュータのメモリに格納し、次に、例えばビデオ・テープ・カセットのように、再生に適した他の何らかの媒体に転写したり、あるいは直接コンピュータから再生することができる。本発明は、他の特定形態においても、その精神または本質的な特徴から逸脱することなく実施可能であることは、当業者には認められよう。具体的には、本発明の実施形態は、オーディオ・ダビングにおけるそれらの実施態様を参照しながら説明したが、本発明の実用的な使用は、これらの種類の用途に限定される訳ではない。一例として、本発明は、帯域幅が狭いテレビ電話(video phone)を提供するためにも使用可能である。このような状況では、送信機はオーディオ・チャネルおよびビジーム・シーケンスを送出すればよい。受信機は、ビジーム・ストリームを、既に格納されているビデオ・データと共に利用し、発呼者の唇に同期した画像を再構築することができる。他の例として、本発明は、コンピュータのための新しい形式のユーザ・インターフェースを提供するために用いることができ、よく認識されたパーソナリティが、命令または情報の要求を伴って、コンピュータ・ユーザに話しがけることができる。他の実施形態では、本発明を用いて、バーチャル・リアリティ・ゲームにおける飛行士等を作成することができ、いずれの所与の顔の画像でも、プレーヤの声で話すことができる。本発明は、他の特定形態においても、その精神または本質的な特徴から逸脱することなく実施可能であることは、当業者には認められよう。したがって、ここに開示した実施形態は、あらゆる面において例示的であり、限定的に解釈しないものとする。本発明の範囲は、前述の説明ではなく、添付の請求の範囲によって示され、その意味および均等物の範囲に該当する全ての変更は、その中に包含されることを意図するものである。

【手続補正書】【提出日】１９９８年１２月１１日（１９９８．１２．１１）【補正内容】 1. 請求の範囲を別紙のとおり補正する。 2. 願書に添付の明細書第２頁第７行と第８行の間に次を挿入する。『同様の手順が、ＥＰ−Ａ−０６７４３１５号、およびチェン他(Chen et al)の「音声情報を利用したトーキング・ヘッド・ビデオにおける唇の同期」(L ip Synchronization in Talking Head Video Utilizing Speech Information)と題する、対応する論文（Proceedings of the SPIE;Vol．2501，pp 1690-1701，1 995）に記載されている。この手順では、テーブルが、音の集団、即ち、音素に対応する唇の位置を記憶している。再録者(dubber)の声を分析し、各音素を用いて、テーブル内のエントリにしたがって再録者の口の画像を修正する。』請求の範囲１．付随するオーディオ・トラック（１４）を有するビデオ記録（１２）を修正し、異なるオーディオ・トラック（２０）を有する新たなビデオ・プレゼンテーション（２６）を生成する方法であって、自動音声認識技術（１６）によって、前記付随するオーディオ・トラック（１４）を分析し、該付随するオーディオ・トラック内の個々の音声の特性に関連する、前記ビデオ記録（１２）内のビデオ・フレームを識別し、該フレームの各々からのビデオ画像情報をデータベース（１８）に格納するステップと、前記フレームからのビデオ画像情報を分析し、前記ビデオ画像に関連する所定の特徴を識別し、前記データベース内に格納されている前記ビデオ画像情報に、前記特徴（Ｓ１５）に関係するデータで注釈を付けるステップと、音の発声（２０）を分析し、該音の発声における個々の音声の特性を識別するステップと、前記音の発声内において識別した音声の特性にしたがって、前記データベース（１８）に格納されているビデオ画像情報を選択し、該画像情報の選択した項目を組み立てて、シーケンス（２２）を形成するステップと、前記注釈を付けたデータにしたがって、前記シーケンス内の情報の選択した項目を互いに円滑に調和させ、前記音の発声に同期したビデオ・プレゼンテーション（２６）を生成するステップと、から成ることを特徴とする方法。２．請求項１記載の方法において、前記オーディオ・トラックおよび前記音の発声内における前記個々の音声の特性は、音素を含むことを特徴とする方法。３．請求項２記載の方法において、前記個々の音声の特性は、二重音素を含むことを特徴とする方法。４．請求項２記載の方法において、前記個々の音声の特性は、三重音素を含むことを特徴とする方法。５．請求項１記載の方法において、前記注釈を付けたデータは、前記ビデオ画像内の制御点から成り、前記シーケンス内の情報の前記項目を円滑に調和させるステップは、前記制御点を用いて、前記シーケンス内の情報の隣接する項目の対間でモーフィングを行うプロセス（２４）を備えることを特徴とする方法。６．請求項５記載の方法において、前記制御点は、前記ビデオ画像内において話者の唇の位置を識別することを特徴とする方法。７．請求項１記載の方法において、前記データベース内に格納されているビデオ画像情報の各項目は、ビデオ・フレーム内の画像全体の一部から成るサブ画像であることを特徴とする方法。８．請求項７記載の方法であって、更に、サブ画像をフル・ビデオ・フレームに組み込み、前記ビデオ・プレゼンテーションを生成するステップを含むことを特徴とする方法。９．請求項１記載の方法において、前記ビデオ記録は、人の頭部の画像を含み、前記データベース内に格納されているビデオ画像情報の各項目は、前記画像内の前記人の口を含む領域のサブ画像から成ることを特徴とする方法。１０．請求項９記載の方法であって、更に、人の口のサブ画像を、人の頭部の画像を含むビデオ・フレームに組み込むステップを含むことを特徴とする方法。１１．請求項１記載の方法において、前記ビデオ記録を分析するステップは、前記所定の特徴を分析し、該特徴に関連する個々の音声の特性を識別するステップを含むことを特徴とする方法。１２．請求項１１記載の方法において、前記所定の特徴は、話者の唇の形状を規定する制御点から成ることを特徴とする方法。１３．請求項１２記載の方法において、前記分析は、前記制御点の相対的な移動の検出から成ることを特徴とする方法。１４．請求項１２記載の方法において、前記分析は、前記制御点の空間分散の検出から成ることを特徴とする方法。１５．付随するオーディオ・トラック（１４）を有するビデオ・シーケンス（１２）を、異なるオーディオ・トラック（２０）と同期させる方法であって、自動音声認識技術（１６）によって、前記ビデオ・シーケンスに付随する前記オーディオ・トラック（１４）を分析し、前記オーディオ・トラックにおける個個の音声の特性を識別するステップと、自動音声認識技術（１６）によって、音の発声（２０）を分析し、前記音の発声における個々の音声の特性を識別するステップと、前記ビデオ・シーケンスを時間的に修正し、前記ビデオ・シーケンス内において識別した個々の音声の特性を、前記音の発声における対応する個々の音声の特性と時間的に整合するステップ（Ｓ６Ａ，Ｓ６Ｂ）と、から成ることを特徴とする方法。１６．請求項１５記載の方法において、前記修正するステップは、前記ビデオ・シーケンスのフレームを並び替え（Ｓ６Ａ）、これらを前記音の発声における個々の音声の特性と整合するプロセスを備えることを特徴とする方法。１７．請求項１５記載の方法において、前記修正するステップは、前記ビデオ・シーケンスのフレームのタイミングを変化させ（Ｓ６Ｂ）、これらを前記音の発声における個々の音声の特性と整合するプロセスを備えることを特徴とする方法。１８．請求項１５記載の方法において、前記オーディオ・トラックおよび前記音の発声における前記個々の音の特性は音素を含むことを特徴とする方法。１９．請求項１５記載の方法において、前記音の発声は前記オーディオ・トラックに類似しており、前記修正するステップは、前記ビデオ・シーケンスを時間的にワープし（Ｓ６Ｂ）、対応する個々の音声の特性を整合するステップを含むことを特徴とする方法。２０．請求項１９記載の方法において、前記シーケンスから１つ以上のビデオ・フレームを除去することによって、前記ビデオ・シーケンスを時間的にワープし、前記除去すべきフレームは、前記シーケンスの各フレームに関連する個々の音声の特性に応じて選択されることを特徴とする方法。２１．請求項１５記載の方法において、前記修正するステップは、前記サウンドトラック（Ｓ３）内において識別した個々の音声の成分毎にビデオ画像データを格納するステップと、前記発声内において識別した個々の音声成分に対応するシーケンスで、格納されているビデオ画像データ（Ｓ６Ａ）を読み出し、新たなビデオ・プレゼンテーションを生成するステップと、を含むことを特徴とする方法。２２．請求項２１記載の方法であって、更に、前記発声内における連続する個個の音声成分に対応して、前記シーケンス内の前記読み出したビデオ画像データ（Ｓ７Ａ）を円滑に調和させるステップを含むことを特徴とする方法。２３．請求項２２記載の方法において、前記円滑に調和させるステップは、読み出したビデオ画像データの連続集合間でモーフィングを行うプロセスを備えることを特徴とする方法。２４．請求項２２記載の方法であって、更に、前記ビデオ・シーケンス内の画像を分析し、その中の制御情報を定義するステップと、前記制御情報を前記格納したビデオ画像データと共に格納するステップと、前記格納した制御情報に応じて前記ビデオ画像データを円滑に調和するステップとを含むことを特徴とする方法。２５．請求項２４記載の方法において、前記制御情報は、前記画像内の特徴に関係する、前記ビデオ画像内の点から成ることを特徴とする方法。２６．記録したビデオ画像ストリーム（１２）を修正し、前記記録したビデオ画像ストリームとは別個に発生したサウンドトラック（２０）とこれを同期させるシステムであって、前記記録したビデオ画像ストリーム（Ｓ１，Ｓ２）を自動的に分析し、個々の音声の特性に関連する画像のシーケンスを識別する手段と、前記識別した画像のシーケンスを収容するデータベース（１８）を格納するメモリと、サウンドトラック（２０）を自動的に分析し（１６）、中に含まれる個々の音声の特性を識別する手段（１６）と、前記サウンドトラック内において識別した個々の音声の特性に対応して、前記データベース内に収容されている画像のシーケンスを選択し、該選択した画像のシーケンスを、前記サウンドトラックと同期するビデオ画像ストリーム（２２）に組み立てる手段と、から成ることを特徴とするシステム。２７．請求項２６記載のシステムにおいて、前記自動分析手段の各々は、音声認識システムを備えることを特徴とするシステム。２８．請求項２７記載のシステムにおいて、前記音声認識システムは、隠れマルコフ・モデル・システムであることを特徴とするシステム。２９．請求項２７記載のシステムにおいて、前記音声認識システムはニューラル・ネットワークであることを特徴とするシステム。３０．請求項２７記載のシステムにおいて、前記音声認識システムは、隠れマルコフ・モデル・システムおよびニューラル・ネットワークを備えることを特徴とするシステム。３１．請求項２６記載のシステムにおいて、前記個々の音声の特性は、音声の音素を含むことを特徴とするシステム。３２．請求項２６記載のシステムであって、更に、前記選択した画像のシーケンスを互いに円滑に調和させ、前記同期したビデオ画像ストリームを生成する手段（２４）を含むことを特徴とするシステム。３３．請求項３２記載のシステムにおいて、前記調和手段は、モーフィング・システムを含むことを特徴とするシステム。３４．請求項２６記載のシステムにおいて、前記記録したビデオ画像ストリームを自動的に分析する前記手段は、所定の特徴に関係する前記画像内の制御点を規定する手段と、前記制御点を分析し、前記特徴に関連する音声の特性を認識する手段とを含むことを特徴とするシステム。３５．記録したビデオ画像ストリーム（１２）を修正し、該記録したビデオ画像ストリームとは別個に発生したサウンドトラック（２０）に同期させるシステムであって、前記記録したビデオ画像ストリームを分析し（Ｓ１，Ｓ２）、個々の音声の特性に関連する画像を識別する手段と、各々前記識別した画像の１つの所定部分から成る、サブ画像を収容する第１のデータベース（１８ａ）を格納するメモリと、前記識別した画像を分析し、前記画像の前記サブ画像部分内に制御特徴を定義する手段と、前記格納されているサブ画像に、前記定義した制御特徴に関係するデータで注釈を付ける手段と、前記ビデオ画像ストリームからのフル・フレーム画像を、前記定義した制御特徴と共に収容する第２のデータベース（１８ｂ）を格納するメモリと、サウンドトラックを分析し、その中に含まれる個々の音声の特性を識別する手段（１６）と、前記サウンド・トラック内において識別した個々の音声の特性に対応して、前記第１のデータベース内に収容されているサブ画像を選択する手段（Ｓ２２ａ）と、前記定義した制御特徴にしたがって、選択したサブ画像を、前記第２のデータベース内に格納されているフル・フレーム画像に組み込み、前記サウンドトラックと同期したビデオ・ストリームを形成する手段（Ｓ２６ａ）と、から成ることを特徴とするシステム。３６．請求項３５記載のシステムにおいて、前記組み込む手段は、前記サブ画像内の前記制御特徴を、前記フル・フレーム画像内の対応する制御特徴と整合し、前記サブ画像を前記フル・フレーム画像にクロス・フェードすることを特徴とするシステム。３７．請求項３５記載のシステムにおいて、前記組み込む手段は、前記制御特徴に応じて、前記サブ画像を前記フル・フレーム画像にモーフするモーフィング・システムを備えることを特徴とするシステム。３８．付随するオーディオ・トラック（１４）を有するビデオ・シーケンス（１２）を、異なるオーディオ・トラック（２０）と同期させる方法であって、前記ビデオ・シーケンス（１２）に付随する前記オーディオ・トラック（１４）を分析し、該オーディオ・トラック内の個々の音声の特性を識別するステップと、自動音声認識技術（１６）によって音の発声（２０）を分析し、前記音の発声における個々の音声の特性を識別するステップと、前記ビデオ・シーケンスのフレーム（Ｓ６Ｂ）を並べ替え、前記ビデオ・シーケンス内において識別した個々の音声の特性を、前記音の発声内の対応する個々の音声の特性と時間的に整合させるステップと、から成ることを特徴とする方法。３９．第１のオーデイオ・トラツク（１４）に関連するビデオ記録（１２）を修正し、第２のオーディオ・トラック（２０）に対応するビデオ・プレゼンテーションを生成する方法であって、前記ビデオ記録（１２）を分析し、前記第１のオーディオ・トラック（１４）内の個々の特徴に関連するビデオ・フレームのシーケンスを識別し、前記フレームのシーケンスを、前記識別した特徴にしたがってデータベース（１８）に格納するステップと、前記第２のオーディオ・トラック（２０）を分析し、その中の個々の特徴を識別するステップと、前記第２のサウンド・トラック（２０）内において識別した特徴に応じて、前記データベース（１８）内に格納されているフレームのシーケンスを選択し（Ｓ６Ａ）、前記選択したフレームのシーケンスを組み立てて、前記第２のオーディオ・トラックに同期したビデオ・ストリーム（２２）を形成するステップと、から成ることを特徴とする方法。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＥ，ＨＵ，ＩＬ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＺ，ＶＮ

Claims

【特許請求の範囲】１．付随するオーディオ・トラックを有するビデオ・シーケンスを修正し、異なるオーディオ・トラックを有する新たなビデオ・ストリームを生成する方法であって、前記ビデオ・シーケンスを分析し、前記付随するオーディオ・トラック内の個々の音に関連付けられたビデオ・フレームを識別し、前記フレームの各々からの前記ビデオ画像情報を、データベースに格納するステップと、音の発声を分析し、該音の発声における個々の音を識別するステップと、前記音の発声から識別された各音に対して、前記データベースに格納されているビデオ画像情報を選択し、画像情報シーケンスの選択した項目を組み立てるステップと、前記シーケンスにおける情報の選択した項目を互いに円滑に調和させ、前記音の発声に同期したビデオ・ストリームを生成するステップと、から成ることを特徴とする方法。２．請求項１記載の方法において、前記オーディオ・トラックおよび前記音の発声における前記個々の音は、音素から成ることを特徴とする方法。３．請求項１記載の方法において、前記シーケンス内の情報の項目を円滑に調和させる前記ステップは、前記シーケンス内の１対の隣接する情報の項目間でモーフィングを行なうプロセスを備えることを特徴とする方法。４．請求項１記載の方法において、前記ビデオ・シーケンスは、人の頭部の画像を含み、前記データベースに格納されているビデオ画像情報の各項目は、前記画像内の前記人の口を含む区域の副画像を備えることを特徴とする方法。５．請求項４記載の方法であって、更に、スムージングした人の口の副画像から成るビデオ・ストリームを、人の頭部の画像を含むビデオ・フレームに組み込むステップを含むことを特徴とする方法。６．付随するオーディオ・トラックを有するビデオ・シーケンスを、異なるオーディオ・トラックと同期させる方法であって、前記ビデオ・シーケンスを分析し、前記付随するオーディオ・トラック内の個々の音を識別するステップと、音の発声を分析し、該音の発声における個々の音を識別するステップと、前記ビデオ・シーケンスおよび前記音の発声の少なくとも一方を修正し、前記ビデオ・シーケンス内の識別された個々の音を、前記音の発声における対応する個々の音と時間的に整合するステップと、から成ることを特徴とする方法。７．請求項６記載の方法において、前記オーディオ・トラックおよび前記音の発声における前記個々の音は音素から成ることを特徴とする方法。８．請求項６記載の方法において、前記音の発声は前記オーディオ・トラックに類似しており、前記修正するステップは、前記ビデオ・シーケンスおよび前記音の発声の一方を時間的にワープし、対応する個々の音を整合するステップを含むことを特徴とする方法。９．請求項８記載の方法において、前記音の発声が前記サウンドトラックよりも遅い場合に、これを時間的に整合することを特徴とする方法。１０．請求項６記載の方法において、前記修正するステップは、更に、前記サウンドトラック内において識別された個々の音の各々に対して、ビデオ画像データを格納するステップと、前記発声において識別された個々の音に対応する格納ビデオ画像データを順次読み出し、前記新たなビデオ・ストリームを生成するステップと、を含むことを特徴とする方法。１１．請求項１０記載の方法であって、更に、前記発声において連続する個々の音に対応する、前記シーケンス内の読み出したビデオ画像を円滑に調和させるステップを含むことを特徴とする方法。１２．請求項１１記載の方法において、前記円滑に調和させるステップは、読み出したビデオ画像データの連続集合間で、モーフィングを行なうプロセスを含むことを特徴とする方法。１３．記録ビデオ画像シーケンスを修正し、該記録ビデオ画像シーケンスとは別個に作成されたサウンドトラックにそれを同期させるシステムであって、前記記録ビデオ画像シーケンスを分析し、個々の音と関連付けられた画像を識別する手段と、前記識別された画像を含むデータベースを格納するメモリと、サウンドトラックを分析し、その中に含まれる個々の音を識別する手段と、前記サウンドトラックにおいて識別された個々の音に対応する、前記データベースに含まれている画像を選択し、該選択した画像を、前記サウンドトラックと同期するビデオ画像シーケンスに組み立てる手段と、から成ることを特徴とするシステム。１４．請求項１３記載のシステムにおいて、前記分析手段の各々は、音声認識システムを備えることを特徴とするシステム。１５．請求項１４記載のシステムにおいて、前記音声認識システムは、隠れマルコフ・モデル・システムであることを特徴とするシステム。１６．請求項１４記載のシステムにおいて、前記個々の音は、音声の音素から成ることを特徴とするシステム。１７．請求項１３記載のシステムであって、更に、前記選択した画像を互いに円滑に調和させ、前記同期したビデオ画像シーケンスを生成する手段を含むことを特徴とするシステム。１８．請求項１７記載のシステムにおいて、前記調和させる手段は、画像モーフィング・システムを含むことを特徴とするシステム。１９．請求項１７記載のシステムにおいて、前記調和させる手段は、前記選択した画像を、前記記録ビデオ画像シーケンスにクロス・フェードする手段を含むことを特徴とするシステム。