JP2000508845A - ビデオ画像シーケンスの新たなサウンドトラックに対する自動同期 - Google Patents

ビデオ画像シーケンスの新たなサウンドトラックに対する自動同期

Info

Publication number
JP2000508845A
JP2000508845A JP9534555A JP53455597A JP2000508845A JP 2000508845 A JP2000508845 A JP 2000508845A JP 9534555 A JP9534555 A JP 9534555A JP 53455597 A JP53455597 A JP 53455597A JP 2000508845 A JP2000508845 A JP 2000508845A
Authority
JP
Japan
Prior art keywords
video
image
sequence
sound
soundtrack
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9534555A
Other languages
English (en)
Inventor
ブルグラー,クリストフ
Original Assignee
インターバル リサーチ コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターバル リサーチ コーポレイション filed Critical インターバル リサーチ コーポレイション
Publication of JP2000508845A publication Critical patent/JP2000508845A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B31/00Associated working of cameras or projectors with sound-recording or sound-reproducing means
    • G03B31/02Associated working of cameras or projectors with sound-recording or sound-reproducing means in which sound track is on a moving-picture film
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/032Electronic editing of digitised analogue information signals, e.g. audio or video signals on tapes
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Television Signal Processing For Recording (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

(57)【要約】 既存のビデオの新たなサウンドトラックへの同期を、元のサウンドトラックおよび新たなサウンドトラックの音素分析を通じて達成する。音素のような個々の音を、元のビデオ記録に対するサウンドトラック内で識別し、それに対応する画像を格納する。同様に、新たなサウンドトラックも分析し、個々の音を識別する。これらを用いて、格納されている画像を選択し、新たなビデオ・シーケンスを作成する。次に、画像のシーケンスを互いに円滑に調和させてビデオ・ストリームを形成し、新たなサウンドトラックに同期させる。この手法は、所与のビデオ・シーケンスをいずれの任意のオーディオ・トラックとも同期させることができる。更に、ビデオ画像の新たな音に対する一致は、高度に自動化して実行することができ、これによって、必要な手作業の手間を減少させる。

Description

【発明の詳細な説明】 ビデオ画像シーケンスの新たなサウンドトラックに対する自動同期発明の分野 本発明は、ビデオ画像シーケンスの音声サウンドトラックとの同期に関し、更 に特定すれば、いずれの任意の文章を発声する自然人についても、その現実的な ビデオ・シーケンスを提供するシステムに関するものである。発明の背景 発声中の人のビデオ記録に、当該ビデオ画像の元の記録中で発声されたせりふ とは異なるせりふを正確に辿らせることが望ましい様々な状況がある。かかる用 途の1つは、元の記録サウンドトラックを、異なるサウンドトラックと置き換え る、オーディオ・ダビングの分野である。単純な場合では、一文を発声する俳優 の画像を記録した後、その文を記録し直し、例えば、強調部分を変えたり、また は異なるアクセントを与えることが望ましい場合がある。再びビデオ・シーケン ス全体を記録する代わりに、リダビング(再ダビング)・プロセスは、所望の変 更を加えて俳優にその文を繰り返させ、繰り返した文を元の記録した文と置き換 えることができる。 これよりも更に精巧なビデオ制作では、ある俳優の保存フィルムを利用し、そ の俳優が発声するせりふを、全く異なる音声のサウンドトラック、場合によって は異なる声で置き換えることが望ましい場合もある。例えば、元の文が異なる言 語で表現されている場合や、有名な政治家の元の声で子供がスピーチを行うとい うような、様々な特殊効果を作成することができる。 これらの種類の用途では、元の記録画像を修正し、話者の唇の動きを新たなサ ウンドトラックに同期させなければならない。これまで、かかる同期を達成する 方法は、大量の手作業による入力および/または特殊な処理を必要とし、その適 用可能性を狭めていた。画像整合(イメージ・アラインメント)を基本とする従 来技術の手法の一例が、米国特許第4,827,532号に記載されている。こ の特許は、特に、ある言語のサウンドトラックを第2の言語の新たなサウンドト ラックに置き換えることを対象とし、話者に異なる唇の動きを要求する。この特 許に開示されている技法では、新たな俳優が新たな言語で文を発声する場面のビ デオ記録を行う。特殊なマーカを用いて、俳優が新たな言語で発声している新た な記録画像において、俳優の唇の輪郭をマークし、元のビデオには手作業でマー クしなければならない。一旦古いビデオ画像および新たなビデオ画像の対応部分 を識別したなら、元のムービー・フレームの画素を修正し、元の俳優が新たなサ ウンドトラックのせりふを発声しているかのように見せる。 ’532特許に開示されている手順は、2種類のビデオ修正を伴う。第1に、 元の画像のフレームを新たなサウンドと整合させる作業において、ビデオ・シー ケンスを時間的にワープすることにより、唇の形状を互いに一致させる。その後 、画像の視覚的ワーピング、例えば、モーフィングを行い、フレームを飛ばした 結果生ずる可能性がある画像の不連続部分間で遷移の調整を行なう。 これらのワーピング工程は双方共、大量の手作業による入力を必要とする。そ の結果、せりふのダビングを伴う長いビデオ・シーケンスの制作は容易ではない 。更に、全ての場合において、新しい唇の形状が元の形状に一致するようにビデ オ・シーケンスを時間的にワープすることは不可能である。例えば、唇を閉じる 発音に画像は、唇を開く発音の画像にはワープすることはできない。何故なら、 歯および/または舌が見えないからである。同様の問題は、異なる唇の突出で生 成される音にも起こるものである。このように、実行可能な変更の種類は限られ ている。加えて、新たなサウンドトラックは、2つの記録シーケンスを視覚的に 整合するために、第2のビデオ記録を必要とする。したがって、この手順は、あ らゆる任意の発声を新たなサウンドトラックとして使用可能とする訳ではない。 むしろ、ビデオ画像を伴うサウンドトラックのみが採用できるに過ぎない。 アニメーションの分野では、発声されるせりふをキャラクタの口が正確に辿る ようにするために、他の手法が用いられている。しかしながら、これらの手法で 用いられる画像は合成であり、それらに関連する同期技法は、自然な人の顔のビ デオ画像に使用するには適していない。 したがって、いずれの所与の音の発声でも、以前に記録したビデオ・シーケン スのサンドトラックと交換可能であり、しかも新たに音を発声させてビデオ記録 を行なう必要がない技法を提供できれば望ましい。更に、かかる方法が容易に自 動化に対応し、必要な手作業の入力量を最少に抑えることができれば、一層望ま しいであろう。発明の概要 本発明によれば、これらの目的は、音声認識技法および画像処理の組み合わせ を用いて、既存のビデオ・シーケンスのフレームを修正し、あらゆる任意の発声 にも一致する新たなビデオ・ストリームを作成することによって達成される。同 期プロセスの一実施形態では、3つの主要工程が含まれる。第1に、元のビデオ ・シーケンスを分析し、可能な全ての唇の動きを定義し、データベースに格納す る。実際には、発声される全ての音の視覚的な外観に近似させるには、10種類 の異なる視覚画像シーケンスのみをデータベースに格納すればよい。第2の工程 として、新たなサウンドトラックを音声学的に転写し、各転写音に対する画像シ ーケンスをデータベースから読み出す。最終工程として、読み出した画像シーケ ンスを互いに円滑に調和させ、新たなサウンドトラックに同期した、修正ビデオ ・ストリームを提示する。 この手順の関連用途の1つでは、新たなサウンドトラックは、元のビデオ・シ ーケンスにおいて発声されたものと同じ文章から成る。しかしながら、新たな文 章は、異なる強調、アクセント、声、性または年齢を与えることができる。適切 なタイム・ワーピングによって、ビデオ画像を時間的に新たなオーディオ・トラ ックと一致させ、ビデオを新たなオーディオ・メッセージに同期させる。 したがって、概して言えば、本発明は、オーディオ・トラックを音声学的に分 析し、それに関連する画像を分類し、続いて元のビデオ・シーケンスからの画像 を新たな音の音声成分に一致させることから成る。この技法によって、所与の元 のビデオ・シーケンスを、あらゆる任意のオーディオ・トラックに同期させるこ とができ、しかも新たなサウンドトラックのビデオ記録や、人工音声またはグラ フィックスの発生を全く必要としない。更に、ビデオ・シーケンスの新たなサウ ンドに対する一致は、高度に自動化して行うことができるので、これによって、 オーディオ・ダビング等に必要な手作業の手間の量が減少する。 本発明の更に別の特徴、およびそれによって得られる利点については、添付図 面に示す特定例を参照しながら、以下に詳細に説明する。図面の簡単な説明 図1は、本発明のプロセス全体のフロー・チャートである。 図2は、音声関連画像シーケンスの注釈付きデータベースを作成する手順の、 一層詳細なフロー・チャートである。 図3は、ビデオ記録からビジーム(viseme)・データベースを作成するプロセス の概略機能図である。 図4は、新たなオーディオ・トラックと同期した新たなビデオ・ストリームを 作成するプロセスの概略機能図である。 図5は、データベースからの新たなビデオ・ストリングを新たなサウンドトラ ックとを組み合わせる手順の更に詳細なフロー・チャートである。 図6は、話者の唇上に制御点をマークしたビデオ・フレームの一例である。 図7は、新たな唇の画像を組み込んだビデオ・フレームの一例である。 図8は、ビデオ・シーケンスを新たなサウンドトラックに同期させる代替手順 の概略機能図である。 図9は、図8に示す代替手順のフロー・チャートである。詳細な説明 本発明の理解を容易にするために、これより、音を発声する人のビデオ・シー ケンスのためのサウンドトラックを、異なるサウンドトラックに置き換えるとい う具体例を参照しながら、説明を行う。これらの例は、1組の発声された単語、 即ち、文章を、他の組の発声された単語に置き換えることに関連する。しかしな がら、本発明の実用的な用途は、単語に限定される訳ではない。むしろ、その原 理は、歌唱のような他の音響にも同様に適用可能である。したがって、本発明の 関連では、「発声」という用語は、発声される単語、韻律的な音調、および口で 発声し分類が可能なその他のあらゆる音に言及する、汎用的な意味で用いるもの とする。 以下の本発明の例を説明する際、様々な種類のビデオおよびオーディオ分析の ために、ある特定の技法について明記する。しかしながら、そのような技法は例 示的なものであり、本発明は、同等の結果が得られる他の技法を用いても、実施 可能であることは認められよう。更に、本発明の原理は、ここに記載する具体的 な例示実施態様に限定されるのではないことも理解されよう。むしろ、明細書の 結びにおいて一層詳しく論ずるように、本発明には多数の実用的用途がある。 本発明において元のビデオ記録を新たなサウンドトラックに同期させるために 採用する手順の概要を、図1のフロー・チャートに示す。これを参照すると、発 声または歌唱している自然人のビデオ記録をステップS1において分析し、発声 における特徴的な音を、特定のビデオ画像シーケンスと関連付ける。これらのビ デオ画像シーケンスは、ステップS2においてデータベースに格納する。データ ベースには、各画像シーケンスに関連付けられた特徴音にしたがって、インデッ クスが付けられている。その後、ステップS3において、異なる話者の声のよう な、新たな音の発声を分析し、その中の特徴音を識別する。ステップS4におい て、各々の特徴音を一致させることによって、元のビデオ記録を新たなサウンド トラックと同期させる。本発明の一実施形態では、新たなサウンドトラック内で 識別された各音に対して、データベースから適切な画像シーケンスを読み出し、 ステップS5Aにおいて、読み出した画像シーケンスを全て一列に並べる。次に 、ステップS6Aにおいて、例えば、モーフィング・プロセスによって、画像の シーケンスにスムージングを行い、人が新たな発声を行っているビデオ・ストリ ームを制作する。本発明の代替実施例において、新たなサウンドトラックが元の 記録のそれに近く、例えば、同じ文章が発声されている場合では、ステップS5 Bにおいて、元のビデオまたは新たなオーディオを、必要に応じて、時間的にワ ープし、元の記録の特徴音を新たなサウンドトラックのそれらと整合させること によって、同期を取る。 図1のステップS1およびS2における音声インデックス付き画像のデータベ ースの作成を、図2のフロー・チャートに更に詳しく示す。基本的に、オーディ オ・トラックを伴うビデオ記録には、最初に音声認識手順を実行する。この手順 の目的は、記録されている音を構成する認識可能な成分、即ち、特徴を識別する ことである。一実施形態では、これらの成分は、音声の個々の音素、即ち、音声 の最少単位の集合から成る。より好ましくは、音声の個々の二重音素および三重 音素も利用する。何故なら、これらはその視覚的および聴覚的面において非常に 一定した、十分な内容を含むからである。異なる単語または同じ単語の異なる発 音は、従来からの発音辞書を用いて、これらの音素単位を一体配列することによ って、発生することができる。あるいは、音声の部分を分類するために使用可能 な他の認識可能な音響成分、例えば、MFCC、RASTA−PLPおよびLP C分析によって発生する音響特徴ベクトルも利用可能である。 様々な種類の音声認識装置が、当技術分野では公知であり、記録した音声の成 分音響を識別するために使用することができる。本発明の好適な実施形態では、 隠れマルコフ・モデル(HMM:Hidden Markov Model)システムを、音声認識 装置として用いる。かかる目的のためにHMMシステムを使用することは、Rabi ner,Laurence R.,"A Tutorial on Hidden Markov Models and Selected Appli cations in Speech Recognition"(ラビナ、ローレンス R.「隠れマルコフ・ モデルに関する指導書および音声認識における特定の応用」;Proceedings of t he IEEE,Vol.77,No.2,pp.257-286、1989年2月)に記載されており、 その内容は、この言及により本願にも含まれるものとする。 図2を参照すると、ステップS10において、最初に分類の目的のために採用 する音響成分を認識するために、音声認識装置の訓練を行う。例えば、HMMシ ステムは、エントロピック リサーチ研究所(Entropic Research Lab.)の隠れ マルコフ・ツールキット(Hidden Markov Toolkit)のような訓練用装置によっ て、音素を認識するように訓練することができる。同じ人の声を元のビデオ・シ ーケンスおよび新たなオーディオ・トラック双方に用いる場合、HMMシステム は、その人の声のみについて訓練することができる。あるいは、各話者に十分な 訓練データが使用可能であれば、1つの話者依存HMMシステムを元のサウンド トラックに用いることができ、更に異なる話者依存システムを、新たな音の発声 を分析するために用いることができる。しかしながら、更に好ましくは、音声認 識装置を、話者に独立して訓練することにより、あらゆる任意の発声音を、元の サウンドトラックに置き換えることができるようにする。この手法は、元のサウ ンドトラックが短く、当該話者について非常に少ない訓練データしか得られない ような状況では特に望ましいものである。 元のサウンドトラックおよび新たなサウンドトラックにおいて用いた異なるマ イクロフォンの各特性からの悪影響を回避するために、チャネル不変音響特徴抽 出システムを用いて、入力情報をHMMシステムに供給することが好ましい。か かるシステムの一例は、Hermansky et al,"Compensation for the Effect of t he Communication Channel in Auditory"(ヘルマンスキーらによる「聴覚にお ける通信チャネルの影響に対する補償」;Proc.Euror.Conf.on.Speech Comm .and Tech.,1991,pp.1367-1370)、および米国特許第5,450,522号 に記載されている、RASTA-PLPシステムである。これらの文献の開示内容は、こ の言及により本願にも含まるものとする。チャネル不変性に対する別の手法を用 いることも可能である。 音声認識装置を、発声音における個々の音素を識別するように訓練した後、こ れを用いて、対象のビデオ記録に付随するサウンドトラックを分析する。対応す る画像シーケンスおよび音響のデータベースを作成する手順を、図3に概略的に 示す。これを参照すると、ビデオ記録10は、一連の画像フレーム12および付 随する音響トラック14から成る。ビデオ記録を再生し、記録されている音響を 音声認識装置16において分析し、記録されている音声における個々の音素を識 別する(図2におけるステップS11)。記録されたサウンドトラックにおいて 認識された各音素について、識別された音に対応するビデオ画像データをデータ ベース18に記録する(ステップS12)。記録された画像データについてデー タベース18において注釈を付け、それに関連する特定の音素を識別する(ステ ップS13)。格納されたビデオ画像データは、単一の画像、例えば1つのビデ オ・フレームを各音素毎に備えることができる。より良い結果のために、画像の シーケンス、例えば、当該音素の完全な発音を含む3ないし4フレームを格納す る。 TIMIT音素集合として知られている、音声認識に対して確立されている1つの 規格によれば、人の音声を特徴付ける61個の異なる音素カテゴリがある。基本 的に、各音素は、人が発声可能な異なる音を表す。しかしながら、異なる音素が 、見る人によっては同じ視覚的外観を有する場合もある。例えば、話者の唇は、 文字「b」および「p」の各々の音を発声する際、同じ位置にある。同様に、子 音「d」および「t」に関連する音の発声は、同じ視覚的印象を与える。本発明 の 関連においては、発声される音素の視覚的外観を、「ビジーム(viseme)」として 識別する。聴覚的音素の61カテゴリは、10個のビジームの集合にマップする ことができる。このように、簡潔に変形したデータベースは、10個のビジーム にそれぞれ関連する10個のエントリのみを含めばよい。完成されたデータベー スは、記録された各発声音に対応する、話者の唇位置のビデオ画像シーケンスを 含む。 一旦データベース18を構築したなら、新たな発声に同期させるビデオ・スト リームを組み立てるために用いることができる。このプロセスを、図4の概略図 および図5のフロー・チャートに示す。これらを参照して、新たなサウンドトラ ックを音声認識装置16に供給する。図示の例では、サウンドトラックは、磁気 テープ20のような、適切な媒体上に記録されている。しかしながら、実際には 、新たなサウンドトラックを予め記録しておく必要はない。例えば、ある話者に よって発声された単語は、それらが発声されているときに、マイクロフォンを通 じて直接音声認識装置16に供給することができる。ステップS20において、 音声認識装置は、新たな発声、例えば、連続音素における個々の音の各々を識別 する。ステップS21において、識別された各々の音は、データベース18にア クセスする際に用いられるインデックスを与える。ステップS22において、こ のような音の各々に対して、対応するビデオ画像シーケンス、例えば、ビジーム がデータベースから選択され、読み出されたビジームはステップS23において ビデオ画像シーケンスのストリング22に組み立てられる。図4の例では、4つ の選択された画像シーケンス22は、それぞれ、磁気テープ20上の新たなサウ ンドトラックにおける4つの連続する音素に対応する。 組み立てられたストリング22における隣接する画像シーケンスは、元のビデ オ画像の非連続部分に関連する可能性があるので、ある画像シーケンスから次の 画像シーケンスに急激な変化がある場合もあり得る。したがって、連続画像を互 いに円滑に調和させることが望ましい。この目的のために、データベース18か ら読み出した画像のシーケンスを、画像モーフィング・デバイス24において処 理することが望ましい(ステップS24)。このデバイスは、本質的に、所定数 のビデオ・フレーム期間にわたって、1つの画像を次の連続画像にモーフィング するように機能する。その結果、画像は次々に円滑に遷移し、話者の自然な動き に一層近づくことになる。次に、ステップS25において、円滑に調和させた画 像を、新たなサウンドトラック20と組み合わせ、話者の画像が新たなサウンド トラックにおける音と同期した新たなビデオ・ストリームを生成する。 データベース18を組み立て、格納されている画像情報を連続的に読み出して 画像シーケンス22を構築するには、いくつかの異なる手法を使用することがで きる。前述の比較的単純な実施形態では、約10個の最少数のビジームをデータ ーベースに格納すればよい。この実施形態では、新たなサウンドトラックにおい て識別された各音素を用いて、データベースから対応するビジームを選択し、画 像シーケンス22のストリングを形成する。この特定の実施態様は、特に、得ら れるデータ量が限られている場合、例えば、元の画像の分析部分が比較的短い場 合に有用である。 更に複雑化した実施形態では、データベース18に格納する情報は、バイ・ビ ジームから成るものとすることができる。バイ・ビジームとは、ある音素から次 の音素への遷移に対応する視覚画像のことである。バイ・ビジームは、二重音素 、即ち、時間的音素対によって、データベース18においてインデックス付けさ れる。この実施形態では、新たなサウンドトラック内において識別された二重音 素に基づいて、データベース18から画像を読み出す。例えば、発声された単語 "bar"は、"b","ah",および"r"に対応する一連の音素から成り、その開始およ び終了時にポーズを伴う。この発声された単語を分析する場合、音声認識装置1 6は、二重音素"sil-b"に対する出力信号、即ち、子音"b"に対する音に続くポー ズを生成する。この二重音素に対するバイ・ビジームをデータベース18から選 択する。次に、音声認識装置16は、二重音素"b-ah"に対する出力信号を生成し 、対応するバイ・ビジームをデータベースから読み出し、ストリング22におけ る次の画像シーケンスを形成する。次の二重音素は音"ah-r"に対応し、それに対 応するバイ・ビジームをデータベースから読み出し、ストリング22における次 の画像シーケンスを形成する。最後に、二重音素"r-sil"に対するバイ・ビジー ム、即ち、この単語の終端におけるポーズをデータベースから選択する。特定の 二重音素に対するバイ・ビジームがデータベースに格納されていない場合、対応 する単一の ビジームを選択する。このように、前述の例では、音"ah-r"に対するバイ・ビジ ームが格納されていない場合、音素"r"に対する単一のビジームを選択する。 この実施形態の更に精巧な実施態様では、動的なプログラミング技法を用いる ことによって、いくつかの代わりのバイ・ビジームを選択することができる。こ の実施態様では、3つの項から成るエネルギー関数を定義することができる。1 つの項は、新たな発声における連続バイ・ビジーム間の視覚的一致の質を測定す る。この一致は、例えば、連続するバイ・ビジームにおける対応する画素のグレ ースケール値を比較することによって実行すればよい。エネルギー関数における 第2の項は、データベースに格納されているバイ・ビジームの長さと、新たな発 声における対応する二重音素との間の差を測定する。エネルギー関数の第3の項 は、単一のビジームをバイ・ビジームの代わりに用いる状況において割り当てら れるペナルティ値である。エネルギー関数は、バイ・ビジームに代わる組み合わ せの各々について計算し、最少のエネルギー関数を示すものを、画像シーケンス 22に用いるために選択する。 データベース18に格納されているビデオ・データは、元の記録10からの完 全なビデオ・フレームを構成することができ、その各々は、話者の頭部全体を含 む場合がある。発声された素材がかなりの長さである場合、話者の頭部が記録セ ッションの間に動く可能性は非常に高い。話者の胴体部分の方を長く含む非ポー トレート画像では、動きの可能性は更に高くなる。元の記録におけるこれらの動 きのために、種々のフレームを組み立てし直して新たなシーケンス22を作成す る場合、話者の頭部または胴体の動きがぎくしゃくする結果となる。同様に、話 者が誇張した表現を示す場合、例えば、まゆ毛をつり上げたりすると、不自然な 動きが再生シーケンス22内に現れる場合がある。このような可能性を制限する ために、完全なビデオ・フレームを格納し用いる代わりに、新たな発声との同期 を達成するために必要なビデオ・フレームの部分のみを含む副画像を用いること が好ましい。したがって、副画像は話者の唇、および恐らく口周囲の小さな区域 を含めばよい。人のあごは典型的に発声の間、下唇と一緒に動くので、あごも副 画像に同様に含ませることが好ましい。 副画像を用いる実施態様では、同期した画像ストリーム26は、副画像の各読 み取りシーケンスを話者の頭部の完全な画像に「ペースト」即ち融合することに よって形成する。一実施形態では、連続する副画像を、話者の静止フレーム画像 上にペーストすることができる。更に一層自然に見える表現のためには、話者の プレゼンテーションの最中に副画像を組み込む。 ビデオ・フレーム内に副画像を正しく配置することを確実に行なうために、対 応する制御点を、元の記録および格納した副画像内で識別する。例えば、単一の 制御点を、話者の上唇の上端中央部に配置するとよい。この制御点は、元の記録 および格納した副画像の各々において識別される。副画像を元の記録にペースト した場合、副画像シーケンスにおける各フレームの制御点は、元の記録の対応す るフレームのそれと整合され、口の副画像がビデオ・フレーム内の適正な位置に 置かれることを保証する。 更に好ましくは、話者の唇の輪郭を描く複数の制御点を用いる。このために、 自動視覚追跡アルゴリズムを利用し、話者の唇の境界を識別することが好ましい 。従来の輪郭追跡アルゴリズムを用いて、話者の唇の外側の境界を定義すること ができる。適切な輪郭追跡アルゴリズムの一例は、Kaas et al.,"SNAKES:Activ e Contour Models"(カースらによる「SNAKES:アクティブな輪郭モデル 」;Proc.of the First Int.Conf.on Computer Vision,Landon 1987)に記 載されている。ビデオ画像の解像度が低い場合、Pentland et al,"View-Based and Modular Eigenspaces for Face Recognition"(ペントランドらによる「顔の 認識のための視覚に基づくモジュール状固有空間」;Proceedings of the IEEE Co mputer Society Conference on Computer Vision and Pattern Recognition,1 994年6月、pp.84-91)に記載されている固有画像手法のような、グレー・レ ベルに基づくアルゴリズムを使用することができる。最も好ましくは、追跡アル ゴリズムは、話者の唇の外側および内側の境界双方の上で制御点を識別するもの である。内側および外側唇制御点が識別された話者のビデオ画像の一例を図6に 示す。これらの制御点は、データベース18に記録されている各副画像と共に格 納されている。 記録された制御点を利用するモーフィング・プロセスによって、副画像のシー ケンス22を最終ビデオ・ストリーム26内にペーストする。粗いレベルでは、 最初に制御点を用いてビデオ・フレーム内における新たな唇画像の位置を判定し 、それらに何らかの回転およびスケーリングを適用する必要があるか否かについ て判定する。概略的な位置の判定の後、画像のスケーリングおよび方向付けを決 定し、制御点を用いて元のビデオ画像をワープし、新たな唇の画像をフレーム内 にフェードする。この手順は、いずれかの適切な従来からのモーフィング・プロ グラムを用いて実行することができる。この関連において使用可能なモーフィン グ・プログラムの一例は、パブリック・ドメイン・ソフトウエア"Morphine"であ る。図6の元の画像に対応するビデオ・フレームの一例であるが、新たにモーフ ィングされた唇の副画像を有するものを図7に示す。 1つの音素の持続期間は比較的短く、ビデオ・シーケンスにおいてわずか3ま たは4つの連続フレームを包含する程度である。かかる場合、画像の円滑な調和 を得るためには、画像のクロス・フェーディングおよびワーピング双方から成る 、モーフィング・プロセスを用いる必要はない場合もある。むしろ、単純に数フ レームの間にわたって画像をクロス・フェードし、副画像の元のビデオ記録への 容認可能な融合が得られれば十分な場合もある。例えば、副画像に適切なスケー リングおよび回転を行なった後、話者の上唇の位置を元の画像および新たな画像 双方において同一に保つように、副画像を元の記録にクロス・フェードする。 前述の本発明の例では、データベースは、識別された音に対応する画像シーケ ンスで構成され、新たなビデオ・ストリームは、新たなサウンドトラックにした がって記録された画像から組み立てられる。しかしながら、新たなサウンドトラ ックが元々記録されている音と実質的に同様である場合、ビデオ・ストリームの 再構築は不要な場合もある。例えば、テレビジョン広告の制作では、例えば、不 要なポーズを削除し、異なる強調を加える等というように、俳優にある文章を再 度記録させることが望ましい場合もときとしてある。このような場合、新たなサ ウンドトラックにおけるせりふは、元の記録のせりふと同一であるが、タイミン グは異なる場合がある。この種の状況では、本発明を用いて、元々記録されてい るビデオを修正し、タイム・ワーピング技法を用いて、再記録されたサウンドト ラックとそれを同期させることができる。 本発明のこの実施形態を、図8の概略図および図9のフロー・チャートに示す 。 これらを参照すると、ステップS31において元の記録10を分析し、音声の個 々の音素またはその他の特徴的成分を識別する。ステップS32において、異な る成分に対応する特定のフレームを記録する。ステップS33において、同様に 新たな音声記録20を分析する。これは、同じ音成分から成る可能性があるが、 これらの間のタイミングは元の記録とは異なる場合もあり得る。一旦元の記録お よび新たなサウンドトラックにおいて対応する成分を識別したなら、ステップ3 4において、タイム・ワーピング・プロセスを記録に施し、これを新たなサウン ドトラックに同期させる。図8の例では、元の記録からフレームを間引きして、 新たなシーケンス27内に残っているフレームが新たなサウンドトラック20の タイミングに対応するようにする。 元のビデオ記録を修正する代わりとして、新たなサウンドトラックにタイム・ ワーピングを行い、時間的にそれを元のビデオと整合することも可能である。元 の記録ビデオまたは新たなサウンドトラックのどちらを時間的にワープし、それ を他方に整合するかは、選択の問題とすることができる。しがしながら、概して 言えば、2つの内、遅い方にワーピングを行い、それを速い方の記録に同期させ ることが望ましい。同期重複および追加(SOLA:synchronous overlap-and- add)のような、いずれかの適切なタイム−スケール修正技法を用いて、オーデ ィオまたはビデオ・トラックを時間的にワープすることができる。 一旦タイム・ワーピング・プロセスが完了したなら、ステップS35において ビデオ・シーケンスを新たなサウンドトラック20と組み合わせ、新たなビデオ ・ストリーム28を形成する。本発明のこの実施形態は、特に、2つのサウンド トラックにおけるせりふが互いに同一かあるいは実質的に同一である場合に望ま しい。何故なら、唇の追跡や、制御点の指定や、ビジームの制御が不要となるか らである。この実施形態に相応しい応用の例には、ムービー・サウンドトラック のリダビング、付随するビデオ表示に合わせて人が歌唱するカラオケ・システム が含まれる。 本発明の前述の態様は、音声認識および画像モーフィングの機能を実行するよ うに適切にプログラムされたコンピュータ・システム(図示せず)に実施するこ とが好ましい。これらの手順はそれ自体従来から公知であるので、ここでは詳し く説明しなかった。データーベースは、例えば、磁気ハード・ディスクのように 、コンピュータ・システムと連動するいずれの適切なメモリにも格納可能である 。元のビデオ記録および新たなサウンドトラックは、同様にコンピュータ・シス テムに格納することができる。新たなサウンドトラックに同期した出力ビデオ・ ストリームは、最初にコンピュータのメモリに格納し、次に、例えばビデオ・テ ープ・カセットのように、再生に適した他の何らかの媒体に転写したり、あるい は直接コンピュータから再生することができる。 本発明は、他の特定形態においても、その精神または本質的な特徴から逸脱す ることなく実施可能であることは、当業者には認められよう。具体的には、本発 明の実施形態は、オーディオ・ダビングにおけるそれらの実施態様を参照しなが ら説明したが、本発明の実用的な使用は、これらの種類の用途に限定される訳で はない。一例として、本発明は、帯域幅が狭いテレビ電話(video phone)を提供 するためにも使用可能である。このような状況では、送信機はオーディオ・チャ ネルおよびビジーム・シーケンスを送出すればよい。受信機は、ビジーム・スト リームを、既に格納されているビデオ・データと共に利用し、発呼者の唇に同期 した画像を再構築することができる。他の例として、本発明は、コンピュータの ための新しい形式のユーザ・インターフェースを提供するために用いることがで き、よく認識されたパーソナリティが、命令または情報の要求を伴って、コンピ ュータ・ユーザに話しがけることができる。他の実施形態では、本発明を用いて 、バーチャル・リアリティ・ゲームにおける飛行士等を作成することができ、い ずれの所与の顔の画像でも、プレーヤの声で話すことができる。 本発明は、他の特定形態においても、その精神または本質的な特徴から逸脱す ることなく実施可能であることは、当業者には認められよう。したがって、ここ に開示した実施形態は、あらゆる面において例示的であり、限定的に解釈しない ものとする。本発明の範囲は、前述の説明ではなく、添付の請求の範囲によって 示され、その意味および均等物の範囲に該当する全ての変更は、その中に包含さ れることを意図するものである。
【手続補正書】 【提出日】1998年12月11日(1998.12.11) 【補正内容】 1. 請求の範囲を別紙のとおり補正する。 2. 願書に添付の明細書第2頁第7行と第8行の間に次を挿入する。 『同様の手順が、EP−A−0 674 315号、およびチェン他(Chen et al)の「音声情報を利用したトーキング・ヘッド・ビデオにおける唇の同期」(L ip Synchronization in Talking Head Video Utilizing Speech Information)と 題する、対応する論文(Proceedings of the SPIE;Vol.2501,pp 1690-1701,1 995)に記載されている。この手順では、テーブルが、音の集団、即ち、音素に 対応する唇の位置を記憶している。再録者(dubber)の声を分析し、各音素を用い て、テーブル内のエントリにしたがって再録者の口の画像を修正する。』 請求の範囲 1.付随するオーディオ・トラック(14)を有するビデオ記録(12)を修 正し、異なるオーディオ・トラック(20)を有する新たなビデオ・プレゼンテ ーション(26)を生成する方法であって、 自動音声認識技術(16)によって、前記付随するオーディオ・トラック(1 4)を分析し、該付随するオーディオ・トラック内の個々の音声の特性に関連す る、前記ビデオ記録(12)内のビデオ・フレームを識別し、該フレームの各々 からのビデオ画像情報をデータベース(18)に格納するステップと、 前記フレームからのビデオ画像情報を分析し、前記ビデオ画像に関連する所定 の特徴を識別し、前記データベース内に格納されている前記ビデオ画像情報に、 前記特徴(S15)に関係するデータで注釈を付けるステップと、 音の発声(20)を分析し、該音の発声における個々の音声の特性を識別する ステップと、 前記音の発声内において識別した音声の特性にしたがって、前記データベース (18)に格納されているビデオ画像情報を選択し、該画像情報の選択した項目 を組み立てて、シーケンス(22)を形成するステップと、 前記注釈を付けたデータにしたがって、前記シーケンス内の情報の選択した項 目を互いに円滑に調和させ、前記音の発声に同期したビデオ・プレゼンテーショ ン(26)を生成するステップと、 から成ることを特徴とする方法。 2.請求項1記載の方法において、前記オーディオ・トラックおよび前記音の 発声内における前記個々の音声の特性は、音素を含むことを特徴とする方法。 3.請求項2記載の方法において、前記個々の音声の特性は、二重音素を含む ことを特徴とする方法。 4.請求項2記載の方法において、前記個々の音声の特性は、三重音素を含む ことを特徴とする方法。 5.請求項1記載の方法において、前記注釈を付けたデータは、前記ビデオ画 像内の制御点から成り、前記シーケンス内の情報の前記項目を円滑に調和させる ステップは、前記制御点を用いて、前記シーケンス内の情報の隣接する項目の対 間でモーフィングを行うプロセス(24)を備えることを特徴とする方法。 6.請求項5記載の方法において、前記制御点は、前記ビデオ画像内において 話者の唇の位置を識別することを特徴とする方法。 7.請求項1記載の方法において、前記データベース内に格納されているビデ オ画像情報の各項目は、ビデオ・フレーム内の画像全体の一部から成るサブ画像 であることを特徴とする方法。 8.請求項7記載の方法であって、更に、サブ画像をフル・ビデオ・フレーム に組み込み、前記ビデオ・プレゼンテーションを生成するステップを含むことを 特徴とする方法。 9.請求項1記載の方法において、前記ビデオ記録は、人の頭部の画像を含み 、前記データベース内に格納されているビデオ画像情報の各項目は、前記画像内 の前記人の口を含む領域のサブ画像から成ることを特徴とする方法。 10.請求項9記載の方法であって、更に、人の口のサブ画像を、人の頭部の 画像を含むビデオ・フレームに組み込むステップを含むことを特徴とする方法。 11.請求項1記載の方法において、前記ビデオ記録を分析するステップは、 前記所定の特徴を分析し、該特徴に関連する個々の音声の特性を識別するステッ プを含むことを特徴とする方法。 12.請求項11記載の方法において、前記所定の特徴は、話者の唇の形状を 規定する制御点から成ることを特徴とする方法。 13.請求項12記載の方法において、前記分析は、前記制御点の相対的な移 動の検出から成ることを特徴とする方法。 14.請求項12記載の方法において、前記分析は、前記制御点の空間分散の 検出から成ることを特徴とする方法。 15.付随するオーディオ・トラック(14)を有するビデオ・シーケンス( 12)を、異なるオーディオ・トラック(20)と同期させる方法であって、 自動音声認識技術(16)によって、前記ビデオ・シーケンスに付随する前記 オーディオ・トラック(14)を分析し、前記オーディオ・トラックにおける個 個の音声の特性を識別するステップと、 自動音声認識技術(16)によって、音の発声(20)を分析し、前記音の発 声における個々の音声の特性を識別するステップと、 前記ビデオ・シーケンスを時間的に修正し、前記ビデオ・シーケンス内におい て識別した個々の音声の特性を、前記音の発声における対応する個々の音声の特 性と時間的に整合するステップ(S6A,S6B)と、 から成ることを特徴とする方法。 16.請求項15記載の方法において、前記修正するステップは、前記ビデオ ・シーケンスのフレームを並び替え(S6A)、これらを前記音の発声における 個々の音声の特性と整合するプロセスを備えることを特徴とする方法。 17.請求項15記載の方法において、前記修正するステップは、前記ビデオ ・シーケンスのフレームのタイミングを変化させ(S6B)、これらを前記音の 発声における個々の音声の特性と整合するプロセスを備えることを特徴とする方 法。 18.請求項15記載の方法において、前記オーディオ・トラックおよび前記 音の発声における前記個々の音の特性は音素を含むことを特徴とする方法。 19.請求項15記載の方法において、前記音の発声は前記オーディオ・トラ ックに類似しており、前記修正するステップは、前記ビデオ・シーケンスを時間 的にワープし(S6B)、対応する個々の音声の特性を整合するステップを含む ことを特徴とする方法。 20.請求項19記載の方法において、前記シーケンスから1つ以上のビデオ ・フレームを除去することによって、前記ビデオ・シーケンスを時間的にワープ し、前記除去すべきフレームは、前記シーケンスの各フレームに関連する個々の 音声の特性に応じて選択されることを特徴とする方法。 21.請求項15記載の方法において、前記修正するステップは、 前記サウンドトラック(S3)内において識別した個々の音声の成分毎にビデ オ画像データを格納するステップと、 前記発声内において識別した個々の音声成分に対応するシーケンスで、格納さ れているビデオ画像データ(S6A)を読み出し、新たなビデオ・プレゼンテー ションを生成するステップと、 を含むことを特徴とする方法。 22.請求項21記載の方法であって、更に、前記発声内における連続する個 個の音声成分に対応して、前記シーケンス内の前記読み出したビデオ画像データ (S7A)を円滑に調和させるステップを含むことを特徴とする方法。 23.請求項22記載の方法において、前記円滑に調和させるステップは、読 み出したビデオ画像データの連続集合間でモーフィングを行うプロセスを備える ことを特徴とする方法。 24.請求項22記載の方法であって、更に、前記ビデオ・シーケンス内の画 像を分析し、その中の制御情報を定義するステップと、前記制御情報を前記格納 したビデオ画像データと共に格納するステップと、前記格納した制御情報に応じ て前記ビデオ画像データを円滑に調和するステップとを含むことを特徴とする方 法。 25.請求項24記載の方法において、前記制御情報は、前記画像内の特徴に 関係する、前記ビデオ画像内の点から成ることを特徴とする方法。 26.記録したビデオ画像ストリーム(12)を修正し、前記記録したビデオ 画像ストリームとは別個に発生したサウンドトラック(20)とこれを同期させ るシステムであって、 前記記録したビデオ画像ストリーム(S1,S2)を自動的に分析し、個々の 音声の特性に関連する画像のシーケンスを識別する手段と、 前記識別した画像のシーケンスを収容するデータベース(18)を格納するメ モリと、 サウンドトラック(20)を自動的に分析し(16)、中に含まれる個々の音 声の特性を識別する手段(16)と、 前記サウンドトラック内において識別した個々の音声の特性に対応して、前記 データベース内に収容されている画像のシーケンスを選択し、該選択した画像の シーケンスを、前記サウンドトラックと同期するビデオ画像ストリーム(22) に組み立てる手段と、 から成ることを特徴とするシステム。 27.請求項26記載のシステムにおいて、前記自動分析手段の各々は、音声 認識システムを備えることを特徴とするシステム。 28.請求項27記載のシステムにおいて、前記音声認識システムは、隠れマ ルコフ・モデル・システムであることを特徴とするシステム。 29.請求項27記載のシステムにおいて、前記音声認識システムはニューラ ル・ネットワークであることを特徴とするシステム。 30.請求項27記載のシステムにおいて、前記音声認識システムは、隠れマ ルコフ・モデル・システムおよびニューラル・ネットワークを備えることを特徴 とするシステム。 31.請求項26記載のシステムにおいて、前記個々の音声の特性は、音声の 音素を含むことを特徴とするシステム。 32.請求項26記載のシステムであって、更に、前記選択した画像のシーケ ンスを互いに円滑に調和させ、前記同期したビデオ画像ストリームを生成する手 段(24)を含むことを特徴とするシステム。 33.請求項32記載のシステムにおいて、前記調和手段は、モーフィング・ システムを含むことを特徴とするシステム。 34.請求項26記載のシステムにおいて、前記記録したビデオ画像ストリー ムを自動的に分析する前記手段は、所定の特徴に関係する前記画像内の制御点を 規定する手段と、前記制御点を分析し、前記特徴に関連する音声の特性を認識す る手段とを含むことを特徴とするシステム。 35.記録したビデオ画像ストリーム(12)を修正し、該記録したビデオ画 像ストリームとは別個に発生したサウンドトラック(20)に同期させるシステ ムであって、 前記記録したビデオ画像ストリームを分析し(S1,S2)、個々の音声の特 性に関連する画像を識別する手段と、 各々前記識別した画像の1つの所定部分から成る、サブ画像を収容する第1の データベース(18a)を格納するメモリと、 前記識別した画像を分析し、前記画像の前記サブ画像部分内に制御特徴を定義 する手段と、 前記格納されているサブ画像に、前記定義した制御特徴に関係するデータで注 釈を付ける手段と、 前記ビデオ画像ストリームからのフル・フレーム画像を、前記定義した制御特 徴と共に収容する第2のデータベース(18b)を格納するメモリと、 サウンドトラックを分析し、その中に含まれる個々の音声の特性を識別する手 段(16)と、 前記サウンド・トラック内において識別した個々の音声の特性に対応して、前 記第1のデータベース内に収容されているサブ画像を選択する手段(S22a) と、 前記定義した制御特徴にしたがって、選択したサブ画像を、前記第2のデータ ベース内に格納されているフル・フレーム画像に組み込み、前記サウンドトラッ クと同期したビデオ・ストリームを形成する手段(S26a)と、 から成ることを特徴とするシステム。 36.請求項35記載のシステムにおいて、前記組み込む手段は、前記サブ画 像内の前記制御特徴を、前記フル・フレーム画像内の対応する制御特徴と整合し 、前記サブ画像を前記フル・フレーム画像にクロス・フェードすることを特徴と するシステム。 37.請求項35記載のシステムにおいて、前記組み込む手段は、前記制御特 徴に応じて、前記サブ画像を前記フル・フレーム画像にモーフするモーフィング ・システムを備えることを特徴とするシステム。 38.付随するオーディオ・トラック(14)を有するビデオ・シーケンス( 12)を、異なるオーディオ・トラック(20)と同期させる方法であって、 前記ビデオ・シーケンス(12)に付随する前記オーディオ・トラック(14 )を分析し、該オーディオ・トラック内の個々の音声の特性を識別するステップ と、 自動音声認識技術(16)によって音の発声(20)を分析し、前記音の発声 における個々の音声の特性を識別するステップと、 前記ビデオ・シーケンスのフレーム(S6B)を並べ替え、前記ビデオ・シー ケンス内において識別した個々の音声の特性を、前記音の発声内の対応する個々 の音声の特性と時間的に整合させるステップと、 から成ることを特徴とする方法。 39.第1のオーデイオ・トラツク(14)に関連するビデオ記録(12)を 修正し、第2のオーディオ・トラック(20)に対応するビデオ・プレゼンテー ションを生成する方法であって、 前記ビデオ記録(12)を分析し、前記第1のオーディオ・トラック(14) 内の個々の特徴に関連するビデオ・フレームのシーケンスを識別し、前記フレー ムのシーケンスを、前記識別した特徴にしたがってデータベース(18)に格納 するステップと、 前記第2のオーディオ・トラック(20)を分析し、その中の個々の特徴を識 別するステップと、 前記第2のサウンド・トラック(20)内において識別した特徴に応じて、前 記データベース(18)内に格納されているフレームのシーケンスを選択し(S 6A)、前記選択したフレームのシーケンスを組み立てて、前記第2のオーディ オ・トラックに同期したビデオ・ストリーム(22)を形成するステップと、 から成ることを特徴とする方法。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FI,FR,GB,GR,IE,IT,L U,MC,NL,PT,SE),OA(BF,BJ,CF ,CG,CI,CM,GA,GN,ML,MR,NE, SN,TD,TG),AP(GH,KE,LS,MW,S D,SZ,UG),EA(AM,AZ,BY,KG,KZ ,MD,RU,TJ,TM),AL,AM,AT,AU ,AZ,BA,BB,BG,BR,BY,CA,CH, CN,CU,CZ,DE,DK,EE,ES,FI,G B,GE,HU,IL,IS,JP,KE,KG,KP ,KR,KZ,LC,LK,LR,LS,LT,LU, LV,MD,MG,MK,MN,MW,MX,NO,N Z,PL,PT,RO,RU,SD,SE,SG,SI ,SK,TJ,TM,TR,TT,UA,UG,UZ, VN

Claims (1)

  1. 【特許請求の範囲】 1.付随するオーディオ・トラックを有するビデオ・シーケンスを修正し、異 なるオーディオ・トラックを有する新たなビデオ・ストリームを生成する方法で あって、 前記ビデオ・シーケンスを分析し、前記付随するオーディオ・トラック内の個 々の音に関連付けられたビデオ・フレームを識別し、前記フレームの各々からの 前記ビデオ画像情報を、データベースに格納するステップと、 音の発声を分析し、該音の発声における個々の音を識別するステップと、 前記音の発声から識別された各音に対して、前記データベースに格納されてい るビデオ画像情報を選択し、画像情報シーケンスの選択した項目を組み立てるス テップと、 前記シーケンスにおける情報の選択した項目を互いに円滑に調和させ、前記音 の発声に同期したビデオ・ストリームを生成するステップと、 から成ることを特徴とする方法。 2.請求項1記載の方法において、前記オーディオ・トラックおよび前記音の 発声における前記個々の音は、音素から成ることを特徴とする方法。 3.請求項1記載の方法において、前記シーケンス内の情報の項目を円滑に調 和させる前記ステップは、前記シーケンス内の1対の隣接する情報の項目間でモ ーフィングを行なうプロセスを備えることを特徴とする方法。 4.請求項1記載の方法において、前記ビデオ・シーケンスは、人の頭部の画 像を含み、前記データベースに格納されているビデオ画像情報の各項目は、前記 画像内の前記人の口を含む区域の副画像を備えることを特徴とする方法。 5.請求項4記載の方法であって、更に、スムージングした人の口の副画像か ら成るビデオ・ストリームを、人の頭部の画像を含むビデオ・フレームに組み込 むステップを含むことを特徴とする方法。 6.付随するオーディオ・トラックを有するビデオ・シーケンスを、異なるオ ーディオ・トラックと同期させる方法であって、 前記ビデオ・シーケンスを分析し、前記付随するオーディオ・トラック内の個 々 の音を識別するステップと、 音の発声を分析し、該音の発声における個々の音を識別するステップと、 前記ビデオ・シーケンスおよび前記音の発声の少なくとも一方を修正し、前記 ビデオ・シーケンス内の識別された個々の音を、前記音の発声における対応する 個々の音と時間的に整合するステップと、 から成ることを特徴とする方法。 7.請求項6記載の方法において、前記オーディオ・トラックおよび前記音の 発声における前記個々の音は音素から成ることを特徴とする方法。 8.請求項6記載の方法において、前記音の発声は前記オーディオ・トラック に類似しており、前記修正するステップは、前記ビデオ・シーケンスおよび前記 音の発声の一方を時間的にワープし、対応する個々の音を整合するステップを含 むことを特徴とする方法。 9.請求項8記載の方法において、前記音の発声が前記サウンドトラックより も遅い場合に、これを時間的に整合することを特徴とする方法。 10.請求項6記載の方法において、前記修正するステップは、更に、 前記サウンドトラック内において識別された個々の音の各々に対して、ビデオ 画像データを格納するステップと、 前記発声において識別された個々の音に対応する格納ビデオ画像データを順次 読み出し、前記新たなビデオ・ストリームを生成するステップと、 を含むことを特徴とする方法。 11.請求項10記載の方法であって、更に、前記発声において連続する個々 の音に対応する、前記シーケンス内の読み出したビデオ画像を円滑に調和させる ステップを含むことを特徴とする方法。 12.請求項11記載の方法において、前記円滑に調和させるステップは、読 み出したビデオ画像データの連続集合間で、モーフィングを行なうプロセスを含 むことを特徴とする方法。 13.記録ビデオ画像シーケンスを修正し、該記録ビデオ画像シーケンスとは 別個に作成されたサウンドトラックにそれを同期させるシステムであって、 前記記録ビデオ画像シーケンスを分析し、個々の音と関連付けられた画像を識 別する手段と、 前記識別された画像を含むデータベースを格納するメモリと、 サウンドトラックを分析し、その中に含まれる個々の音を識別する手段と、 前記サウンドトラックにおいて識別された個々の音に対応する、前記データベ ースに含まれている画像を選択し、該選択した画像を、前記サウンドトラックと 同期するビデオ画像シーケンスに組み立てる手段と、 から成ることを特徴とするシステム。 14.請求項13記載のシステムにおいて、前記分析手段の各々は、音声認識 システムを備えることを特徴とするシステム。 15.請求項14記載のシステムにおいて、前記音声認識システムは、隠れマ ルコフ・モデル・システムであることを特徴とするシステム。 16.請求項14記載のシステムにおいて、前記個々の音は、音声の音素から 成ることを特徴とするシステム。 17.請求項13記載のシステムであって、更に、前記選択した画像を互いに 円滑に調和させ、前記同期したビデオ画像シーケンスを生成する手段を含むこと を特徴とするシステム。 18.請求項17記載のシステムにおいて、前記調和させる手段は、画像モー フィング・システムを含むことを特徴とするシステム。 19.請求項17記載のシステムにおいて、前記調和させる手段は、前記選択 した画像を、前記記録ビデオ画像シーケンスにクロス・フェードする手段を含む ことを特徴とするシステム。
JP9534555A 1996-03-25 1997-03-25 ビデオ画像シーケンスの新たなサウンドトラックに対する自動同期 Pending JP2000508845A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/620,949 US5880788A (en) 1996-03-25 1996-03-25 Automated synchronization of video image sequences to new soundtracks
US08/620,949 1996-03-25
PCT/US1997/004797 WO1997036297A1 (en) 1996-03-25 1997-03-25 Automated synchronization of video image sequences to new soundtracks

Publications (1)

Publication Number Publication Date
JP2000508845A true JP2000508845A (ja) 2000-07-11

Family

ID=24488068

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9534555A Pending JP2000508845A (ja) 1996-03-25 1997-03-25 ビデオ画像シーケンスの新たなサウンドトラックに対する自動同期

Country Status (7)

Country Link
US (1) US5880788A (ja)
EP (1) EP0890171B1 (ja)
JP (1) JP2000508845A (ja)
AU (1) AU716673B2 (ja)
CA (1) CA2250462C (ja)
DE (1) DE69716413T2 (ja)
WO (1) WO1997036297A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110110147A (ko) * 2008-12-09 2011-10-06 코닌클리케 필립스 일렉트로닉스 엔.브이. 적어도 하나의 신호를 렌더링하기 위한 시스템을 제어하기 위한 데이터를 생성하는 방법 및 시스템

Families Citing this family (140)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11506575A (ja) * 1995-03-07 1999-06-08 インターバル リサーチ コーポレイション 情報の選択記憶システム及び方法
EP0896772A4 (en) * 1996-04-29 2001-12-05 Princeton Video Image Inc ELECTRONIC INSERTION OF VISUAL ELEMENTS ASSORTED WITH SOUND EFFECTS IN VIDEO SIGNALS
US6181383B1 (en) * 1996-05-29 2001-01-30 Sarnoff Corporation Method and apparatus for preserving synchronization of audio and video presentation when splicing transport streams
US5893062A (en) 1996-12-05 1999-04-06 Interval Research Corporation Variable rate video playback with synchronized audio
US6263507B1 (en) * 1996-12-05 2001-07-17 Interval Research Corporation Browser for use in navigating a body of information, with particular application to browsing information represented by audiovisual data
US7366670B1 (en) * 1997-08-05 2008-04-29 At&T Corp. Method and system for aligning natural and synthetic video to speech synthesis
JP4078691B2 (ja) * 1997-09-19 2008-04-23 ソニー株式会社 記録再生制御システム、記録再生制御方法および記録再生制御装置
US6307576B1 (en) * 1997-10-02 2001-10-23 Maury Rosenfeld Method for automatically animating lip synchronization and facial expression of animated characters
US7392190B1 (en) 1997-11-07 2008-06-24 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
US7117155B2 (en) * 1999-09-07 2006-10-03 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
US6112177A (en) * 1997-11-07 2000-08-29 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
JP3194428B2 (ja) * 1997-11-17 2001-07-30 日本電気株式会社 部品選択装置及び部品選択方法
US6380950B1 (en) * 1998-01-20 2002-04-30 Globalstreams, Inc. Low bandwidth television
JPH11219446A (ja) * 1998-02-03 1999-08-10 Matsushita Electric Ind Co Ltd 映像音響再生システム
WO1999046734A1 (en) * 1998-03-11 1999-09-16 Entropic, Inc. Face synthesis system and methodology
US6496607B1 (en) * 1998-06-26 2002-12-17 Sarnoff Corporation Method and apparatus for region-based allocation of processing resources and control of input image formation
US6622171B2 (en) * 1998-09-15 2003-09-16 Microsoft Corporation Multimedia timeline modification in networked client/server systems
KR20010072936A (ko) * 1999-06-24 2001-07-31 요트.게.아. 롤페즈 정보 스트림의 포스트-동기화
US6369822B1 (en) * 1999-08-12 2002-04-09 Creative Technology Ltd. Audio-driven visual representations
US6366885B1 (en) * 1999-08-27 2002-04-02 International Business Machines Corporation Speech driven lip synthesis using viseme based hidden markov models
US7630897B2 (en) * 1999-09-07 2009-12-08 At&T Intellectual Property Ii, L.P. Coarticulation method for audio-visual text-to-speech synthesis
US6598074B1 (en) * 1999-09-23 2003-07-22 Rocket Network, Inc. System and method for enabling multimedia production collaboration over a network
US7155735B1 (en) 1999-10-08 2006-12-26 Vulcan Patents Llc System and method for the broadcast dissemination of time-ordered data
US6856329B1 (en) * 1999-11-12 2005-02-15 Creative Technology Ltd. Automated acquisition of video textures acquired from a digital camera for mapping to audio-driven deformable objects
DE19956572B4 (de) * 1999-11-24 2006-05-11 STÜTZ, Andreas Verfahren zur Telekommunikation und Kommunikationsterminal
US6766299B1 (en) 1999-12-20 2004-07-20 Thrillionaire Productions, Inc. Speech-controlled animation system
IL133797A (en) * 1999-12-29 2004-07-25 Speechview Ltd Apparatus and method for visible indication of speech
US6757682B1 (en) 2000-01-28 2004-06-29 Interval Research Corporation Alerting users to items of current interest
GB0008537D0 (en) * 2000-04-06 2000-05-24 Ananova Ltd Character animation
US7302490B1 (en) * 2000-05-03 2007-11-27 Microsoft Corporation Media file format to support switching between multiple timeline-altered media streams
US7149686B1 (en) * 2000-06-23 2006-12-12 International Business Machines Corporation System and method for eliminating synchronization errors in electronic audiovisual transmissions and presentations
US6535269B2 (en) * 2000-06-30 2003-03-18 Gary Sherman Video karaoke system and method of use
US6665450B1 (en) * 2000-09-08 2003-12-16 Avid Technology, Inc. Interpolation of a sequence of images using motion analysis
AU2001292963A1 (en) * 2000-09-21 2002-04-02 The Regents Of The University Of California Visual display methods for use in computer-animated speech production models
US6778252B2 (en) * 2000-12-22 2004-08-17 Film Language Film language
US6970185B2 (en) * 2001-01-31 2005-11-29 International Business Machines Corporation Method and apparatus for enhancing digital images with textual explanations
US7053927B2 (en) * 2001-03-02 2006-05-30 Eastman Kodak Company System for optimizing the display and rendering of digital images for digital mastering
US7043058B2 (en) * 2001-04-20 2006-05-09 Avid Technology, Inc. Correcting motion vector maps for image processing
US7545957B2 (en) * 2001-04-20 2009-06-09 Avid Technology, Inc. Analyzing motion of characteristics in images
US7076429B2 (en) * 2001-04-27 2006-07-11 International Business Machines Corporation Method and apparatus for presenting images representative of an utterance with corresponding decoded speech
US8897596B1 (en) 2001-05-04 2014-11-25 Legend3D, Inc. System and method for rapid image sequence depth enhancement with translucent elements
US8401336B2 (en) 2001-05-04 2013-03-19 Legend3D, Inc. System and method for rapid image sequence depth enhancement with augmented computer-generated elements
US9286941B2 (en) 2001-05-04 2016-03-15 Legend3D, Inc. Image sequence enhancement and motion picture project management system
US7012650B2 (en) * 2001-06-14 2006-03-14 Sony Corporation Start/stop audio encoder apparatus and method for synchronizing digital audio and video signals
US6639649B2 (en) * 2001-08-06 2003-10-28 Eastman Kodak Company Synchronization of music and images in a camera with audio capabilities
US7343082B2 (en) 2001-09-12 2008-03-11 Ryshco Media Inc. Universal guide track
US6744974B2 (en) * 2001-09-15 2004-06-01 Michael Neuman Dynamic variation of output media signal in response to input media signal
US20030058932A1 (en) * 2001-09-24 2003-03-27 Koninklijke Philips Electronics N.V. Viseme based video coding
US7315820B1 (en) * 2001-11-30 2008-01-01 Total Synch, Llc Text-derived speech animation tool
US7194676B2 (en) 2002-03-01 2007-03-20 Avid Technology, Inc. Performance retiming effects on synchronized data in an editing system
US7668901B2 (en) * 2002-04-15 2010-02-23 Avid Technology, Inc. Methods and system using a local proxy server to process media data for local area users
US7209882B1 (en) 2002-05-10 2007-04-24 At&T Corp. System and method for triphone-based unit selection for visual speech synthesis
EP1365359A1 (en) * 2002-05-24 2003-11-26 BRITISH TELECOMMUNICATIONS public limited company Image processing method and system
US7212248B2 (en) * 2002-09-09 2007-05-01 The Directv Group, Inc. Method and apparatus for lipsync measurement and correction
AU2003286797A1 (en) * 2002-11-07 2004-06-03 Thomson Licensing S.A. A system and method for determining lip synchronization between audio and video in a digitized environment using buffer calculation
US7716312B2 (en) 2002-11-13 2010-05-11 Avid Technology, Inc. Method and system for transferring large data files over parallel connections
US7827034B1 (en) 2002-11-27 2010-11-02 Totalsynch, Llc Text-derived speech animation tool
US7133535B2 (en) * 2002-12-21 2006-11-07 Microsoft Corp. System and method for real time lip synchronization
US7142250B1 (en) * 2003-04-05 2006-11-28 Apple Computer, Inc. Method and apparatus for synchronizing audio and video streams
US20070153125A1 (en) * 2003-05-16 2007-07-05 Pixel Instruments, Corp. Method, system, and program product for measuring audio video synchronization
US7499104B2 (en) * 2003-05-16 2009-03-03 Pixel Instruments Corporation Method and apparatus for determining relative timing of image and associated information
WO2007035183A2 (en) * 2005-04-13 2007-03-29 Pixel Instruments, Corp. Method, system, and program product for measuring audio video synchronization independent of speaker characteristics
WO2005022322A2 (en) * 2003-08-25 2005-03-10 Blue Street Studios, Inc. Video game system and method
US7990384B2 (en) * 2003-09-15 2011-08-02 At&T Intellectual Property Ii, L.P. Audio-visual selection process for the synthesis of photo-realistic talking-head animations
JP3848319B2 (ja) * 2003-11-11 2006-11-22 キヤノン株式会社 情報処理方法及び情報処理装置
WO2005065159A2 (en) * 2003-12-30 2005-07-21 Nielsen Media Research, Inc. Methods and apparatus to distinguish a signal originating from a local device from a broadcast signal
US20050234961A1 (en) * 2004-04-16 2005-10-20 Pinnacle Systems, Inc. Systems and Methods for providing a proxy for a shared file system
US20060031885A1 (en) * 2004-04-30 2006-02-09 Vulcan Inc. Management and non-linear presentation of music-related broadcasted or streamed multimedia content
US20060031916A1 (en) * 2004-04-30 2006-02-09 Vulcan Inc. Management and non-linear presentation of broadcasted or streamed multimedia content
US20060031879A1 (en) * 2004-04-30 2006-02-09 Vulcan Inc. Management and non-linear presentation of news-related broadcasted or streamed multimedia content
US8443279B1 (en) * 2004-10-13 2013-05-14 Stryker Corporation Voice-responsive annotation of video generated by an endoscopic camera
US7388586B2 (en) * 2005-03-31 2008-06-17 Intel Corporation Method and apparatus for animation of a human speaker
GB2438691A (en) * 2005-04-13 2007-12-05 Pixel Instr Corp Method, system, and program product for measuring audio video synchronization independent of speaker characteristics
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US20070139189A1 (en) * 2005-12-05 2007-06-21 Helmig Kevin S Multi-platform monitoring system and method
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US7535472B2 (en) * 2006-04-05 2009-05-19 Seoul National University Industry Foundation Method for generating intuitive quasi-eigen faces
US8462163B2 (en) * 2006-08-25 2013-06-11 Cyber Clone Co., Ltd. Computer system and motion control method
US7948558B2 (en) * 2006-09-29 2011-05-24 The Directv Group, Inc. Audio video timing measurement and synchronization
US7669132B2 (en) * 2006-10-30 2010-02-23 Hewlett-Packard Development Company, L.P. Matching a slideshow to an audio track
US20080111887A1 (en) * 2006-11-13 2008-05-15 Pixel Instruments, Corp. Method, system, and program product for measuring audio video synchronization independent of speaker characteristics
US8179475B2 (en) * 2007-03-09 2012-05-15 Legend3D, Inc. Apparatus and method for synchronizing a secondary audio track to the audio track of a video source
US20090180668A1 (en) * 2007-04-11 2009-07-16 Irobot Corporation System and method for cooperative remote vehicle behavior
US8577126B2 (en) * 2007-04-11 2013-11-05 Irobot Corporation System and method for cooperative remote vehicle behavior
US20080263450A1 (en) * 2007-04-14 2008-10-23 James Jacob Hodges System and method to conform separately edited sequences
US8316302B2 (en) 2007-05-11 2012-11-20 General Instrument Corporation Method and apparatus for annotating video content with metadata generated using speech recognition technology
US20090075711A1 (en) 2007-06-14 2009-03-19 Eric Brosius Systems and methods for providing a vocal experience for a player of a rhythm action game
US8678896B2 (en) 2007-06-14 2014-03-25 Harmonix Music Systems, Inc. Systems and methods for asynchronous band interaction in a rhythm action game
SG150415A1 (en) * 2007-09-05 2009-03-30 Creative Tech Ltd A method for incorporating a soundtrack into an edited video-with-audio recording and an audio tag
US8663013B2 (en) * 2008-07-08 2014-03-04 Harmonix Music Systems, Inc. Systems and methods for simulating a rock band experience
US9324173B2 (en) * 2008-07-17 2016-04-26 International Business Machines Corporation System and method for enabling multiple-state avatars
US8957914B2 (en) 2008-07-25 2015-02-17 International Business Machines Corporation Method for extending a virtual environment through registration
US10166470B2 (en) 2008-08-01 2019-01-01 International Business Machines Corporation Method for providing a virtual world layer
US8447065B2 (en) 2008-09-16 2013-05-21 Cyberlink Corp. Method of facial image reproduction and related device
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8449360B2 (en) 2009-05-29 2013-05-28 Harmonix Music Systems, Inc. Displaying song lyrics and vocal cues
US8465366B2 (en) 2009-05-29 2013-06-18 Harmonix Music Systems, Inc. Biasing a musical performance input to a part
US8334888B2 (en) * 2009-08-27 2012-12-18 Apple Inc. Dynamically generated ring tones
US9981193B2 (en) 2009-10-27 2018-05-29 Harmonix Music Systems, Inc. Movement based recognition and evaluation
EP2494432B1 (en) * 2009-10-27 2019-05-29 Harmonix Music Systems, Inc. Gesture-based user interface
US8550908B2 (en) 2010-03-16 2013-10-08 Harmonix Music Systems, Inc. Simulating musical instruments
US8562403B2 (en) 2010-06-11 2013-10-22 Harmonix Music Systems, Inc. Prompting a player of a dance game
US9358456B1 (en) 2010-06-11 2016-06-07 Harmonix Music Systems, Inc. Dance competition game
CA2802348A1 (en) 2010-06-11 2011-12-15 Harmonix Music Systems, Inc. Dance game and tutorial
US20110311144A1 (en) * 2010-06-17 2011-12-22 Microsoft Corporation Rgb/depth camera for improving speech recognition
US9024166B2 (en) 2010-09-09 2015-05-05 Harmonix Music Systems, Inc. Preventing subtractive track separation
US8751228B2 (en) * 2010-11-04 2014-06-10 Microsoft Corporation Minimum converted trajectory error (MCTE) audio-to-video engine
US8600732B2 (en) * 2010-11-08 2013-12-03 Sling Media Pvt Ltd Translating programming content to match received voice command language
US8730232B2 (en) 2011-02-01 2014-05-20 Legend3D, Inc. Director-style based 2D to 3D movie conversion system and method
US9282321B2 (en) 2011-02-17 2016-03-08 Legend3D, Inc. 3D model multi-reviewer system
US9407904B2 (en) 2013-05-01 2016-08-02 Legend3D, Inc. Method for creating 3D virtual reality from 2D images
US9288476B2 (en) 2011-02-17 2016-03-15 Legend3D, Inc. System and method for real-time depth modification of stereo images of a virtual reality environment
US9241147B2 (en) 2013-05-01 2016-01-19 Legend3D, Inc. External depth map transformation method for conversion of two-dimensional images to stereoscopic images
TW201301148A (zh) * 2011-06-21 2013-01-01 Hon Hai Prec Ind Co Ltd 網頁瀏覽控制系統及方法
AU2012100262B4 (en) * 2011-12-15 2012-05-24 Nguyen, Phan Thi My Ngoc Ms Speech visualisation tool
US8655152B2 (en) 2012-01-31 2014-02-18 Golden Monkey Entertainment Method and system of presenting foreign films in a native language
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
US20130300939A1 (en) * 2012-05-11 2013-11-14 Cisco Technology, Inc. System and method for joint speaker and scene recognition in a video/audio processing environment
US9596386B2 (en) 2012-07-24 2017-03-14 Oladas, Inc. Media synchronization
US9007365B2 (en) 2012-11-27 2015-04-14 Legend3D, Inc. Line depth augmentation system and method for conversion of 2D images to 3D images
US9547937B2 (en) 2012-11-30 2017-01-17 Legend3D, Inc. Three-dimensional annotation system and method
US9007404B2 (en) 2013-03-15 2015-04-14 Legend3D, Inc. Tilt-based look around effect image enhancement method
US9438878B2 (en) 2013-05-01 2016-09-06 Legend3D, Inc. Method of converting 2D video to 3D video using 3D object models
US20160042766A1 (en) * 2014-08-06 2016-02-11 Echostar Technologies L.L.C. Custom video content
US9609307B1 (en) 2015-09-17 2017-03-28 Legend3D, Inc. Method of converting 2D video to 3D video using machine learning
US10460732B2 (en) * 2016-03-31 2019-10-29 Tata Consultancy Services Limited System and method to insert visual subtitles in videos
US11409791B2 (en) 2016-06-10 2022-08-09 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
US10770092B1 (en) * 2017-09-22 2020-09-08 Amazon Technologies, Inc. Viseme data generation
WO2019195839A1 (en) * 2018-04-06 2019-10-10 Deluxe One Llc Alignment of alternate dialogue audio track to frames in a multimedia production using background audio matching
CN112823380A (zh) * 2018-05-24 2021-05-18 华纳兄弟娱乐公司 将数字视频中的口形和动作与替代音频匹配
US10558761B2 (en) * 2018-07-05 2020-02-11 Disney Enterprises, Inc. Alignment of video and textual sequences for metadata analysis
US11423920B2 (en) * 2018-09-28 2022-08-23 Rovi Guides, Inc. Methods and systems for suppressing vocal tracks
US20220108510A1 (en) * 2019-01-25 2022-04-07 Soul Machines Limited Real-time generation of speech animation
CN110534085B (zh) * 2019-08-29 2022-02-25 北京百度网讯科技有限公司 用于生成信息的方法和装置
US11119727B1 (en) * 2020-06-25 2021-09-14 Adobe Inc. Digital tutorial generation system
CN114760534B (zh) * 2022-03-28 2024-03-01 北京捷通华声科技股份有限公司 视频生成方法、装置、电子设备及可读存储介质
CN115174826A (zh) * 2022-07-07 2022-10-11 云知声智能科技股份有限公司 一种音视频合成方法及装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4260229A (en) * 1978-01-23 1981-04-07 Bloomstein Richard W Creating visual images of lip movements
FR2571196B1 (fr) * 1984-10-02 1987-01-23 Guinet Yves Procede de television pour programmes multilingues
US4600281A (en) * 1985-03-29 1986-07-15 Bloomstein Richard W Altering facial displays in cinematic works
GB8528143D0 (en) * 1985-11-14 1985-12-18 British Telecomm Image encoding & synthesis
US5040081A (en) * 1986-09-23 1991-08-13 Mccutchen David Audiovisual synchronization signal generator using audio signature comparison
US4913539A (en) * 1988-04-04 1990-04-03 New York Institute Of Technology Apparatus and method for lip-synching animation
US5025394A (en) * 1988-09-09 1991-06-18 New York Institute Of Technology Method and apparatus for generating animated images
JP2518683B2 (ja) * 1989-03-08 1996-07-24 国際電信電話株式会社 画像合成方法及びその装置
US5430835A (en) * 1991-02-15 1995-07-04 Sierra On-Line, Inc. Method and means for computer sychronization of actions and sounds
JP3298076B2 (ja) * 1992-10-20 2002-07-02 ソニー株式会社 画像作成装置
US5608839A (en) * 1994-03-18 1997-03-04 Lucent Technologies Inc. Sound-synchronized video system
CA2144795A1 (en) * 1994-03-18 1995-09-19 Homer H. Chen Audio visual dubbing system and method
US6330023B1 (en) * 1994-03-18 2001-12-11 American Telephone And Telegraph Corporation Video signal processing systems and methods utilizing automated speech analysis
US5623173A (en) * 1994-03-18 1997-04-22 Lucent Technologies Inc. Bus structure for power system
US5572261A (en) * 1995-06-07 1996-11-05 Cooper; J. Carl Automatic audio to video timing measurement device and method
AU6998996A (en) * 1995-10-08 1997-05-15 Face Imaging Ltd. A method for the automatic computerized audio visual dubbing of movies

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110110147A (ko) * 2008-12-09 2011-10-06 코닌클리케 필립스 일렉트로닉스 엔.브이. 적어도 하나의 신호를 렌더링하기 위한 시스템을 제어하기 위한 데이터를 생성하는 방법 및 시스템
JP2012511792A (ja) * 2008-12-09 2012-05-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 少なくとも1つの信号をレンダリングするためのシステムを制御するデータを生成する方法及びシステム
KR101588046B1 (ko) 2008-12-09 2016-01-25 코닌클리케 필립스 엔.브이. 적어도 하나의 신호를 렌더링하기 위한 시스템을 제어하기 위한 데이터를 생성하는 방법 및 시스템

Also Published As

Publication number Publication date
EP0890171A1 (en) 1999-01-13
CA2250462A1 (en) 1997-10-02
CA2250462C (en) 2001-10-02
AU716673B2 (en) 2000-03-02
DE69716413D1 (de) 2002-11-21
WO1997036297A1 (en) 1997-10-02
DE69716413T2 (de) 2003-06-26
AU2544697A (en) 1997-10-17
US5880788A (en) 1999-03-09
EP0890171B1 (en) 2002-10-16

Similar Documents

Publication Publication Date Title
US5880788A (en) Automated synchronization of video image sequences to new soundtracks
US6250928B1 (en) Talking facial display method and apparatus
Ezzat et al. Miketalk: A talking facial display based on morphing visemes
US8170878B2 (en) Method and apparatus for automatically converting voice
US7933772B1 (en) System and method for triphone-based unit selection for visual speech synthesis
US20040120554A1 (en) System and method for real time lip synchronization
Schabus et al. Joint audiovisual hidden semi-markov model-based speech synthesis
JPH10312467A (ja) 像合成のための自動スピーチ整列方法
Zhang et al. Text2video: Text-driven talking-head video synthesis with personalized phoneme-pose dictionary
Hu et al. Neural dubber: Dubbing for videos according to scripts
Wang et al. Synthesizing photo-real talking head via trajectory-guided sample selection
Wang et al. HMM trajectory-guided sample selection for photo-realistic talking head
Hassid et al. More than words: In-the-wild visually-driven prosody for text-to-speech
KR20230172427A (ko) 사람 음성에 따른 실사인물의 발화 영상 합성 시스템
Taylor et al. A mouth full of words: Visually consistent acoustic redubbing
Mattheyses et al. On the importance of audiovisual coherence for the perceived quality of synthesized visual speech
Minnis et al. Modeling visual coarticulation in synthetic talking heads using a lip motion unit inventory with concatenative synthesis
JPH0756494A (ja) 発音訓練装置
JP2009216724A (ja) 音声生成装置及びコンピュータプログラム
JP4052561B2 (ja) 映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラム
JP2009216723A (ja) 類似音声選択装置、音声生成装置及びコンピュータプログラム
Karpov et al. Audio-visual speech asynchrony modeling in a talking head
JP3766534B2 (ja) 視覚的に聴覚を補助するシステムおよび方法並びに視覚的に聴覚を補助するための制御プログラムを記録した記録媒体
Theobald et al. Visual speech synthesis using statistical models of shape and appearance.
Thangthai et al. TSynC-3miti: Audiovisual Speech Synthesis Database from Found Data