JPH086182A - 吹き替えシステムおよびビデオ画像表示システム - Google Patents

吹き替えシステムおよびビデオ画像表示システム

Info

Publication number
JPH086182A
JPH086182A JP7086003A JP8600395A JPH086182A JP H086182 A JPH086182 A JP H086182A JP 7086003 A JP7086003 A JP 7086003A JP 8600395 A JP8600395 A JP 8600395A JP H086182 A JPH086182 A JP H086182A
Authority
JP
Japan
Prior art keywords
audio signal
dubbed
person
dubber
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7086003A
Other languages
English (en)
Inventor
Homer H Chen
エイチ.チェン ホーマー
Tsuhan Chen
チェン ツーハン
Jeffrey Haskell Burlin
ジェフリー ハスケル バーリン
David Petajan Eric
デービッド ペタジャン エリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JPH086182A publication Critical patent/JPH086182A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B15/00Driving, starting or stopping record carriers of filamentary or web form; Driving both such record carriers and heads; Guiding such record carriers or containers therefor; Control thereof; Control of operating function
    • G11B15/02Control of operating function, e.g. switching from recording to reproducing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B15/00Special procedures for taking photographs; Apparatus therefor
    • G03B15/08Trick photography
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B31/00Associated working of cameras or projectors with sound-recording or sound-reproducing means
    • G03B31/02Associated working of cameras or projectors with sound-recording or sound-reproducing means in which sound track is on a moving-picture film
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/032Electronic editing of digitised analogue information signals, e.g. audio or video signals on tapes
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/90Tape-like record carriers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals

Abstract

(57)【要約】 【目的】 被吹き替え者の口の動きを、置換される言語
の場合の口の動きに合わせることが可能なオーディオ・
ビジュアル吹き替え技術を実現する。 【構成】 被吹き替え者を描写するビデオのシーケンス
のもとのサウンドトラックを、吹き替え者による置換発
声を示す音声信号で置換する際に、格納または伝送され
たシーケンスのフレームを、吹き替え者によって話され
る言語による発声に対応する顔面特徴情報と関連づけ
る。シーケンスのフレームは、検出される吹き替え者の
発声に関連するルックアップテーブルを用いた顔面特徴
情報によって、被吹き替え者の口の形態を、吹き替え者
の話者独立な口の形態または俳優の口の形態のセットに
合わせることによって修正される。番組の視聴者が吹き
替え版を選択すると、第2サウンドトラックを利用し
て、被吹き替え者の口の動きを、吹き替え者の発声をし
た者の口の動きに合わせる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、一般的に、ビデオまた
は映画メディアのサウンドトラックに音響を記録するこ
とに関し、特に、このようなメディアで描写されまたは
表現された、話をしている俳優の口の動きが、「吹き替
え」の、すなわち、置換されている外国語の話し手のも
のと一貫性があるように合わせる方法および装置に関す
る。
【0002】
【従来の技術】ビデオまたは映画のサウンドトラックを
他の言語に翻訳するさまざまな技術が提供されている。
最も一般的な方法は、吹き替え、すなわち、オリジナル
の代わりに第2言語の音声で置換することである。例え
ば、米国特許第3,743,391号(発明の名称:動
画フィルムに鮮明なサウンドトラックの吹き替えをする
システム(SYSTEM FOR DUBBING FRESH SOUND TRACKS ON
MOTION PICTURE FILMS))には、ビデオテープレコーデ
ィングがもとの動画と同期して形成されるような吹き替
え技術が開示されている。テープはテレビ画面を駆動
し、その一方で、キュー情報がテープに記録されるか、
または、動画フィルムにマークされる。テープを再生す
るとき、キュー情報を使用して、他言語での会話を含む
所望の音響情報の記録を呼び出す。音響情報の記録はセ
グメント単位でなされ、テープまたはフィルム上で別に
横に配置された細長い領域に沿って記録され、それらが
関連する画像記録と対応するようにセグメントを並置す
るよう工夫されている。
【0003】最近では、ディジタル化(ディジタイズ)
したビデオフレームシーケンスをコンピュータによって
格納し操作することが可能な専用ソフトウェアプログラ
ムが市販されている。このようなプログラムを利用し
て、ビデオフレームのシーケンスをモニタに表示し、選
択した音声信号セグメントを正確に合わせることができ
る。このようにして、現在では、吹き替え者の音声と、
俳優の視覚的キュー(例えば、身ぶり、表情など)を、
対応する話をしている俳優すなわち「被吹き替え者」を
描写するビデオフレームシーケンスにおいて可能な限り
一致させることができる。
【0004】しかし、特別な技術が使用されているにも
かかわらず、音声セグメント配置の正確な制御によって
は克服することができない限界が、外国語吹き替えには
存在する。特に、被吹き替え者の口の動きが、吹き替え
者の音声と一致しないことが起こりやすい。このような
不一致は非常に視聴者を混乱させることがあり、特に、
口の形態および唇の動きのタイプがそれぞれの言語で非
常に異なる場合にはそうである。
【0005】
【発明が解決しようとする課題】従って、本発明の目的
は、被吹き替え者の口の動きを、置換される言語の場合
の口の動きに合わせることが可能なオーディオ・ビジュ
アル吹き替え技術を実現することである。
【0006】
【課題を解決するための手段】被吹き替え者を描写する
ビデオまたは映画のシーケンスのもとのサウンドトラッ
クを、吹き替え者による置換発声を示す音声信号で置換
する本発明のシステムおよび方法によれば、格納または
伝送されたシーケンスのフレームを、吹き替え者によっ
て話される言語による発声に対応する顔面特徴情報と関
連づける。シーケンスのフレームは、検出される吹き替
え者の発声に関連するルックアップテーブルを用いた顔
面特徴情報によって、被吹き替え者の口の形態を、吹き
替え者の話者独立な口の形態または俳優の口の形態のセ
ットに合わせることによって修正される。本発明の1つ
の特徴によれば、現在伝送され、または、以前に格納さ
れた番組の視聴者は、もとの放送を見るか、または、被
吹き替え者のものとは別の言語での発声を示す第2のサ
ウンドトラックが再生されるような吹き替え版を見るか
を、手動で選択することができる。後者のような選択が
なされると、第2サウンドトラックを利用して、被吹き
替え者の口の動きを、吹き替え者の発声をした者の口の
動きに合わせる。
【0007】本発明によるオーディオ・ビジュアル吹き
替えを実行する装置は、吹き替え者の発声を示す音声信
号部分を検出するモニタリング手段を有する。各信号部
分は、吹き替え者によって話される言語に関する口の形
態すなわちビジーム(viseme、視覚上の単位)に対応す
る。各信号部分に対する音声認識を実行することによっ
て、あるフレームに関係づけられることになる発声が、
特定の視覚的に認識可能な口の形態を利用することを話
者に要求する音素、ホモフィーヌ(homophene)またはそ
の他の音に対応するかどうかを判定することができる。
もとのシーケンスの各フレームを修正するために、口形
態パラメータが利用される。口形態パラメータは、吹き
替え者の画像から、または、吹き替え者の音声に一致す
る音素または他の音声セグメントを発声する複数の人の
画像から抽出される。いずれの場合にも、このパラメー
タを、もとのフレームにおける対応する特徴のスケール
に合わせて変化させ、テクスチャマッピングを実行し
て、被吹き替え者が吹き替え者の発声をしているように
見える修正フレームを得る。
【0008】もちろん、当業者には理解されるように、
吹き替え者によって置換される音声の発声を模擬するよ
うに被吹き替え者の表情を合わせる際に使用するため
に、他の顔面情報を事前に抽出し格納しておくことも可
能である。また、本発明は、顎、舌、および歯の位置
を、音声信号の各部分に関係づけるように作用する関係
付け手段を利用することも可能である。
【0009】
【実施例】図1で、ブロック10では、少なくとも1人
の人を描写するディジタル化ビデオシーケンスのフレー
ムを取得する。ビデオまたは映画をディジタル化する技
術は周知であり、市販されているため、本発明の新規な
特徴を構成するものではない。従って、そのような技術
の詳細な説明は省略する。いずれの場合にも、当業者に
は直ちに理解されるように、ビデオシーケンスと同期し
て、描写されている俳優による音声などの音を表す、も
との音声信号トラックが対応している。上記のように、
本発明の主な目的は、俳優のもとの言語を表すもとの音
声信号の部分を、視聴者に与える視覚的混乱を最小にす
るように、他の言語を表す音声信号部分によって置換す
なわち「吹き替える」ことができるようなシステムおよ
び方法を提供することである。図1に示した技術によれ
ば、この目的は、俳優の口の動き(および、必要に応じ
て、他の顔面特徴)を修正し、吹き替え者によって提供
される言語を話す人による口の動きに合わせるようにす
ることによって達成される。
【0010】図1の説明を続けると、ブロック14で、
適当な画像特徴抽出アルゴリズムによって、取得したフ
レームに対して特徴抽出を実行する。特に唇の分析に関
する画像特徴抽出技術は、例えば、米国特許第4,97
5,960号(発明者:エリック・ディ.ペタジャン(E
ric D. Petajan)、発行日:1990年12月4日、発
明の名称:電子的顔面追跡検出システムならびに自動音
声認識の方法および装置(ELECTRONIC FACIAL TRACKING
AND DETECTION SYSTEM AND METHOD AND APPARATUS FOR
AUTOMATED SPEECH RECOGNITION))に記載されている。
特徴抽出中には、取得したフレームを分析し、おそらく
話している間に変動する唇、目、および顎のような顔面
特徴に対応する位置および臨界的寸法を決定する。最も
簡単な形式では、この分析は俳優の唇の動きのみに関す
るものである。しかし、容易に確かめられるように、よ
り現実的な適応のためには、舌、歯、目、および顎の形
態も考慮すべきである。この目的に適したモデル化技術
は既に提案されているので、細かいモデル化技術の詳細
な説明はここでは不要であると考える。参考文献として
は、英国グラスゴーでの1989年ICASSPで発表
されたシゲオ・モリシマ(Shigeo Morishima)他による論
文「音声および音素によって駆動される知的顔面画像符
号化(An Intelligent Facial Image Coding Driven by
Speech and Phoneme)」 がある。この論文では、3次元
顔面モデル化技術において、俳優の顔の幾何学的面を多
角形(例えば三角形)の集合として定義したものが記載
されている。
【0011】いずれにしても、特徴抽出を実行した後、
本発明によれば、俳優すなわち「被吹き替え者」のフレ
ーム画像を、吹き替え者の言語での発声を模擬するよう
に適合させることが可能となる。図1の実施例によれ
ば、上記の適合は、ブロック16に示したように、フレ
ーム中の吹き替え者の音声を示すオーディオ信号部分を
分析することによって達成される。吹き替え者の音声を
もとのビデオフレームシーケンスとどのように同期させ
るかということは、本発明の技術によって得られる結果
にそれほど重大な影響を及ぼさない。例えば、吹き替え
トラック全体を事前に記録しておき、市販のソフトウェ
アプログラム(例えば、アドビ・システムズ・インコー
ポレーテッド(Adobe Systems Incorporated)のアドビ・
プライマー)を使用してビデオシーケンスと整合させ
る。または、フレーム適合プロセス中に、シーケンスご
とに吹き替えトラックを記録することも可能である。い
ずれの場合でも、従来の音声認識回路(図示せず)によ
って実行可能な音声信号分析で、完全な文脈レベルの認
識は不要である。その理由は、分析の目的は、吹き替え
者の発声を音素のシーケンスに分解することだからであ
る。本質的には、これらの音素はそれぞれ、ビジームと
して知られる視覚的な口の形状にマッピングすることが
できる。本実施例を簡略化した場合には、音声信号は、
吹き替え者の発声に含まれるホモフィーヌを識別するた
めに分析される。本質的には、ホモフィーヌとは、唇、
歯、および舌の位置を観察者からは視覚的に類似するよ
うにして、話し手によって同じようにして生成される音
素の集合のことである。もちろん、高度のパフォーマン
スが要求される場合には、文脈レベルの音声認識を実行
し、音素情報を抽出することも可能である。
【0012】図1の実施例によれば、修正されたフレー
ムは、音声認識によって得られた音素データを用いて、
特徴抽出によって得られたパラメトリック顔面モデルを
修正することにより生成される。ブロック18に示した
ように、これは、各ビジームに対応するパラメトリック
位置データを含むルックアップテーブルをアドレスする
ことによって達成される。画像品質を保つことが重要で
あるため、ルックアップテーブルに含まれる情報の詳細
は、各ビジームに対する唇、歯、および目の位置に関す
る情報を含むべきである。
【0013】人が各音素を発音するために使用する口の
位置は一般に話者に依存する。ブロック18で利用され
るルックアップテーブルは、話者独立の顔面特徴情報を
含むようにすることも可能である。この場合には、本発
明によるビデオフレームシーケンスの吹き替え音声適合
は、ブロック20に示したように、格納されている特徴
情報から、画像特徴抽出によってもとのフレームから得
られた特徴情報へのスケーリングすなわちデノーマリゼ
ーション(de-normalization)が必要である。デノーマリ
ゼーションは、単に、話者の必要な各顔面特徴の所定の
特徴点の位置を決定し、対応するルックアップテーブル
の位置パラメータデータをスケーリングすることしか必
要としない。例えば口に関するこのような特徴点の位置
は、上記のモリシマ他の文献に記載されている。
【0014】ブロック22に示したように、吹き替え者
の音声を示すオーディオ信号から第1の音素を識別し、
それに対応する、格納されている話者独立の顔面特徴の
デノーマリゼーションを実行した後、もとのフレームか
ら取得した顔面反射率データの増分テクスチャマッピン
グを実行して、俳優がその音素またはホモフィーヌを発
声しているように見えるように俳優の口の形を変更す
る。本質的に、テクスチャマッピング技術は当業者には
周知であり、例えば、アフィン変換を使用したテクスチ
ャ座標の補間を含む。このような技術の詳細な説明は、
エイチ.チョイ(H. Choi)他、「顔面画像シーケンスの
知識ベース符号化における表情の分析および合成(Analy
sis and Synthesis of Facial Expressions in Knowled
ge-Based Coding of Facial Image Sequences)」、Inte
rnational Conference on Acoustics Speech and Signa
l Processing、第2737〜40ページ(1991
年)、に記載されている。
【0015】ブロック24および26に示したように、
修正されたフレームはもとのフレームから生成されて格
納される。ここまでのステップは、シーケンスの終端に
達するまで、シーケンス内の各フレームに対して繰り返
される。もちろん当業者には理解されるように、図1の
実施例のさまざまな変形が可能である。例えば、本発明
の目的のために、ビジームを話者独立のものとしてモデ
ル化したが、フレーム適合プロセスのパフォーマンスを
向上させることも可能である。その場合、変形実施例で
は、上記のように話者独立のビジームデータを含むデフ
ォルトのルックアップテーブルを利用する代わりに、伝
送または格納されたフレームに対応する音素を示すもと
のオーディオ信号部分を分析することにより話者依存の
ルックアップテーブルを導出するようにすることができ
る。吹き替え者と被吹き替え者の言語に共通な音素(ま
たはその他の、口の形態を示す音声パラメータ)が検出
されるごとに、対応するフレーム画像に対して特徴抽出
を実行し、特徴位置パラメータを格納する。このように
して、話者依存テーブルを俳優ごとに構成することがで
きる。もちろん、被吹き替え者の言語にはない音素が吹
き替え者の音声に現れた場合には、ルックアップテーブ
ルを利用する必要がある。
【0016】本発明のもう1つの実施例を図2に示す。
この実施例によれば、被吹き替え者の口の形態が吹き替
え者の口の形態へと適合される。図2に示したように、
ブロック40および44は、図1のブロック10および
14と同一である。しかし、模擬した口の位置パラメー
タデータを得るために吹き替え者に対応するオーディオ
信号に対して音声認識を実行する代わりに、吹き替え者
自身の実際の口の形態を利用する。すなわち、吹き替え
音声部分の記録中に吹き替え者の口をビデオに記録す
る。従って、ブロック46に示したように、吹き替え者
の口に対して画像特徴抽出を実行する。特に、吹き替え
者のオーディオ音声と、被吹き替え者を描写するフレー
ムシーケンスの間の時間的関係が確立すると、顔面パラ
メータ(すなわち、口の形態のデータ)がフレームごと
に抽出される。抽出されたパラメータデータに対してデ
ノーマリゼーションが実行され(ブロック48)、もと
のフレームのテクスチャがマッピングされ(ブロック4
9)、修正されたフレームが生成される(ブロック5
0)。図1の実施例の場合と同様に、ビデオシーケンス
は、シーケンスの最終フレームが格納されるまでフレー
ムごとに修正される(ブロック52、54、および5
6)。
【0017】本発明の実施例に従って構成したオーディ
オ・ビジュアル吹き替えシステム60の例を図3に示
す。図3において、もとのビデオフレームシーケンスを
示すディジタル化ビデオ信号が、フレーム取得モジュー
ル61によって順に取得される。特徴抽出モジュール6
2は、上記のように、取得した各フレームに対して画像
特徴抽出を実行する。その間に、音声認識モジュール6
4が、オーディオ信号を分析して音素またはホモフィー
ヌの内容を識別する。この音声認識モジュール64は従
来の音声認識回路でよい。上記のように、伝送されたフ
レーム間に生じる話者の適当なビジームまたはその他の
顔面情報は、音素内容から高い信頼性で予測することが
できる。当業者には直ちに確かめられるように、吹き替
え者の分析を容易にするために、オーディオ信号を事前
に記録しておき、ビデオシーケンスと同期させることが
できる。図3の実施例では、このようにして格納された
オーディオ信号が、オーディオ信号取得モジュール63
によって出力され、音声認識モジュール64によって取
得される。
【0018】上記のように、特定の音素またはホモフィ
ーヌがモジュール64で検出されると、フレーム修正モ
ジュール66が、特徴位置生成モジュール68をアドレ
ス市、音素またはホモフィーヌを発声した人の特徴およ
び特徴位置に対応する口の形態(ビジーム)、目、頬、
および顎の位置などのような顔面特徴を示す顔面位置パ
ラメータデータを取得する。上記のように、顔面特徴情
報は、話者独立の顔面特徴位置パラメータに制限される
必要はなく、実際には、被吹き替え者の音声を表すもと
のオーディオ信号の音素内容をモニタリングすることに
よって得られる情報を含むことも可能である。
【0019】フレーム修正モジュール66は、モジュー
ル68によって提供されるもとのフレームおよび位置パ
ラメータ情報を利用して、修正されたフレームを生成す
る。フレーム修正モジュール66は、従来のビデオ信号
生成器を含むように構成されたものでよい。位置パラメ
ータデータはまずフレーム修正モジュールによってデノ
ーマリゼーションを受け、もとのフレームの寸法に合わ
せられる。修正されたフレームは、シーケンス全体が生
成されるまで順に格納される。
【0020】図4に、本発明の変形実施例によって構成
されたビデオ表示システム80を示す。この変形実施例
によれば、現在伝送されてきたテレビジョン放送または
事前に格納された番組の視聴者は手動で、もとの放送も
しくは番組をもとの音声または番組を表す第1の同期オ
ーディオ信号とともに見るか、または、被吹き替え者以
外の言語による発声を示す(すなわち、そのような発声
を表す、または、そのような発声を含む)第2のオーデ
ィオトラックが再生される吹き替え版を見るかのいずれ
かを選択する。後者の選択が行われると、第2のオーデ
ィオトラックを利用して、被吹き替え者の口の動きを吹
き替え者の口の動きに合わせる。
【0021】図4に示したように、システム80は、被
吹き替え者を描写するフレームのシーケンスを規定する
ビデオ信号を受信する第1の受信器82と、そのビデオ
信号と同期した複数のオーディオ信号を受信する第2の
受信器84を有する。当業者には直ちに確かめられるよ
うに、受信器84は、被吹き替え者によって話される言
語での音声に対応する第1のオーディオ信号と、同じく
ビデオ信号と同期し吹き替え者によって供給される他言
語による発声を示す少なくとも1つの他のオーディオ信
号とを受信するようになっている。受信器84は音再生
手段86に接続され、受信したオーディオ信号のうちの
一方を出力するようになっている。手動操作可能セレク
タスイッチ88により、視聴者は、いずれのオーディオ
信号トラックを出力し再生手段86によって再生するか
を制御することによって、母国語で番組を聴くことがで
きる。
【0022】視聴者が、最初に放送または格納された、
すなわち、吹き替えのない番組を見たい場合、そのよう
にスイッチ88を設定すれば、ビデオ信号が従来のよう
に処理され、受像管90のような適当な表示手段に表示
される。同様に、第1のオーディオ信号が再生手段86
に出力される。再生手段86は、従来のオーディオスピ
ーカとして構成される。他方、視聴者が他言語に吹き替
えた番組を見たい場合、スイッチ88の位置を変更する
と、上記の本発明の方法による動作が開始される。
【0023】もとのビデオ信号がアナログ信号である場
合、A/D変換器(図示せず)によってディジタル化さ
れる。図4の実施例では、もとの信号をディジタル形式
で受信すると仮定する。従って、図示したように、入力
ビデオ信号は直接バッファ92に入力される。バッファ
92は、入力信号を格納し、それを通常のようにフレー
ム修正手段94に供給する。同様に、入力オーディオ信
号はオーディオ信号バッファ93に入力される。上記の
技術のうちの1つによって、各フレームは、吹き替え者
の発声に一致した口の形態を模擬するように修正され、
フレーム修正手段94によって通常のように受像管90
に出力される。
【0024】
【発明の効果】以上述べたごとく、本発明によれば、被
吹き替え者の口の動きを、置換される言語の場合の口の
動きに合わせることが可能なオーディオ・ビジュアル吹
き替え技術が実現される。
【図面の簡単な説明】
【図1】本発明による音声支援オーディオ・ビジュアル
吹き替え技術の実施例のさまざまなステップを示す流れ
図である。
【図2】本発明による音声支援オーディオ・ビジュアル
吹き替え技術の代替実施例のさまざまなステップを示す
流れ図である。
【図3】本発明によって構成されるオーディオ・ビジュ
アル吹き替えシステムのさまざまな要素を示すブロック
図である。
【図4】本発明のオーディオ・ビジュアル吹き替え技術
を利用したビデオ表示システムの要素を示すブロック図
である。
【符号の説明】
60 オーディオ・ビジュアル吹き替えシステム 61 フレーム取得モジュール 62 特徴抽出モジュール 63 音声信号取得モジュール 64 音声認識モジュール 66 フレーム修正モジュール 68 特徴位置生成モジュール 80 ビデオ表示システム 82 第1受信器 84 第2受信器 86 音再生手段 88 手動操作可能セレクタスイッチ 90 受像管 92 バッファ 93 オーディオ信号バッファ 94 フレーム修正手段
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 // G10L 3/00 551 G (72)発明者 ツーハン チェン アメリカ合衆国、07748 ニュージャージ ー、ミドルタウン、クラブハウス ドライ ブ 183 (72)発明者 バーリン ジェフリー ハスケル アメリカ合衆国、07724 ニュージャージ ー、ティントン フォールス、グレンウッ ド ドライブ 82 (72)発明者 エリック デービッド ペタジャン アメリカ合衆国、07060 ニュージャージ ー、ワッチュン、メープル ストリート 22

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】 被吹き替え者を描写する複数のフレーム
    から形成されるビデオまたは映画のシーケンスのもとの
    サウンドトラックを、吹き替え者による置換発声を示す
    オーディオ信号で置換するシステムにおいて、 吹き替え者の発声のオーディオ信号に応答して、それに
    合うように前記シーケンスのフレームを順次修正するフ
    レーム修正手段と、 前記オーディオ信号の各部分を、顔面特徴情報に関係づ
    ける手段とからなることを特徴とする吹き替えシステ
    ム。
  2. 【請求項2】 吹き替え者によって話される言語に関連
    する口の形態に対応するオーディオ信号の各信号部分を
    検出するモニタリング手段をさらに有することを特徴と
    する請求項1のシステム。
  3. 【請求項3】 前記信号部分のうちの少なくともいくつ
    かが音素からなることを特徴とする請求項2のシステ
    ム。
  4. 【請求項4】 前記信号部分のうちの少なくともいくつ
    かがホモフィーヌからなることを特徴とする請求項2の
    システム。
  5. 【請求項5】 前記口の形態がビジームであることを特
    徴とする請求項2のシステム。
  6. 【請求項6】 前記口の形態が吹き替え者の口の形態で
    あることを特徴とする請求項2のシステム。
  7. 【請求項7】 前記関係づける手段が、吹き替え者の各
    発声に対する口の形態パラメータデータの話者独立のテ
    ーブルを格納したメモリを有することを特徴とする請求
    項2のシステム。
  8. 【請求項8】 前記関係づける手段が、前記モニタリン
    グ手段によって信号部分が検出されるごとに対応する口
    の位置を示す被吹き替え者に依存する口の位置パラメー
    タデータを格納する手段を有することを特徴とする請求
    項2のシステム。
  9. 【請求項9】 前記関係づける手段が、前記モニタリン
    グ手段によって信号部分が検出されるごとに対応する口
    の位置を示す吹き替え者に依存する口の位置パラメータ
    データを格納する手段を有することを特徴とする請求項
    2のシステム。
  10. 【請求項10】 前記関係づける手段が、話し手の顎、
    舌、および歯のうちの少なくとも1つの所定の位置をオ
    ーディオ信号の各部分に関係づけることを特徴とする請
    求項1のシステム。
  11. 【請求項11】 被吹き替え者を描写する複数のフレー
    ムから形成されるビデオまたは映画のシーケンスのもと
    のサウンドトラックを、吹き替え者による置換発声を示
    すオーディオ信号で置換する方法において、 前記シーケンスのフレームを、吹き替え者によって話さ
    れる言語での発声に関連する顔面特徴情報に関係づける
    ステップと、 前記顔面特徴情報に従って、被吹き替え者の口の形態を
    合わせることにより前記シーケンスのフレームを順次修
    正するステップとからなることを特徴とする吹き替え方
    法。
  12. 【請求項12】 前記関係づけるステップは、 吹き替え者による発声を示し、その発声に一致するシー
    ケンスのフレームに対応するオーディオ信号部分をモニ
    タリングするステップと、 前記オーディオ信号部分に基づいて個々の顔面特徴パラ
    メータを識別するステップとを有することを特徴とする
    請求項11の方法。
  13. 【請求項13】 前記個々の顔面特徴パラメータは、吹
    き替え者の発声を話す人を示すビデオフレームから画像
    特徴抽出によって導出されることを特徴とする請求項1
    2の方法。
  14. 【請求項14】 前記人は吹き替え者であることを特徴
    とする請求項13の方法。
  15. 【請求項15】 前記発声中に吹き替え者の口の形態デ
    ータのセットを格納するステップをさらに有し、前記修
    正するステップは、前記シーケンスのフレームの発声に
    対応する吹き替え者の個々の顔面特徴を識別するステッ
    プを有することを特徴とする請求項11の方法。
  16. 【請求項16】 複数の言語のうちの1つを話す被吹き
    替え者を示すビデオ画像を表示するシステムにおいて、 被吹き替え者を描写するフレームのシーケンスを規定す
    るビデオ信号を受信する第1受信手段と、 前記ビデオ信号と同期し、被吹き替え者によって話され
    る言語での音声に対応する第1オーディオ信号を含む複
    数のオーディオ信号を受信する第2受信手段と、 前記ビデオ信号と同期し、吹き替え者によって供給され
    る他言語での発声を示す第2オーディオ信号に応答し
    て、それに合うように前記シーケンスのフレームを順次
    修正するフレーム修正手段と、 前記オーディオ信号の各部分を顔面特徴情報と関係づけ
    る手段とからなることを特徴とするビデオ画像表示シス
    テム。
  17. 【請求項17】 前記オーディオ信号およびビデオ信号
    がディジタル形式で伝送されることを特徴とする請求項
    16のシステム。
  18. 【請求項18】 伝送されるビデオ信号およびオーディ
    オ信号の各部分を格納し、前記フレーム修正手段に対応
    してビデオ信号および第2オーディオ信号の各部分を繰
    り返し供給するバッファ手段をさらに有することを特徴
    とする請求項16のシステム。
  19. 【請求項19】 被吹き替え者のビデオ画像を表示する
    表示手段と、 前記オーディオ信号を再生するスピーカ手段と、 前記第1受信手段によって受信されたフレームシーケン
    スを表示し前記第1オーディオ信号を再生する第1モー
    ドと、前記フレーム修正手段によって供給されたフレー
    ムシーケンスを表示し前記第2オーディオ信号を再生す
    る第2モードを切り替える選択手段とをさらに有するこ
    とを特徴とする請求項17のシステム。
JP7086003A 1994-03-18 1995-03-20 吹き替えシステムおよびビデオ画像表示システム Pending JPH086182A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US21081994A 1994-03-18 1994-03-18
US210819 1994-03-18

Publications (1)

Publication Number Publication Date
JPH086182A true JPH086182A (ja) 1996-01-12

Family

ID=22784370

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7086003A Pending JPH086182A (ja) 1994-03-18 1995-03-20 吹き替えシステムおよびビデオ画像表示システム

Country Status (4)

Country Link
EP (1) EP0674315A1 (ja)
JP (1) JPH086182A (ja)
KR (1) KR950034155A (ja)
CA (1) CA2144795A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9596386B2 (en) 2012-07-24 2017-03-14 Oladas, Inc. Media synchronization
US10339973B2 (en) 2017-02-13 2019-07-02 International Business Machines Corporation System and method for audio dubbing and translation of a video

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996027983A1 (en) 1995-03-07 1996-09-12 Interval Research Corporation System and method for selective recording of information
US7109993B2 (en) 1995-10-08 2006-09-19 Yissum Research Development Company Of The Hebrew University Of Jerusalem Method and system for the automatic computerized audio visual dubbing of movies
JP4078677B2 (ja) 1995-10-08 2008-04-23 イーサム リサーチ デヴェロップメント カンパニー オブ ザ ヘブライ ユニヴァーシティ オブ エルサレム 映画のコンピュータ化された自動オーディオビジュアルダビングのための方法
US5880788A (en) * 1996-03-25 1999-03-09 Interval Research Corporation Automated synchronization of video image sequences to new soundtracks
EP0848850A1 (fr) * 1996-07-08 1998-06-24 Régis Dubos Procede et dispositifs audiovisuels de doublage de films
US6263507B1 (en) 1996-12-05 2001-07-17 Interval Research Corporation Browser for use in navigating a body of information, with particular application to browsing information represented by audiovisual data
US5893062A (en) 1996-12-05 1999-04-06 Interval Research Corporation Variable rate video playback with synchronized audio
EP1108246A1 (en) * 1999-06-24 2001-06-20 Koninklijke Philips Electronics N.V. Post-synchronizing an information stream
US7155735B1 (en) 1999-10-08 2006-12-26 Vulcan Patents Llc System and method for the broadcast dissemination of time-ordered data
US6757682B1 (en) 2000-01-28 2004-06-29 Interval Research Corporation Alerting users to items of current interest
GB2370954B (en) 2001-01-04 2005-04-13 British Broadcasting Corp Producing a soundtrack for moving picture sequences
US8655152B2 (en) 2012-01-31 2014-02-18 Golden Monkey Entertainment Method and system of presenting foreign films in a native language
US9892758B2 (en) 2013-12-20 2018-02-13 Nokia Technologies Oy Audio information processing
US20160042766A1 (en) * 2014-08-06 2016-02-11 Echostar Technologies L.L.C. Custom video content
CN108648251B (zh) * 2018-05-15 2022-05-24 奥比中光科技集团股份有限公司 3d表情制作方法及系统
CN113761988A (zh) * 2020-06-05 2021-12-07 北京灵汐科技有限公司 图像处理方法、图像处理装置、存储介质和电子设备
CN112752118B (zh) * 2020-12-29 2023-06-27 北京字节跳动网络技术有限公司 视频生成方法、装置、设备及存储介质
CN114466179A (zh) * 2021-09-09 2022-05-10 马上消费金融股份有限公司 语音与图像同步性的衡量方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2101795B (en) * 1981-07-07 1985-09-25 Cross John Lyndon Dubbing translations of sound tracks on films
FR2571196B1 (fr) * 1984-10-02 1987-01-23 Guinet Yves Procede de television pour programmes multilingues
US4600218A (en) * 1984-11-21 1986-07-15 General Dynamics, Pomona Division Separable high pressure gas line isolator
US4600281A (en) * 1985-03-29 1986-07-15 Bloomstein Richard W Altering facial displays in cinematic works
JPS62239231A (ja) * 1986-04-10 1987-10-20 Kiyarii Rabo:Kk 口唇画像入力による音声認識方法
US4913539A (en) * 1988-04-04 1990-04-03 New York Institute Of Technology Apparatus and method for lip-synching animation
US5111409A (en) * 1989-07-21 1992-05-05 Elon Gasper Authoring and use systems for sound synchronized animation
GB9019829D0 (en) * 1990-09-11 1990-10-24 British Telecomm Speech analysis and image synthesis
FR2683415B1 (fr) * 1991-10-30 1996-08-09 Telediffusion Fse Systeme d'analyse video du montage d'un programme televise diffuse ou enregistre et son utilisation pour les techniques de post production, notamment multilingues.

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9596386B2 (en) 2012-07-24 2017-03-14 Oladas, Inc. Media synchronization
US10339973B2 (en) 2017-02-13 2019-07-02 International Business Machines Corporation System and method for audio dubbing and translation of a video
US10607652B2 (en) 2017-02-13 2020-03-31 International Business Machines Corporation Dubbing and translation of a video

Also Published As

Publication number Publication date
EP0674315A1 (en) 1995-09-27
KR950034155A (ko) 1995-12-26
CA2144795A1 (en) 1995-09-19

Similar Documents

Publication Publication Date Title
JPH086182A (ja) 吹き替えシステムおよびビデオ画像表示システム
US5880788A (en) Automated synchronization of video image sequences to new soundtracks
US4260229A (en) Creating visual images of lip movements
JP4599244B2 (ja) 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
US7076429B2 (en) Method and apparatus for presenting images representative of an utterance with corresponding decoded speech
US7015934B2 (en) Image displaying apparatus
JP2589478B2 (ja) 画像合成装置
Garrido et al. Vdub: Modifying face video of actors for plausible visual alignment to a dubbed audio track
US7343082B2 (en) Universal guide track
US7697787B2 (en) Dynamic replacement of the face of an actor in a video movie
US7780450B2 (en) Video instructional system and method for teaching motor skills
US6492990B1 (en) Method for the automatic computerized audio visual dubbing of movies
US9324340B2 (en) Methods and apparatuses for use in animating video content to correspond with audio content
Goecke et al. The audio-video Australian English speech data corpus AVOZES
NZ532174A (en) Voice over synchronisation
JP5137031B2 (ja) 台詞音声作成装置、発話音声収録装置、及びコンピュータプログラム
JPH10243351A (ja) 映像再生装置
JPH0756494A (ja) 発音訓練装置
Tsioustas et al. Innovative applications of natural language processing and digital media in theatre and performing arts
JP4052561B2 (ja) 映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラム
JP2006163269A (ja) 語学学習装置
WO2023167212A1 (ja) コンピュータプログラム、情報処理方法及び情報処理装置
Theobald et al. Visual speech synthesis using statistical models of shape and appearance
US20050110870A1 (en) System and method for object tracking path generation
WO1998038642A1 (en) Sound synchronizing