JPH086182A

JPH086182A - 吹き替えシステムおよびビデオ画像表示システム

Info

Publication number: JPH086182A
Application number: JP7086003A
Authority: JP
Inventors: Homer H Chen; エイチ．チェンホーマー; Tsuhan Chen; チェンツーハン; Jeffrey Haskell Burlin; ジェフリーハスケルバーリン; David Petajan Eric; デービッドペタジャンエリック
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1994-03-18
Filing date: 1995-03-20
Publication date: 1996-01-12
Also published as: KR950034155A; EP0674315A1; CA2144795A1

Abstract

(57)【要約】【目的】被吹き替え者の口の動きを、置換される言語
の場合の口の動きに合わせることが可能なオーディオ・
ビジュアル吹き替え技術を実現する。【構成】被吹き替え者を描写するビデオのシーケンス
のもとのサウンドトラックを、吹き替え者による置換発
声を示す音声信号で置換する際に、格納または伝送され
たシーケンスのフレームを、吹き替え者によって話され
る言語による発声に対応する顔面特徴情報と関連づけ
る。シーケンスのフレームは、検出される吹き替え者の
発声に関連するルックアップテーブルを用いた顔面特徴
情報によって、被吹き替え者の口の形態を、吹き替え者
の話者独立な口の形態または俳優の口の形態のセットに
合わせることによって修正される。番組の視聴者が吹き
替え版を選択すると、第２サウンドトラックを利用し
て、被吹き替え者の口の動きを、吹き替え者の発声をし
た者の口の動きに合わせる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、一般的に、ビデオまた
は映画メディアのサウンドトラックに音響を記録するこ
とに関し、特に、このようなメディアで描写されまたは
表現された、話をしている俳優の口の動きが、「吹き替
え」の、すなわち、置換されている外国語の話し手のも
のと一貫性があるように合わせる方法および装置に関す
る。

【０００２】

【従来の技術】ビデオまたは映画のサウンドトラックを
他の言語に翻訳するさまざまな技術が提供されている。
最も一般的な方法は、吹き替え、すなわち、オリジナル
の代わりに第２言語の音声で置換することである。例え
ば、米国特許第３，７４３，３９１号（発明の名称：動
画フィルムに鮮明なサウンドトラックの吹き替えをする
システム(SYSTEM FOR DUBBING FRESH SOUND TRACKS ON
MOTION PICTURE FILMS)）には、ビデオテープレコーデ
ィングがもとの動画と同期して形成されるような吹き替
え技術が開示されている。テープはテレビ画面を駆動
し、その一方で、キュー情報がテープに記録されるか、
または、動画フィルムにマークされる。テープを再生す
るとき、キュー情報を使用して、他言語での会話を含む
所望の音響情報の記録を呼び出す。音響情報の記録はセ
グメント単位でなされ、テープまたはフィルム上で別に
横に配置された細長い領域に沿って記録され、それらが
関連する画像記録と対応するようにセグメントを並置す
るよう工夫されている。

【０００３】最近では、ディジタル化（ディジタイズ）
したビデオフレームシーケンスをコンピュータによって
格納し操作することが可能な専用ソフトウェアプログラ
ムが市販されている。このようなプログラムを利用し
て、ビデオフレームのシーケンスをモニタに表示し、選
択した音声信号セグメントを正確に合わせることができ
る。このようにして、現在では、吹き替え者の音声と、
俳優の視覚的キュー（例えば、身ぶり、表情など）を、
対応する話をしている俳優すなわち「被吹き替え者」を
描写するビデオフレームシーケンスにおいて可能な限り
一致させることができる。

【０００４】しかし、特別な技術が使用されているにも
かかわらず、音声セグメント配置の正確な制御によって
は克服することができない限界が、外国語吹き替えには
存在する。特に、被吹き替え者の口の動きが、吹き替え
者の音声と一致しないことが起こりやすい。このような
不一致は非常に視聴者を混乱させることがあり、特に、
口の形態および唇の動きのタイプがそれぞれの言語で非
常に異なる場合にはそうである。

【０００５】

【発明が解決しようとする課題】従って、本発明の目的
は、被吹き替え者の口の動きを、置換される言語の場合
の口の動きに合わせることが可能なオーディオ・ビジュ
アル吹き替え技術を実現することである。

【０００６】

【課題を解決するための手段】被吹き替え者を描写する
ビデオまたは映画のシーケンスのもとのサウンドトラッ
クを、吹き替え者による置換発声を示す音声信号で置換
する本発明のシステムおよび方法によれば、格納または
伝送されたシーケンスのフレームを、吹き替え者によっ
て話される言語による発声に対応する顔面特徴情報と関
連づける。シーケンスのフレームは、検出される吹き替
え者の発声に関連するルックアップテーブルを用いた顔
面特徴情報によって、被吹き替え者の口の形態を、吹き
替え者の話者独立な口の形態または俳優の口の形態のセ
ットに合わせることによって修正される。本発明の１つ
の特徴によれば、現在伝送され、または、以前に格納さ
れた番組の視聴者は、もとの放送を見るか、または、被
吹き替え者のものとは別の言語での発声を示す第２のサ
ウンドトラックが再生されるような吹き替え版を見るか
を、手動で選択することができる。後者のような選択が
なされると、第２サウンドトラックを利用して、被吹き
替え者の口の動きを、吹き替え者の発声をした者の口の
動きに合わせる。

【０００７】本発明によるオーディオ・ビジュアル吹き
替えを実行する装置は、吹き替え者の発声を示す音声信
号部分を検出するモニタリング手段を有する。各信号部
分は、吹き替え者によって話される言語に関する口の形
態すなわちビジーム（viseme、視覚上の単位）に対応す
る。各信号部分に対する音声認識を実行することによっ
て、あるフレームに関係づけられることになる発声が、
特定の視覚的に認識可能な口の形態を利用することを話
者に要求する音素、ホモフィーヌ(homophene)またはそ
の他の音に対応するかどうかを判定することができる。
もとのシーケンスの各フレームを修正するために、口形
態パラメータが利用される。口形態パラメータは、吹き
替え者の画像から、または、吹き替え者の音声に一致す
る音素または他の音声セグメントを発声する複数の人の
画像から抽出される。いずれの場合にも、このパラメー
タを、もとのフレームにおける対応する特徴のスケール
に合わせて変化させ、テクスチャマッピングを実行し
て、被吹き替え者が吹き替え者の発声をしているように
見える修正フレームを得る。

【０００８】もちろん、当業者には理解されるように、
吹き替え者によって置換される音声の発声を模擬するよ
うに被吹き替え者の表情を合わせる際に使用するため
に、他の顔面情報を事前に抽出し格納しておくことも可
能である。また、本発明は、顎、舌、および歯の位置
を、音声信号の各部分に関係づけるように作用する関係
付け手段を利用することも可能である。

【０００９】

【実施例】図１で、ブロック１０では、少なくとも１人
の人を描写するディジタル化ビデオシーケンスのフレー
ムを取得する。ビデオまたは映画をディジタル化する技
術は周知であり、市販されているため、本発明の新規な
特徴を構成するものではない。従って、そのような技術
の詳細な説明は省略する。いずれの場合にも、当業者に
は直ちに理解されるように、ビデオシーケンスと同期し
て、描写されている俳優による音声などの音を表す、も
との音声信号トラックが対応している。上記のように、
本発明の主な目的は、俳優のもとの言語を表すもとの音
声信号の部分を、視聴者に与える視覚的混乱を最小にす
るように、他の言語を表す音声信号部分によって置換す
なわち「吹き替える」ことができるようなシステムおよ
び方法を提供することである。図１に示した技術によれ
ば、この目的は、俳優の口の動き（および、必要に応じ
て、他の顔面特徴）を修正し、吹き替え者によって提供
される言語を話す人による口の動きに合わせるようにす
ることによって達成される。

【００１０】図１の説明を続けると、ブロック１４で、
適当な画像特徴抽出アルゴリズムによって、取得したフ
レームに対して特徴抽出を実行する。特に唇の分析に関
する画像特徴抽出技術は、例えば、米国特許第４，９７
５，９６０号（発明者：エリック・ディ．ペタジャン(E
ric D. Petajan)、発行日：１９９０年１２月４日、発
明の名称：電子的顔面追跡検出システムならびに自動音
声認識の方法および装置(ELECTRONIC FACIAL TRACKING
AND DETECTION SYSTEM AND METHOD AND APPARATUS FOR
AUTOMATED SPEECH RECOGNITION)）に記載されている。
特徴抽出中には、取得したフレームを分析し、おそらく
話している間に変動する唇、目、および顎のような顔面
特徴に対応する位置および臨界的寸法を決定する。最も
簡単な形式では、この分析は俳優の唇の動きのみに関す
るものである。しかし、容易に確かめられるように、よ
り現実的な適応のためには、舌、歯、目、および顎の形
態も考慮すべきである。この目的に適したモデル化技術
は既に提案されているので、細かいモデル化技術の詳細
な説明はここでは不要であると考える。参考文献として
は、英国グラスゴーでの１９８９年ＩＣＡＳＳＰで発表
されたシゲオ・モリシマ(Shigeo Morishima)他による論
文「音声および音素によって駆動される知的顔面画像符
号化(An Intelligent Facial Image Coding Driven by
Speech and Phoneme)」がある。この論文では、３次元
顔面モデル化技術において、俳優の顔の幾何学的面を多
角形（例えば三角形）の集合として定義したものが記載
されている。

【００１１】いずれにしても、特徴抽出を実行した後、
本発明によれば、俳優すなわち「被吹き替え者」のフレ
ーム画像を、吹き替え者の言語での発声を模擬するよう
に適合させることが可能となる。図１の実施例によれ
ば、上記の適合は、ブロック１６に示したように、フレ
ーム中の吹き替え者の音声を示すオーディオ信号部分を
分析することによって達成される。吹き替え者の音声を
もとのビデオフレームシーケンスとどのように同期させ
るかということは、本発明の技術によって得られる結果
にそれほど重大な影響を及ぼさない。例えば、吹き替え
トラック全体を事前に記録しておき、市販のソフトウェ
アプログラム（例えば、アドビ・システムズ・インコー
ポレーテッド(Adobe Systems Incorporated)のアドビ・
プライマー）を使用してビデオシーケンスと整合させ
る。または、フレーム適合プロセス中に、シーケンスご
とに吹き替えトラックを記録することも可能である。い
ずれの場合でも、従来の音声認識回路（図示せず）によ
って実行可能な音声信号分析で、完全な文脈レベルの認
識は不要である。その理由は、分析の目的は、吹き替え
者の発声を音素のシーケンスに分解することだからであ
る。本質的には、これらの音素はそれぞれ、ビジームと
して知られる視覚的な口の形状にマッピングすることが
できる。本実施例を簡略化した場合には、音声信号は、
吹き替え者の発声に含まれるホモフィーヌを識別するた
めに分析される。本質的には、ホモフィーヌとは、唇、
歯、および舌の位置を観察者からは視覚的に類似するよ
うにして、話し手によって同じようにして生成される音
素の集合のことである。もちろん、高度のパフォーマン
スが要求される場合には、文脈レベルの音声認識を実行
し、音素情報を抽出することも可能である。

【００１２】図１の実施例によれば、修正されたフレー
ムは、音声認識によって得られた音素データを用いて、
特徴抽出によって得られたパラメトリック顔面モデルを
修正することにより生成される。ブロック１８に示した
ように、これは、各ビジームに対応するパラメトリック
位置データを含むルックアップテーブルをアドレスする
ことによって達成される。画像品質を保つことが重要で
あるため、ルックアップテーブルに含まれる情報の詳細
は、各ビジームに対する唇、歯、および目の位置に関す
る情報を含むべきである。

【００１３】人が各音素を発音するために使用する口の
位置は一般に話者に依存する。ブロック１８で利用され
るルックアップテーブルは、話者独立の顔面特徴情報を
含むようにすることも可能である。この場合には、本発
明によるビデオフレームシーケンスの吹き替え音声適合
は、ブロック２０に示したように、格納されている特徴
情報から、画像特徴抽出によってもとのフレームから得
られた特徴情報へのスケーリングすなわちデノーマリゼ
ーション(de-normalization)が必要である。デノーマリ
ゼーションは、単に、話者の必要な各顔面特徴の所定の
特徴点の位置を決定し、対応するルックアップテーブル
の位置パラメータデータをスケーリングすることしか必
要としない。例えば口に関するこのような特徴点の位置
は、上記のモリシマ他の文献に記載されている。

【００１４】ブロック２２に示したように、吹き替え者
の音声を示すオーディオ信号から第１の音素を識別し、
それに対応する、格納されている話者独立の顔面特徴の
デノーマリゼーションを実行した後、もとのフレームか
ら取得した顔面反射率データの増分テクスチャマッピン
グを実行して、俳優がその音素またはホモフィーヌを発
声しているように見えるように俳優の口の形を変更す
る。本質的に、テクスチャマッピング技術は当業者には
周知であり、例えば、アフィン変換を使用したテクスチ
ャ座標の補間を含む。このような技術の詳細な説明は、
エイチ．チョイ(H. Choi)他、「顔面画像シーケンスの
知識ベース符号化における表情の分析および合成(Analy
sis and Synthesis of Facial Expressions in Knowled
ge-Based Coding of Facial Image Sequences)」、Inte
rnational Conference on Acoustics Speech and Signa
l Processing、第２７３７〜４０ページ（１９９１
年）、に記載されている。

【００１５】ブロック２４および２６に示したように、
修正されたフレームはもとのフレームから生成されて格
納される。ここまでのステップは、シーケンスの終端に
達するまで、シーケンス内の各フレームに対して繰り返
される。もちろん当業者には理解されるように、図１の
実施例のさまざまな変形が可能である。例えば、本発明
の目的のために、ビジームを話者独立のものとしてモデ
ル化したが、フレーム適合プロセスのパフォーマンスを
向上させることも可能である。その場合、変形実施例で
は、上記のように話者独立のビジームデータを含むデフ
ォルトのルックアップテーブルを利用する代わりに、伝
送または格納されたフレームに対応する音素を示すもと
のオーディオ信号部分を分析することにより話者依存の
ルックアップテーブルを導出するようにすることができ
る。吹き替え者と被吹き替え者の言語に共通な音素（ま
たはその他の、口の形態を示す音声パラメータ）が検出
されるごとに、対応するフレーム画像に対して特徴抽出
を実行し、特徴位置パラメータを格納する。このように
して、話者依存テーブルを俳優ごとに構成することがで
きる。もちろん、被吹き替え者の言語にはない音素が吹
き替え者の音声に現れた場合には、ルックアップテーブ
ルを利用する必要がある。

【００１６】本発明のもう１つの実施例を図２に示す。
この実施例によれば、被吹き替え者の口の形態が吹き替
え者の口の形態へと適合される。図２に示したように、
ブロック４０および４４は、図１のブロック１０および
１４と同一である。しかし、模擬した口の位置パラメー
タデータを得るために吹き替え者に対応するオーディオ
信号に対して音声認識を実行する代わりに、吹き替え者
自身の実際の口の形態を利用する。すなわち、吹き替え
音声部分の記録中に吹き替え者の口をビデオに記録す
る。従って、ブロック４６に示したように、吹き替え者
の口に対して画像特徴抽出を実行する。特に、吹き替え
者のオーディオ音声と、被吹き替え者を描写するフレー
ムシーケンスの間の時間的関係が確立すると、顔面パラ
メータ（すなわち、口の形態のデータ）がフレームごと
に抽出される。抽出されたパラメータデータに対してデ
ノーマリゼーションが実行され（ブロック４８）、もと
のフレームのテクスチャがマッピングされ（ブロック４
９）、修正されたフレームが生成される（ブロック５
０）。図１の実施例の場合と同様に、ビデオシーケンス
は、シーケンスの最終フレームが格納されるまでフレー
ムごとに修正される（ブロック５２、５４、および５
６）。

【００１７】本発明の実施例に従って構成したオーディ
オ・ビジュアル吹き替えシステム６０の例を図３に示
す。図３において、もとのビデオフレームシーケンスを
示すディジタル化ビデオ信号が、フレーム取得モジュー
ル６１によって順に取得される。特徴抽出モジュール６
２は、上記のように、取得した各フレームに対して画像
特徴抽出を実行する。その間に、音声認識モジュール６
４が、オーディオ信号を分析して音素またはホモフィー
ヌの内容を識別する。この音声認識モジュール６４は従
来の音声認識回路でよい。上記のように、伝送されたフ
レーム間に生じる話者の適当なビジームまたはその他の
顔面情報は、音素内容から高い信頼性で予測することが
できる。当業者には直ちに確かめられるように、吹き替
え者の分析を容易にするために、オーディオ信号を事前
に記録しておき、ビデオシーケンスと同期させることが
できる。図３の実施例では、このようにして格納された
オーディオ信号が、オーディオ信号取得モジュール６３
によって出力され、音声認識モジュール６４によって取
得される。

【００１８】上記のように、特定の音素またはホモフィ
ーヌがモジュール６４で検出されると、フレーム修正モ
ジュール６６が、特徴位置生成モジュール６８をアドレ
ス市、音素またはホモフィーヌを発声した人の特徴およ
び特徴位置に対応する口の形態（ビジーム）、目、頬、
および顎の位置などのような顔面特徴を示す顔面位置パ
ラメータデータを取得する。上記のように、顔面特徴情
報は、話者独立の顔面特徴位置パラメータに制限される
必要はなく、実際には、被吹き替え者の音声を表すもと
のオーディオ信号の音素内容をモニタリングすることに
よって得られる情報を含むことも可能である。

【００１９】フレーム修正モジュール６６は、モジュー
ル６８によって提供されるもとのフレームおよび位置パ
ラメータ情報を利用して、修正されたフレームを生成す
る。フレーム修正モジュール６６は、従来のビデオ信号
生成器を含むように構成されたものでよい。位置パラメ
ータデータはまずフレーム修正モジュールによってデノ
ーマリゼーションを受け、もとのフレームの寸法に合わ
せられる。修正されたフレームは、シーケンス全体が生
成されるまで順に格納される。

【００２０】図４に、本発明の変形実施例によって構成
されたビデオ表示システム８０を示す。この変形実施例
によれば、現在伝送されてきたテレビジョン放送または
事前に格納された番組の視聴者は手動で、もとの放送も
しくは番組をもとの音声または番組を表す第１の同期オ
ーディオ信号とともに見るか、または、被吹き替え者以
外の言語による発声を示す（すなわち、そのような発声
を表す、または、そのような発声を含む）第２のオーデ
ィオトラックが再生される吹き替え版を見るかのいずれ
かを選択する。後者の選択が行われると、第２のオーデ
ィオトラックを利用して、被吹き替え者の口の動きを吹
き替え者の口の動きに合わせる。

【００２１】図４に示したように、システム８０は、被
吹き替え者を描写するフレームのシーケンスを規定する
ビデオ信号を受信する第１の受信器８２と、そのビデオ
信号と同期した複数のオーディオ信号を受信する第２の
受信器８４を有する。当業者には直ちに確かめられるよ
うに、受信器８４は、被吹き替え者によって話される言
語での音声に対応する第１のオーディオ信号と、同じく
ビデオ信号と同期し吹き替え者によって供給される他言
語による発声を示す少なくとも１つの他のオーディオ信
号とを受信するようになっている。受信器８４は音再生
手段８６に接続され、受信したオーディオ信号のうちの
一方を出力するようになっている。手動操作可能セレク
タスイッチ８８により、視聴者は、いずれのオーディオ
信号トラックを出力し再生手段８６によって再生するか
を制御することによって、母国語で番組を聴くことがで
きる。

【００２２】視聴者が、最初に放送または格納された、
すなわち、吹き替えのない番組を見たい場合、そのよう
にスイッチ８８を設定すれば、ビデオ信号が従来のよう
に処理され、受像管９０のような適当な表示手段に表示
される。同様に、第１のオーディオ信号が再生手段８６
に出力される。再生手段８６は、従来のオーディオスピ
ーカとして構成される。他方、視聴者が他言語に吹き替
えた番組を見たい場合、スイッチ８８の位置を変更する
と、上記の本発明の方法による動作が開始される。

【００２３】もとのビデオ信号がアナログ信号である場
合、Ａ／Ｄ変換器（図示せず）によってディジタル化さ
れる。図４の実施例では、もとの信号をディジタル形式
で受信すると仮定する。従って、図示したように、入力
ビデオ信号は直接バッファ９２に入力される。バッファ
９２は、入力信号を格納し、それを通常のようにフレー
ム修正手段９４に供給する。同様に、入力オーディオ信
号はオーディオ信号バッファ９３に入力される。上記の
技術のうちの１つによって、各フレームは、吹き替え者
の発声に一致した口の形態を模擬するように修正され、
フレーム修正手段９４によって通常のように受像管９０
に出力される。

【００２４】

【発明の効果】以上述べたごとく、本発明によれば、被
吹き替え者の口の動きを、置換される言語の場合の口の
動きに合わせることが可能なオーディオ・ビジュアル吹
き替え技術が実現される。

【図面の簡単な説明】

【図１】本発明による音声支援オーディオ・ビジュアル
吹き替え技術の実施例のさまざまなステップを示す流れ
図である。

【図２】本発明による音声支援オーディオ・ビジュアル
吹き替え技術の代替実施例のさまざまなステップを示す
流れ図である。

【図３】本発明によって構成されるオーディオ・ビジュ
アル吹き替えシステムのさまざまな要素を示すブロック
図である。

【図４】本発明のオーディオ・ビジュアル吹き替え技術
を利用したビデオ表示システムの要素を示すブロック図
である。

【符号の説明】

６０オーディオ・ビジュアル吹き替えシステム６１フレーム取得モジュール６２特徴抽出モジュール６３音声信号取得モジュール６４音声認識モジュール６６フレーム修正モジュール６８特徴位置生成モジュール８０ビデオ表示システム８２第１受信器８４第２受信器８６音再生手段８８手動操作可能セレクタスイッチ９０受像管９２バッファ９３オーディオ信号バッファ９４フレーム修正手段

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所 // Ｇ１０Ｌ 3/00 ５５１Ｇ (72)発明者ツーハンチェンアメリカ合衆国、07748 ニュージャージー、ミドルタウン、クラブハウスドライブ 183 (72)発明者バーリンジェフリーハスケルアメリカ合衆国、07724 ニュージャージー、ティントンフォールス、グレンウッドドライブ 82 (72)発明者エリックデービッドペタジャンアメリカ合衆国、07060 ニュージャージー、ワッチュン、メープルストリート 22

Claims

【特許請求の範囲】

【請求項１】被吹き替え者を描写する複数のフレーム
から形成されるビデオまたは映画のシーケンスのもとの
サウンドトラックを、吹き替え者による置換発声を示す
オーディオ信号で置換するシステムにおいて、吹き替え者の発声のオーディオ信号に応答して、それに
合うように前記シーケンスのフレームを順次修正するフ
レーム修正手段と、前記オーディオ信号の各部分を、顔面特徴情報に関係づ
ける手段とからなることを特徴とする吹き替えシステ
ム。
【請求項２】吹き替え者によって話される言語に関連
する口の形態に対応するオーディオ信号の各信号部分を
検出するモニタリング手段をさらに有することを特徴と
する請求項１のシステム。
【請求項３】前記信号部分のうちの少なくともいくつ
かが音素からなることを特徴とする請求項２のシステ
ム。
【請求項４】前記信号部分のうちの少なくともいくつ
かがホモフィーヌからなることを特徴とする請求項２の
システム。
【請求項５】前記口の形態がビジームであることを特
徴とする請求項２のシステム。
【請求項６】前記口の形態が吹き替え者の口の形態で
あることを特徴とする請求項２のシステム。
【請求項７】前記関係づける手段が、吹き替え者の各
発声に対する口の形態パラメータデータの話者独立のテ
ーブルを格納したメモリを有することを特徴とする請求
項２のシステム。
【請求項８】前記関係づける手段が、前記モニタリン
グ手段によって信号部分が検出されるごとに対応する口
の位置を示す被吹き替え者に依存する口の位置パラメー
タデータを格納する手段を有することを特徴とする請求
項２のシステム。
【請求項９】前記関係づける手段が、前記モニタリン
グ手段によって信号部分が検出されるごとに対応する口
の位置を示す吹き替え者に依存する口の位置パラメータ
データを格納する手段を有することを特徴とする請求項
２のシステム。
【請求項１０】前記関係づける手段が、話し手の顎、
舌、および歯のうちの少なくとも１つの所定の位置をオ
ーディオ信号の各部分に関係づけることを特徴とする請
求項１のシステム。
【請求項１１】被吹き替え者を描写する複数のフレー
ムから形成されるビデオまたは映画のシーケンスのもと
のサウンドトラックを、吹き替え者による置換発声を示
すオーディオ信号で置換する方法において、前記シーケンスのフレームを、吹き替え者によって話さ
れる言語での発声に関連する顔面特徴情報に関係づける
ステップと、前記顔面特徴情報に従って、被吹き替え者の口の形態を
合わせることにより前記シーケンスのフレームを順次修
正するステップとからなることを特徴とする吹き替え方
法。
【請求項１２】前記関係づけるステップは、吹き替え者による発声を示し、その発声に一致するシー
ケンスのフレームに対応するオーディオ信号部分をモニ
タリングするステップと、前記オーディオ信号部分に基づいて個々の顔面特徴パラ
メータを識別するステップとを有することを特徴とする
請求項１１の方法。
【請求項１３】前記個々の顔面特徴パラメータは、吹
き替え者の発声を話す人を示すビデオフレームから画像
特徴抽出によって導出されることを特徴とする請求項１
２の方法。
【請求項１４】前記人は吹き替え者であることを特徴
とする請求項１３の方法。
【請求項１５】前記発声中に吹き替え者の口の形態デ
ータのセットを格納するステップをさらに有し、前記修
正するステップは、前記シーケンスのフレームの発声に
対応する吹き替え者の個々の顔面特徴を識別するステッ
プを有することを特徴とする請求項１１の方法。
【請求項１６】複数の言語のうちの１つを話す被吹き
替え者を示すビデオ画像を表示するシステムにおいて、被吹き替え者を描写するフレームのシーケンスを規定す
るビデオ信号を受信する第１受信手段と、前記ビデオ信号と同期し、被吹き替え者によって話され
る言語での音声に対応する第１オーディオ信号を含む複
数のオーディオ信号を受信する第２受信手段と、前記ビデオ信号と同期し、吹き替え者によって供給され
る他言語での発声を示す第２オーディオ信号に応答し
て、それに合うように前記シーケンスのフレームを順次
修正するフレーム修正手段と、前記オーディオ信号の各部分を顔面特徴情報と関係づけ
る手段とからなることを特徴とするビデオ画像表示シス
テム。
【請求項１７】前記オーディオ信号およびビデオ信号
がディジタル形式で伝送されることを特徴とする請求項
１６のシステム。
【請求項１８】伝送されるビデオ信号およびオーディ
オ信号の各部分を格納し、前記フレーム修正手段に対応
してビデオ信号および第２オーディオ信号の各部分を繰
り返し供給するバッファ手段をさらに有することを特徴
とする請求項１６のシステム。
【請求項１９】被吹き替え者のビデオ画像を表示する
表示手段と、前記オーディオ信号を再生するスピーカ手段と、前記第１受信手段によって受信されたフレームシーケン
スを表示し前記第１オーディオ信号を再生する第１モー
ドと、前記フレーム修正手段によって供給されたフレー
ムシーケンスを表示し前記第２オーディオ信号を再生す
る第２モードを切り替える選択手段とをさらに有するこ
とを特徴とする請求項１７のシステム。