JP7267568B2

JP7267568B2 - 映像・音声合成方法

Info

Publication number: JP7267568B2
Application number: JP2018206333A
Authority: JP
Inventors: 淳也岡部
Original assignee: 株式会社ブラスト
Priority date: 2018-11-01
Filing date: 2018-11-01
Publication date: 2023-05-02
Anticipated expiration: 2038-11-01
Also published as: JP2020072415A

Description

特許法第３０条第２項適用２０１８年１０月１３日から１０月１４日まで、株式会社ブラストは、フランスカンヌで開催された展示会ｍｉｐｊｎｕｎｉｏｒにおいて、ガイドブックｍｉｐｊｎｕｎｉｏｒに岡部淳也が発明した映像・音声合成方法を掲載し公開を行った。

特許法第３０条第２項適用２０１８年１０月１５日から１０月１８日まで、株式会社ブラストは、フランスカンヌで開催された展示会ｍｉｐｃｏｍにおいて、ガイドブックｍｉｐｃｏｍＰＲＥＶＩＥＷに岡部淳也が発明した映像・音声合成方法を掲載し公開を行った。

本発明は、特に映画ドラマ関係の映像・音声合成方法に関する。

従来、外国から日本へ輸入された外国映画コンテンツ、もしくは外国へ輸出された日本の邦画映画コンテンツが、上映＆放映＆ネット配信される場合、放映される相手国視聴者へドラマ内容を理解させるため二つの映像翻訳技法がある。一つは、画面下に相手国言語に翻訳した字幕をシーンごとに入れ込み、映像と字幕を視聴されることで作品内容を理解させる。もう一つは、ドラマ内に出演する人物の言語音声を、相手国の声優（声だけの人物）が喋り、それの収録した音声に差替え視聴者へ作品内容を理解させる。
このような映像字幕若しくは台詞吹替の二つの手段が存在することで、外国の人物が出演する外国ドラマの映像コンテンツは世界的に輸出販売することが容易となっている。

このような外国映画の映像コンテンツを視聴する場合、例えば、特許文献１に示されるように、映画で用いられている言語と放映される地域での言語が異なる場合、映像コンテンツの言語情報に基づいて音声認識後放映される地域の言語に翻訳処理された音声が出力でき、また、翻訳処理された音声データを文字情報に変換され字幕等として表示できる情報処理装置が開示されている。これにより、視聴者の語学力によることなく、容易に外国の映画コンテンツを視聴し理解することができる。

特開２００３－１６０８０公報（段落００７０～段落００７４）

しかしながら、特許文献１のように、映像コンテンツの言語情報に基づいて音声翻訳出力や映像字幕が機械的に実現されたとしても、人物の生声やリアルなニュアンスを視聴者は人物が変わっていないため直に受け取ることができない。
また、同じ内容の日本映画を外国映画或いは外国映画を日本映画とする場合、舞台となる全てのセットをそれぞれ製作放映される国にて準備する必要があった。

そこで、本発明は、このような課題を解決するために、従来の字幕作成や音声翻訳技術を用いることなく、また、一度製作したセットを再利用することができ、登場する人物を各国放映国の人物が演じた映像コンテンツを製作コスト削減しつつ容易に製作する映像・音声合成方法を提供するものである。

このような目的を達成するために、第一の発明の映像と音声を合成する映像・音声合成方法は、
カメラで実写された実写人物映像とコンピュータグラフィックで製作された人物の背景となる舞台映像とを対応付けて合成する映像合成のステップと、
前記実写人物の実録音声と当該実録音声の背景となるサウンド音とを対応付けて合成するサウンド合成のステップと、
さらに、前記映像合成のステップの出力と前記サウンド合成のステップの出力とを合成して映像コンテンツを製作するステップと、
前記映像コンテンツの前記実写人物映像とは異なる人物の実写人物映像に差し替えるステップと、
前記実写人物映像とは異なる人物の実写人物映像と前記舞台映像とを対応付けて合成する映像合成のステップと、
前記映像コンテンツの前記実録音声とは異なる人物の実録音声に差し替え、前記サウンドとを対応付けて合成するサウンド合成のステップと、
さらに、前記異なる人物の映像合成のステップの出力と前記サウンド合成のステップの出力とを合成して映像翻訳コンテンツを製作するステップからなることを特徴とする。
第二の発明は、第一の発明において、前記実写人物映像と前記実録音声の合成及び異なる人物の前記実写人物映像と前記実録音声の合成は同期して行なわれることを特徴とする。

本発明によれば、従来の字幕作成や音声翻訳技術を用いることなく、また、一度製作したセットを再利用することができ、登場する人物を各国放映国の人物が演じた映像コンテンツを製作コスト削減しつつ容易に製作するができることにより、視聴者は自国製作の映像だと認識し、好感、感情移入及び関連消費が向上させることができる。

本発明の実施形態の構成ブロック図である。本実施形態の映像コンテンツ製作までの全体フロー図である。（ａ）は、日本版の実写人物映像と実録音声のフォーマット説明図で、（ｂ）は、実写人物映像とＣＧ舞台映像を合成するフォーマット説明図で、（ｃ）は、実録音声とＳＥ・ＢＧＭを合成するフォーマット説明図で、（ｄ）は、（ｂ）と（ｃ）を合成するフォーマット説明図である。は、本実施形態の映像翻訳コンテンツ製作の要部フロー図である。（ａ）は、日本版の図３の（ｄ）を中国版に差し替えて合成するフォーマット説明図で、（ｂ）は、日本版の図３の（ｄ）を米国版に差し替えて合成するフォーマット説明図である。

以下、本発明の一実施形態について、添付図面を参照して説明する。本実施形態の基本構成は、カメラなどによる実写映像と背景となるセットのＣＧ映像との合成映像に、効果音等のＢＧＭを含む人物の音声をさらに合成させる映像・音声合成方法である。

まず、日本で放映される邦画、例えば、日本人の役者（以下、人物という。）が日本語を使った映画（以下、映像コンテンツという。）を製作する。その後のプロセスで、本映像コンテンツの人物部分を外国での放映地域、例えば、中国人の中国語を使った映画や米国人が米国語を使った映画に差し替えられた映像・音声翻訳映画（以下、映像翻訳コンテンツという。）を製作する。

［映像コンテンツ、映像翻訳コンテンツの製作に係るプロセス］
図２のフローを用いて、映像コンテンツの製作に係る映像と音声を合成するプロセスをステップ順に追って説明する。ただ、ステップＳ６までは、映像コンテンツの製作準備といえるものであるため簡略に説明する。
ステップＳ１は、脚本（ストーリー）の作成で、脚本によって実現されるべき映像やシーン、台詞や効果音などのサウンド、また、登場する人物や舞台を想定して完成させていく。
ステップＳ２は、脚本をベースに映像演出計画（絵コンテの作成）で、脚本を基に登場人物の動きやカメラの位置などを、カットごとに絵で示していく。
ステップＳ３は、絵コンテをベースに映像で撮影計画映像（映像コンテ）を作成する。
ステップＳ４は、映像コンテ内容をベースに撮影計画を練る。
ステップＳ５は、合成撮影用のセットの設計を行う。

次のプロセスとして、ステップＳ６は、映像合成撮影用のセットを設計製作後、映像合成のクロマキーを行うために適した一色（合成に適した一色を用いる、例えば、緑色、青色）で舞台セットを塗装する。
ステップＳ７は、ステップＳ６で作成された一色の合成用舞台セットの中で、人物の演技を撮影と音声の録音とが同時になされる。つまり、音声の録音とは同期している（この状態を符号Ｔで示す点線で表している）。すなわち、後述する実写人物映像と実録音声の合成及び異なる人物の実写人物映像と実録音声の合成が同期して行なわれることになる。
人物の演技の撮影は、一つのカメラないし２つ以上の複数のカメラが用いられる。本実施形態での説明において、ＣＧなどの映像に対し、実際に撮影された映像を指す用語として区別するため実写という用語を適宜用いる。

次からのステップＳ８、Ｓ１０、Ｓ１２は、実写とＣＧ画像との映像処理に係るプロセスである。
ステップＳ８は、被写体となる人物と関係無い色調を背景に人物が演技した映像から、撮影済み映像の背景が抜き取る。つまり、人物だけが切り出され、その色調を光学的にあるいは電子的に抜き出し、排除する。
ステップ１０において、撮影済み映像の背景が抜き取られた舞台セットにＣＧ映像を代替して合成する公知技術のクロマキー合成を用いる。つまり、人物の背景には一色となった舞台セットに人物の映像が対応付けて挿入する。
ステップ１２は、撮影した人物映像とＣＧ映像を対応付けて合成処理する。

次からのステップＳ９、Ｓ１１は、音声と効果音等のＢＧＭとのサウンド処理に係るプロセスである。また、本実施形態での説明において、効果音等のＢＧＭに対し、実際に録音された俳優の音声を指す用語として区別するため実録という用語を適宜用いる。
ステップＳ９は、ステップＳ１～Ｓ２での脚本や絵コンテに基づき、効果音のＳＥや音楽等のＢＧＭを作成する。
ステップ１１は、音声とＳＥ・ＢＧＭと対応付けて合成するサウンド処理である。ＳＥとはＳｏｕｎｄＥｆｆｅｃｔ（効果音）の略で、ＢＧＭとは、ＢａｃｋＧｒｏｕｎｄＭｕｓｉｃ（背景音楽）の略である。

ステップ１３において、ステップ１２の合成された映像とステップＳ１１の合成されたサウンドを対応付けて、さらに全体的に合成することで映像コンテンツが完成する。

次に、上記の一連の処理によって製作された映像コンテンツの日本人を外国人（例えば、中国や米国の人物）に差し替え、映像翻訳コンテンツを製作するプロセスについて、図４を用いて説明する。
図２の映像の実録に係るプロセスのステップＳ７、Ｓ８、Ｓ１０、サウンドの実録に係るステップＳ９、Ｓ１１、映像・音声合成出力ステップＳ１３が、図４の映像の実写に係るプロセスのステップＳ２０、Ｓ２１、Ｓ２２、サウンドの実録に係るステップＳ２４、Ｓ２５，映像・音声合成出力ステップＳ２６と、がそれぞれ対応し同様の処理を行う。すなわち、ステップＳ２０の点線での枠内に示すとおり、日本人が演じた合成用セット（舞台）で、外国人が同じ脚本に沿って演じ、当該人物の実写ならびに音声の実録が同期して行なわれる。
このように、登場する人物を各国放映国の人物に現地を舞台とした映像コンテンツを製作する場合、日本人が演じた合成用セットを再利用することができ、製作コスト削減しつつ容易に製作することができる。

具体的には、ステップＳ７（Ｓ２０）では、図３（ａ）に示すように、音声の実録データ音声ＪＰＮ００１と映像の実写データ実写ＪＰＮ００１とは、相互に合成情報を共有するが時間軸ｔに沿って紐付けされている。この実録の音声ＪＰＮ００１及び実写映像の実写ＪＰＮ００１に共通して付加されている「ＪＰＮ００１」、「ＪＰＮ００２」．．．．というコードは、後述する映像・サウンド合成制御部１０から制御に係る合成情報で、日本人についての映像素材と音声素材の必要な位置に置いて切り貼り編集するキーとなるものである。これにより、複雑な制御や操作を要さずに簡便に映像とサウンドの合成プロセスで製作することができる。
また、中国人についての合成情報であれば、実写ＣＨＮ００１、音声ＣＨＮ００１、米国についての合成情報であれば、実写ＵＳＡ００１、音声ＵＳＡ００１となる。
なお、本実施形態での説明において、映像データとＣＧデータとを対応付けて合成するための情報、実録された音声とＳＥ・ＢＧＭとを対応付けて合成するための情報、これら全体のデータを対応付けて合成する情報を、単に合成情報として用いている。

ステップＳ１２（Ｓ２３）では、図３（ｂ）に示すように、合成情報であるフレーム情報ＪＰＮ００１を起点とし、実写映像のデータの実写ＪＰＮ００１とＣＧデータのＣＧＪＰＮ００１とが時間軸ｔに沿って逐次合成されキープする。

ステップＳ１１（Ｓ２５）では、図３（ｃ）に示すように、合成情報であるフレーム情報ＪＰＮ００１を起点とし、人物音声データの音声ＪＰＮ００１とＳＥ・ＢＧＭデータＳＥ／ＢＧＭＪＰＮ００１とが時間軸ｔに沿って逐次合成されキープする。

最終的に、ステップＳ１３（Ｓ２６）で、図３（ｄ）に示すように、合成情報であるフレーム情報ＪＰＮ００１を起点とし、ステップＳ１２で合成された実写映像のデータの実写ＪＰＮ００１とＣＧデータのＣＧＪＰＮ００１と、ステップＳ１１で合成された人物音声データの音声ＪＰＮ００１とＳＥ・ＢＧＭデータＳＥ／ＢＧＭＪＰＮ００１とが時間軸ｔに沿って逐次合成されキープされ、映像コンテンツ（映像翻訳コンッテンツ）が製作される。

また、ステップＳ１～Ｓ６までのプロセスにおいて、日本版の映像コンテンツと外国版の映像翻訳コンテンツとで共通する前処理的なプロセスで製作されたＣＧ映像、ＳＥ・ＢＧＭの素材はそのまま使えるので、重複する図２のステップＳ１～Ｓ６は省略できる。

以上の説明のとおり、実写人物映像と人物の背景となる舞台映像とを対応付けて合成する映像合成のステップＳ１２と、実録音声と当該実録音声の背景となるサウンド合成のステップＳ１１と、さらに映像合成出力とサウンド合成出力とを合成して映像コンテンツを製作するステップＳ１３と、実写人物映像とは異なる人物の実写人物映像に差し替えるステップＳ２０と、異なる人物の実写人物映像と舞台映像とを対応付けて合成する映像合成のステップＳ２３と、映像コンテンツの実録音声とは異なる人物の実録音声に差し替えるステップＳ２０、サウンドとを対応付けて合成するサウンド合成のステップＳ２５と、さらに異なる人物の映像合成のステップの出力とサウンド合成のステップの出力とを合成して映像翻訳コンテンツを製作するステップＳ２６により、ステップ７での合成用セットでの人物が日本人で日本語であったのが、ステップＳ２０での合成用セットでの人物を外国人で外国語に差し替えることができ中国版や米国版等の外国版の映像翻訳コンテンツが製作される。

［映像・音声合成方法と提供する映像・音声合成装置の動作機能］
次に、本発明の一実施形態に係る映像・音声合成装置の動作機能について説明する。
図１に示すように、映像・音声合成装置１は、映像部２とサウンド３を制御する映像・サウンド合成制御部１０から構成される。

［映像サウンド合成制御部］
映像サウンド合成制御部１０は、映像コンテンツの製作を行なう際に事前に作られたスケジュール表、例えば、各シーン毎の登場人物や必要な衣装・小道具・消え物（壊したり消耗したりして１回しか使えないもの、例えば、破る新聞や火のついた煙草等）などが事細かく書かれ、映像製作を円滑に行なうための香盤表や台詞の台本というべきものが備えている。これにより、映像部２とサウンド３の各部に対し逐次操作制御することができる。

［映像部］
映像部２は、コンピュータグラフィック（ＣＧ）による背景映像を蓄積したＣＧＤＢ（舞台）１１と、ＣＧ映像を実写された人物に合せて再生するＣＧ舞台映像再生部１２と、日本人による演技映像を蓄積した実写ＤＢ（ＪＰＮ）１４と、この実写ＤＢ（ＪＰＮ）１４から人物映像を読み出し再生する実写人物映像再生部１７と、ＣＧＤＢ（舞台）１１と実写ＤＢ（ＪＰＮ）とのデータ情報を共有される撮影データリファレンスＤＢ１３と、ＣＧ舞台映像再生部１２にて再生されたＣＧ映像と実写人物映像再生部１７で読み出し再生された人物映像とを合成する実写・ＣＧ合成部１８と、実写・ＣＧ合成部１８で合成された映像を出力し表示する映像出力部１９の各部から構成されている。

また、中国人による演技映像を蓄積した実写ＤＢ（ＣＨＮ）１５と、米国人による演技映像を蓄積した実写ＤＢ（ＵＳＡ）１６とが、図１において示されているが、これらは、日本版映画が製作された後に、中国版映画または米国版映画を製作するときに用いられるもので、日本版映画の製作のプロセスでは用いられない。なお、ＤＢとは、ＤａｔａＢａｓｅの略で、実写ＤＢ（ＣＨＮ）１５と実写ＤＢ（ＵＳＡ）１６のデータベース構造と実写ＤＢ（ＪＰＮ）１４のデータベースのフォーマットや構造は同じで、中国人か米国人との人物の違いがあるだけである。

ＣＧＤＢ（舞台）１１は、クロマキー合成されて人物映像の背景となる映像がｍｏｖ形式の３次元（３Ｄ）ＣＧデータと時間毎（フレーム毎）の情報で構成されている。例えば、図３（ｂ）は、データフォーマットを模式的に示した図で、ＣＧデータはＣＧＪＰＮ００で、合成情報であるフレーム情報ＪＰＮ００１を起点とし実写映像のデータの実写ＪＰＮ００１とが時間軸ｔに沿って逐次合成する状態を示している。これらの合成動作は、映像・サウンド合成制御部１０からの合成情報によって行われる。これらに付加されている「００１」、「００２」．．．．というコードは、像素材と音声素材の必要な位置に置いて切り貼り等の編集の合成情報のキーとなる。
なお、ＣＧデータは、３ＤＣＧではなく、２次元の２ＤＣＧを用いることができる。また、ｍｏｖの他、Ｈ．２６４、ＭＪＥＧ、ＭＰＥＧ４等の映像形式も使用できる。これらのＣＧ作成は、例えば、３ｄｓＭａｘ（登録商標）等のソフトウエアツールを用いて行われる。

また、ＣＧＤＢ（舞台）１１は、事前に脚本、絵コンテに基づき、人物撮影用のセットを作成（机、椅子等も含む）するためにカメラ位置、画角、照明位置、個数などがセットされ、本映像・音声合成装置とは別作業にて一タイトル映画分が製作されている。その後、記録媒体に蓄積されており、例えば、ＣＤ－ＲＯＭやＤＶＤ、ハードディスクなど任意の媒体が使用でき、これら記録媒体からコンピュータにＣＧ映像が供給される。

ＣＧ舞台映像再生部１２は、ＣＧ映像を実写された人物に合せてＣＧデータを抽出し再生する機能を有している。

実写ＤＢ（ＪＰＮ）１４は日本人による演技映像のみが、実写ＤＢ（ＣＨＮ）１５は中国人による演技映像のみが、実写ＤＢ（ＵＳＡ）１６は米国人による演技映像のみが蓄積されている。すなわち、ブルーバック環境で演技をしている人物の実写映像を、人物映像のみが切出されたものがデータとして、映画一巻の全体分が記録されている。

実写人物映像再生部１７は、日本人の映像コンテンツの製作の場合、実写ＤＢ（ＪＰＮ）１４から映像データを抽出し再生する機能を有している。

撮影データリファレンスＤＢ１３は、ＣＧＤＢ（舞台）１１と実写ＤＢ（ＪＰＮ）１４との合成情報を共有させ同期させる時間的情報を保有する。すなわち、ＣＧＤＢ（舞台）１１と実写ＤＢ（ＪＰＮ）１４とは、独立して製作されるが、ＣＧ舞台と同じ状態で撮影できるようにするため紐付けとなる合成情報が必要となる。すなわち、ＣＧＤＢ（舞台）１１のＣＧデータと実写ＤＢ１４に記憶されている人物映像データには、合成情報（ＪＰＮ００１等）が予め、ＣＧ画像データとセットとなるように付加され、ＣＧ映像と人物映像との合成は、この合成情報を用いて行われる。

実写・ＣＧ合成部１８は、素材となる映像や画像を階層状に並べて複雑な形を作り出したり、特殊効果を加えることができる機能を有する。本実施形態では、実写人物映像再生部１７からの合成情報が付加された人物映像データ実写ＪＰＮ００１とＣＧ舞台映像再生部１２からの合成情報が付加されたＣＧデータＣＧＪＰＮ００１とのフレームを入力源として、１つの画像に生成される。例えば、図３（ｂ）に示されるように、実写ＪＰＮ００１とＣＧＪＰＮ００１とが合成情報ＪＰＮ００１、ＪＰＮ００２とが時間軸ｔに沿って逐次合成される。これにより、映像画像の一色成分の領域がＣＧ画像に置き換えられ合成画像が生成される。

映像出力部１９は、実写・ＣＧ合成部１８で合成された映像を繋げて１本の長い映像を製作する機能を有している。本実施形態では、人物映像データ実写ＪＰＮ００１とＣＧ舞台映像のＣＧデータＣＧＪＰＮ００１などのいくつもの映像素材を１つの画像として並べるように合成出力して、これらの合成映像を確認することができる。

なお、本実施形態では、日本人による演技を実写したカメラ位置や照明、音声を収録するマイク位置等の同じ条件で、共通した合成撮影用セット内で外国人が演技している。したがって、実写画像とＣＧ画像との合成する場合、画像の混合比率や位置情報等の調整や補正する作業は不要となる効果がある。

［サウンド部］
サウンド部３は、日本人による音声を蓄積した実録音声ＤＢ（ＪＰＮ）２０と、台詞を実録された人物に合せて再生する実録音声再生部２３と、サウンド合成されるＳＥ・ＢＧＭを蓄積されたＳＥ・ＢＧＭＤＢ２４と、ＳＥ・ＢＧＭＤＢ２４から読み出し再生されるＳＥ・ＢＧＭ再生部２５と、ＳＥ・ＢＧＭ再生部２６にて再生されたＳＥ・ＢＧＭと実録音声部２３で読み出し再生された人物音声とを合成する音声・ＢＧＭ合成部２６と、音声・ＢＧＭ合成部２６で合成されたサウンドを出力しモニターできるサウンド出力部２７の各部から構成されている。

また、中国人による音声を蓄積した実録音声ＤＢ（ＣＨＮ）２１と、米国人による音声を蓄積した実録音声ＤＢ（ＵＳＡ）２２とが、図１において示されているが、これらは、日本版映画が製作された後に、中国版映画または米国版映画を製作するときに用いられるもので、日本版映画の製作のプロセスでは用いられない。なお、ＤＢとは、ＤａｔａＢａｓｅの略で、実録音声ＤＢ（ＣＨＮ）２１と実録音声ＤＢ（ＵＳＡ）２２のデータベース構造と実録音声ＤＢ（ＪＰＮ）２０のデータベースのフォーマットや構造は同じで、音声が日本語ではないだけである。これらは、日本版映画が製作された後に、中国版映画または米国版映画を製作するときに用いられるもので、日本版映画の製作のときには必要ではない。

ＳＥ／ＢＧＭＤＢ２４は、映像の効果音が必要に応じて収録、蓄積され、ｗａｖ形式の音楽データ情報で構成されている。例えば、図３（ｃ）は、データフォーマットを模式的に示した図で、ＳＥ・ＢＧＭデータはＳＥ・ＢＧＭＪＰＮ００１で、合成情報であるＪＰＮ００１を起点とし音声ＪＰＮ００１とが時間軸ｔに沿って逐次合成しサウンド化する状態を示している。これらの合成動作は、映像・サウンド合成制御部１０からの合成情報によって行われる。
なお、サウンドとなるデータは、無圧縮形式のｗａｖだけではなく、圧縮形式のＭＰ３やＷＭＡで蓄積しておき、再生するときに解凍することでも構わない。

ＳＥ／ＧＢＭＤＢ２４は、事前に脚本、絵コンテによって、本映像・音声合成装置の機能とは別作業にて一タイトル映画分が製作され記録媒体に蓄積されており、例えば、ＣＤ－ＲＯＭやＤＶＤ、ハードディスクなど任意の媒体が使用できる。

ＳＥ／ＢＧＭ再生部２５は、ＳＥ／ＢＧＭデータを抽出し再生する機能を有している。この再生機能は映像サウンド合成制御部１０により必要な指示が与えられ、ＳＥ／ＢＧＭデータが音声・ＢＧＭ合成部２６に転送される。

音声・ＢＧＭ合成部２６は、例えば、音声のテイク１をキープして、テイク２、テイク３を重ねて全テイクをキープしてトラックにコピーし、テイクが選び終えたらつなぎ目をクロスフェードで整えていく等の機能を有している。本実施形態では、実録音声再生部２３からの合成情報が付加された人物音声データの音声ＪＰＮ００１とＳＥ・ＢＧＭ再生部１２からの合成情報が付加されたＳＥ・ＢＧＭデータＳＥ／ＢＧＭＪＰＮ００１を入力源として、１つのサウンドに合成される。例えば、図３（ｃ）に示されるように、音声ＪＰＮ００１とＳＥ・ＢＧＭ００１とが時間軸ｔに沿って逐次合成され全体をキープする。
ここで、ＳＥ・ＢＧＭ００１は、ＳＥ／ＢＧＭＪＰ００１と付していないのは、日本語版であろうと、中国語版や米国語版であろうと、共通した効果音であるためである。
そして、サウンド出力部２７で、音声と効果音が合成されたサウンドがステレオ、５．１ｃｈ等に分けて出力され、その合成出力サウンドをモニターし確認することができる。

なお、サウンド部３には、映像部２にある撮影データリファレンスＤＢ１３のような合成情報を共有させ同期させる時間的情報を独立して保有させる機能がない。すなわち、すなわち、実録の音声ＪＰＮ００１、ＳＥ／ＢＧＭのＳＥ・ＢＧＭＪＰＮ００１、実写映像の実写ＪＰＮ００１及びＣＧのＣＧＪＰＮ００１に共通して付加されている「ＪＰＮ００１」、「ＪＰＮ００２」．．．．というコードが合成情報となっている。この合成情報のコードは、映像素材と音声素材の必要な位置に置いて切り貼り編集するキーとなっている。
これにより、複雑な制御や操作を要さず映像とサウンドの簡便な合成プロセスで製作することができる。

［映像・サウンド合成出力部］
最終的に、図３（ｄ）に示すように、映像・サウンド合成出力部２８において、映像出力部１９からの合成されたｍｏｖ形式の映像とサウンド出力部２７からのｗａｖ形式のサウンドが合体され、日本版の映像コンテンツ３０が製作される。映像・サウンド合成出力部２８では、異なる画像データと音声データの形式を合成することができる。
そして、この映像コンテンツを表示、モニターして最終確認することができる。

［映像・音声合成装置による映像翻訳コンテンツの製作］
日本版の映像コンテンツ（ＪＰＮ版３０）から中国版の映像翻訳コンテンツ（ＣＨＮ版３１）や米国版の映像翻訳コンテンツ（ＵＳＡ版３２）を製作する映像・音声合成装置１の機能について説明する。
本実施形態では、映像部２では、中国版の映像翻訳コンテンツ（ＣＨＮ版３１）ならば実写ＤＢ（ＣＨＮ）１５を選択し、米国版の映像翻訳コンテンツ（ＵＳＡ版３２）ならば実写ＤＢ（ＵＳＡ）１６を選択して、撮影データリファレンスＤＢ１３と実写人物映像再生部１７とに接続される。
同様にサウンド部３では、中国版の映像翻訳コンテンツ（ＣＨＮ版３１）ならば実録音声ＤＢ（ＣＨＮ）２１を選択し、米国版の映像翻訳コンテンツ（ＵＳＡ版３２）ならば実録音声ＤＢ（ＵＳＡ）２２を選択して、実録音声再生部２３と接続される。
なお、図１では、中国版の映像翻訳コンテンツ（ＣＨＮ版３１）及び米国版の映像翻訳コンテンツ（ＵＳＡ版３２）を記載しているが、他の外国の人物が揃えばこれらに限定されることなく、例えば、韓国版の映像翻訳コンテンツや、フランス版の映像翻訳コンテンツ等も製作が可能である。

外国版の映像翻訳コンテンツの製作開始にあたり、中国版の映像翻訳コンテンツ（ＣＨＮ版３１）ならば実写ＤＢ（ＣＨＮ）１５を選択し、米国版の映像翻訳コンテンツ（ＵＳＡ版３２）ならば実写ＤＢ（ＵＳＡ）１６を選択して、撮影データリファレンスＤＢ１３と実写人物映像再生部１７とに接続される。
同様にサウンド部３では、中国版の映像翻訳コンテンツ（ＣＨＮ版３１）ならば実録音声ＤＢ（ＣＨＮ）２１を選択し、米国版の映像翻訳コンテンツ（ＵＳＡ版３２）ならば実録音声ＤＢ（ＵＳＡ）２２を選択して、実録音声再生部２３と接続される。
これにより、既に製作された映像コンテンツの日本人を外国人の人物に差し替え、映像翻訳コンテンツを製作する機能が整ったことになる。

つまり、中国版の映像翻訳コンテンツ（ＣＨＮ版３１）の場合、図１の映像部２は、コンピュータグラフィック（ＣＧ）による背景映像を蓄積したＣＧＤＢ（舞台）１１と、ＣＧ映像を実写された人物に合せて再生するＣＧ舞台映像再生部１２と、中国人による演技映像を蓄積した実写ＤＢ（ＣＨＮ）１５と、この実写ＤＢ（ＣＨＮ）１４から人物映像を読み出し再生する実写人物映像再生部１７と、ＣＧＤＢ（舞台）１１と実写ＤＢ（ＣＨＮ）とのデータ情報を共有される撮影データリファレンスＤＢ１３と、ＣＧ舞台映像再生部１２にて再生されたＣＧ映像と実写人物映像再生部１７で読み出し再生された人物映像とを合成する実写・ＣＧ合成部１８と、実写・ＣＧ合成部１８で合成された映像を出力し表示する映像出力部１９から構成されている。

また、サウンド部３は、中国人による台詞音声を蓄積した実録音声ＤＢ（ＣＨＮ）２１と、台詞を実録された人物に合せて再生する実録音声再生部２３と、サウンド合成されるＳＥ・ＢＧＭを蓄積されたＳＥ・ＢＧＭＤＢ２４と、ＳＥ・ＢＧＭＤＢ２４から読み出し再生されるＳＥ・ＢＧＭ再生部２５と、ＳＥ・ＢＧＭ再生部２６にて再生されたＳＥ・ＢＧＭと実録音声部２３で読み出し再生された人物音声とを合成する音声・ＢＧＭ合成部２６と、音声・ＢＧＭ合成部２６で合成されたサウンドを出力しモニターできるサウンド出力部２７から構成されている。

図２の映像の実録に係るプロセスで説明したとおり、日本人が演じた同じ脚本、絵コンテに基づいた人物撮影用の合成セット（舞台）上で、外国人が同じ脚本に沿って演じ、俳優の実写ならびに音声の実録が行なわれる。

具体的には、カメラ位置、画角、照明位置、マイク位置等が全く同じ条件にセットされる。これにより、日本人が演じ撮影された映像の大きさが同じとなることから位置の合成情報は不要となる。したがって、日本版の映像コンテンツと外国版の映像翻訳コンテンツとで共通する前処理的なプロセスで製作されたＣＧ映像、ＳＥ・ＢＧＭの素材はそのまま使え、合成用セットでの人物が日本人で日本語であったのに対し、合成用セットでの人物を外国人で外国語に差し替えることができることで、中国版や米国版等の外国版の映像翻訳コンテンツが製作され合理的である。

以上、説明のとおり、日本版の映像コンテンツに登場する人物を各国放映国の人物とする映像翻訳コンテンツを容易に製作する映像・音声合成方法によって、視聴者は自国製作の映像だと認識し、好感、感情移入及び関連消費が向上させることができることで、日本映画芸術を飛躍的に向上させることが可能となる。

１映像・音声合成装置
２映像部
３サウンド部
１０映像・サウンド合成制御部
１１ＣＧＤＢ（舞台）
１２ＣＧ舞台映像生成部
１３撮影データリファレンスＤＢ
１４実写ＤＢ（ＪＰＮ）
１５実写ＤＢ（ＣＨＮ）
１６実写ＤＢ（ＵＳＡ）
１７実写人物映像再生部
１８実写・ＣＧ合成部
１９映像出力部
２０実録音声ＤＢ（ＪＰＮ）
２１実録音声ＤＢ（ＣＨＮ）
２２実録音声ＤＢ（ＵＳＡ）
２３実録音声再生部
２４ＳＥ／ＢＧＭＤＢ
２５ＳＥ／ＢＧＭ再生部
２６音声・ＢＧＭ合成部
２７サウンド出力部
２８映像・サウンド合成出力部
３０ＪＰＮ版（映像コンテンツ）
３１ＣＨＮ版（映像翻訳コンテンツ）
３２ＵＳＡ版（映像翻訳コンテンツ）

Claims

映像と音声を合成する映像・音声合成方法であって、
カメラで実写された実写人物映像とコンピュータグラフィックで製作された人物の背景となる舞台映像とを対応付けて合成する映像合成のステップと、
前記実写人物の実録音声と当該実録音声の背景となるサウンド音とを対応付けて合成するサウンド合成のステップと、
さらに、前記映像合成のステップの出力と前記サウンド合成のステップの出力とを合成して映像コンテンツを製作するステップと、
前記映像コンテンツの前記実写人物映像とは異なる人物の実写人物映像に差し替えるステップと、
前記異なる人物の実写人物と前記舞台映像とを対応付けて合成する映像合成のステップと、
前記映像コンテンツの前記実録音声とは異なる人物の実録音声に差し替え、前記サウンドとを対応付けて合成するサウンド合成のステップと、
さらに、前記異なる人物の映像合成のステップの出力と前記サウンド合成のステップの出力とを合成して映像翻訳コンテンツを製作するステップからなることを特徴とする映像・音声合成方法。
前記実写人物映像と前記実録音声の合成及び異なる人物の前記実写人物映像と前記実録音声の合成は同期して行なわれることを特徴とする請求項１に記載の映像・音声合成方法。