JPH11149285A

JPH11149285A - 映像音響システム

Info

Publication number: JPH11149285A
Application number: JP9315381A
Authority: JP
Inventors: Koshin Shimada; 康臣島田
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1997-11-17
Filing date: 1997-11-17
Publication date: 1999-06-02

Abstract

(57)【要約】【課題】ユーザの顔や姿を原画に登場する人の顔、姿
とを容易に置き換えた映像の再生を可能とする映像音響
システムを提供する。【解決手段】動画プログラム１０１中の所定部分の属
性情報を動画プログラム１０１に付与する属性情報付与
手段１０２を設け、属性情報をもつ動画プログラム１０
１を取り込む属性情報付動画プログラム取り込み手段１
０３を設け、動画プログラム１０１とは異なる静止画１
０４の情報を取り込む静止画情報取り込み手段１０５を
設け、静止画情報取り込み手段１０５で得られた静止画
０４を属性情報付動画プログラムの所定部分と置き換え
かつ所定部分の属性情報に基づき静止画を制御する静止
画動画変換制御手段１０６を設ける。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、動画の中の所定部
分を他の静止画の一部または全部と置き換えるとともに
動画中の所定部分の位置、動きなどの属性情報に従って
静止画を制御する映像音響システムに関するものであ
る。

【０００２】

【従来の技術】従来、動画のなかの一部を置き換えるに
は、背景を青色で撮影したオブジェクトを原画に合成す
るという、いわゆるクロマキー技術によっていた。これ
によると、オブジェクトの動作変化に関連した制御デー
タがないため、オブジェクトを撮影した後あるいはオブ
ジェクトと原画とを合成した後に、撮影したオブジェク
トの形、様子、照明、あるいは音声などを制御変化させ
た合成映像を作成することは困難であるという欠点があ
った。

【０００３】また、コンピュータグラフィックス（以下
ＣＧと呼ぶ）技術においては、対象物の所定部分の動き
をセンサにより直接的または間接的に測定して、ＣＧ中
の対象物を上記対象物の所定部分の動き情報で制御する
ものがある。具体的には、リアルタイムに人の発声に合
わせて映像をリップシンクさせる例として、演技者の口
の周りにマーカーをつけて、これの動きをもとに顔など
の多角形ポリゴンデータを使って制御するＣＧがある。

【０００４】ところが、このようなＣＧには、既に映像
化された後の動画像の各フレームと連動して変化するオ
ブジェクトの動作に関連した制御データを保存する手
段、あるいは生成される制御信号を出力させ他のオブジ
ェクトの動作を変化させる手段、あるいは他のオブジェ
クトと置き換えるなどの制御手段がないため、オブジェ
クトを撮影した後あるいはオブジェクトと原画とを合成
などで映像化した後に、オブジェクトの動作に合わせて
そのオブジェクトの種類、大きさ、明るさ、あるいは音
声などを制御変化させた他のオブジェクトを原画のオブ
ジェクトと置き換えたり、または両者を重ね合わせるこ
とによる合成映像を作成することは困難であるという欠
点があった。

【０００５】また、ポリゴンデータを使った３次元ＣＧ
を原画像にする場合には、多角形ポリゴン座標の数が多
い。したがって、３次元ＣＧをリアルタイムに制御して
２次元映像にレンダリングするには、高速でかつ専用の
画像演算生成手段が必要であるため、コストがかさんだ
り、画像の再生速度や画質が制限されたり、開発期間が
長期にわたるなどの問題がある。さらに、一度再生され
た動画映像の中のオブジェクトの動作に関連した制御デ
ータを保存し出力する場合は、より画像の再生速度や画
質が制限されるなどの欠点があった。

【０００６】

【発明が解決しようとする課題】上記したように、従来
の動画プログラム中の部分的な置き換えを実現する手段
は、非常に高度な技術を必要とし、かつ高価である。す
なわち、従来の動画プログラムは、各フレーム毎に動画
中の置き換え対象となる静止画を制御するような属性情
報がないため、置き換え素材として静止画を使えず非常
にシステムが複雑になるという課題があった。

【０００７】具体的に説明すると、従来の動画像は、い
ずれも各映像の一こま一こまがフレームデータとして加
工済みのデータであるために、各フレーム内のデータを
制御可変する手段がなく、後加工は困難であったという
ことである。もう少し分かりやすく説明すると、以下の
ようになる。従来の映画ソフトは、俳優が出演するのみ
で、一般の人が自分で映画に登場するということは、実
写を使う以上、自分自身がその撮影現場にいなければ不
可能であった。また、撮影後に配役を置き換えたりする
ことも不可能であった。また、ＣＧなどで合成した顔の
形を自由に変形して遊ぶことができても、これを映画な
どの予め完成された映像に自動的に取り入れる手段がな
いために、１こま、１こま別途静止画を作成し映画など
の動画に手動で背景合成する必要があり、手軽にユーザ
が楽しむことができなかった。

【０００８】本発明の目的は、動画の中の所定部分を他
の静止画と置き換えるとともに動画中の所定部分の位
置、動きなどの属性情報に従って静止画を制御すること
ができ、しかもその静止画の置き換えおよび制御が容易
で安価に実現可能な映像音響システムを提供することで
ある。具体的に説明すると、ユーザの顔や姿を原画に登
場する人の顔、姿とを容易に置き換えた映像の再生を可
能とする映像音響システムを容易にかつ安価に提供する
ということである。

【０００９】

【課題を解決するための手段】上記課題を解決するため
に、本発明の映像音響システムは、動画プログラム中の
所定部分の属性情報を前記動画プログラムに付与する属
性情報付与手段と、前記属性情報を持つ動画プログラム
を取り込む属性情報付動画プログラム取り込み手段と、
前記属性情報付動画プログラムとは異なる静止画の情報
を取り込む静止画情報取り込み手段と、前記静止画情報
取り込み手段で得られた静止画を前記属性情報付動画プ
ログラムの所定部分と置き換えかつ所定部分の属性情報
に基づき前記静止画を制御する静止画動画変換制御手段
とを具備するものである。

【００１０】上記の属性情報付与手段は、動画中の所定
部分、例えば口部分の位置や角度、大きさ、向きなどの
情報をフレーム単位で付与するものである。なお、属性
情報をもつ動画プログラムが外部から入力される場合に
は、属性情報付与手段は省くこともできる。また、置き
換える手段としては、動画の中の置き換え対象となる元
オブジェクトの上に、置き換える対象の新オブジェクト
を重ねあわせる方法、元々の原画である動画の中の置き
換え対象となる元オブジェクトが存在しないが、その上
に置き換える対象の新オブジェクトを重ねあわせる方
法、および元々の原画である動画の中の置き換え対象と
なる元オブジェクトが存在していても、置き換える対象
の新オブジェクトと入れ替える方法などのいずれでもか
まわない。

【００１１】さらには、あらかじめ３次元化された置き
換える対象の顔または、口部分の形状の３次元モデルか
ら２次元変換することによって得られた２次元の映像情
報を置き換える対象の新オブジェクトの口部分の形状と
して出力し、必要に応じて２次元の映像情報を置き換え
る対象の新オブジェクトの被選択信号として選択的に表
示する方法でもかまわない。この方法によると、複数の
角度のオブジェクトの選択表示も可能となり、複数の角
度から撮影する必要がなくなるという利点を有するもの
である。上記の３次元モデルからの２次元変換は、奥行
き、高さ、幅などの３方向軸に座標をもつ３次元モデル
を座標原点であるカメラポイントから眺めた時、カメラ
に映った映像が２次元の高さと幅の２方向軸に座標デー
タをもつモデルとして変換するレンダリングという処理
によって実現される。

【００１２】また、動画の中の置き換え対象となる元オ
ブジェクトが複数であってもよいし、置き換える対象の
新オブジェクトが複数であってもよい。さらには、置き
換える対象の新オブジェクトの属性情報を使って置き換
える対象の新オブジェクトとは異なる第ｎ新オブジェク
トと置き換えることも任意に行うことが可能である。な
お、第ｎという表現は、多数個の新オブジェクトのうち
のｎ番目（ｎは正整数）の新オブジェクトのことを意味
する。

【００１３】

【発明の実施の形態】以下の実施の形態の説明に先立っ
て、本発明の映像音響システムの基本的な構成について
説明する。本発明の映像音響システムでは、動画映像の
各フレームと連動して変化する原画のオブジェクトの動
作に関連した制御データを保存する手段として、光ディ
スクや半導体メモリなどの保存メディアを用い、この保
存メディアに記録された前記制御データを読み出すよう
にしている。また、生成される制御データを読み取り、
あるいは半導体メモリから出力させ、他のオブジェクト
の動作を変化させる手段、あるいは他のオブジェクトと
置き換えるなどの編集をする際に、置き換えあるいは動
作制御する対象のオブジェクトの口部分の形状が原画の
中の原画のオブジェクトが発声する内容、またはユーザ
ーが発声する内容に関連付けられた選択信号に基づいて
選択表示する手段を備えることによって、置き換え対象
の新オブジェクトの動作制御データを生成し、一般ユー
ザが、既に記録が完了している原画であっても、前記の
動作制御データを使って簡単に置き換える対象となるユ
ーザデータを選択処理できるものである。

【００１４】以下の実施の形態では、制御データを保存
し、その後読み出す手段としては光ディスクや半導体メ
モリなどの記録再生手段を用いて処理が行われるが、こ
のような記録再生手段について周知であるので、説明は
省く。本発明の映像音響システムは、各フレーム毎に動
画中の置き換えられる対象となる所定部分の属性情報を
利用するため、置き換え素材として静止画を使うことが
できる。したがって、特別な技術を有しない者でも、映
画の主人公を自分や他の俳優の映像に簡単に置き換える
ことが可能である。また、原画の中の主人公の口の動き
を自分や他の俳優の声に合わせることができるので、自
分の声を話す俳優を鑑賞することも可能である。

【００１５】また、紙芝居で使われる原画と無関係な音
声の進行に合わせて紙絵を鑑賞することも可能である。
このように楽しみ方は登場オブジェクトの数の組み合わ
せだけ広がり、その楽しみかたはほぼ無限に存在するも
のである。特に、動画などの連続して変化する情報をも
つ原画の場合は、その効果が大きいものである。

【００１６】もちろん、動画像の中から一つのフレーム
を切り出した場合は、静止画の置き換えとして、例えば
表面に静止画を印刷したプリントシールとしての利用も
可能である。つぎに、図面を参照しながら、本発明の映
像音響システムの実施の形態について説明する。

【００１７】図１は、本発明の第１の実施の形態におけ
る映像音響システムの構成を示すブロック図である。図
１において、１０１は映画やＣＧなどで、既に記録が完
了した動画プログラムで原画となるものである。１０２
は動画プログラム１０１を取り込み、動画プログラム１
０１の所定部分の属性を動画プログラム１０１に付与す
る属性情報付与手段である。この実施の形態では、動画
プログラム１の顔の部分の目の中心位置、鼻の中心位
置、口の中心位置、耳の位置、顔の上下長さ、顔の横方
向幅を抽出し、それらを動画プログラム１０１とともに
所定の個所に所定のフォーマットに従って格納する。こ
れらの属性情報付動画プログラムは、この段階でＣＤ−
ＲＯＭなどのパソコンソフトとして記録され販売するこ
ともできる。あるいは、ネットワーク通信等で配信する
ことも考えられる。

【００１８】１０６は静止画動画変換制御手段である。
１０３は属性情報付与手段１０２の出力情報を静止画動
画変換制御手段１０６に取り込むための属性情報付動画
プログラム取り込み手段である。１０４は電子スチルカ
メラなどの手段でとった複数の静止画（情報）である。
１０５は複数の静止画１０４を静止画動画変換制御手段
１０６に取り込むための静止画情報取り込み手段であ
る。

【００１９】先に述べた静止画動画変換制御手段１０６
では、静止画情報取り込み手段１０５で取り込まれた静
止画の所定個所を属性情報付動画プログラムの属性情報
である顔の部分の目の中心位置、鼻の中心位置、口の中
心位置、耳の位置、顔の上下長さ、顔の横方向幅に対応
するように指定し、動画プログラム１０１上に下地が見
えない不透明画像としてフレーム毎に貼り付ける。この
ようにすることにより、動画プログラムの所定部分の一
連の動きに対応して上記の貼り付けた静止画が自動的に
動く。上記の静止画の所定個所という表現は、例えば人
物の顔を、写真等の四角形の静止画から顔だけ、あるい
口先だけ切り出す場合を意味するが、例えば四角形の風
景動画に、その風景とは異なる場所の丸形の静止風景画
を入れる場合は、丸形の静止画全体を貼り付けることに
なる。

【００２０】つぎに、シーンが変わったり、対象人物を
変化させたい時には、複数の静止画１０４の中の上記と
は異なる所望の静止画を選び、上記したのと同じ方法で
動画プログラムの所定部分の属性情報との対応を指定し
て貼り付ける。図２は、本発明の第２の実施の形態にお
ける映像音響システムの構成を示すブロック図である。
図２において、図１と同じものは同一番号で示し説明を
省略する。図２において、２０１は画像中に人物の口の
動きのある映画などの動画プログラムである。

【００２１】２０２は動画プログラム２０１を取り込
み、動画プログラム２０１の口部分の属性を動画プログ
ラム２０１に付与する属性情報付与手段である。この実
施の形態では、動画プログラム２０１の口の部分の中心
位置、上唇を等間隔で３分割する点位置、下唇を等間隔
で３分割する点位置、口の横方向幅を抽出し、それらを
動画プログラムとともに所定の個所に所定のフォーマッ
トに従って格納する。

【００２２】２０７は音声信号であり、動画プログラム
２０１において属性情報をもつ所定部分の一つである人
物の口の動き（あるいは口から発せられる音声）に同期
して他の人物が発生した音声である。この音声は動画プ
ログラム２０１の中の言葉と異なった内容のものがしば
しば使われる。すなわち、同期するといっても所定の時
間に収まる内容ならどのようなものでもよい。

【００２３】２０８は音声信号２０７を入力とし、その
音声から母音を抽出しそれを口の形の情報に変換して所
定の個所に所定のフォーマットで格納する。この場合、
口の形の情報としては、上記の属性情報付与手段２０２
と同じように、口の部分の中心位置、上唇を等間隔で３
分割する点位置、下唇を等間隔で３分割する点位置、口
の横方向幅がある。

【００２４】属性情報付与手段２０２の出力は属性情報
付動画プログラム取り込み手段２０３により静止画動画
変換制御手段１０６に取り込まれる。また、口動き属性
情報変換手段２０８の出力も静止画動画変換制御手段１
０６に取り込まれる。つぎに図１で用いたと同じ静止画
１０４が静止画情報取り込み手段１０５により静止画動
画変換制御手段１０６に取り込まれる。

【００２５】静止画動画変換制御手段１０６では、上記
の静止画情報取り込み手段１０５で取り込まれた静止画
の所定部分を属性情報付動画プログラムの属性情報であ
る口の部分の中心位置、上唇を等間隔で３分割する点位
置、下唇を等間隔で３分割する点位置、口の横方向幅に
対応するように指定するか、もしくは口動き属性情報変
換手段２０８により変換された口の部分の中心位置、上
唇を等間隔で３分割する点位置、下唇を等間隔で３分割
する点位置、口の横方向幅に対応するように指定するか
を選択し、動画プログラム２０１上に下地が見えない不
透明画像としてフレーム毎に貼り付ける。このようにす
ることにより、動画プログラムの所定部分の一連の動き
に対応して上記の貼り付けた静止画が自動的に動く。

【００２６】つぎに、シーンが変わったり、対象人物を
変化させたい時には、複数の静止画１０４の中の上記と
は異なる所望の静止画を選び、上記したのと同じ方法で
動画プログラムの所定部分の属性情報との対応を指定し
て貼り付ける。このようにすることにより、映画の顔の
部分をまったく異なった人物で置き換えられるととも
に、まったく異なった言葉に置き換えられることにな
り、口の動きは音声情報から推論して変換するので自然
なものとなる。

【００２７】ここで、属性情報付与手段１０２，２０
２、口動き属性情報変換手段２０８、および静止画動画
変換制御手段１０６の具体的な構成を示す実施の形態を
図面を用いて説明する。なお、属性情報付動画プログラ
ム取り込み手段１０３，２０３については図示を省略し
ているが、この属性情報付動画プログラム取り込み手段
１０３，２０３は、図３の例では、ＧＩデータ出力部３
０７の出力信号と原画３０１とを、各々ユーザーオブジ
ェクト写真選択部３０９と合成部３１２に振り分けて取
り出すようにしている。また、他の実施の形態は、属性
情報付動画プログラム取り込み手段１０３，２０３が属
性情報と動画が記録された光ディスクなどの記録メディ
アから信号を読み取り、静止画動画変換制御手段１０６
に入力するようにすればよい。

【００２８】図３は、本発明の実施の形態の映像音響シ
ステムの具体的なブロック図を示している。なお、この
図３は、図２の実施の形態を図示しているが、図３から
口動き属性情報変換手段に相当するブロックを省いたも
のが図１の実施の形態に対応する。本発明の映像音響シ
ステムの実施の形態は、原画の中の顔の部分を原画オブ
ジェクトと考えたときに、属性情報付動画プログラムに
おける属性情報として原画オブジェクトの目の中心位
置、鼻の中心位置、口の中心位置、耳の位置などの位置
情報を、顔の向きという１つのオブジェクト選択情報で
現し、これに近い顔の向きのユーザの顔写真を複数の静
止画から選び、顔の上下長さ、顔の横方向幅は前記静止
画を拡大縮小するように構成している。

【００２９】同様に、この実施の形態は、口部分の属性
を付与する属性情報として動画プログラムの口の部分の
中心位置、上唇を等間隔で３分割した点位置、下唇を等
間隔で３分割した点位置、口の横方向幅等を、オブジェ
クト選択情報で現し、これに近い顔の向きの顔写真を複
数の静止画から選ぶように構成している。図１および図
２の属性情報付与手段１０２，２０２は、図３におい
て、データ入力ソースとしての動画プログラムである原
画３０１と、原画３０１の中のオブジェクトを置き換え
る仮のユーザオブジェクトの写真として用意されたダミ
ーオブジェクト写真群３０２と、ダミーオブジェクト選
択部３０３および原画オブジェクトの属性情報生成部３
０４と、属性情報のうちの原画オブジェクトの位置をあ
らわすＸ座標，Ｙ座標、大きさＳと原画オブジェクトの
顔の向きや口の形状を表わすダミーオブジェクト選択情
報Ｄおよび映像フレーム番号Ｆなどのオブジェクトを選
択制御する情報であるグラフィックインタラクティブデ
ータ（以下、ＧＩデータと呼ぶ）を出力するＧＩデータ
出力部３０７で構成されている。

【００３０】また、図２の口動き属性情報変換手段２０
８は、原画３０１の中に含まれるサウンド３０５およ
び、原画オブジェクトの音声認識部３０６と原画オブジ
ェクトの属性情報生成部３０４で構成されている。静止
画情報取り込み手段１０５は、置き換えの対象となるユ
ーザオブジェクト写真群３０８とユーザオブジェクト写
真選択部３０９で構成されている。

【００３１】静止画動画変換制御手段１０６は、ユーザ
オブジェクト映像処理部３１０、ユーザオブジェクトマ
スク生成部３１１、合成部３１２および出力部３１３で
構成されている。図３で、原画３０１の中の原画オブジ
ェクトの位置をあらわすＸ座標，Ｙ座標、大きさＳと原
画オブジェクトの顔の向きや口の形状を表わすダミーオ
ブジェクト選択情報Ｄおよび原画のサウンド３０５の中
の原画オブジェクトの発声する音声を認識する音声認識
部３０６からの音声選択情報Ａが、原画オブジェクトの
属性情報生成部３０４で原画のなかの原画オブジェクト
の動きを見ながら設定され、前述のＸ座標，Ｙ座標，大
きさＳ，ダミーオブジェクト選択情報Ｄ，音声選択情報
Ａおよび映像フレーム番号Ｆが、オブジェクトの選択制
御情報とする属性情報として対応付けされ、ＧＩデータ
出力部３０７へグラフィックインタラクティブデータと
して出力される。この段階で既に、原画オブジェクトの
顔の向きや口の形状によく似たダミーオブジェクトが対
応付けされている構成になっている。

【００３２】つぎに、ユーザオブジェクト写真群３０８
からＧＩデータ出力部３０７のＧＩデータに基づいて、
原画オブジェクトの位置、顔の向き、口の形状に対応す
るユーザオブジェクトを予め対応付けされているユーザ
オブジェクト写真選択部３０９で選択する。ここでも、
上記のダミーオブジェクトと同様に原画オブジェクトの
顔の向きや口の形状によく似たユーザオブジェクトが対
応付けされている構成になっている。

【００３３】つぎに、選ばれたユーザオブジェクトの映
像処理として、ユーザオブジェクト映像処理部３１０で
ユーザオブジェクトの位置座標を上記のＸ座標，Ｙ座標
で設定し、同様にユーザオブジェクトの大きさを前記の
大きさＳで設定するとともに、画面の中のユーザオブジ
ェクト以外の部分が原画に対して透明になる透明マスク
をマスク生成部３１１で生成する。

【００３４】この際に、透明マスクの透明領域を設定す
るためにユーザオブジェクトの画素がある領域以外の画
素を単一色にしてこの画素のみ除去するという処理が必
要なことは言うまでもない。こうして得られたユーザオ
ブジェクトと、画面の中のユーザオブジェクト以外の部
分が原画に対して透明になる透明マスクを原画３０１の
上に合成部３１２で重ね合わせることによって、原画の
原画オブジェクトとユーザオブジェクトとが見かけ上置
き換えられた映像として出力部３１３に出力される。

【００３５】図４は、以上の時間軸の様子をタイムシー
ケンスで示している。原画の各映像フレームをＧ１，Ｇ
２，…とし、各映像のフレームＧ１，Ｇ２，…間で原画
の中のオブジェクトの顔の向き、表情や口の形状が変化
が小さく、置き換えるユーザオブジェクト写真の選択を
変える必要がない区間を区切り、それぞれＴ１，Ｔ２，
…としてこれに対応するダミーオブジェクト選択情報を
Ｄ１，Ｄ２，…とする。

【００３６】つぎに、原画オブジェクトの属性情報シー
ケンスのうち原画オブジェクトの位置座標および大きさ
をそれぞれフレーム毎に、Ｘ１，Ｘ２，…、Ｙ１，Ｙ
２，…、Ｓ１，Ｓ２，…とする。同様に、原画オブジェ
クトの音声認識部３０６では、ダミーオブジェクトの選
択情報シーケンスＤ１のうちの音声選択情報で、母音で
変化するフレームシーケンスは、ダミーオブジェクトの
詳細選択情報として原画オブジェクトの属性情報生成部
３０４へ出力し、それぞれＡ１，Ａ２，…として原画オ
ブジェクト属性情報シーケンスのうちの音声選択情報と
する。

【００３７】こうして得られた各フレーム毎のＧＩデー
タのうち、音声選択情報Ａ１，Ａ２，…に対応してユー
ザオブジェクト写真選択部３０９で選択されたユーザオ
ブジェクト写真の大きさを大きさ情報Ｓ１，Ｓ２，…に
よって合わせる。同様に位置座標についてもＸ１，Ｘ
２，…になるよう座標を設定する。こうして映像処理さ
れたユーザオブジェクトの各フレームはＥ１，Ｅ２，…
として設定される。また、原画に対して透明になる透明
マスクも同様にして、画面Ｅ１，Ｅ２，…の中で設定さ
れたユーザオブジェクトの残りの領域に設定され、それ
ぞれ、Ｍ１，Ｍ２，…として設定される。

【００３８】以上のようにして得られたユーザオブジェ
クトＥとマスクＭが原画Ｇの上に重ね合わされて各フレ
ーム毎にそれぞれＧ＋Ｍ＋Ｅとして出力される。図５
は、ダミーオブジェクトで「あ」、「う、え、お」と発
音しているものそれぞれ５０１，５０２，５０３，５０
４とこれに対応するようにユーザオブジェクト写真群３
０８の中から選ばれるユーザオブジェクト５０５，５０
６，５０７，５０８との関連付けを示すユーザオブジェ
クト写真選択部である。

【００３９】ユーザは、ユーザオブジェクト写真群３０
８の中からダミーオブジェクトにできるだけ似た写真を
選択部３０９で選択し、ダミーオブジェクトで「あ」と
発音しているものに似た写真をユーザオブジェクト写真
群の中から選んでユーザオブジェクトとしてダミーオブ
ジェクトの「あ」と発音しているオブジェクトの横に並
べ写真番号「１」、あるいは、写真文字記号「ａ」とす
る。

【００４０】同様にしてダミーオブジェクトで「う、
え、お」と発音しているユーザオブジェクトをユーザオ
ブジェクト写真群の中から選びそれぞれダミーオブジェ
クトが発音しているダミーオブジェクトの横に並べ写真
番号「２，３，４」、あるいは、写真記号「ｕ，ｅ，
ｏ」とする。表１は、以上のようにして、原画オブジェ
クトの音声情報も含めてオブジェクトを選択するように
したオブジェクト制御情報として構成したＧＩデータの
例を表したもので、連続した各静止画フレーム番号Ｆに
対しダミーオブジェクトの写真番号Ｄ、ユーザオブジェ
クトの写真記号Ａ、オブジェクトを置く位置として縦、
横座標をそれぞれＸ，Ｙ、オブジェクトの大きさＳを例
として示している。

【００４１】

【表１】

【００４２】以上の説明では、ユーザーオブジェクト写
真群が、人物であれば、男性のＡさんだけ写真群として
いるが、ユーザーオブジェクト写真群の中に男性のＡさ
ん以外に、その他の男性Ｂさんや、女性のＣさん、Ｄさ
ん、Ｅさん、あるいは犬やある人物の服装だけや、髪型
あるいは風景などの写真群として含ませておき、ダミー
オブジェクトと直接関連のない写真をオブジェクトとし
て合成すると、視聴者の興味をそそるような面白い効果
（映像の特殊効果）が得られるという特徴も有してい
る。

【００４３】図６は、本発明の実施の形態におけるＧＩ
データ作成の各工程を示し、７０１は原画取り込み部、
７０２は動画編集部、７０３は原画フレーム作成部、７
０４は画像処理ファイル設定部、７０５はダミーオブジ
ェクト選択部、７０６はＧＩデータ編集部、７０７はプ
レビュー部、７０８はＧＩデータ出力部である。連続し
た動画である原画が原画取り込み部７０１で取り込ま
れ、動画編集部７０２でオブジェクト置き換えの対象と
なる部分やその周辺などの最終完成映像音響に必要な部
分をつなぎ、その他を切り捨てる。こうして編集された
動画は、原画フレーム作成部７０３で静止画である各フ
レームファイルに分解変換される。この際に、原画に含
まれるサウンドは上記各フレームの編集に合わせてサウ
ンドも編集されている必要があることはいうまでもな
い。

【００４４】一方、ダミーオブジェクト選択部７０５
で、置き換えられる原画オブジェクトの代わりとして設
定されるダミーオブジェクトをダミーオブジェクト群の
中から原画オブジェクトの複数の顔の向きに似た写真を
それぞれ複数選択して、画像処理ファイル設定部７０４
に予め設定しておく。また、画像処理ファイル設定部７
０４では、後述の写真番号Ｄ、座標Ｘ，座標Ｙ、大きさ
ＳなどのＧＩデータがＧＩデータ編集部７０６からフィ
ードバックされ、これらＤ，Ｘ，Ｙ，Ｓのデータに基づ
いて写真番号Ｄの中のオブジェクト（ダミーオブジェク
トは予めブルーバック処理窓の抜き処理されオブジェク
トのみになっている）が座標Ｘ，Ｙと大きさＳのオブジ
ェクトに画像処理され、ＧＩデータ編集部７０６で原画
フレームと合成され、プレビュー部７０７の画像を確認
することができる。

【００４５】ＧＩデータ編集部７０６では、プレビュー
部７０７の画面を見ながら、画面にふさわしい置き換え
の編集対象をダミーオブジェクト写真のうちどれにする
か決めるために、そのダミーオブジェクト番号Ｄを選
び、オブジェクトを置く位置として縦、横座標であるそ
れぞれＸ，Ｙ（ＣＧの場合は奥行き座標Ｚも含まれる）
および、オブジェクトの大きさＳを設定する。このよう
にして設定した写真番号Ｄ、座標Ｘ，Ｙ、大きさＳが原
画フレームとともにＧＩデータ編集部７０６で原画フレ
ーム番号と対応付けて編集できるようにＧＩデータ編集
部７０６が構成されている。

【００４６】ＧＩデータ編集部７０６では、写真番号
Ｄ、座標Ｘ，Ｙ、大きさＳが原画フレーム番号とともに
ＧＩデータとしてファイル化されるとともに所定の座標
Ｘ，Ｙ、大きさＳに画像処理されたダミーオブジェクト
と原画フレームの合成映像がプレビュー部７０７へ出力
される。この結果をプレビュー部７０７で動画として確
認し、変更なければＧＩデータ出力部７０８へ出力され
る。

【００４７】こうして得られたダミーオブジェクト番号
Ｄ、座標Ｘ，Ｙ、大きさＳ、および原画フレーム番号Ｆ
などの一連の出力データをディスクなどの記録メディア
に保存することによって、後から他の第ｎオブジェクト
を使った合成や複数のオブジェクトを重ねて合成するこ
とも可能になる。なお、ＧＩデータは、声、ストーリ、
面白さにあわせて作成する。

【００４８】以上、上記実施の形態では、属性情報付動
画プログラムの属性情報として顔の部分の目の中心位
置、鼻の中心位置、口の中心位置、耳の位置などの位置
情報を顔の向きという１つのオブジェクト選択情報で現
し、これに近い顔の向きの顔写真を複数の静止画から選
択し、位置と大きさを制御する方法で説明したが、この
他には、原画と静止画のなじみをよくするため、あるい
は、いろいろな角度の静止画を撮影しなくても静止画の
種類を増やして変化を豊富にするために、それぞれ静止
画の明るさや、色合い、あるいは、陰影を変化させる制
御データや顔の片側の写真を水平方向や垂直方向に反転
した映像を一般的な映像の演算処理によって作成し、こ
れらを動画プログラムの属性情報となるＧＩデータにす
ることも、上記実施の形態で説明した静止画を選択し、
位置や大きさ等を制御する方法と同様の方法を用いるこ
とで、図３のオブジェクト映像処理部３１０において処
理され実現するものである。

【００４９】また、前記の静止画の明るさや、色合い、
あるいは、陰影を変化させたり顔の片側の写真を水平方
向や垂直方向に反転した映像を作成する方法（モーフィ
ング）は、ユーザオブジェクトの大きさを縮小拡大する
とき、それぞれオブジェクトを構成する画素を間引いた
り、補間画素を作成して画素の不足領域を補間するなど
の方法と同様であり、それぞれ、色のヒストグラム関数
の係数を変えたり画素を左右上下に反転させることによ
って実現されるものである。こうした処理を静止画に加
えることによって、対象とする新オブジェクトの写真枚
数が少ない場合でも、動画化ができるという特徴を有し
ている。

【００５０】こうした画像処理は、ＧＩデータ編集のと
きには、図６の画像処理ファイル設定部７０４で、また
合成動画作成のときには、図８、図９のＧＩファイル画
像処理部９１１でそれぞれ実施されるものである。図７
は、原画を背景画としてユーザオブジェクトと合成画を
生成する工程を図示したものである。図７では、ユーザ
オブジェクト８０２で、顔の領域８０５を原画８０１の
中の顔の領域８０４に重ね合わせるために、ユーザオブ
ジェクト８０２で顔の領域８０５以外の領域を原画８０
１に対して透明にした透明マスク８０３を示している。
透明マスクとは、ビットマップ形式ファイルの中で画素
データを置かずフレームのみ存在するものを指し、これ
を１つの独立したレイヤとしてファイルにする場合と、
独立したレイヤを設定しないで、画像メモリなどのフレ
ームメモリへユーザオブジェクト８０２の顔の領域８０
５以外の領域に原画８０１の画素データを直接書き込む
場合がある。

【００５１】いずれにしても、上記のようにして設定さ
れたユーザオブジェクトの顔の領域８０５以外の領域を
みかけ上透明にするようにした透明マスクの上にユーザ
オブジェクト８０５、下に原画８０１を重ね合わせる
と、原画オブジェクトの体の部分８０６を含む合成画８
０７が生成される。また、図５のプレビュー部５０７で
は合成結果を確認するだけでよいため、透明マスクを各
フレーム毎に保存する必要がないので、ＧＩ編集する効
率を高くするためには、透明マスクを設定することなく
画像メモリなどのフレームメモリへ直接書き込む合成手
段を用いる方法が望ましい。

【００５２】ＣＧの場合は、原画８０１の中で顔８０４
だけが表示されず、原画の中に体８０６が表示されるの
で、テクスチャーマッピングなどの貼り付け時に原画８
０１の中の顔の領域８０４とユーザオブジェクト８０２
の顔の領域８０５の貼り付けを置き換えるだけでよい。
図８は、本発明の実施の形態における具体的な画像作成
の各工程を示し、ブルーバック９０１、ユーザ９０２、
カメラ９０３、背景抜き部９０４、窓処理部９０５、窓
画生成部９０６、俳優のショット９０７、モニタ９０
８、ユーザオブジェクトの設定部９０９、原画入力部９
１０、ＧＩファイル画像処理部９１１、合成部９１３、
動画化設定部９１４、ＡＶデータ作成部９１７、サウン
ド入力部９１８、出力モニタ部９１９で構成されてい
る。

【００５３】ブルーバック９０１は青色などの１色の背
景であり、ユーザ９０２の背景が青色などの１色に撮影
され背景抜き部９０４で背景色である青の画素データの
み抜いて背景を透明にするためのものである。窓処理部
９０５では、ユーザの顔の部分を抜き出すために体の部
分を除去するための窓を予め用意しておき、これと背景
抜き部９０４のユーザ写真を画像合成するとともに、モ
ニタ９０８に映像を出力する。また、モニタ９０８には
ユーザのオブジェクト設定部９０９で予め設定された撮
影目標としてのダミーオブジェクト９０７が表示され、
ユーザ９０２は、ダミーオブジェクト９０７の顔の向
き、表情に合わせて自分の顔の向き表情を調整する。調
整が完了すると、ユーザ９０２はシャッタ９２０を押
す。この際にダミーオブジェクト９０７の代わりに原画
の中のオブジェクトである俳優のショットをモニタ９０
８へ表示したほうがユーザにとってやりやすいことも考
えられるが、いずれでもよい。

【００５４】こうして得られたユーザ写真は顔の部分だ
けが抜き出され、かつ目標であるダミーオブジェクト９
０７あるいは、原画の中のオブジェクトである俳優の表
情、顔の向きに合った状態にある。以上のようにして合
成の際に使われる枚数だけユーザのオブジェクト設定部
９０９からモニタ９０８へ表示される１枚以上のダミー
オブジェクト９０７とこれに合うユーザ写真とがユーザ
のオブジェクト設定部９０９から出力されると、予め図
６で生成保存されていたＧＩデータがＧＩデータ入力部
９１２から入力され、ＧＩファイル画像処理部９１１で
各フレーム毎にファイルに設定される。

【００５５】合成部９１３では、こうして得られたファ
イルをメモリから読み出すとともに、図６の原画フレー
ム作成部７０３で編集されフレーム化された原画が原画
入力部９１０から入力され、ＧＩデータの中の各フレー
ム番号に合わせて図７で述べたように映像合成され、動
画化設定部９１４で各合成フレームが連続する１つの動
画ファイルとして生成され、ＡＶデータ作成部９１７
で、サウンド入力部９１８から入力される原画に含まれ
た音とともに合成される。

【００５６】こうして、合成された動画が１つの映像音
響データとして生成され、出力モニタ部９１９にサウン
ドとともに出力される。こうした一連のファイル設定
や、メモリなどへの書き込みによる合成、あるいは音響
とのデータ合成のための圧縮演算などは、現在一般的な
パーソナルコンピュータなどの演算処理装置、あるいは
専用合成演算処理回路や半導体メモリやディスクなどの
記録メディアを用いて実行されるものである。

【００５７】また、複数の記録層を有する記録ディスク
の１層目に背景となる元画像を記録し、２層目にＧＩデ
ータを記録することによって、従来のプレーヤでは、１
層目のみの再生とし、本発明の機能を有するプレーヤで
は、１層目を再生するときに２層目のデータを利用でき
るようにすることで、従来の再生ディスクプレーヤとの
互換性を確保できるという特徴を有する構成となしうる
ものである。

【００５８】また、サウンドとして原画のサウンドや音
声をそのまま使う場合は動画化設定部９１４で動画化と
サウンド合成を同時に行えばよいことは言うまでもな
い。また、実施の形態では、出力モニタ部９１９はテレ
ビモニタなどを指しているが、完成した合成動画の一部
を複数の静止画としてプリントし、ある程度連続して紙
芝居のようにみる方法でもかまわない。

【００５９】つぎに、他の実施の形態としてユーザの音
声を入力し、その声で静止画撮影を制御し、かつ原画に
含まれる原音の声とユーザの声とを置き換える場合につ
いて説明する。図９では、図８の構成と同様のものは同
じ番号を付しているが、この図９は図８の構成の全てと
ユーザの音声を入力するためのマイク９２１および音声
認識部９２２とで構成されている。以下、ユーザの音声
を認識する部分以外は、図８の構成と同様であるのでユ
ーザの音声の処理についてのみ図面とともに説明する。

【００６０】図９で音声認識部９２２は、既にパソコン
ソフトで販売されているような音声認識ソフトウェアあ
るいは、音声認識ボードなどのハードウェアである。ユ
ーザ９０２が「あ」と発音すると、マイク９２１を介し
て音声認識部９２２で、「あ」と認識され、ユーザオブ
ジェクト設定部９０９へ「ａ」という記号を入力し、予
め設定されている「あ」という発音したダミーオブジェ
クト９０７をモニタ９０８に表示するとともにユーザが
シャッタ９２０を押して撮影された映像がユーザオブジ
ェクトとして背景抜き、窓処理によって「あ」という発
音の顔のみの映像としてＧＩファイル画像処理部９１１
へ出力される。

【００６１】こうしてユーザの声によってモニタ９０８
へのダミーオブジェクトの提示を制御しながらユーザの
静止画撮影を行うようにしたものである。以降は、図８
の実施の形態と同様にして、映像合成および動画化され
る。この際に「あ」という発音したダミーオブジェクト
が含まれる原画フレームで、ユーザの声による「あ」と
いう発音がＡＶデータ作成部９１７でサウンド入力部９
１８を介してユーザの音声がＧＩデータのフレーム番号
に対応した映像とともに合成され、原画に含まれる原音
の声とユーザの声とを置き換えられる。

【００６２】また、ユーザの実録音信号をそのまま利用
しないでテキスト信号やＭＩＤＩ（Musical Instrument
Digital Interface）信号で入力し、これを音声合成で
人工の音声を生成し映像を合成したものでもかまわな
い。また、実施の形態では、顔の置き換えについて説明
したが、体全体の動きを現した人の姿の場合や模型、工
作物などのオブジェクトであっても同様である。

【００６３】なお、上記の実施の形態では、動画プログ
ラムに属性情報を付与する属性情報付与手段を設けてい
たが、外部から所定部分（口部分等）の属性情報をもつ
動画プログラムを取り込む場合には、属性情報付与手段
はなくてもよい。

【００６４】

【発明の効果】本発明の映像音響システムによれば、動
画の中の所定部分を他の静止画と置き換えるとともに動
画中の所定部分の位置、動きなどの属性情報に従って静
止画を制御することができ、しかもその静止画の置き換
えおよび制御が容易で安価に実現可能となる。したがっ
て、予め用意された動画の属性情報を使ってユーザが選
んだ任意の写真などの静止画を動画の中のオブジェクト
と置き換えて楽しむことが可能になり、一つの映画など
の作品をいろいろな属性情報、あるいは、表情の異なる
静止画を選び変えることによって何度も楽しむことが可
能となる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態における映像音響シ
ステムの構成を示すブロック図である。

【図２】本発明の第２の実施の形態における映像音響シ
ステムの構成を示すブロック図である。

【図３】本発明の第１および第２の実施の形態を具体的
に実施した映像音響システムのブロック図である。

【図４】本発明の第１および第２の実施の形態を具体的
に実施した映像音響システムのタイムシーケンス図であ
る。

【図５】本発明の第１および第２の実施の形態を具体的
に実施した映像音響システムのユーザオブジェクト選択
部を示す模式図である。

【図６】本発明の第１および第２の実施の形態を具体的
に実施した映像音響システムのＧＩデータ作成工程を示
す概略図である。

【図７】本発明の第１および第２の実施の形態を具体的
に実施した映像音響システムの合成画を生成する工程を
示す概略図である。

【図８】本発明の第１の実施の形態を具体的に実施した
映像音響システムの画像作成工程を示す概略図である。

【図９】本発明の第２の実施の形態を具体的に実施した
他の映像音響システムの画像作成工程を示す概略図であ
る。

【符号の説明】

１０１動画プログラム１０２属性情報付与手段１０３属性情報付動画プログラム取り込み手段１０５静止画情報取り込み手段１０６静止画動画変換制御手段２０８口動き属性情報変換手段７０４画像処理ファイル設定部７０７ＧＩデータ編集部７０８ＧＩデータ出力部９１０原画入力部９１１ＧＩファイル画像処理設定部９１２ＧＩデータ入力部９１３合成部９１７ＡＶデータ作成部９１８サウンド入力部９１９出力モニタ部９２１マイク９２２音声認識部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＨ０４Ｎ 5/265 Ｇ０６Ｆ 15/66 ４５０

Claims

【特許請求の範囲】

【請求項１】動画プログラム中の所定部分の属性情報
を前記動画プログラムに付与する属性情報付与手段と、
前記属性情報をもつ属性情報付動画プログラムを取り込
む属性情報付動画プログラム取り込み手段と、前記属性
情報付動画プログラムとは異なる静止画の情報を取り込
む静止画情報取り込み手段と、前記静止画情報取り込み
手段で得られた前記静止画を前記属性情報付動画プログ
ラムの前記所定部分と置き換えかつ前記所定部分の属性
情報に基づき前記静止画を制御する静止画動画変換制御
手段とを備えた映像音響システム。
【請求項２】動画プログラム中の口部分の属性情報を
前記動画プログラムに付与する付与する属性情報付与手
段と、前記口部分の属性情報をもつ属性情報付動画プロ
グラムを取り込む属性情報付動画プログラム取り込み手
段と、前記属性情報付動画プログラムとは異なる口部分
の静止画の情報を取り込む静止画情報取り込み手段と、
前記静止画情報取り込み手段で得られた前記口部分の静
止画を前記属性情報付動画プログラムの口部分と置き換
えかつ前記口部分の属性情報に基づき前記口部分の静止
画を制御する静止画動画変換制御手段とを備えた映像音
響システム。
【請求項３】動画プログラム中の口部分の属性情報を
前記動画プログラムに付与する付与する属性情報付与手
段と、前記口部分の属性情報をもつ属性情報付動画プロ
グラムを取り込む属性情報付動画プログラム取り込み手
段と、外部から音声信号を取り込み前記音声信号から口
の動きの情報を抽出する口動き属性情報変換手段と、前
記属性情報付動画プログラムとは異なる口部分の静止画
の情報を取り込む静止画情報取り込み手段と、前記静止
画情報取り込み手段で得られた前記口部分の静止画を前
記属性情報付動画プログラムの口部分と置き換えかつ前
記属性情報付動画プログラムの属性情報と前記口動き属
性変換手段で得られた属性情報とを選択的に用いて前記
口部分の静止画を制御する静止画動画変換制御手段とを
備えた映像音響システム。
【請求項４】外部から所定部分の属性情報をもつ属性
情報付動画プログラムを取り込む属性情報付動画プログ
ラム取り込み手段と、前記動画プログラムとは異なる静
止画の情報を取り込む静止画情報取り込み手段と、前記
静止画情報取り込み手段で得られた前記静止画を前記属
性情報付動画プログラムの前記所定部分と置き換えかつ
前記所定部分の属性情報に基づき前記静止画を制御する
静止画動画変換制御手段とを備えた映像音響システム。
【請求項５】外部から口部分の属性情報をもつ属性情
報付動画プログラムを取り込む属性情報付動画プログラ
ム取り込み手段と、前記属性情報付動画プログラムとは
異なる口部分の静止画の情報を取り込む静止画情報取り
込み手段と、前記静止画情報取り込み手段で得られた前
記口部分の静止画を前記属性情報付動画プログラムの口
部分と置き換えかつ前記口部分の属性情報に基づき前記
口部分の静止画を制御する静止画動画変換制御手段とを
備えた映像音響システム。
【請求項６】外部から口部分の属性情報をもつ属性情
報付動画プログラムを取り込む属性情報付動画プログラ
ム取り込み手段と、外部から音声信号を取り込み前記音
声信号から口の動きの情報を抽出する口動き属性情報変
換手段と、前記属性情報付動画プログラムとは異なる口
部分の静止画の情報を取り込む静止画情報取り込み手段
と、前記静止画情報取り込み手段で得られた前記口部分
の静止画を前記属性情報付動画プログラムの口部分と置
き換えかつ前記属性情報付動画プログラムの属性情報と
前記口動き属性変換手段で得られた属性情報とを選択的
に用いて前記口部分の静止画を制御する静止画動画変換
制御手段とを備えた映像音響システム。