JP2795084B2

JP2795084B2 - 口形状画像合成方法及び装置

Info

Publication number: JP2795084B2
Application number: JP4218719A
Authority: JP
Inventors: 正秀金子; 淳小池; 好律羽鳥
Original assignee: Kokusai Denshin Denwa KK
Current assignee: KDDI Corp
Priority date: 1992-07-27
Filing date: 1992-07-27
Publication date: 1998-09-10
Anticipated expiration: 2013-09-10
Also published as: JPH0652290A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ＴＶ電話・ＴＶ会議動
画像や、映画・放送用ＴＶ等の動画像における人物顔画
像について、異なる言語での音声に適合した口形状を表
現するための方法及び装置に関するものである。

【０００２】

【従来の技術】ＴＶ電話やＴＶ会議において、発声者が
ある言語Ａ（例えば英語）で発声した内容を、別の言語
Ｂ（例えば日本語）に翻訳して伝える場合が考えられ
る。この時発声に伴う発声者の口形状の変化は、言語Ａ
での発声に対応しているため、受け手がこの発声者の画
像と言語Ｂに翻訳された音声とを受け取る際に、口形状
の変化と音声との間での不一致が生じ、不自然な印象を
与えることになる。

【０００３】別の例として、映画やＴＶ放送番組におい
て、音声を翻訳して放映する場合にも、画面中の登場人
物の口形状の変化と翻訳後の音声との間での不一致が生
じる。更に、１つの映像信号に対して、異なる言語での
音声チャネルを複数付与してＴＶ放送を行なうことがあ
るが、この場合にも、画面中の登場人物の口形状の変化
は、番組制作時に発声した時の言語に対応したものであ
り、他の言語による音声との間では不一致を生じること
になる。

【０００４】この様に、１つの映像信号に対して、異な
る言語に基づく複数の音声を付与する場合には、登場人
物の口形状の変化と音声との間での不一致という問題が
生じる。この不一致を低減するための従来技術として
は、Guinet,Yves による特許（Procede de television
pour programmes multilingues : European Patent Off
ice EP 0 179 701 A1 : 1986.4.30.付）がある。

【０００５】図９はGuinet,Yves の特許の方法を示した
ものである。図９において、１００は原画像、１０１は
原音声、１０２は口部分の形状を修正した出力画像、１
０３は翻訳音声、１０４は組合せ操作を示す。図９は、
原画像、原音声、及び翻訳音声から得られるデータを用
いて、翻訳音声に対応した口形状変化を表現する画像を
出力するという一般的概念を示したものである。具体的
な実現方法としては、次の様な考え方が述べられてい
る。

【０００６】まず、原画像１００に対して空間分析を行
ない、発声区域の中心位置（ｘ1 ，ｙ1 ）、相対的大き
さ、姿勢に関するデータを得る。原音声１０１からは、
原画像中の話し手が話しているか黙っているかの情報を
得る。翻訳音声１０３からは、翻訳音声の話し手が話し
ているか黙っているかの情報、及びこの話し手の発声活
動、すなわち口形状の変化を描写する情報を得る。ここ
で、口形状の変化については、話し手に物理的に連結さ
れた検出装置によって、口を閉じている、開けている、
閉じつつある、開きつつある、という情報を容易に得ら
れると記されている。以上のデータをもとに、まず、原
画像の発声区域について、輝度値の平均化操作により、
唇の形が分からない様にぼかした画像を作る。次に、翻
訳音声の話し手の口形状変化に関する情報に基づいて発
声区域の色成分値を修正し、この結果を組合せ操作１０
４によって発声区域をぼかした画像の（ｘ1 ，ｙ1 ）の
まわりに重畳させて、出力画像１０２を得る。この色成
分値の修正が、翻訳音声に対応した口形状画像の合成に
対応しているものと推測される。

【０００７】

【発明が解決しようとする課題】従来技術としての上記
特許は、翻訳音声に対応した口形状を有する画像を生成
することに関する概念を述べた特許であり、実施例の記
述部分において、具体的実施方法はほとんど示されてい
ない。すなわち、まず原画像から発声区域の位置、相対
的大きさ、姿勢を空間分析によって検出すると記されて
いるが、具体的にどういう方法で検出するかに関しては
述べられていない。翻訳音声の話し手の口形状変化の検
出に関しても具体的方法が述べられていない。更に、翻
訳音声に対応した口形状の生成に関しても、原画像にお
ける発声区域をぼかす方法に関しては記述がなされてい
るが、色成分をどう修正して口形状を生成するかに関し
ては述べられていない。従って、翻訳音声に対応した口
形状を有する画像を実際に生成できるのか、また、生成
できたとして、良好な品質の画像が得られるのか不明で
ある。

【０００８】本発明は従来技術としての上記特許に見ら
れるこれらの問題点を解決するためになされたものであ
る。すなわち、まず、画面中の人物頭部については、横
を向く、うなずく等の３次元的な動きがあるのが普通で
あるが、この点を含めて、画面中での発声区域、すなわ
ち、口部分の位置及び向きを考慮した上で、当該言語の
音声に対応した口形状に修正することが可能な方法及び
装置を提供することを目的とする。また、当該言語の音
声に対応した口形状画像の生成に関し、口部分の形状及
び明るさ・色の情報を明示的に取り扱い、良質な出力画
像を得ることが可能な方法及び装置を提供することを目
的とする。

【０００９】

【課題を解決するための手段】本発明の第１の特徴は、
テレビカメラやビデオテープレコーダ等から得られる映
像信号をディジタル化したディジタル動画像信号を原画
像とし、また、映像信号に付与されていた原音声を異な
る言語に翻訳した翻訳音声を音素列に分解した時の各音
素の種別と持続時間の情報を音声に関する入力とし、画
像中の人物の頭部形状を表現する３次元形状モデルと原
画像とから人物頭部の３次元的な動きを検出し、一方、
音素と持続時間の情報とから翻訳音声に対応したフレー
ム単位での口形状パラメータを生成し、頭部の３次元形
状モデルの口及び口周辺部について口形状パラメータで
指定された形状となる様に座標を修正し、更に口部分を
含めた頭部全体について頭部の３次元的な動きパラメー
タに従って３次元的な動きを表現する様に座標を修正
し、次に、座標修正後の３次元形状モデルの口及び口周
辺部に、予め得られている人物の口及び口周辺部のテク
スチャ情報を付与し、更に、この結果新たに得られる口
及び口周辺部の画像によって原画像中の人物の口及び口
周辺部の画像を置き換え、翻訳音声と対応した口形状変
化を有する自然な画像を合成することにある。

【００１０】本発明の第２の特徴は、テレビカメラやビ
デオテープレコーダ等から得られる映像信号をディジタ
ル化したディジタル動画像信号を原画像として入力する
ための第１の入力端子と、映像信号に付与されていた原
音声を異なる言語に翻訳した翻訳音声を音素列に分解し
た時の各音素の種別と持続時間の情報を入力するための
第２、第３の入力端子と、画像中の人物の頭部形状を表
現する３次元形状モデルと前記第１の入力端子から入力
される原画像とから人物頭部の３次元的な動きを検出す
る３次元的動き検出部と、前記第２、第３の入力端子か
ら入力される音素の種別と持続時間の情報とから翻訳音
声に対応したフレーム単位での口形状パラメータを生成
する口形状パラメータ生成部と、頭部の３次元形状モデ
ルの口及び口周辺部については前記口形状パラメータ生
成部から得られる口形状パラメータで指定された形状と
なる様に座標を修正し、口部分を含めた頭部全体につい
ては前記３次元的動き検出部から得られる頭部の３次元
的な動きパラメータに従って３次元的な動きを表現する
様に座標を修正する形状モデルの座標修正部と、該形状
モデルの座標修正部から得られる座標修正後の３次元形
状モデルの口及び口周辺部に、予め得られている人物の
口及び口周辺部のテクスチャ情報を付与するテクスチャ
マッピング部と、該テクスチャマッピング部から得られ
る口及び口周辺部の画像によって前記第１の入力端子か
ら得られる原画像中の人物の口及び口周辺部の画像を置
き換える合成部とを備えたことにある。

【００１１】

【実施例】図１は、本発明の実施例を説明するためのブ
ロック図である。図１において、１は３次元的動き検出
部、２は口形状パラメータ生成部、３は形状モデルの座
標修正部、４はテクスチャマッピング部、５は合成部、
９０は原画像を入力するための第１の入力端子、９１、
９２は各々原画像に付与すべき翻訳音声を構成する各音
素の種別と持続時間を入力するための第２、第３の入力
端子、９９は口形状の修正を行なった後の画像を出力す
るための出力端子である。ここで、原画像としては、Ｔ
Ｖカメラ、或いはＶＴＲ等から得られるアナログ動画像
信号をＡ／Ｄ変換（標本化及び量子化）した後のディジ
タル動画像信号を考える。従って、本発明中の各部での
処理は基本的にディジタル処理によって行なうことを想
定している。

【００１２】図１の各部の動作について説明する前に、
本発明における原画像と出力画像との関係を図２を用い
て説明する。図２は本発明の動作を説明するための説明
図であり、図２（１）は顔がほぼ正面を向いている場
合、図２（２）は３次元的な動きがあり、少し横を向い
ている場合である。図２（１）においてａ１，ａ２は各
々原画像、出力画像、Ｅi1、Ｅ02は各々原画像、出力画
像における口及び口周辺部である。図２（２）において
ｂ１、ｂ２は各々原画像、出力画像、Ｅi2、Ｅ02は各々
原画像、出力画像における口及び口周辺部である。本発
明では、図２に見られる様に、頭部全体の３次元的な動
きを考慮した上で、翻訳音声に対応した形に口及び口周
辺部の形状が変換され、出力画像が合成される。

【００１３】画像情報の取扱いについて説明する前に、
まず、音声情報の取扱いについて述べておく。図１で
は、画像信号に新たに付与される翻訳後の音声に関し
て、これを音声の単位である音素列に分解した時の各音
素について種別と持続時間の情報が与えられることを前
提としている。この際、新たに付与される翻訳音声とし
て、吹替え者による実音声を用いる場合と、原音声から
翻訳後の音声を自動合成する場合とが考えられる。図３
は、前者の場合の動作を説明するためのブロック図であ
る。図３において、６は音声認識部（Ａ）、９３は実音
声を入力するための入力端子である。音声認識自体に関
しては既存の音声認識技術を利用することができ、ま
た、本発明で直接目的とする要件ではないので、詳細な
説明は省略する。音声認識部（Ａ）６では、入力された
実音声に対して、周波数分析、ケプストラム分析、線形
予測分析等の手法を用いて分析を行ない、各音素の識
別、及び持続時間の算出を行なう。これらの概要につい
ては、例えば、白井良明編：「パターン理解」（オ
ーム社）ｐｐ．１７９〜２５５に述べられている。な
お、新たに付与される実音声について話し手の顔動画像
が同時に得られる場合には、この顔動画像中の口部分の
形状を計測した結果を、出力画像における口形状の修正
のために用いても良い。このための方法としては、例え
ば、文献、金子正秀、小池淳、羽鳥好律：「顔動画
像のモデルベース符号化に対する実時間動作システ
ム」、１９９０年画像符号化シンポジウム資料３−６、
ｐｐ．５９〜６２がある。この文献では、まず、原画像
に対してメディアンフィルタによる雑音低減処理を行な
った後、適当な閾値Ｔｈを用いて２値化を行なう。２値
化画像中の各要素に対してラベルを付与し、連結成分の
抽出を行ない、更に、各連結成分ごとに最小外接長方
形、フィレ座標を検出する。これらの結果を用いて、小
領域については雑音成分と見なして除去し、更に、１つ
前の時点までの検出結果を参照して口部分の領域を選択
する。これにより、少なくとも口部分の水平、垂直方向
での開き具合を求めることができる。次に、図４は後
者、すなわち原音声から翻訳後の音声を自動合成する場
合についての動作を説明するためのブロック図である。
図４において、７は音声認識部（Ｂ）、８は翻訳処理
部、９は音声情報生成部、９４は原音声を入力するため
の入力端子である。音声認識部（Ｂ）７は図３における
音声認識部（Ａ）６とほぼ同様の機能を有するが、原音
声に対する認識結果を文字情報（文章）として出力す
る。翻訳処理部８では、音声認識部（Ｂ）７の出力であ
る文字情報（文章）に基づいて、指定された言語での文
章に翻訳を行なう。機械による自動翻訳技術に関して
は、既存技術が利用でき、また、本発明で目的とする要
件ではないので、詳細な説明は省略する。音声情報生成
部９では、翻訳後の文章に対して、音声の規則合成技術
を活用して、音素の種別と持続時間の情報を自動的に生
成する。この部分に関しても、既存技術が利用でき、か
つ本発明で目的とする要件ではないので、詳細な説明は
省略する。

【００１４】以下、図１の各部の説明を行なうが、その
前に、本発明における人物顔部分の取り扱い方法の特徴
を述べておく。すなわち、本発明においては、原画像中
からの口部分の位置・向きの検出や、良質な口形状画像
の生成のために、人物頭部の３次元形状を表現する３次
元形状モデルを用いる。この形状モデルは、例えば小さ
な三角形パッチの集合で表現される様なものであり、各
三角形の頂点座標位置を変化させることによって形状変
化を表現することが可能である。なお、画面中に複数の
人物が存在する場合には、各人物ごとに３次元形状モデ
ルを用意し、各人物ごとに以下に述べる方法を適用す
る。

【００１５】図１において、まず、３次元的動き検出部
１の動作について説明する。３次元的動き検出部は、２
次元入力動画像から、画面中の登場人物の顔部分につい
て、３次元空間内での動き情報、すなわち顔の向き及び
位置の変化を求めることを目的としている。このための
方法としては、小池淳、金子正秀、羽鳥好律による文
献、「顔動画像のモデルベース符号化における頭部の３
次元的な動きの推定」電子情報通信学会論文誌B-I, vo
l.J74-B-I, no.10, pp.789-798 （１９９１年１０月）
がある。図５はこの文献での提案手法に基づく３次元的
動き検出部１の具体的構成の一例を示したブロック図で
ある。図５において、１１はフレームメモリ、１２はブ
ロック分割部、１３は動ベクトル検出部、１４は３次元
的動き推定部、１５は奥行き座標計算部である。

【００１６】ここで、２次元入力動画像から対象物（こ
こでは人物頭部分）の３次元的な動きを推定する方法の
原理について説明する。

【００１７】顔部分を含む頭部を剛体と仮定し、フレー
ム間での動きは微小であるとすると、前フレームにおけ
る点Ｐ（ｘ，ｙ，ｚ）は数１で示される様に回転移動成
分と並進移動成分の組合せにより、現フレームにおける
点Ｐ' （ｘ' ，ｙ' ，ｚ' ）に移動する。

【００１８】

【数１】数１において、ｔは転置、Ｒは回転移動、Ｔは並進移動
を表わす。また、３次元空間から２次元画像への投影を
平行投影と見なせば、Ｔz ＝０とすることができる。

【００１９】前フレーム及び現フレームで点Ｐの座標
ｘ, ｙ, ｚ及び点Ｐ' の座標ｘ',ｙ'が求まれば、これ
らを数１で示される式に代入しΩx 、Ωy 、Ωz 、Ｔx
、Ｔy及びｚ' に関する連立方程式をたてて解を計算す
れば良い。しかし、入力画像からは直接はｚ座標の情報
が得られないため、方程式を解くことが困難になる。こ
の問題を解決するために、入力動画像から２次元平面内
での動き情報を得、この結果と形状モデルから得られる
３次元での構造情報（特に、ｚ座標の情報）を用いて、
３次元での運動パラメータを推定する。

【００２０】具体的には、図５の構成によって人物頭部
の３次元的動きを検出する。フレームメモリ１１は１つ
前の時点の入力画像、すなわち前フレーム画像を蓄える
ためのメモリである。ブロック分割部１２では、後で説
明を行なう形状モデルの座標修正部３から、前フレーム
画像中での人物頭部の位置・向きに対応した３次元形状
モデルを得、この３次元形状モデルをフレームメモリ１
１に蓄えられている前フレーム画像上に投影することに
より、前フレーム画像中での人物顔部分の領域を判定
し、更に、この領域をＮ×Ｎ画素（Ｎは例えば１３）か
らなる小ブロック群に分割する。動ベクトル検出部１３
では、ブロック分割部１２で得られた各ブロック毎に、
入力端子９０から得られる現フレームでの画像につい
て、最も画素値の分布が似通っている場所を求め、この
場所と前フレーム画像中でのブロックの位置とのずれか
ら、２次元的な動きベクトルを求める。これにより、該
当ブロックについて前述の説明における点Ｐのｘ, ｙ座
標値（ｘ, ｙ）及び点Ｐ' のｘ, ｙ座標値（ｘ',ｙ' ）
が得られる。

【００２１】一方、奥行き座標計算部１５では、ブロッ
ク分割部１２で得られる各ブロックに関して、ブロック
毎に画面内での位置（ｘ, ｙ）を求め、更に前フレーム
での３次元形状モデルについて、（ｘ, ｙ）を中心とし
た小ブロック領域内に入る頂点を求め、それらの頂点の
奥行き座標（ｚ）の平均値を求めることによって、小ブ
ロックのｚ座標を算出する。３次元的動き推定部１４で
は、各小ブロック毎に動ベクトル検出部１３から得られ
る動ベクトルから求まる（ｘ, ｙ）, （ｘ',ｙ' ）の値
及び奥行き座標計算部１５から得られる奥行き座標ｚを
用いて、３次元的運動パラメータΩx 、Ωy 、Ωz 、Ｔ
x 、Ｔy 、及びｚ' に関する線形連立方程式を得る。こ
の方程式を最小２乗法で解くことにより、３次元的運動
パラメータが求まり、これを、形状モデルの座標修正部
３へ渡す。

【００２２】次に、形状モデルの座標修正部３の動作に
ついて、図６を用いて説明する。図６において、３１は
座標変更部（Ａ）、３２は座標変更部（Ｂ）である。座
標修正部３では、口形状パラメータ生成部２から与えら
れる口形状パラメータ及び３次元的動き検出部１から与
えられる頭部の３次元的動きパラメータに基づいて、頭
部の３次元形状モデルにおける口及び周辺部の形状を修
正することを目的としている。まず、座標変更部（Ａ）
３１では、口形状パラメータ生成部２から与えられる口
形状パラメータに基づいて、頭部の３次元形状モデル中
で口部分を構成する頂点座標の位置を変更し、所望の形
状を表現する。口形状パラメータとしては、口の上下方
向での開き具合、横幅、唇の丸め、唇の厚みを表現する
パラメータを用い、これらによって口部分の３次元的形
状を形作る。なお、口部分だけでなく、あごを含めた口
周辺部分を構成する頂点座標についても、口部分の動き
に合わせて、例えば、口の開き具合に応じてあごを下方
に下げる等の変更を行なう。

【００２３】この様にして、口及び口周辺部分の頂点座
標値を変更した３次元形状モデルの情報は、座標変更部
（Ｂ）３２に渡される。座標変更部（Ｂ）３２では、３
次元的動き検出部１から得られる、頭部の３次元的な動
きを表現する回転移動成分Ωx 、Ωy 、Ωz 及び平行移
動成分Ｔx 、Ｔy のパラメータに基づいて、３次元形状
モデルを構成する各頂点に数１に示される式に従った操
作を施す。これにより、現フレームの画像中の人物の頭
部分と位置・向きが一致した形状モデルが得られる。こ
の結果はテクスチャマッピング部４に送られると共に、
次フレームの画像に対して３次元的動き検出を行なうた
めに、３次元的動き検出部１へも送られる。

【００２４】テクスチャマッピング部４では、形状モデ
ルの座標修正部３から与えられる頭部の３次元形状モデ
ルについて、口及び口周辺部分を構成する三角形群に、
人物の口及び口周辺部分に対応した明るさ及び色の情
報、すなわちテクスチャ情報を付与し、自然な口形状画
像を生成する。図７はテクスチャマッピング部４の動作
の一例を説明するためのブロック図である。図７におい
て、４１はマッピング座標計算部、４２はテクスチャ付
与部、４３はメモリ（３次元形状モデル）、４４はメモ
リ（画像）である。まず、口形状の修正操作を行なう前
に、前処理として、登場人物の顔部分の画像を少なくと
も１枚予めメモリ４４内に用意しておき、この画像中の
顔部分の形状に合わせた、頭部の３次元形状モデルを求
め、メモリ４３に蓄えておく。この時、形状モデル中の
各三角形と画像中の顔部分との対応関係により、各三角
形に付与すべき明るさ・色の情報、すなわちテクスチャ
情報が決まる。これにより、形状モデルの唇部分には、
画像中の唇部分の明るさ・色が、形状モデルのあご部分
には、画像中のあご部分の明るさ・色がという様に割当
てがなされる。次に、実際に口形状の修正を行なう際に
は、マッピング座標計算部４１において、形状モデルの
座標修正部３から与えられる頭部の３次元形状モデルの
口及び口周辺部分の三角形群について、各三角形ごと
に、メモリ４３に蓄えられている形状モデル中での対応
する三角形を求め、形状モデルの座標修正部３から与え
られる形状モデル中の三角形について、メモリ４４に蓄
えられている画像中のどの部分のテクスチャを付与する
かの座標位置を計算する。この座標位置は、テクスチャ
付与部４２に送られ、メモリ４４に蓄えられている画像
中から該当位置のテクスチャ情報を読み出し、形状モデ
ル上に付与する。この際、形状モデルは３次元のもので
あるが、これを２次元平面上に投影することにより、２
次元の画像として、修正後の口及び口周辺部の画像を得
る。

【００２５】合成部５では、入力端子９０から得られる
原画像の口及び口周辺部分に対して、テクスチャマッピ
ング部４から得られる口形状修正後の画像への書き替え
を行なう。書き替えの範囲は、頭部の３次元形状モデル
で表現される口及び口周辺部分として明確に識別される
ため、口及び口周辺部分についてのみ書き替えがなされ
る。得られた口形状修正後の画像は端子９９へ出力され
る。

【００２６】次に、口形状パラメータ生成部２の動作の
一例について、図８のブロック図を用いて説明する。図
８において、２１は音素・口形状対応テーブル、２２は
口形状パラメータ設定部、２３はフレーム単位でのパラ
メータ設定部である。まず、音素・口形状対応テーブル
２１には、予め、各言語における音素と、各音素に対応
した口形状の特徴情報を蓄えておく。ここで、口形状の
特徴情報とは、口の開き、丸め具合、あごの位置等を表
わす情報である。端子９１から入力される音素の種別に
基づいて、その音素に対応した口形状の特徴情報をテー
ブルから読出し、口形状パラメータ設定部２２へ送る。
口形状パラメータ設定部２２では、各音素の口形状の特
徴情報に基づいて、３次元形状モデルの口及び口周辺部
の三角形の頂点座標を操作するために必要なパラメータ
を設定する。パラメータとしては例えば、口部分の横
幅、開き具合、唇の丸め具合、唇の厚み、あごの位置に
関するパラメータを用いる。ここで得られる口形状パラ
メータは各音素につき１組与えられる。一方、原画像と
しては、例えばＮＴＳＣ方式のＴＶ信号の場合、毎秒３
０フレームの画像から構成され、口形状に関して修正を
行なった自然な出力画像を得るためには、１／３０秒毎
の各フレームでの口形状パラメータを決める必要があ
る。このための操作を行なうのが、フレーム単位でのパ
ラメータ設定部２３である。端子９２から与えられる各
音素の持続時間の情報と、口形状パラメータ設定部２２
から与えられる該当音素の口形状パラメータとから、１
／３０秒毎の各時点での口形状パラメータ値を決定す
る。この際、隣接音素間で滑らかな口形状変化が得られ
る様に、音素が変化する時点の近辺のフレームにおいて
は、口形状パラメータに関して、前後のフレームでの口
形状パラメータ値との平滑化操作を施す。

【００２７】

【発明の効果】以上の様に本発明では、原画像中におけ
る人物顔部分の３次元的な動きを検出した上で口部分の
位置及び向きを求め、この結果と、原画像に付与される
音声に関する音素の種別と持続時間の情報から得られる
口形状パラメータとを用いて人物頭部の３次元形状モデ
ルの形状を修正し、更にこの形状モデル上に予め蓄えて
おいた登場人物の口及び口周辺部のテクスチャ情報を付
与して口形状画像を合成し、この口形状画像を用いて、
原画像中の人物の口及び口周辺部の画像を書き替える。
これにより、異なる言語の音声に対応した口形状を有す
る自然な動画像を生成する具体的な方法及び装置が提供
され、口形状変化と音声とを一致させ、かつ良質な出力
画像を得ることが可能となる。

【００２８】本発明は、１つの映像信号に対して複数種
類の言語による音声が付与されるＴＶ電話・ＴＶ会議等
の画像通信分野や、映画・放送用テレビ、更にはビデオ
テープ、ＣＤ−ＲＯＭ等の蓄積系映像メディア等におい
て、登場人物の口形状変化と音声との適切な対応をとる
ために利用可能であり、その効果は極めて大である。

【図面の簡単な説明】

【図１】発明の実施例に対応するブロック図。

【図２】本発明における原画像と出力画像との関係を説
明するための説明図。

【図３】本発明における音声に関する入力情報を翻訳後
の実音声から得るための動作の一例に対するブロック
図。

【図４】本発明における音声に関する入力情報を翻訳前
の原音声から得るための動作の一例に対するブロック
図。

【図５】本発明における３次元的動き検出部１の動作の
一例に対するブロック図。

【図６】本発明における形状モデルの座標修正部３の動
作の一例に対するブロック図。

【図７】本発明におけるテクスチャマッピング部４の動
作の一例に対するブロック図。

【図８】本発明における口形状パラメータ生成部２の動
作の一例に対するブロック図。

【図９】従来技術による口形状画像合成方法の例を示す
ブロック図。

【符号の説明】

１３次元的動き検出部２口形状パラメータ生成部３形状モデルの座標修正部４テクスチャマッピング部５合成部６音声認識部（Ａ）７音声認識部（Ｂ）８翻訳処理部９音声情報生成部１００原画像１０１原音声１０２出力画像１０３翻訳音声１０４組合せ操作

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06T 13/00 - 17/40 H04N 7/14

Claims

(57)【特許請求の範囲】

【請求項１】テレビカメラやビデオテープレコーダ等
から得られる映像信号をディジタル化したディジタル動
画像信号を原画像とし、また、映像信号に付与されてい
た原音声を異なる言語に翻訳した翻訳音声を音素列に分
解した時の各音素の種別と持続時間の情報を音声に関す
る入力とし、画像中の人物の頭部形状を表現する３次元
形状モデルと原画像とから人物頭部の３次元的な動きを
検出し、一方、音素と持続時間の情報とから翻訳音声に
対応したフレーム単位での口形状パラメータを生成し、
頭部の３次元形状モデルの口及び口周辺部について口形
状パラメータで指定された形状となる様に座標を修正
し、更に口部分を含めた頭部全体について頭部の３次元
的な動きパラメータに従って３次元的な動きを表現する
様に座標を修正し、次に、座標修正後の３次元形状モデ
ルの口及び口周辺部に、予め得られている人物の口及び
口周辺部のテクスチャ情報を付与し、更に、この結果新
たに得られる口及び口周辺部の画像によって原画像中の
人物の口及び口周辺部の画像を置き換え、翻訳音声と対
応した口形状変化を有する自然な画像を合成することを
特徴とする口形状画像合成方法。
【請求項２】テレビカメラやビデオテープレコーダ等
から得られる映像信号をディジタル化したディジタル動
画像信号を原画像として入力するための第１の入力端子
と、映像信号に付与されていた原音声を異なる言語に翻
訳した翻訳音声を音素列に分解した時の各音素の種別と
持続時間の情報を入力するための第２、第３の入力端子
と、画像中の人物の頭部形状を表現する３次元形状モデ
ルと前記第１の入力端子から入力される原画像とから人
物頭部の３次元的な動きを検出する３次元的動き検出部
と、前記第２、第３の入力端子から入力される音素の種
別と持続時間の情報とから翻訳音声に対応したフレーム
単位での口形状パラメータを生成する口形状パラメータ
生成部と、頭部の３次元形状モデルの口及び口周辺部に
ついては前記口形状パラメータ生成部から得られる口形
状パラメータで指定された形状となる様に座標を修正
し、口部分を含めた頭部全体については前記３次元的動
き検出部から得られる頭部の３次元的な動きパラメータ
に従って３次元的な動きを表現する様に座標を修正する
形状モデルの座標修正部と、該形状モデルの座標修正部
から得られる座標修正後の３次元形状モデルの口及び口
周辺部に、予め得られている人物の口及び口周辺部のテ
クスチャ情報を付与するテクスチャマッピング部と、該
テクスチャマッピング部から得られる口及び口周辺部の
画像によって前記第１の入力端子から得られる原画像中
の人物の口及び口周辺部の画像を置き換える合成部とを
備えたことを特徴とする口形状画像合成装置。