JPH0652290A - Method and device for synthesizing mouth-shaped picture - Google Patents

Method and device for synthesizing mouth-shaped picture

Info

Publication number
JPH0652290A
JPH0652290A JP4218719A JP21871992A JPH0652290A JP H0652290 A JPH0652290 A JP H0652290A JP 4218719 A JP4218719 A JP 4218719A JP 21871992 A JP21871992 A JP 21871992A JP H0652290 A JPH0652290 A JP H0652290A
Authority
JP
Japan
Prior art keywords
mouth
shape
image
dimensional
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4218719A
Other languages
Japanese (ja)
Other versions
JP2795084B2 (en
Inventor
Masahide Kaneko
正秀 金子
Atsushi Koike
淳 小池
Yoshinori Hatori
好律 羽鳥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
Kokusai Denshin Denwa KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kokusai Denshin Denwa KK filed Critical Kokusai Denshin Denwa KK
Priority to JP4218719A priority Critical patent/JP2795084B2/en
Publication of JPH0652290A publication Critical patent/JPH0652290A/en
Application granted granted Critical
Publication of JP2795084B2 publication Critical patent/JP2795084B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Processing Or Creating Images (AREA)
  • Machine Translation (AREA)

Abstract

PURPOSE:To correct the mouth shape of the characters appeared on stage to correspond to the voice in each language when the voices spoken by plural languages are imparted for one video signal. CONSTITUTION:The three-dimensional movement of the character's head in a screen is detected by a three-dimensional movement detection section 1. On the other hand, a mouth shape parameter genearation section 2 generates the mouth shape parameter at every frame based on the phoneme string consisting of the voice to be impart and the time duration of each phoneme. With the use of these results, a coordinate correction section 3 corrects the direction and position of the three-dimensional shape model of the head of the characters and the shape around the mouth. The brightness and color information are given to the mouth of the obtained shape model and the part around the mouth by a texture mapping section 4. Further, a synthesis section 5 replaces the result with the mouth in the original picture and the picture of the part around the mouth. Thus, even when the voices by different languages are imparted, the natural face movement picture having the mouth shape corresponding to the voice can be outputted.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、TV電話・TV会議動
画像や、映画・放送用TV等の動画像における人物顔画
像について、異なる言語での音声に適合した口形状を表
現するための方法及び装置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention is for expressing a mouth shape adapted to voice in different languages for a human face image in a video image of a TV telephone / TV conference or a movie / broadcasting TV. The present invention relates to a method and an apparatus.

【0002】[0002]

【従来の技術】TV電話やTV会議において、発声者が
ある言語A(例えば英語)で発声した内容を、別の言語
B(例えば日本語)に翻訳して伝える場合が考えられ
る。この時発声に伴う発声者の口形状の変化は、言語A
での発声に対応しているため、受け手がこの発声者の画
像と言語Bに翻訳された音声とを受け取る際に、口形状
の変化と音声との間での不一致が生じ、不自然な印象を
与えることになる。
2. Description of the Related Art In a TV telephone or a video conference, it is possible that a speaker utters a content in a certain language A (eg, English) and translates it into another language B (eg, Japanese) and transmits it. At this time, the change in the mouth shape of the speaker due to the utterance is
When the receiver receives the image of the speaker and the speech translated into the language B, the mouth shape changes and the speech does not match, resulting in an unnatural impression. Will be given.

【0003】別の例として、映画やTV放送番組におい
て、音声を翻訳して放映する場合にも、画面中の登場人
物の口形状の変化と翻訳後の音声との間での不一致が生
じる。更に、1つの映像信号に対して、異なる言語での
音声チャネルを複数付与してTV放送を行なうことがあ
るが、この場合にも、画面中の登場人物の口形状の変化
は、番組制作時に発声した時の言語に対応したものであ
り、他の言語による音声との間では不一致を生じること
になる。
As another example, when a voice is translated and broadcast in a movie or a TV broadcast program, a change in the mouth shape of the characters on the screen and a voice after translation occur inconsistency. In addition, a plurality of audio channels in different languages may be given to one video signal to perform TV broadcasting. In this case as well, a change in the mouth shape of the characters on the screen may occur when the program is produced. It corresponds to the language at the time of utterance, and a mismatch will occur with voices in other languages.

【0004】この様に、1つの映像信号に対して、異な
る言語に基づく複数の音声を付与する場合には、登場人
物の口形状の変化と音声との間での不一致という問題が
生じる。この不一致を低減するための従来技術として
は、Guinet,Yves による特許(Procede de television
pour programmes multilingues : European Patent Off
ice EP 0 179 701 A1 : 1986.4.30.付)がある。
As described above, when a plurality of voices based on different languages are added to one video signal, there arises a problem that the mouth shape of the character changes and the voices do not match. As a conventional technique for reducing this inconsistency, a patent (Procede de television by Guinet, Yves) is available.
pour programs multilingues: European Patent Off
ice EP 0 179 701 A1: 1986.4.30.).

【0005】図9はGuinet,Yves の特許の方法を示した
ものである。図9において、100は原画像、101は
原音声、102は口部分の形状を修正した出力画像、1
03は翻訳音声、104は組合せ操作を示す。図9は、
原画像、原音声、及び翻訳音声から得られるデータを用
いて、翻訳音声に対応した口形状変化を表現する画像を
出力するという一般的概念を示したものである。具体的
な実現方法としては、次の様な考え方が述べられてい
る。
FIG. 9 shows the method of the Guinet, Yves patent. In FIG. 9, 100 is an original image, 101 is an original voice, 102 is an output image in which the shape of the mouth part is corrected, 1
Reference numeral 03 indicates a translated voice, and reference numeral 104 indicates a combination operation. Figure 9
It shows a general concept of outputting an image representing a mouth shape change corresponding to a translated voice by using data obtained from the original image, the original voice, and the translated voice. The following way of thinking is stated as a concrete realization method.

【0006】まず、原画像100に対して空間分析を行
ない、発声区域の中心位置(x1 ,y1 )、相対的大き
さ、姿勢に関するデータを得る。原音声101からは、
原画像中の話し手が話しているか黙っているかの情報を
得る。翻訳音声103からは、翻訳音声の話し手が話し
ているか黙っているかの情報、及びこの話し手の発声活
動、すなわち口形状の変化を描写する情報を得る。ここ
で、口形状の変化については、話し手に物理的に連結さ
れた検出装置によって、口を閉じている、開けている、
閉じつつある、開きつつある、という情報を容易に得ら
れると記されている。以上のデータをもとに、まず、原
画像の発声区域について、輝度値の平均化操作により、
唇の形が分からない様にぼかした画像を作る。次に、翻
訳音声の話し手の口形状変化に関する情報に基づいて発
声区域の色成分値を修正し、この結果を組合せ操作10
4によって発声区域をぼかした画像の(x1 ,y1 )の
まわりに重畳させて、出力画像102を得る。この色成
分値の修正が、翻訳音声に対応した口形状画像の合成に
対応しているものと推測される。
First, spatial analysis is performed on the original image 100 to obtain data on the center position (x1, y1) of the vocalization area, the relative size, and the posture. From the original voice 101,
Get information on whether the speaker in the original image is speaking or silent. From the translated voice 103, information indicating whether the speaker of the translated voice is speaking or silent, and information that describes the vocalization activity of the speaker, that is, the change in the mouth shape, is obtained. Here, regarding the change of the mouth shape, the mouth is closed or opened by the detection device physically connected to the speaker.
It is said that it is easy to get information that it is closing or opening. Based on the above data, first, for the vocalization area of the original image, by averaging the brightness values,
Make a blurred image so that you don't know the shape of the lips. Next, the color component value of the utterance area is corrected based on the information regarding the change in the mouth shape of the speaker of the translated voice, and the result is combined with the combination operation 10
An output image 102 is obtained by superimposing it around (x1, y1) of the image in which the vocalization area is blurred by 4. It is assumed that the correction of the color component value corresponds to the synthesis of the mouth shape image corresponding to the translated voice.

【0007】[0007]

【発明が解決しようとする課題】従来技術としての上記
特許は、翻訳音声に対応した口形状を有する画像を生成
することに関する概念を述べた特許であり、実施例の記
述部分において、具体的実施方法はほとんど示されてい
ない。すなわち、まず原画像から発声区域の位置、相対
的大きさ、姿勢を空間分析によって検出すると記されて
いるが、具体的にどういう方法で検出するかに関しては
述べられていない。翻訳音声の話し手の口形状変化の検
出に関しても具体的方法が述べられていない。更に、翻
訳音声に対応した口形状の生成に関しても、原画像にお
ける発声区域をぼかす方法に関しては記述がなされてい
るが、色成分をどう修正して口形状を生成するかに関し
ては述べられていない。従って、翻訳音声に対応した口
形状を有する画像を実際に生成できるのか、また、生成
できたとして、良好な品質の画像が得られるのか不明で
ある。
The above-mentioned patent as a prior art is a patent that describes the concept of generating an image having a mouth shape corresponding to translated speech, and will be described in detail in the description part of the embodiment. Little is shown how. That is, first, it is described that the position, relative size, and posture of the vocalization area are detected from the original image by spatial analysis, but no specific method is used to detect them. No specific method is described for detecting the change in the mouth shape of the speaker of the translated speech. Further, regarding the generation of the mouth shape corresponding to the translated speech, the method for blurring the vocalization area in the original image is described, but the method for correcting the color component to generate the mouth shape is not described. . Therefore, it is unclear whether an image having a mouth shape corresponding to the translated speech can be actually generated or, if it can be generated, an image of good quality can be obtained.

【0008】本発明は従来技術としての上記特許に見ら
れるこれらの問題点を解決するためになされたものであ
る。すなわち、まず、画面中の人物頭部については、横
を向く、うなずく等の3次元的な動きがあるのが普通で
あるが、この点を含めて、画面中での発声区域、すなわ
ち、口部分の位置及び向きを考慮した上で、当該言語の
音声に対応した口形状に修正することが可能な方法及び
装置を提供することを目的とする。また、当該言語の音
声に対応した口形状画像の生成に関し、口部分の形状及
び明るさ・色の情報を明示的に取り扱い、良質な出力画
像を得ることが可能な方法及び装置を提供することを目
的とする。
The present invention has been made to solve these problems found in the above-mentioned prior art patents. That is, first, the head of a person in the screen usually has a three-dimensional movement such as facing sideways or nodding, but including this point, the vocalization area in the screen, that is, the mouth. An object of the present invention is to provide a method and an apparatus capable of correcting a mouth shape corresponding to a voice of the language in consideration of a position and an orientation of a part. Further, regarding generation of a mouth shape image corresponding to a voice of the language, it is possible to provide a method and an apparatus capable of explicitly handling the shape, brightness, and color information of the mouth portion and obtaining a high-quality output image. With the goal.

【0009】[0009]

【課題を解決するための手段】本発明の第1の特徴は、
テレビカメラやビデオテープレコーダ等から得られる映
像信号をディジタル化したディジタル動画像信号を原画
像とし、また、映像信号に付与されていた原音声を異な
る言語に翻訳した翻訳音声を音素列に分解した時の各音
素の種別と持続時間の情報を音声に関する入力とし、画
像中の人物の頭部形状を表現する3次元形状モデルと原
画像とから人物頭部の3次元的な動きを検出し、一方、
音素と持続時間の情報とから翻訳音声に対応したフレー
ム単位での口形状パラメータを生成し、頭部の3次元形
状モデルの口及び口周辺部について口形状パラメータで
指定された形状となる様に座標を修正し、更に口部分を
含めた頭部全体について頭部の3次元的な動きパラメー
タに従って3次元的な動きを表現する様に座標を修正
し、次に、座標修正後の3次元形状モデルの口及び口周
辺部に、予め得られている人物の口及び口周辺部のテク
スチャ情報を付与し、更に、この結果新たに得られる口
及び口周辺部の画像によって原画像中の人物の口及び口
周辺部の画像を置き換え、翻訳音声と対応した口形状変
化を有する自然な画像を合成することにある。
The first feature of the present invention is to:
An original image is a digital moving image signal obtained by digitizing a video signal obtained from a television camera or a video tape recorder, and the translated voice obtained by translating the original voice given to the video signal into a different language is decomposed into a phoneme string. The information of the type and duration of each phoneme at time is input as to the voice, and the three-dimensional movement of the human head is detected from the three-dimensional shape model expressing the human head shape in the image and the original image. on the other hand,
A mouth shape parameter for each frame corresponding to the translated speech is generated from the phoneme and the duration information, so that the shape of the mouth and the periphery of the three-dimensional shape model of the head becomes the shape specified by the mouth shape parameter. The coordinates are modified, and further, the coordinates are modified so that three-dimensional motion is expressed according to the three-dimensional motion parameters of the head for the entire head including the mouth part, and then the three-dimensional shape after the coordinate modification. The texture information of the person's mouth and the area around the mouth that has been obtained in advance is added to the mouth and the area around the mouth of the model, and the image of the mouth and the area around the mouth newly obtained as a result of It is to replace the images of the mouth and the area around the mouth and synthesize a natural image having a mouth shape change corresponding to the translated speech.

【0010】本発明の第2の特徴は、テレビカメラやビ
デオテープレコーダ等から得られる映像信号をディジタ
ル化したディジタル動画像信号を原画像として入力する
ための第1の入力端子と、映像信号に付与されていた原
音声を異なる言語に翻訳した翻訳音声を音素列に分解し
た時の各音素の種別と持続時間の情報を入力するための
第2、第3の入力端子と、画像中の人物の頭部形状を表
現する3次元形状モデルと前記第1の入力端子から入力
される原画像とから人物頭部の3次元的な動きを検出す
る3次元的動き検出部と、前記第2、第3の入力端子か
ら入力される音素の種別と持続時間の情報とから翻訳音
声に対応したフレーム単位での口形状パラメータを生成
する口形状パラメータ生成部と、頭部の3次元形状モデ
ルの口及び口周辺部については前記口形状パラメータ生
成部から得られる口形状パラメータで指定された形状と
なる様に座標を修正し、口部分を含めた頭部全体につい
ては前記3次元的動き検出部から得られる頭部の3次元
的な動きパラメータに従って3次元的な動きを表現する
様に座標を修正する形状モデルの座標修正部と、該形状
モデルの座標修正部から得られる座標修正後の3次元形
状モデルの口及び口周辺部に、予め得られている人物の
口及び口周辺部のテクスチャ情報を付与するテクスチャ
マッピング部と、該テクスチャマッピング部から得られ
る口及び口周辺部の画像によって前記第1の入力端子か
ら得られる原画像中の人物の口及び口周辺部の画像を置
き換える合成部とを備えたことにある。
A second feature of the present invention is that a first input terminal for inputting a digital moving image signal obtained by digitizing a video signal obtained from a television camera, a video tape recorder or the like as an original image, and a video signal. Second and third input terminals for inputting information on the type and duration of each phoneme when the translated voice obtained by translating a given original voice into different languages is decomposed into a phoneme sequence, and the person in the image A three-dimensional motion detecting unit that detects a three-dimensional motion of a human head from a three-dimensional shape model expressing the head shape of the human head and an original image input from the first input terminal; A mouth shape parameter generation unit that generates a mouth shape parameter for each frame corresponding to a translated speech from a phoneme type and duration information input from the third input terminal, and a mouth of a three-dimensional shape model of the head. And around the mouth Is corrected so that the shape becomes the shape specified by the mouth shape parameter obtained from the mouth shape parameter generation unit, and the head obtained from the three-dimensional motion detection unit for the entire head including the mouth portion. The coordinate correction unit of the shape model that corrects the coordinates so as to express the three-dimensional movement according to the three-dimensional movement parameter of the above, and the mouth of the three-dimensional shape model after the coordinate correction obtained from the coordinate correction unit of the shape model. A texture mapping unit for giving the texture information of the person's mouth and the surroundings of the mouth to the mouth and the surroundings of the person, and the first input terminal by the image of the mouth and the surroundings of the mouth obtained from the texture mapping unit. And a synthesizing unit that replaces the image of the person's mouth and the area around the mouth in the original image obtained from FIG.

【0011】[0011]

【実施例】図1は、本発明の実施例を説明するためのブ
ロック図である。図1において、1は3次元的動き検出
部、2は口形状パラメータ生成部、3は形状モデルの座
標修正部、4はテクスチャマッピング部、5は合成部、
90は原画像を入力するための第1の入力端子、91、
92は各々原画像に付与すべき翻訳音声を構成する各音
素の種別と持続時間を入力するための第2、第3の入力
端子、99は口形状の修正を行なった後の画像を出力す
るための出力端子である。ここで、原画像としては、T
Vカメラ、或いはVTR等から得られるアナログ動画像
信号をA/D変換(標本化及び量子化)した後のディジ
タル動画像信号を考える。従って、本発明中の各部での
処理は基本的にディジタル処理によって行なうことを想
定している。
1 is a block diagram for explaining an embodiment of the present invention. In FIG. 1, 1 is a three-dimensional motion detection unit, 2 is a mouth shape parameter generation unit, 3 is a shape model coordinate correction unit, 4 is a texture mapping unit, 5 is a synthesis unit,
90 is a first input terminal for inputting an original image, 91,
Reference numeral 92 designates second and third input terminals for inputting the type and duration of each phoneme constituting the translated speech to be added to the original image, and 99 outputs the image after the mouth shape is corrected. Is an output terminal for. Here, the original image is T
Consider a digital moving image signal after A / D conversion (sampling and quantization) of an analog moving image signal obtained from a V camera or a VTR. Therefore, it is assumed that the processing in each part of the present invention is basically performed by digital processing.

【0012】図1の各部の動作について説明する前に、
本発明における原画像と出力画像との関係を図2を用い
て説明する。図2は本発明の動作を説明するための説明
図であり、図2(1)は顔がほぼ正面を向いている場
合、図2(2)は3次元的な動きがあり、少し横を向い
ている場合である。図2(1)においてa1,a2は各
々原画像、出力画像、Ei1、E02は各々原画像、出力画
像における口及び口周辺部である。図2(2)において
b1、b2は各々原画像、出力画像、Ei2、E02は各々
原画像、出力画像における口及び口周辺部である。本発
明では、図2に見られる様に、頭部全体の3次元的な動
きを考慮した上で、翻訳音声に対応した形に口及び口周
辺部の形状が変換され、出力画像が合成される。
Before explaining the operation of each part of FIG.
The relationship between the original image and the output image in the present invention will be described with reference to FIG. FIG. 2 is an explanatory diagram for explaining the operation of the present invention. In FIG. 2 (1), when the face is almost in front, FIG. This is the case when facing. In FIG. 2 (1), a1 and a2 are the original image and the output image, Ei1 and E02 are the mouth and the peripheral portion of the mouth in the original image and the output image, respectively. In FIG. 2 (2), b1 and b2 are the original image and the output image respectively, and Ei2 and E02 are the mouth and the mouth peripheral part in the original image and the output image, respectively. According to the present invention, as shown in FIG. 2, the shape of the mouth and the vicinity of the mouth are converted into a shape corresponding to the translated voice, and the output image is synthesized, taking into consideration the three-dimensional movement of the entire head. It

【0013】画像情報の取扱いについて説明する前に、
まず、音声情報の取扱いについて述べておく。図1で
は、画像信号に新たに付与される翻訳後の音声に関し
て、これを音声の単位である音素列に分解した時の各音
素について種別と持続時間の情報が与えられることを前
提としている。この際、新たに付与される翻訳音声とし
て、吹替え者による実音声を用いる場合と、原音声から
翻訳後の音声を自動合成する場合とが考えられる。図3
は、前者の場合の動作を説明するためのブロック図であ
る。図3において、6は音声認識部(A)、93は実音
声を入力するための入力端子である。音声認識自体に関
しては既存の音声認識技術を利用することができ、ま
た、本発明で直接目的とする要件ではないので、詳細な
説明は省略する。音声認識部(A)6では、入力された
実音声に対して、周波数分析、ケプストラム分析、線形
予測分析等の手法を用いて分析を行ない、各音素の識
別、及び持続時間の算出を行なう。これらの概要につい
ては、例えば、白井良明編 : 「パターン理解」(オ
ーム社)pp.179〜255に述べられている。な
お、新たに付与される実音声について話し手の顔動画像
が同時に得られる場合には、この顔動画像中の口部分の
形状を計測した結果を、出力画像における口形状の修正
のために用いても良い。このための方法としては、例え
ば、文献、金子正秀、小池淳、羽鳥好律 : 「顔動画
像のモデルベース符号化に対する実時間動作システ
ム」、1990年画像符号化シンポジウム資料3−6、
pp.59〜62がある。この文献では、まず、原画像
に対してメディアンフィルタによる雑音低減処理を行な
った後、適当な閾値Thを用いて2値化を行なう。2値
化画像中の各要素に対してラベルを付与し、連結成分の
抽出を行ない、更に、各連結成分ごとに最小外接長方
形、フィレ座標を検出する。これらの結果を用いて、小
領域については雑音成分と見なして除去し、更に、1つ
前の時点までの検出結果を参照して口部分の領域を選択
する。これにより、少なくとも口部分の水平、垂直方向
での開き具合を求めることができる。次に、図4は後
者、すなわち原音声から翻訳後の音声を自動合成する場
合についての動作を説明するためのブロック図である。
図4において、7は音声認識部(B)、8は翻訳処理
部、9は音声情報生成部、94は原音声を入力するため
の入力端子である。音声認識部(B)7は図3における
音声認識部(A)6とほぼ同様の機能を有するが、原音
声に対する認識結果を文字情報(文章)として出力す
る。翻訳処理部8では、音声認識部(B)7の出力であ
る文字情報(文章)に基づいて、指定された言語での文
章に翻訳を行なう。機械による自動翻訳技術に関して
は、既存技術が利用でき、また、本発明で目的とする要
件ではないので、詳細な説明は省略する。音声情報生成
部9では、翻訳後の文章に対して、音声の規則合成技術
を活用して、音素の種別と持続時間の情報を自動的に生
成する。この部分に関しても、既存技術が利用でき、か
つ本発明で目的とする要件ではないので、詳細な説明は
省略する。
Before explaining the handling of image information,
First, the handling of voice information will be described. In FIG. 1, it is premised that, regarding the translated voice that is newly added to the image signal, the type and duration information is given to each phoneme when it is decomposed into a phoneme sequence that is a unit of the voice. At this time, it is possible to use a real voice by a dubber as a newly added translated voice, or to automatically synthesize a translated voice from an original voice. Figure 3
FIG. 7 is a block diagram for explaining the operation in the former case. In FIG. 3, 6 is a voice recognition unit (A), and 93 is an input terminal for inputting a real voice. Regarding speech recognition itself, existing speech recognition technology can be used, and since it is not a requirement directly aimed at by the present invention, detailed description thereof will be omitted. The voice recognition unit (A) 6 analyzes the input real voice using a method such as frequency analysis, cepstrum analysis, and linear prediction analysis to identify each phoneme and calculate the duration. For an overview of these, see, for example, Yoshiaki Shirai: “Pattern Understanding” (Ohmsha) pp. 179-255. Note that when a face moving image of the speaker is obtained at the same time for the newly added real voice, the result of measuring the shape of the mouth portion in this face moving image is used to correct the mouth shape in the output image. May be. As a method for this, for example, literature, Masahide Kaneko, Atsushi Koike, Yoshinori Hatori: “Real-time motion system for model-based coding of facial moving images”, 1990 Image Coding Symposium Material 3-6,
pp. There are 59 to 62. In this document, first, noise reduction processing is performed on an original image by a median filter, and then binarization is performed using an appropriate threshold Th. A label is given to each element in the binarized image, connected components are extracted, and the minimum circumscribed rectangle and fillet coordinates are detected for each connected component. Using these results, the small region is considered to be a noise component and removed, and the region of the mouth portion is selected with reference to the detection results up to the immediately preceding time point. As a result, it is possible to determine the degree of opening of at least the mouth portion in the horizontal and vertical directions. Next, FIG. 4 is a block diagram for explaining the operation in the latter case, that is, in the case of automatically synthesizing translated speech from original speech.
In FIG. 4, 7 is a voice recognition unit (B), 8 is a translation processing unit, 9 is a voice information generation unit, and 94 is an input terminal for inputting an original voice. The voice recognition unit (B) 7 has substantially the same function as the voice recognition unit (A) 6 in FIG. 3, but outputs the recognition result for the original voice as character information (sentence). The translation processing unit 8 translates a sentence in a designated language based on the character information (sentence) output from the voice recognition unit (B) 7. As for the automatic translation technology by machine, existing technology can be used, and since it is not a target requirement of the present invention, detailed description thereof will be omitted. The speech information generation unit 9 utilizes the rule synthesis technology of speech for the translated sentence to automatically generate the information on the type and duration of the phoneme. As for this part, the existing technology can be used and it is not the target requirement of the present invention, and thus the detailed description is omitted.

【0014】以下、図1の各部の説明を行なうが、その
前に、本発明における人物顔部分の取り扱い方法の特徴
を述べておく。すなわち、本発明においては、原画像中
からの口部分の位置・向きの検出や、良質な口形状画像
の生成のために、人物頭部の3次元形状を表現する3次
元形状モデルを用いる。この形状モデルは、例えば小さ
な三角形パッチの集合で表現される様なものであり、各
三角形の頂点座標位置を変化させることによって形状変
化を表現することが可能である。なお、画面中に複数の
人物が存在する場合には、各人物ごとに3次元形状モデ
ルを用意し、各人物ごとに以下に述べる方法を適用す
る。
Hereinafter, each part of FIG. 1 will be described, but before that, the features of the method of handling a human face portion according to the present invention will be described. That is, in the present invention, a three-dimensional shape model expressing the three-dimensional shape of the human head is used in order to detect the position and orientation of the mouth portion in the original image and to generate a high-quality mouth shape image. This shape model is represented by, for example, a set of small triangular patches, and the shape change can be expressed by changing the vertex coordinate position of each triangle. When there are a plurality of persons on the screen, a three-dimensional shape model is prepared for each person, and the method described below is applied to each person.

【0015】図1において、まず、3次元的動き検出部
1の動作について説明する。3次元的動き検出部は、2
次元入力動画像から、画面中の登場人物の顔部分につい
て、3次元空間内での動き情報、すなわち顔の向き及び
位置の変化を求めることを目的としている。このための
方法としては、小池淳、金子正秀、羽鳥好律による文
献、「顔動画像のモデルベース符号化における頭部の3
次元的な動きの推定」電子情報通信学会論文誌B-I, vo
l.J74-B-I, no.10, pp.789-798 (1991年10月)
がある。図5はこの文献での提案手法に基づく3次元的
動き検出部1の具体的構成の一例を示したブロック図で
ある。図5において、11はフレームメモリ、12はブ
ロック分割部、13は動ベクトル検出部、14は3次元
的動き推定部、15は奥行き座標計算部である。
Referring to FIG. 1, the operation of the three-dimensional motion detecting section 1 will be described first. The three-dimensional motion detector has 2
The object is to obtain the movement information in the three-dimensional space, that is, the change in the orientation and position of the face, from the three-dimensional input moving image for the face portion of the character on the screen. A method for this is described in Jun Koike, Masahide Kaneko, and Yoshinori Hatori, “3 heads in model-based coding of facial motion images.
Estimation of dimensional movement "IEICE Transactions BI, vo
l.J74-BI, no.10, pp.789-798 (October 1991)
There is. FIG. 5 is a block diagram showing an example of a specific configuration of the three-dimensional motion detection unit 1 based on the method proposed in this document. In FIG. 5, 11 is a frame memory, 12 is a block division unit, 13 is a motion vector detection unit, 14 is a three-dimensional motion estimation unit, and 15 is a depth coordinate calculation unit.

【0016】ここで、2次元入力動画像から対象物(こ
こでは人物頭部分)の3次元的な動きを推定する方法の
原理について説明する。
Here, the principle of the method for estimating the three-dimensional movement of the object (here, the human head portion) from the two-dimensional input moving image will be described.

【0017】顔部分を含む頭部を剛体と仮定し、フレー
ム間での動きは微小であるとすると、前フレームにおけ
る点P(x,y,z)は数1で示される様に回転移動成
分と並進移動成分の組合せにより、現フレームにおける
点P' (x' ,y' ,z' )に移動する。
Assuming that the head including the face portion is a rigid body and the movement between frames is minute, the point P (x, y, z) in the previous frame is a rotational movement component as shown in equation 1. And the translation component are combined to move to the point P ′ (x ′, y ′, z ′) in the current frame.

【0018】[0018]

【数1】 数1において、tは転置、Rは回転移動、Tは並進移動
を表わす。また、3次元空間から2次元画像への投影を
平行投影と見なせば、Tz =0とすることができる。
[Equation 1] In Equation 1, t represents transposition, R represents rotational movement, and T represents translational movement. Further, if the projection from the three-dimensional space to the two-dimensional image is regarded as parallel projection, Tz = 0 can be set.

【0019】前フレーム及び現フレームで点Pの座標
x, y, z及び点P' の座標x',y'が求まれば、これ
らを数1で示される式に代入しΩx 、Ωy 、Ωz 、Tx
、Ty及びz' に関する連立方程式をたてて解を計算す
れば良い。しかし、入力画像からは直接はz座標の情報
が得られないため、方程式を解くことが困難になる。こ
の問題を解決するために、入力動画像から2次元平面内
での動き情報を得、この結果と形状モデルから得られる
3次元での構造情報(特に、z座標の情報)を用いて、
3次元での運動パラメータを推定する。
When the coordinates x, y, z of the point P and the coordinates x ', y'of the point P'in the previous frame and the current frame are obtained, these are substituted into the formula shown in Formula 1, and Ωx, Ωy, Ωz. , Tx
, Ty and z ′ may be set up to calculate the solution. However, it is difficult to solve the equation because the z coordinate information cannot be obtained directly from the input image. In order to solve this problem, motion information in a two-dimensional plane is obtained from an input moving image, and three-dimensional structure information (particularly, z-coordinate information) obtained from this result and the shape model is used.
Estimate motion parameters in three dimensions.

【0020】具体的には、図5の構成によって人物頭部
の3次元的動きを検出する。フレームメモリ11は1つ
前の時点の入力画像、すなわち前フレーム画像を蓄える
ためのメモリである。ブロック分割部12では、後で説
明を行なう形状モデルの座標修正部3から、前フレーム
画像中での人物頭部の位置・向きに対応した3次元形状
モデルを得、この3次元形状モデルをフレームメモリ1
1に蓄えられている前フレーム画像上に投影することに
より、前フレーム画像中での人物顔部分の領域を判定
し、更に、この領域をN×N画素(Nは例えば13)か
らなる小ブロック群に分割する。動ベクトル検出部13
では、ブロック分割部12で得られた各ブロック毎に、
入力端子90から得られる現フレームでの画像につい
て、最も画素値の分布が似通っている場所を求め、この
場所と前フレーム画像中でのブロックの位置とのずれか
ら、2次元的な動きベクトルを求める。これにより、該
当ブロックについて前述の説明における点Pのx, y座
標値(x, y)及び点P' のx, y座標値(x',y' )
が得られる。
Specifically, the three-dimensional movement of the human head is detected by the configuration shown in FIG. The frame memory 11 is a memory for storing the input image at the immediately preceding time point, that is, the previous frame image. The block division unit 12 obtains a three-dimensional shape model corresponding to the position / orientation of the human head in the previous frame image from the coordinate correction unit 3 of the shape model, which will be described later, and uses this three-dimensional shape model as a frame. Memory 1
The area of the human face portion in the previous frame image is determined by projecting it onto the previous frame image stored in No. 1, and this area is further divided into small blocks of N × N pixels (N is, for example, 13). Divide into groups. Motion vector detection unit 13
Then, for each block obtained by the block division unit 12,
Regarding the image in the current frame obtained from the input terminal 90, a place where the distribution of pixel values is most similar is obtained, and a two-dimensional motion vector is calculated from the difference between this place and the position of the block in the previous frame image. Ask. As a result, the x, y coordinate values (x, y) of the point P and the x, y coordinate values (x ', y') of the point P ′ in the above description for the corresponding block are obtained.
Is obtained.

【0021】一方、奥行き座標計算部15では、ブロッ
ク分割部12で得られる各ブロックに関して、ブロック
毎に画面内での位置(x, y)を求め、更に前フレーム
での3次元形状モデルについて、(x, y)を中心とし
た小ブロック領域内に入る頂点を求め、それらの頂点の
奥行き座標(z)の平均値を求めることによって、小ブ
ロックのz座標を算出する。3次元的動き推定部14で
は、各小ブロック毎に動ベクトル検出部13から得られ
る動ベクトルから求まる(x, y), (x',y' )の値
及び奥行き座標計算部15から得られる奥行き座標zを
用いて、3次元的運動パラメータΩx 、Ωy 、Ωz 、T
x 、Ty 、及びz' に関する線形連立方程式を得る。こ
の方程式を最小2乗法で解くことにより、3次元的運動
パラメータが求まり、これを、形状モデルの座標修正部
3へ渡す。
On the other hand, in the depth coordinate calculation unit 15, for each block obtained by the block division unit 12, the position (x, y) in the screen is calculated for each block, and the three-dimensional shape model in the previous frame is calculated. The z-coordinates of the small blocks are calculated by finding the vertices within the small block area centered at (x, y) and finding the average value of the depth coordinates (z) of those vertices. In the three-dimensional motion estimation unit 14, the value of (x, y), (x ′, y ′) obtained from the motion vector obtained from the motion vector detection unit 13 for each small block and the depth coordinate calculation unit 15 are obtained. Using the depth coordinate z, the three-dimensional motion parameters Ωx, Ωy, Ωz, T
Obtain a system of linear equations for x, Ty, and z '. By solving this equation by the method of least squares, a three-dimensional motion parameter is obtained and passed to the coordinate correction unit 3 of the shape model.

【0022】次に、形状モデルの座標修正部3の動作に
ついて、図6を用いて説明する。図6において、31は
座標変更部(A)、32は座標変更部(B)である。座
標修正部3では、口形状パラメータ生成部2から与えら
れる口形状パラメータ及び3次元的動き検出部1から与
えられる頭部の3次元的動きパラメータに基づいて、頭
部の3次元形状モデルにおける口及び周辺部の形状を修
正することを目的としている。まず、座標変更部(A)
31では、口形状パラメータ生成部2から与えられる口
形状パラメータに基づいて、頭部の3次元形状モデル中
で口部分を構成する頂点座標の位置を変更し、所望の形
状を表現する。口形状パラメータとしては、口の上下方
向での開き具合、横幅、唇の丸め、唇の厚みを表現する
パラメータを用い、これらによって口部分の3次元的形
状を形作る。なお、口部分だけでなく、あごを含めた口
周辺部分を構成する頂点座標についても、口部分の動き
に合わせて、例えば、口の開き具合に応じてあごを下方
に下げる等の変更を行なう。
Next, the operation of the coordinate correction unit 3 of the shape model will be described with reference to FIG. In FIG. 6, 31 is a coordinate changing unit (A), and 32 is a coordinate changing unit (B). In the coordinate correction unit 3, based on the mouth shape parameter given from the mouth shape parameter generation unit 2 and the three-dimensional movement parameter of the head given from the three-dimensional movement detection unit 1, the mouth in the three-dimensional shape model of the head And the purpose is to modify the shape of the periphery. First, the coordinate changing unit (A)
At 31, the position of the vertex coordinates forming the mouth portion in the three-dimensional shape model of the head is changed based on the mouth shape parameter provided from the mouth shape parameter generation unit 2 to express the desired shape. As the mouth shape parameters, parameters expressing the degree of opening of the mouth in the vertical direction, width, lip rounding, and lip thickness are used, and the three-dimensional shape of the mouth portion is formed by these parameters. It should be noted that not only the mouth portion but also the vertex coordinates forming the mouth peripheral portion including the jaw are changed in accordance with the movement of the mouth portion, for example, the jaw is lowered downward depending on the opening degree of the mouth. .

【0023】この様にして、口及び口周辺部分の頂点座
標値を変更した3次元形状モデルの情報は、座標変更部
(B)32に渡される。座標変更部(B)32では、3
次元的動き検出部1から得られる、頭部の3次元的な動
きを表現する回転移動成分Ωx 、Ωy 、Ωz 及び平行移
動成分Tx 、Ty のパラメータに基づいて、3次元形状
モデルを構成する各頂点に数1に示される式に従った操
作を施す。これにより、現フレームの画像中の人物の頭
部分と位置・向きが一致した形状モデルが得られる。こ
の結果はテクスチャマッピング部4に送られると共に、
次フレームの画像に対して3次元的動き検出を行なうた
めに、3次元的動き検出部1へも送られる。
The information of the three-dimensional shape model in which the vertex coordinate values of the mouth and the area around the mouth are changed in this manner is passed to the coordinate changing unit (B) 32. In the coordinate changing unit (B) 32, 3
Each of the three-dimensional shape models is configured based on the parameters of the rotational movement components Ωx, Ωy, Ωz and the parallel movement components Tx, Ty expressing the three-dimensional movement of the head, which are obtained from the dimensional movement detection unit 1. An operation according to the formula shown in Formula 1 is applied to the vertex. As a result, a shape model whose position / direction matches the head portion of the person in the image of the current frame can be obtained. This result is sent to the texture mapping unit 4, and
It is also sent to the three-dimensional motion detection unit 1 to perform three-dimensional motion detection on the image of the next frame.

【0024】テクスチャマッピング部4では、形状モデ
ルの座標修正部3から与えられる頭部の3次元形状モデ
ルについて、口及び口周辺部分を構成する三角形群に、
人物の口及び口周辺部分に対応した明るさ及び色の情
報、すなわちテクスチャ情報を付与し、自然な口形状画
像を生成する。図7はテクスチャマッピング部4の動作
の一例を説明するためのブロック図である。図7におい
て、41はマッピング座標計算部、42はテクスチャ付
与部、43はメモリ(3次元形状モデル)、44はメモ
リ(画像)である。まず、口形状の修正操作を行なう前
に、前処理として、登場人物の顔部分の画像を少なくと
も1枚予めメモリ44内に用意しておき、この画像中の
顔部分の形状に合わせた、頭部の3次元形状モデルを求
め、メモリ43に蓄えておく。この時、形状モデル中の
各三角形と画像中の顔部分との対応関係により、各三角
形に付与すべき明るさ・色の情報、すなわちテクスチャ
情報が決まる。これにより、形状モデルの唇部分には、
画像中の唇部分の明るさ・色が、形状モデルのあご部分
には、画像中のあご部分の明るさ・色がという様に割当
てがなされる。次に、実際に口形状の修正を行なう際に
は、マッピング座標計算部41において、形状モデルの
座標修正部3から与えられる頭部の3次元形状モデルの
口及び口周辺部分の三角形群について、各三角形ごと
に、メモリ43に蓄えられている形状モデル中での対応
する三角形を求め、形状モデルの座標修正部3から与え
られる形状モデル中の三角形について、メモリ44に蓄
えられている画像中のどの部分のテクスチャを付与する
かの座標位置を計算する。この座標位置は、テクスチャ
付与部42に送られ、メモリ44に蓄えられている画像
中から該当位置のテクスチャ情報を読み出し、形状モデ
ル上に付与する。この際、形状モデルは3次元のもので
あるが、これを2次元平面上に投影することにより、2
次元の画像として、修正後の口及び口周辺部の画像を得
る。
In the texture mapping unit 4, with respect to the three-dimensional shape model of the head provided from the coordinate correction unit 3 of the shape model, the group of triangles forming the mouth and the area around the mouth is
Brightness and color information corresponding to the mouth of the person and the area around the mouth, that is, texture information is added to generate a natural mouth shape image. FIG. 7 is a block diagram for explaining an example of the operation of the texture mapping unit 4. In FIG. 7, 41 is a mapping coordinate calculation unit, 42 is a texture providing unit, 43 is a memory (three-dimensional shape model), and 44 is a memory (image). First, before performing the mouth shape correction operation, at least one image of the face portion of the character is prepared in advance in the memory 44 as a pre-processing, and the head corresponding to the shape of the face portion in this image is prepared. A three-dimensional shape model of the part is obtained and stored in the memory 43. At this time, the brightness / color information to be given to each triangle, that is, the texture information is determined by the correspondence relationship between each triangle in the shape model and the face portion in the image. As a result, in the lip part of the shape model,
The brightness / color of the lips in the image is assigned to the chin of the shape model, and the brightness / color of the chin in the image is assigned to the chin. Next, when actually correcting the mouth shape, in the mapping coordinate calculation unit 41, for the triangle group of the mouth and the peripheral portion of the mouth of the three-dimensional shape model of the head given from the coordinate correction unit 3 of the shape model, For each triangle, the corresponding triangle in the shape model stored in the memory 43 is obtained, and the triangle in the shape model given from the coordinate correction unit 3 of the shape model is stored in the memory 44. The coordinate position of which part of the texture is given is calculated. This coordinate position is sent to the texture providing unit 42, the texture information of the corresponding position is read from the image stored in the memory 44, and is added to the shape model. At this time, the shape model is a three-dimensional model, but by projecting this on a two-dimensional plane,
As a three-dimensional image, a corrected image of the mouth and the area around the mouth is obtained.

【0025】合成部5では、入力端子90から得られる
原画像の口及び口周辺部分に対して、テクスチャマッピ
ング部4から得られる口形状修正後の画像への書き替え
を行なう。書き替えの範囲は、頭部の3次元形状モデル
で表現される口及び口周辺部分として明確に識別される
ため、口及び口周辺部分についてのみ書き替えがなされ
る。得られた口形状修正後の画像は端子99へ出力され
る。
The synthesizing unit 5 rewrites the mouth and the mouth peripheral portion of the original image obtained from the input terminal 90 with the mouth shape-corrected image obtained from the texture mapping unit 4. Since the range of rewriting is clearly identified as the mouth and the part around the mouth expressed by the three-dimensional shape model of the head, rewriting is performed only for the mouth and the part around the mouth. The obtained image after the mouth shape correction is output to the terminal 99.

【0026】次に、口形状パラメータ生成部2の動作の
一例について、図8のブロック図を用いて説明する。図
8において、21は音素・口形状対応テーブル、22は
口形状パラメータ設定部、23はフレーム単位でのパラ
メータ設定部である。まず、音素・口形状対応テーブル
21には、予め、各言語における音素と、各音素に対応
した口形状の特徴情報を蓄えておく。ここで、口形状の
特徴情報とは、口の開き、丸め具合、あごの位置等を表
わす情報である。端子91から入力される音素の種別に
基づいて、その音素に対応した口形状の特徴情報をテー
ブルから読出し、口形状パラメータ設定部22へ送る。
口形状パラメータ設定部22では、各音素の口形状の特
徴情報に基づいて、3次元形状モデルの口及び口周辺部
の三角形の頂点座標を操作するために必要なパラメータ
を設定する。パラメータとしては例えば、口部分の横
幅、開き具合、唇の丸め具合、唇の厚み、あごの位置に
関するパラメータを用いる。ここで得られる口形状パラ
メータは各音素につき1組与えられる。一方、原画像と
しては、例えばNTSC方式のTV信号の場合、毎秒3
0フレームの画像から構成され、口形状に関して修正を
行なった自然な出力画像を得るためには、1/30秒毎
の各フレームでの口形状パラメータを決める必要があ
る。このための操作を行なうのが、フレーム単位でのパ
ラメータ設定部23である。端子92から与えられる各
音素の持続時間の情報と、口形状パラメータ設定部22
から与えられる該当音素の口形状パラメータとから、1
/30秒毎の各時点での口形状パラメータ値を決定す
る。この際、隣接音素間で滑らかな口形状変化が得られ
る様に、音素が変化する時点の近辺のフレームにおいて
は、口形状パラメータに関して、前後のフレームでの口
形状パラメータ値との平滑化操作を施す。
Next, an example of the operation of the mouth shape parameter generator 2 will be described with reference to the block diagram of FIG. In FIG. 8, 21 is a phoneme / mouth shape correspondence table, 22 is a mouth shape parameter setting unit, and 23 is a parameter setting unit for each frame. First, the phoneme / mouth shape correspondence table 21 stores phonemes in each language and mouth shape feature information corresponding to each phoneme in advance. Here, the mouth shape characteristic information is information representing the opening of the mouth, the degree of rounding, the position of the chin, and the like. Based on the type of phoneme input from the terminal 91, the mouth shape characteristic information corresponding to the phoneme is read from the table and sent to the mouth shape parameter setting unit 22.
The mouth shape parameter setting unit 22 sets the parameters necessary for operating the vertex coordinates of the mouth and the periphery of the mouth of the three-dimensional shape model based on the mouth shape feature information of each phoneme. As the parameters, for example, parameters relating to the width of the mouth, the degree of opening, the degree of rounding of the lips, the thickness of the lips, and the position of the chin are used. One set of mouth shape parameters obtained here is given for each phoneme. On the other hand, as the original image, for example, in the case of an NTSC TV signal, 3
In order to obtain a natural output image that is composed of 0 frame images and the mouth shape is corrected, it is necessary to determine the mouth shape parameter in each frame every 1/30 seconds. The operation for this purpose is performed by the parameter setting unit 23 in units of frames. Information on the duration of each phoneme given from the terminal 92 and the mouth shape parameter setting unit 22
1 from the mouth shape parameter of the corresponding phoneme given by
The mouth shape parameter value at each time point is determined every 30 seconds. At this time, in order to obtain a smooth mouth shape change between adjacent phonemes, in the frame near the time when the phoneme changes, the mouth shape parameter is smoothed with the mouth shape parameter values in the preceding and following frames. Give.

【0027】[0027]

【発明の効果】以上の様に本発明では、原画像中におけ
る人物顔部分の3次元的な動きを検出した上で口部分の
位置及び向きを求め、この結果と、原画像に付与される
音声に関する音素の種別と持続時間の情報から得られる
口形状パラメータとを用いて人物頭部の3次元形状モデ
ルの形状を修正し、更にこの形状モデル上に予め蓄えて
おいた登場人物の口及び口周辺部のテクスチャ情報を付
与して口形状画像を合成し、この口形状画像を用いて、
原画像中の人物の口及び口周辺部の画像を書き替える。
これにより、異なる言語の音声に対応した口形状を有す
る自然な動画像を生成する具体的な方法及び装置が提供
され、口形状変化と音声とを一致させ、かつ良質な出力
画像を得ることが可能となる。
As described above, according to the present invention, the position and orientation of the mouth portion are obtained after detecting the three-dimensional movement of the human face portion in the original image, and the result and the result are added to the original image. The shape of the three-dimensional shape model of the person's head is corrected using the mouth shape parameter obtained from the phoneme type and the duration information about the voice, and the mouth of the character and the character's mouth stored in advance on this shape model are corrected. The mouth shape image is synthesized by adding texture information around the mouth, and using this mouth shape image,
Rewrite the image of the person's mouth and the area around the mouth in the original image.
As a result, a specific method and apparatus for generating a natural moving image having a mouth shape corresponding to voices of different languages are provided, and it is possible to match the mouth shape change and the voice and obtain a high-quality output image. It will be possible.

【0028】本発明は、1つの映像信号に対して複数種
類の言語による音声が付与されるTV電話・TV会議等
の画像通信分野や、映画・放送用テレビ、更にはビデオ
テープ、CD−ROM等の蓄積系映像メディア等におい
て、登場人物の口形状変化と音声との適切な対応をとる
ために利用可能であり、その効果は極めて大である。
The present invention relates to the field of image communication such as TV telephones and TV conferences in which sounds in a plurality of languages are added to one video signal, a movie / broadcasting TV, a video tape, and a CD-ROM. It can be used for appropriate correspondence between the change in the mouth shape of the characters and the sound in the storage type video media such as, and the effect is extremely large.

【図面の簡単な説明】[Brief description of drawings]

【図1】発明の実施例に対応するブロック図。FIG. 1 is a block diagram corresponding to an embodiment of the invention.

【図2】本発明における原画像と出力画像との関係を説
明するための説明図。
FIG. 2 is an explanatory diagram for explaining a relationship between an original image and an output image according to the present invention.

【図3】本発明における音声に関する入力情報を翻訳後
の実音声から得るための動作の一例に対するブロック
図。
FIG. 3 is a block diagram showing an example of an operation for obtaining input information related to voice in the present invention from translated real voice.

【図4】本発明における音声に関する入力情報を翻訳前
の原音声から得るための動作の一例に対するブロック
図。
FIG. 4 is a block diagram showing an example of an operation for obtaining input information about a voice from original voice before translation according to the present invention.

【図5】本発明における3次元的動き検出部1の動作の
一例に対するブロック図。
FIG. 5 is a block diagram showing an example of the operation of the three-dimensional motion detection unit 1 in the present invention.

【図6】本発明における形状モデルの座標修正部3の動
作の一例に対するブロック図。
FIG. 6 is a block diagram showing an example of the operation of the coordinate correction unit 3 of the shape model according to the present invention.

【図7】本発明におけるテクスチャマッピング部4の動
作の一例に対するブロック図。
FIG. 7 is a block diagram showing an example of the operation of the texture mapping unit 4 in the present invention.

【図8】本発明における口形状パラメータ生成部2の動
作の一例に対するブロック図。
FIG. 8 is a block diagram showing an example of the operation of the mouth shape parameter generation unit 2 in the present invention.

【図9】従来技術による口形状画像合成方法の例を示す
ブロック図。
FIG. 9 is a block diagram showing an example of a mouth shape image synthesizing method according to a conventional technique.

【符号の説明】[Explanation of symbols]

1 3次元的動き検出部 2 口形状パラメータ生成部 3 形状モデルの座標修正部 4 テクスチャマッピング部 5 合成部 6 音声認識部(A) 7 音声認識部(B) 8 翻訳処理部 9 音声情報生成部 100 原画像 101 原音声 102 出力画像 103 翻訳音声 104 組合せ操作 1 three-dimensional motion detection unit 2 mouth shape parameter generation unit 3 coordinate correction unit of shape model 4 texture mapping unit 5 synthesis unit 6 speech recognition unit (A) 7 speech recognition unit (B) 8 translation processing unit 9 speech information generation unit 100 original image 101 original voice 102 output image 103 translated voice 104 combination operation

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 テレビカメラやビデオテープレコーダ等
から得られる映像信号をディジタル化したディジタル動
画像信号を原画像とし、また、映像信号に付与されてい
た原音声を異なる言語に翻訳した翻訳音声を音素列に分
解した時の各音素の種別と持続時間の情報を音声に関す
る入力とし、画像中の人物の頭部形状を表現する3次元
形状モデルと原画像とから人物頭部の3次元的な動きを
検出し、一方、音素と持続時間の情報とから翻訳音声に
対応したフレーム単位での口形状パラメータを生成し、
頭部の3次元形状モデルの口及び口周辺部について口形
状パラメータで指定された形状となる様に座標を修正
し、更に口部分を含めた頭部全体について頭部の3次元
的な動きパラメータに従って3次元的な動きを表現する
様に座標を修正し、次に、座標修正後の3次元形状モデ
ルの口及び口周辺部に、予め得られている人物の口及び
口周辺部のテクスチャ情報を付与し、更に、この結果新
たに得られる口及び口周辺部の画像によって原画像中の
人物の口及び口周辺部の画像を置き換え、翻訳音声と対
応した口形状変化を有する自然な画像を合成することを
特徴とする口形状画像合成方法。
1. A digital moving image signal obtained by digitizing a video signal obtained from a television camera, a video tape recorder or the like is used as an original image, and a translated voice obtained by translating the original voice given to the video signal into a different language. The information about the type and duration of each phoneme when decomposed into a phoneme sequence is used as an input regarding the voice, and a three-dimensional shape of the human head is calculated from the three-dimensional shape model expressing the human head shape in the image and the original image. The motion is detected, and on the other hand, the mouth shape parameter is generated for each frame corresponding to the translated speech from the phoneme and the duration information.
The coordinates of the mouth and the peripheral part of the three-dimensional shape model of the head are corrected so that the shape becomes the shape specified by the mouth shape parameter, and the three-dimensional movement parameter of the head for the entire head including the mouth part The coordinates are corrected so as to express a three-dimensional movement according to the following, and then, the texture information of the person's mouth and the surrounding area of the mouth obtained in advance is added to the mouth and the surrounding area of the three-dimensional shape model after the coordinate correction. Furthermore, the image of the mouth and the area around the mouth newly obtained as a result replaces the image of the person's mouth and the area around the mouth in the original image, and a natural image having a mouth shape change corresponding to the translated speech is created. A mouth shape image synthesizing method characterized by synthesizing.
【請求項2】 テレビカメラやビデオテープレコーダ等
から得られる映像信号をディジタル化したディジタル動
画像信号を原画像として入力するための第1の入力端子
と、映像信号に付与されていた原音声を異なる言語に翻
訳した翻訳音声を音素列に分解した時の各音素の種別と
持続時間の情報を入力するための第2、第3の入力端子
と、画像中の人物の頭部形状を表現する3次元形状モデ
ルと前記第1の入力端子から入力される原画像とから人
物頭部の3次元的な動きを検出する3次元的動き検出部
と、前記第2、第3の入力端子から入力される音素の種
別と持続時間の情報とから翻訳音声に対応したフレーム
単位での口形状パラメータを生成する口形状パラメータ
生成部と、頭部の3次元形状モデルの口及び口周辺部に
ついては前記口形状パラメータ生成部から得られる口形
状パラメータで指定された形状となる様に座標を修正
し、口部分を含めた頭部全体については前記3次元的動
き検出部から得られる頭部の3次元的な動きパラメータ
に従って3次元的な動きを表現する様に座標を修正する
形状モデルの座標修正部と、該形状モデルの座標修正部
から得られる座標修正後の3次元形状モデルの口及び口
周辺部に、予め得られている人物の口及び口周辺部のテ
クスチャ情報を付与するテクスチャマッピング部と、該
テクスチャマッピング部から得られる口及び口周辺部の
画像によって前記第1の入力端子から得られる原画像中
の人物の口及び口周辺部の画像を置き換える合成部とを
備えたことを特徴とする口形状画像合成装置。
2. A first input terminal for inputting a digital moving image signal obtained by digitizing a video signal obtained from a television camera, a video tape recorder or the like as an original image, and an original sound added to the video signal. Represents the head shape of a person in the image, and second and third input terminals for inputting information of the type and duration of each phoneme when the translated speech translated into different languages is decomposed into a phoneme sequence. A three-dimensional motion detection unit that detects a three-dimensional motion of a human head from a three-dimensional shape model and an original image input from the first input terminal, and inputs from the second and third input terminals The mouth shape parameter generation unit that generates the mouth shape parameter in frame units corresponding to the translated speech from the information of the phoneme type and the duration to be generated, and the mouth and the mouth peripheral portion of the three-dimensional shape model of the head are described above. Mouth shape The coordinates are modified so that the shape is designated by the mouth shape parameter obtained from the parameter generation unit, and the whole head including the mouth portion has a three-dimensional shape obtained from the three-dimensional motion detection unit. The coordinate correction unit of the shape model that corrects the coordinates so as to express a three-dimensional movement according to the movement parameter, and the mouth and the peripheral portion of the mouth of the three-dimensional shape model after the coordinate correction obtained from the coordinate correction unit of the shape model. , A texture mapping unit that gives texture information of a person's mouth and the surrounding area of the person obtained in advance, and an original image obtained from the first input terminal by the image of the mouth and the surrounding area of the mouth obtained from the texture mapping unit A mouth shape image synthesizing apparatus comprising: a synthesizing unit that replaces an image of a mouth of a person inside and a portion around the mouth.
JP4218719A 1992-07-27 1992-07-27 Mouth shape image synthesis method and apparatus Expired - Lifetime JP2795084B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4218719A JP2795084B2 (en) 1992-07-27 1992-07-27 Mouth shape image synthesis method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4218719A JP2795084B2 (en) 1992-07-27 1992-07-27 Mouth shape image synthesis method and apparatus

Publications (2)

Publication Number Publication Date
JPH0652290A true JPH0652290A (en) 1994-02-25
JP2795084B2 JP2795084B2 (en) 1998-09-10

Family

ID=16724370

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4218719A Expired - Lifetime JP2795084B2 (en) 1992-07-27 1992-07-27 Mouth shape image synthesis method and apparatus

Country Status (1)

Country Link
JP (1) JP2795084B2 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212388A (en) * 1995-02-03 1996-08-20 Fujitsu Ltd Three-dimensional image processor
US6697120B1 (en) * 1999-06-24 2004-02-24 Koninklijke Philips Electronics N.V. Post-synchronizing an information stream including the replacement of lip objects
US7015934B2 (en) 2000-11-08 2006-03-21 Minolta Co., Ltd. Image displaying apparatus
JP2007299300A (en) * 2006-05-02 2007-11-15 Advanced Telecommunication Research Institute International Animation creating device
JP2013507865A (en) * 2009-10-15 2013-03-04 トムソン ライセンシング Method for adding audio content to video content and apparatus for implementing the method
JP2016502157A (en) * 2012-09-18 2016-01-21 チョル キム,サン Lip shape changing device and method based on automatic word translation
CN108766414A (en) * 2018-06-29 2018-11-06 北京百度网讯科技有限公司 Method, apparatus, equipment and computer readable storage medium for voiced translation
JP2022526148A (en) * 2019-09-18 2022-05-23 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド Video generation methods, devices, electronic devices and computer storage media

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212388A (en) * 1995-02-03 1996-08-20 Fujitsu Ltd Three-dimensional image processor
US6697120B1 (en) * 1999-06-24 2004-02-24 Koninklijke Philips Electronics N.V. Post-synchronizing an information stream including the replacement of lip objects
US7145606B2 (en) * 1999-06-24 2006-12-05 Koninklijke Philips Electronics N.V. Post-synchronizing an information stream including lip objects replacement
US7015934B2 (en) 2000-11-08 2006-03-21 Minolta Co., Ltd. Image displaying apparatus
JP2007299300A (en) * 2006-05-02 2007-11-15 Advanced Telecommunication Research Institute International Animation creating device
JP4631077B2 (en) * 2006-05-02 2011-02-16 株式会社国際電気通信基礎技術研究所 Animation creation device
JP2013507865A (en) * 2009-10-15 2013-03-04 トムソン ライセンシング Method for adding audio content to video content and apparatus for implementing the method
JP2016502157A (en) * 2012-09-18 2016-01-21 チョル キム,サン Lip shape changing device and method based on automatic word translation
CN108766414A (en) * 2018-06-29 2018-11-06 北京百度网讯科技有限公司 Method, apparatus, equipment and computer readable storage medium for voiced translation
CN108766414B (en) * 2018-06-29 2021-01-15 北京百度网讯科技有限公司 Method, apparatus, device and computer-readable storage medium for speech translation
JP2022526148A (en) * 2019-09-18 2022-05-23 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド Video generation methods, devices, electronic devices and computer storage media

Also Published As

Publication number Publication date
JP2795084B2 (en) 1998-09-10

Similar Documents

Publication Publication Date Title
CN110874557B (en) Voice-driven virtual face video generation method and device
JP2589478B2 (en) Image synthesis device
JP4310916B2 (en) Video display device
US4260229A (en) Creating visual images of lip movements
US6097381A (en) Method and apparatus for synthesizing realistic animations of a human speaking using a computer
US8655152B2 (en) Method and system of presenting foreign films in a native language
US6112177A (en) Coarticulation method for audio-visual text-to-speech synthesis
JP4913973B2 (en) Animation method of synthetic model of human face driven by acoustic signal
JP2009533786A (en) Self-realistic talking head creation system and method
US6330023B1 (en) Video signal processing systems and methods utilizing automated speech analysis
US20070165022A1 (en) Method and system for the automatic computerized audio visual dubbing of movies
US8078466B2 (en) Coarticulation method for audio-visual text-to-speech synthesis
KR20020022504A (en) System and method for 3D animation authoring with motion control, facial animation, lip synchronizing and lip synchronized voice
JP2002517859A (en) Methods and systems for capturing and representing 3D geometry, color, and shading of facial expressions
US7109993B2 (en) Method and system for the automatic computerized audio visual dubbing of movies
EP0674315A1 (en) Audio visual dubbing system and method
US7117155B2 (en) Coarticulation method for audio-visual text-to-speech synthesis
JP2795084B2 (en) Mouth shape image synthesis method and apparatus
JP3538263B2 (en) Image generation method
WO2023241298A1 (en) Video generation method and apparatus, storage medium and electronic device
JPH0888853A (en) Medium processing system
EP0056507B1 (en) Apparatus and method for creating visual images of lip movements
Eisert et al. Speech driven synthesis of talking head sequences
JPH0714208B2 (en) Video transmission system
JP4017748B2 (en) Speech rate measuring system, method and recording medium

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19980526

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100626

Year of fee payment: 12