JP2518683B2 - Image composition method and apparatus - Google Patents

Image composition method and apparatus

Info

Publication number
JP2518683B2
JP2518683B2 JP5389989A JP5389989A JP2518683B2 JP 2518683 B2 JP2518683 B2 JP 2518683B2 JP 5389989 A JP5389989 A JP 5389989A JP 5389989 A JP5389989 A JP 5389989A JP 2518683 B2 JP2518683 B2 JP 2518683B2
Authority
JP
Grant status
Grant
Patent type
Prior art keywords
mouth shape
phoneme
mouth
image
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP5389989A
Other languages
Japanese (ja)
Other versions
JPH02234285A (en )
Inventor
淳 小池
誠一 山本
宜男 樋口
好律 羽鳥
正秀 金子
Original Assignee
国際電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Grant date

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding

Description

【発明の詳細な説明】 (発明の技術分野) 本発明は、ディジタル処理による画像合成方法に関するもので、特に、発声に伴う口形状変化を表現する顔画像(静止画像または動画像)を合成する方式に関するものである。 DETAILED DESCRIPTION OF THE INVENTION TECHNICAL FIELD OF THE INVENTION The present invention relates to a picture synthesizing method according to digital processing, in particular, to synthesize a face image expressing mouth shape changes associated with vocalization (still image or moving image) the present invention relates to method.

(従来技術) 人が発声する場合には、調音器官により音声情報が生成され、同時に、外見的な変化として発声に伴い、口部分の動き(形状変化)が生じる。 If (prior art) human utters, sound information is generated by the articulator, simultaneously with the utterance as appearance change, movement of the mouth portion (shape change) occurs. 人が直接発声するのではなく、文字列として入力された文章を音声情報に変換して出力する方法は音声合成と言われ、従来、多くの成果が得られてきている。 Human rather than utterance directly, a method for converting text entered as a character string to voice information is said to speech synthesis, conventionally, it has been obtained many results. 一方、入力された文章に対して対応する口形状変化を有する顔画像を生成する方法に関しては従来技術は少なく、松岡清利,黒須顕二による次の報告があるにとどまっている。 On the other hand, the prior art on how to generate a facial image having the corresponding mouth shape changes with respect to a sentence inputted is small, has remained Kiyotoshi Matsuoka, there are the following reports by the cross Akirani.

松岡,黒須の方法は、〔松岡清利,黒須顕二:「聴覚障害者の読話訓練のための動画プログラム」電子情報通信学会論文誌,vo.J70−D,no,11,PP.2167−2171(1987年 Matsuoka, the method of the cross, [Kiyotoshi Matsuoka, Kurosu Akirani: Institute of Electronics, Information and Communication Engineers Journal "animation program for the deaf speechreading training", vo.J70-D, no, 11, PP.2167- 2171 (1987 year
11月)〕に示されている。 Are shown in November)]. これは、プログラムの形で実施されているが、入力された文章に対して、対応する口形状変化を得るための考え方の基本を整理して示すと、 This has been implemented in the form of a program for text input, indicating to organize the basic idea for obtaining the corresponding mouth shape changes,
第6図のようになる。 It is as Figure 6.

第6図において、50は音節分離部、51は音節と口形パターンの対応付け部、52は音節と口形パターンの対応テーブル、53は口形状選択部、54は口形状用メモリである。 In Figure 6, 50 is the syllable separation unit, correlating unit of syllables and mouth shape pattern 51, 52 corresponding table, 53 mouth shape selecting unit syllables and mouth shape pattern, 54 is a memory for mouth shape. 次に各部の動作を簡単に説明する。 Then briefly described the operation of each unit. 音節分離部50 Syllable separation unit 50
は、入力された文章(文字列)に対して、これを音節単位に区切る働きをする。 It is, for the input text (string), serves to separate it into syllables. 例えば「kuma」という入力は、 For example, the input of "kuma" is,
「ku」と「ma」の2つの音節に分けられる。 It is divided into two syllables of "ma" and "ku". 次に、音節と口形パターンの対応テーブル52は、予め用意された音節と口形パターンの対応関係を蓄積したテーブルである。 Next, the correspondence table 52 syllables and mouth shape pattern is a table storing the correspondence between the syllables and mouth shape pattern prepared in advance. 音節は“a",“ka"などひとまとまりの音を表現するものである。 Syllable is intended to represent the "a", "ka", such as the sound of human unity. 口形パターンは、大口形(<A><I>< Mouth-shaped pattern, large-type (<A> <I> <
U><E><K>等)と小口形(<u><o><k>< U> <E> <K>, etc.) and the small type (<u> <o> <k> <
s>等)とがあり、口形の種類を示すものである。 s>, etc.) and there is, it indicates the type of mouth shapes. これらを用いて“a"に対しては<A><*><A>,“ka" <A> for them by using "a" <*> <A>, "ka"
に対しては<K><*><A>というように音節と口形パターンの対応関係をテーブルにしておくわけである。 Respect is not left in the table the correspondence between the syllables and mouth shape pattern such as <K> <*> <A>.
ここで、<*>は中間口形を示す。 Here, <*> indicates the intermediate opening form. 音節と口形パターンの対応付け部51では、音節分離部50から送られてくる一つ一つの音節ごとに、音節と口形パターンの対応テーブル52を参照して、対応する口形パターンをテーブルから読出す。 The association unit 51 of the syllables and mouth shape pattern for each one by one syllable sent from syllable separation unit 50, by referring to the correspondence table 52 syllables and mouth shape pattern, reads the corresponding mouth shapes pattern from the table . 次に口形状用メモリ54は、前述の口形パターンの各々について具体的な口形状を図形或いは形状パラメータの形で蓄積したメモリである。 Then mouth shape memory 54 is a memory that accumulates in the form of a figure or shape parameters specific mouth shape for each mouth shape pattern described above. 口形状選択部53では、音節と口形パターンの対応付け部51から送られてくる口形パターン列に対して、順次口形状用メモリ54を参照して、具体的な口形状を選択し、画像として出力する。 In the mouth shape selection unit 53, with respect to the mouth shaped pattern string sent from the correspondence section 51 of syllables and mouth shape pattern, with reference to the sequential mouth shape memory 54, selects a specific mouth shapes, an image Output. この時、必要に応じて中間形状(前後の口形状の中間の形状)の生成も行われる。 In this case, generation of the intermediate shape (intermediate shapes of the front and rear of the mouth shape) is also performed as needed. なお、動画像としての出力のために、各音節に対して固定的に4フレーム分の口形状を生成するようになっている。 Incidentally, for output as a moving image, and generates a fixed manner four frames mouth shape for each syllable.

この外に、関連する従来技術として、文章入力に対してではないが、音声を入力として対応する口形状変化を推定する方法も報告されている。 This outer, as related prior art, but not with respect to text input, and is also reported a method of estimating the mouth shape corresponding change as an input voice. これは、〔森島繁生, This is, [Shigeo Morishima,
相沢清晴,原島博:「音声情報に基づく表情の自動合成の研究」第4回NICOGRAPH論文コンテスト論文集,PP.139 Aizawa Kiyoharu, Hiroshi HARASHIMA: "Study of the automated synthesis of facial expressions based on the audio information" 4th NICOGRAPH paper contest Papers, PP.139
−146、日本コンピュータ・グラフィックス協会(1988 -146, Japan Computer Graphics Association (1988
年11月)〕に示されている。 Has been shown to November)]. ここでは、入力された音声情報に対して、対数平均パワーを計算して口の開き具合を制御する方法と、声道のホルマント特徴に対応する線形予測係数を計算して口形状を推定する方法と2通りが提案されている。 Here, a method of estimating the audio information input, a method of controlling a mouth opening degree by calculating the logarithmic mean power, the mouth shape by calculating the linear prediction coefficients corresponding to the formant characteristics of the vocal tract When the two types have been proposed.

(発明が解決しようとする課題) 従来技術として、文章(文字列)を入力して、これに対応する口形状変化を有する顔画像を生成するための方法については、松岡,黒須の方法を示したが、次のような点で問題がある。 As (INVENTION Problems to be Solved) prior art, by entering text (character string) for the method for generating a face image having a mouth shape change corresponding thereto, Matsuoka, shows how the cross It was, but there is a problem in terms such as the following. すなわち、発生においては音声出力と口形状とに密接な関係があるにもかかわらず、基本的には文章を文節に区切って文字上の対応から口形パターンを選択しており、音声生成の機構と口形状生成との関連付けが不十分である。 In other words, despite the closely related to the audio output and the mouth shape in generation has selected mouth shape pattern from the basic response of the characters, separated sentence clause in the mechanism of speech production association of the mouth shape generation is insufficient. 従って、音声出力と的確に対応した口形状生成が困難であるという問題がある。 Therefore, there is a problem that it is difficult to audio output and accurately corresponding mouth shape generation. 次に、 next,
音素(発生における最小単位,音節は複数の音素の組合せからなる)については、前後の音素とのつながり等によって、持続時間が異なるにもかかわらず、松岡,黒須の方法では、各音節に固定的に4フレームを割当てており、入力される文章に応じた自然な口形状変化を表現することが困難であるという問題がある。 (Minimum unit, syllable plurality of a combination of phonemes in generation) for phonemes, by ties or the like of the front and rear phonemes, despite the duration varies, Matsuoka, in cross manner, fixed to each syllable to have assigned four frames, there is a problem that it is difficult to express a natural mouth shape changes in accordance with the sentence inputted. また、入力された文章に対して、音声と口形状画像を同一のタイミングで出力しようとした場合に両者でのマッチングをとることも困難である。 Further, with respect to a sentence inputted, it is difficult to take matching in both when an attempt outputting audio and mouth shape image at the same timing.

さらに、森島,相沢,原島の方法は、入力された音声情報をもとにして口形状を推定するという技術であり、 Furthermore, Morishima, Aizawa, method Harashima is a technique that estimates the mouth shape based on sound information input,
文章を入力して、これに対応した口形状変化を有する動画像を生成するという目的には適用することができない。 Enter the text, it can not be applied for the purpose of generating a moving image having a mouth shape changes corresponding thereto.

(発明の目的) 本発明は、上述した従来技術の問題点を解決するためになされたのもであり、音声出力との的確な対応付けがなされ、かつ、各音素の持続時間に合わせた形で口形状変化を表現することが可能な画像合成方法及びその装置を提供することを目的とする。 INVENTION An object of the present invention is a well was made in order to solve the problems of the prior art described above, accurate correspondence between the audio output is made, and the mouth in a manner tailored to the duration of each phoneme and an object thereof is to provide an image synthesis method and apparatus capable of expressing the shape change.

(発明の構成) 本発明の第1の特徴は、文字列として表現される文章を入力し、これに対応した口形状変化を有する顔動画像を生成する画像合成方法において、前記文字列を音素列に分割し、各音素ごとに音声特徴及び持続時間を出力することが可能な音声規則合成手法を利用し、音声特徴に基づいて各音素に対応する口形特徴を決定し、更に該口形特徴に従って具体的な口形状を表現するための口形状パラメータの値を決定し、また、各音素ごとの該口形状パラメータの値に対して前記各音素ごとの持続時間に基づいて動画像の各フレームごとに与えられる口形状パラメータの値を制御し、音声出力に適合した口形状変化を有する顔動画像の合成を行うことにある。 The first feature of (the invention of structure) the present invention inputs a sentence represented as a string, an image synthesizing method for generating a face moving image having a mouth shape change corresponding thereto, phonemes the string divided into columns, using speech synthesis by rule techniques that can output sound characteristics and duration for each phoneme, determines the mouth shape features corresponding to each phoneme, based on the audio feature, according to yet the mouth shape, wherein determines the value of mouth shape parameter for representing a specific mouth shapes, also, each frame of the moving image based on the duration of each phoneme for the value of the mouth shape parameters for each phoneme to control the value of the mouth shape parameter given to, in performing the synthesis of facial motion picture having a mouth shape changes that conform to the audio output.

本発明の第2の特徴は、文字列として表現される文章を入力するための入力端子と、該入力端子より入力される該文字列を音素列に分割し、各音素ごとに音声特徴及び持続時間を出力することが可能な音声規則合成部と、 A second aspect of the present invention divides an input terminal for inputting a sentence represented as character strings, the character string input from the input terminal to the phoneme string, voice features and duration for each phoneme a voice rule synthesis unit capable of outputting a time,
各音素ごとの該音声特徴から口形特徴への変換を行う変換部と、種々の口形特徴と具体的な口形状を表現する口形状パラメータとを対応付けた変換テーブルと、前記変換部で得られる各音素ごとの口形特徴に対応する口形状パラメータを前記変換テーブルから取出す口形状パラメータ取得部と、一定時間間隔の画像系列として与えられる動画像を生成するために該口形状パラメータ取得部から得られる口形状パラメータの値の出力を前記音声規則合成部から与えられる各音素ごとの持続時間に従って制御するための時間調整部と、該時間調整部の制御のもとに前記口形状パラメータ取得部から出力される口形状パラメータの値に従って画像を生成するための画像生成部とを備えたことにある。 A conversion unit for converting into the mouth shape features from speech features of each phoneme, a conversion table that associates and mouth shape parameter representing the various mouth shape features and specific mouth shapes, obtained by the conversion unit obtained from the mouth shape parameter acquisition unit for generating the mouth shape parameter acquisition unit for taking out the mouth shape parameter corresponding to the mouth shape feature of each phoneme from the conversion table, the moving image is given as an image sequence for a predetermined time interval a time adjuster for controlling according to the duration of each phoneme, given the output values ​​of the mouth shape parameter from said speech rule synthesis unit, the output from the port shape parameter acquisition unit under the control of said time adjuster in that an image generating unit for generating an image according to the value of the mouth shape parameters.

本発明の第3の特徴は、文字列として表現される文章を入力するための入力端子と、該入力端子より入力される該文字列を音素列に分割し、各音素ごとに音声特徴及び持続時間を出力することが可能な音声規則合成部と、 A third aspect of the present invention divides an input terminal for inputting a sentence represented as character strings, the character string input from the input terminal to the phoneme string, voice features and duration for each phoneme a voice rule synthesis unit capable of outputting a time,
各音素ごとの該音声特徴から口形特徴への変換を行う変換部と、種々の口形特徴と具体的な口形状を表現する口形状パラメータとを対応付けた変換テーブルと、前記変換部で得られる各音素ごとの口形特徴に対応する口形状パラメータを前記変換テーブルから取出す口形状パラメータ取得部と、一定時間間隔の画像系列として与えられる動画像を生成するために該口形状パラメータ取得部から得られる口形状パラメータの値の出力を前記音声規則合成部か与えられる各音素ごとの持続時間に従って制御するための時間調整部と、該時間調整部の制御のもとに前記口形状パラメータ取得部から出力される口形状パラメータの値に従って画像を生成するための画像生成部とをに加えて、前記時間調整部の出力に従ってある音素から次の音素への遷 A conversion unit for converting into the mouth shape features from speech features of each phoneme, a conversion table that associates and mouth shape parameter representing the various mouth shape features and specific mouth shapes, obtained by the conversion unit obtained from the mouth shape parameter acquisition unit for generating the mouth shape parameter acquisition unit for taking out the mouth shape parameter corresponding to the mouth shape feature of each phoneme from the conversion table, the moving image is given as an image sequence for a predetermined time interval and time adjustment unit for controlling the output value of the mouth shape parameter according to the duration of each phoneme, given whether the speech synthesis by rule unit, output from the port shape parameter acquisition unit under the control of said time adjuster in addition to the image generation unit for generating an image according to the value of the mouth shape parameters, Qian phoneme in accordance with the output of said time adjusting unit to the next phoneme を検出するための遷移検出部と、前記画像生成部で用いられる口形状パラメータの値を少なくとも1フレーム時間以上保持することが可能なメモリと、該メモリに保持されている口形状パラメータの値と前記口形状パラメータ取得部より与えられる口形状パラメータの値との中間値を求める口形状パラメータ修正部とを更に備え、ある音素から次の音素への遷移時に中間的な口形状を生成して滑らかな口形状変化を有する顔動画像を生成することにある。 A transition detector for detecting a memory capable of holding the values ​​of the mouth shape parameter used in the image generating unit at least one frame or more hours, the value of the mouth shape parameters stored in the memory anda mouth shape parameter correcting section for obtaining an intermediate value between the value of a mouth shape parameter given from the mouth shape parameter acquiring unit, smooth and generates an intermediate mouth shape from one phoneme at the time of transition to the next phoneme It is to produce a face moving image having a mouth shape changes.

(実施例1) 第1図は、本発明における第1の実施例を説明するためのブロック図である。 (Example 1) Figure 1 is a block diagram for explaining a first embodiment of the present invention. 入力情報としては、キーボード或いは磁気ディスク等のファイル装置から得られる文字列(文章)を考える。 The input information, consider a character string obtained from the file device such as a keyboard or a magnetic disk (pen). 第1図において、1は音声規則合成部、2は時間調整部、3は音声特徴から口形特徴への変換部、4は口形特徴から口形状パラメータへの変換テーブル、5は口形状パラメータ取得部、6は画像生成部、10はゲート、900は文字列入力用の端子、901は画像出力用の端子である。 In Figure 1, 1 is the speech synthesis by rule section, 2 the time adjustment unit, 3 conversion portion to the mouth shape features from speech features, 4 conversion table from the mouth shape, wherein the mouth shape parameter, 5 mouth shape parameter acquisition unit , 6 image generating unit, 10 denotes a gate, 900 is a terminal for a character string input, the 901 is a terminal for image output.

次に各部の動作について説明する。 Next, a description will be given of the operation of each part. 音声規則合成部1 Voice rule synthesis unit 1
は入力された文字列に対応した音声出力を合成する部分である。 Is a portion for synthesizing an audio output corresponding to the input string. 音声合成に関しては従来各種の方式が提案されているが、ここでは、口形状生成との整合性が優れているという点から、声道モデルとしてKlatt型ホルマント音声合成器を用いた既存の音声規則合成手法の利用を想定している。 Although conventional various methods have been proposed with respect to speech synthesis, where, from the viewpoint of consistency with the mouth shape produced is superior, existing voice rules using Klatt type formant speech synthesizer as vocal tract model It assumes the use of synthesis techniques. この手法に関しては、〔山本誠一,樋口宣男,清水徹:「テキスト編集機能付き音声規則合成装置の試作」電子情報通信学会技術報告SP87−137(1988年3月)〕に詳しく述べられている。 For this approach, [Seiichi Yamamoto, Nobuo Higuchi, Toru Shimizu: "text editing function prototype of voice rule synthesis device" Institute of Electronics, Information and Communication Engineers Technical Report SP87-137 (3 May 1988)] have been described in detail in. 音声規則合成部そのものは既存技術であり、また本発明が目的とする部分ではないので詳細な説明は省略する。 Speech synthesis by rule unit itself is conventional technology and details Since the present invention is not part of interest description is omitted. 但し、音声生成と口形状との的確な対応をとるために、各音素毎に音韻特徴及び持続時間に関する情報が出力されることが必要である。 However, to take an accurate correspondence between the sound generation and mouth shape, it is necessary that information about the phonological features and duration are output for each phoneme. 山本,樋口,清水の手法では、調音様式,調音点, Yamamoto, Higuchi, in the fresh water of the technique, articulation style, articulation point,
有声/無声の区別,ピッチ制御情報などの音韻特徴及びこれに基づく持続時間の情報が出力されるようになっており、この要求を満足している。 Distinguish voiced / unvoiced being adapted phoneme characteristics and duration of the information based on this, such as pitch control information is outputted, which satisfies this requirement. これらの情報が得られるものであれば、他の音声規則合成部を利用するものであっても差し支えはない。 As long as the information is obtained, no harm even those utilizing other speech synthesis by rule section.

次に時間調整部2は、音声規則合成部1より得られる各音素毎の持続時間(第i番目の音素の持続時間をt iとする)に基づいて、画像生成部6への口形状パラメータの受渡しを制御するためのものである。 Next time adjuster 2, based on the duration of each phoneme obtained from the speech synthesis by rule unit 1 (the duration of the i-th phoneme and t i), the mouth shape parameter to the image generator 6 it is for controlling the delivery. すなわち、テレビジョン信号として画像(特に動画像)を出力するためには、例えばNTSC方式の場合毎秒30フレーム(1フレーム当り1/30秒)であり、1/30秒毎の情報に直して画像を生成する必要がある。 That is, in order to output an image (particularly moving images) as a television signal is, for example, the NTSC system 30 frames per second (1/30 second per frame), mended the information for each 1/30-second image there is a need to generate. 時間調整部2の詳しい動作については後述する。 It will be described later detailed operation of the time adjustment unit 2.

次に、音韻特徴から口形特徴への変換部3では、音声規則合成部1から得られる音韻特徴に基づいて、該当音素に対応する口形特徴への変換を行う。 Next, the conversion unit 3 to the mouth shape, wherein the phonological features, based on the phoneme features obtained from the speech synthesis by rule unit 1, performs conversion into the mouth shape characteristics corresponding to the relevant phoneme. 口形特徴としては、例えば、(1)口の開き具合(かなり開いている〜 The mouth shape features, for example, (1) mouth opening degree (quite open-
完全に閉じている)、(2)唇の丸め具合(丸めている〜横に引いている)、(3)下顎の高さ(上がっている〜下がっている)、(4)舌の見え具合、を考える。 Are fully closed), (2) lips rounding degree (are pulling the ~ next to you are rounded), have fallen - and height (up of (3) the lower jaw), (4) appearance of the tongue condition ,think of. 各種の音素に対して、人間が実際にどう発声しているかに関する観察に基づいて、音韻特徴と口形特徴との対応を規則化している。 For various phoneme humans based on actually what observed regarding an utterance, and ordering the correspondence between phonemes features and mouth shape features.

例えば、“konnichiwa"という文章が入力された場合、 For example, "konnichiwa" If the sentence is input that, のような形で口形特徴への変換がなされる。 Conversion to the mouth shape features are made in such a form of. ここで、1 Here, 1
v,1h,jawは各々口の開き具合、唇の丸め具合、下顎の高さを示しており、数字は程度を表している。 v, 1h, jaw each port of the open condition, lips rounding condition, shows the height of the lower jaw, the numbers represent the degree. xは程度が前後の音素によって決められることを示している。 x indicates that the degree is determined by the front and rear phonemes. また、tbckは舌の見え具合を示している(この場合、舌の奥の方がわずかに見えることを表している)。 In addition, tbck shows the visible condition of the tongue (in this case, indicates that the person in the back of the tongue is slightly visible).

口形特徴から口形状パラメータへの変換テーブルは、 The conversion table from the mouth shape, wherein the mouth shape parameters,
音声特徴から口形特徴への変換部3で得られる前述の口形特徴の各々について、具体的な口形状を表現するためのパラメータの値を与えるテーブルである。 For each of the aforementioned mouth shape features obtained by the conversion unit 3 to the mouth shape, wherein the audio feature is a table giving the values ​​of the parameters for representing a specific mouth shapes. ここで第2 Here in the second
図は、口形状を表現するためのパラメータの例を示した図である。 Figure is a diagram showing an example of a parameter for expressing the mouth shape. 第2図(a)は口部分を正面から眺めた時の正面図であり、点P 1 〜P 8の8点の位置により口形状を、 Figure 2 (a) is a front view when viewing the mouth portion from the front, the mouth shape by the position of the 8-point of the point P 1 to P 8,
点Q 1 ,Q 2の位置により上,下の歯の見え具合を、h 1 ,h 2の値により上,下の唇の厚みを与える。 On the position of the point Q 1, Q 2, the appearance state of the lower teeth, on the value of h 1, h 2, gives the thickness of the lower lip. 第2図(b)は口部分を横から眺めた時の側面図であり、θ 1の角度により、上,下の唇のめくれを与える。 Figure 2 (b) is a side view when viewing the mouth portion from the side, the theta 1, theta 2 angles, on, it gives a curling under lip. 変換テーブル4 Conversion table 4
では、前述の口形特徴の各々について、実際に人が発声する時の口形状に対する計測結果を参考にして前もって定められた上記パラメータP 1 〜P 8 ,Q 1 〜Q 2 ,h 1 ,h 21 In, for each of the aforementioned mouth shape features, the parameter P 1 defined previously by reference to the measurement results for the mouth shape when the actual person utters ~P 8, Q 1 ~Q 2, h 1, h 2 , θ 1, θ
の値の組をテーブルの形で保持しておく。 It holds a set of two values in a table.

口形状パラメータ取得部5では、音声特徴から口形特徴への変換部3より得られる該当音素に対する口形特徴に対して、口形特徴から口形状パラメータへの変換テーブル4を参照して、該当音素に対する口形状パラメータの値の組を取得する。 In mouth shape parameter acquiring unit 5, with respect to the mouth shape features for the corresponding phoneme obtained from the conversion section 3 to the mouth shape features from speech features, by referring to the conversion table 4 of the mouth shape parameter from the mouth shape characteristics, mouth for the corresponding phoneme obtaining a set of values ​​of shape parameters.

ゲート10は、当該音素に対する上記口形状パラメータを画像生成部6に送るか否かを制御するためのものであり、時間調整部2から指示された回数(この回数に1/30 Gate 10, 1/30 the port shape parameters for phoneme is for controlling whether to send to the image generating unit 6, the indicated number from the time adjustment unit 2 (in this number
秒を乗じた値が、該当音素に対する口形状の表示時間となる)だけ、上記口形状パラメータを画像生成部6に送る。 S multiplied by the value, the display time of the mouth shape for the corresponding phoneme) only sends the port shape parameters to the image generation unit 6.

画像生成部6はゲート10を介して口形状パラメータ取得部5より送られてくる1/30秒毎の口形状パラメータに基づいて口形状画像の生成を行う。 Image generator 6 for generating a mouth shape image based on mouth shape parameter of 1/30 second each sent from the mouth shape parameter acquiring unit 5 via the gate 10. 必要に応じて顔全体を含めた画像の生成を行う。 And it generates an image including the entire face as necessary. 口形状パラメータを与えての口形状画像ないし顔画像の生成に関する詳細については、例えば〔金子正秀,羽鳥好律,小池淳:「形状変化の検出と3次元形状モデルに基づく顔動画像の符号化」 For information on the generation of the mouth shape images to face images of giving mouth shape parameters, for example [Kaneko Masahide, Hatori Koritsu, Atsushi Koike: "coding detection and face moving image based on the three-dimensional shape model of the shape change "
電子情報通信学会論文誌B,vol.J71−B,no,12,PP.1554− Institute of Electronics, Information and Communication Engineers Journal B, vol.J71-B, no, 12, PP.1554-
1563(1988年12月)〕に述べられている。 Are described in 1563 (12 May 1988)]. 概略としては、人物頭部の3次元形状を表現する3次元ワイヤフレームモデルを予め用意しておく。 The outline, are prepared 3D wireframe model representing a three-dimensional shape of the human head in advance. 与えられた口形状パラメータに従って3次元ワイヤフレームモデルの口部分(具体的には、唇,歯,顎等)の形状を変形する。 3D wireframe model of the mouth portion (specifically, the lips, teeth, jaw, etc.) according to the given mouth shape parameters to transform the shape of the. この変形後のモデルに、各部の濃淡や色を表現する情報を画素単位で付与することにより、リアルな口形状画像或いは顔画像を得ることができる。 The model after the deformation, the information representing the respective portions of the shade or color by applying a pixel unit, it is possible to obtain a realistic mouth shape images or face image.

ここで、時間調整部2の動作について詳しく説明する。 It will now be described in detail the operation of the time adjustment unit 2. 第3図は時間調整部2の動作を説明するためのブロック図である。 Figure 3 is a block diagram for explaining the operation of the time adjustment unit 2. 第3図において、21は遅延部、22は大小判定部、23,24はメモリ、25,26は加算器、27はスイッチ、28,29は分岐、30は時間正規化部、201,202は大小判定部22の出力線、902は初期リセット用の端子、903は定数(1/30)入力用端子、920,921はスイッチ27に関わる端子である。 In Figure 3, 21 is a delay unit, 22 is size determination unit, 23 and 24 memory, 25 and 26 adders, 27 switch, 28 and 29 branches, 30 time normalization unit, 201 and 202 size determination the output lines of the parts 22, 902 terminal for initial resetting, 903 constant (1/30) input terminal, the 920 and 921 are terminals relating to the switch 27. 次に各部の動作について説明する。 Next, a description will be given of the operation of each part. メモリ memory
23は、I番目の音素までの合計の持続時間 23, the duration of a total of up to I-th phoneme を蓄えておくためのメモリである。 A memory for stocking. 画像合成を始める前に、端子902より与えられる初期リセット信号で零がセットされる。 Before starting the image synthesis, zero at the initial reset signal supplied from the terminal 902 is set. 音声規則合成部1からI番目の音素の持続時間が与えられると、加算器25により、メモリ23に蓄えられたI−1番目の音素までの合計の持続時間 When the duration of the I-th phoneme is given from the speech synthesis by rule unit 1, by the adder 25, the duration of the sum of up to I-1 th phonemes stored in the memory 23 が求められる遅延部21は、I−1番目の音素までの合計の持続時間 Delay unit 21 is required, the duration of the sum of up to I-1 th phoneme を、I+1番目の音素に対する処理に入るまで蓄積する働きをする。 And it serves to accumulate to enter the processing for I + 1 th phoneme. 時間正規化部30では、遅延部21の出力 At time normalization unit 30, the output of the delay section 21 に対し、 The other hand, を満足するNを求め、1/30×Nの値を出力する。 Seeking N satisfying the outputs a value of 1/30 × N. ここで、Nは整数、また、1/30は1フレームの時間1/30秒を与える定数である。 Here, N integer also, 1/30 is a constant giving the time of 1/30 second for one frame. スイッチ27は、I番目の音素に対する処理に入る時に、大小判定部22からの出力線202により端子920の側に接続される。 Switch 27, upon entering the processing for the I-th phoneme, the output line 202 from the size determination unit 22 is connected to the side of the terminal 920. この時、加算器26により、時間正規化部30の出力1/30×Nと定数1/30との和t At this time, the adder 26, the sum of the output 1/30 × N and constants 1/30 time normalization section 30 t
が計算される。 There is calculated. 大小判定部22では、このtの値と The size determination unit 22, the value of the t の値との大小を比較し、 It compares the magnitude of the value, の場合には、出力線201、また In the case of the output line 201, also の場合には出力線202信号を出力する。 Outputs the output line 202 signal in the case of.

の場合は、I番目の音素の持続時間が終了したことを意味し、出力線202を介して、音声合成部1へI+1番目の音素に関する情報を出力するための指示、メモリ24へ内容をリセットするための指示、スイッチ27へ端子920 For means that the duration of the I-th phoneme is completed, reset via an output line 202, instructions for outputting information about the I + 1 -th phoneme to the speech synthesis unit 1, the contents in the memory 24 instructions for the terminal 920 to the switch 27
へ接続するための指示、遅延部21へ遅延されていた Instructions for connecting to, has been delayed to the delay section 21 の値を出力するための指示がなされる。 Instruction is issued for outputting the value. メモリ24は、加算器26の出力を一時的に蓄えておくためのものである。 Memory 24 is for temporarily storing the output of the adder 26.
スイッチ27は Switch 27 が成立つ間端子921に接続されており、加算器26により、順次、今までのtに1/30を加えたものを新たなtにする操作が行われる。 Is connected between terminal 921 is true, by the adder 26, sequentially, the operation of the new t a plus 1/30 to t ever takes place. 以上により、 By the above, が成立つ間、大小判定部22より出力線201に信号が出力され、この信号により第1図におけるゲート10が制御されることにより、I番目の音素の持続時間の間、I番目の音素に対応する口形状パラメータが画像生成部6に供給される。 While the holds, it is output signal to the output line 201 from the size determination unit 22, by the gate 10 is controlled in the first view by this signal, the duration of the I-th phoneme, the I-th phoneme corresponding mouth shape parameters are supplied to the image generating unit 6.

以上が本発明の第1の実施例に対する説明である。 The above is the explanation for the first embodiment of the present invention. ここで、第1の実施例の場合、I番目の音素からI+1番目の音素に移る場合、I番目の音素に対する口形状パラメータから、I+1番目の音素に対する口形状パラメータへと不連続に変化るることになる。 Here, in the case of the first embodiment, a transfer from the I-th phoneme I + 1 th phoneme, that the mouth shape parameter for I-th phoneme, Ruru discontinuously changed to mouth shape parameter for I + 1 th phoneme become. 両者の口形状パラメータに極端な違いがなければ、合成される動画像には余り不自然さは生じない。 Without extreme difference in mouth shape parameters of both, there is no much unnatural in moving image to be synthesized. しかし、人間が発声をする場合、口形状は連続的に変化しており、I番目の音素からI+1番目の音素に移る場合、口形状が連続的に変化することが望ましい。 However, when a person makes a vocalization, mouth shape is changing continuously, a transfer from the I-th phoneme I + 1 th phoneme, it is desirable that the mouth shape changes continuously.

(実施例2) 第4図はこの要求を満足するための本発明の第2の実施例を説明るるためのブロック図である。 (Example 2) FIG. 4 is a block diagram for Ruru illustrating a second embodiment of the present invention to satisfy this requirement. 第4図において、7は口形状パラメータ修正部、8は遷移検出部、9 In Figure 4, 7 mouth shape parameter modifying section, 8 transition detection unit, 9
はメモリ、40はスイッチ、910,911はスイッチ40に関わる端子、他は第1図に同様である。 The memory 40 may switch, 910 and 911 terminals involved in the switch 40, the other is the same as in Figure 1. 次に新たに加わった部分の動作を説明す。 The following describes the operation of the newly added part.

遷移検出部8は、ある音素(例えばI番目の音素)から次の音素(I+1番目の音素)への遷移を検出するためのものである。 Transition detection unit 8 is for detecting the transition to a certain phoneme (e.g. I-th phoneme) from the following phoneme (I + 1 th phoneme). 第5図は本発明による遷移検出部8の動作を説明するためのブロック図であり、81はカウンタ、82は判定回路、210,211は出力線である。 FIG. 5 is a block diagram for explaining the operation of the transition detection unit 8 according to the present invention, 81 denotes a counter, 82 determination circuit, 210 and 211 is an output line. カウンタ8 Counter 8
1は、大小判定部22からの出力線202に信号が出力された時に0にリセットされる。 1 is reset to 0 when the signal is output to the output line 202 from the large and small judging unit 22. また、大小判定部22において出力線201に信号が出力されるごとに1ずつカウントアップする。 Further, it counts up by one for each signal is output to the output line 201 in the magnitude determination unit 22. 判定回路82では、カウンタ81の出力が“1"であるか否かを判定し、“1"の時には、ある音素から次の音素への遷移が生じたということであるので、出力線21 The decision circuit 82, the output of the counter 81 is equal to or "1", when "1", so is that the transition from one phoneme to the next phoneme occurs, the output line 21
0に信号を出力する。 0 to output a signal. 一方、2以上の時には、現在の音素が持続しているということであるので、出力線211に信号を出力する。 On the other hand, when the 2 or more, so it is that the current phoneme persists, and outputs a signal to the output line 211.

メモリ9は、前フレームの画像を合成するために用いられた口形状パラメータを少なくとも1フレーム期間蓄えておくためのメモリである。 Memory 9 is a memory for the mouth shape parameters used to synthesize an image of the previous frame set aside at least one frame period. 口形状パラメータ修正部7は、メモリ9に蓄えられていた前フレームにおける口形状パラメータと、口形状パラメータ取得部5より与えられる現在の音素に対する口形状パラメータとに基づいて、例えば両者の中間値を求めて、現フレームの画像を合成するための口形状パラメータとする働きをする。 Mouth shape parameter modifying section 7, and mouth shape parameter of the frame prior accumulated in the memory 9, based on the mouth shape parameter for the current phoneme given from mouth shape parameter acquiring unit 5, for example, an intermediate value therebetween seeking, which serves a mouth shape parameters to synthesize the image of the current frame. スイッチ40は、遷移検出部から出力線210,211のいずれに信号が出力されるかによって、端子910或いは911に接続され、端子910に接続された時には、口形状パラメータ修正部7より得られる2つの音素に対する口形状パラメータの中間値を、また、端子911に接続された時には現在の音素に対する口形状パラメータを、画像生成部6に渡す。 Switch 40, by either the one signal is the output of the output lines 210 and 211 from the transition detector is connected to the terminal 910 or 911, when connected to the terminal 910, two phonemes obtained from mouth shape parameter modifying section 7 an intermediate value of the mouth shape parameters for, also when connected to the terminal 911 a mouth shape parameter for the current phoneme, and passes the image generation unit 6. 以上の例では、ある音素の口形状パラメータと次の音素の口形状パラメータとの中間値は1フレーム分しか生成されないが、例えばカンウタ82の値に応じて何段階かの中間値を生成することにより、より滑らかな口形状変化を実現することも可能である。 In the intermediate value between the mouth shape parameter and mouth shape parameter of the next phoneme of a phoneme is not generated only one frame, for example, to generate several stages of the intermediate value according to the value of Kan'uta 82 above examples Accordingly, it is possible to realize a smoother mouth shape changes.

以上述べたように、本発明は文字列として表現される文章を入力した場合にこれに対応した口形状変化を有する顔動画像を合成する方式に関するものである。 As described above, the present invention relates to method of synthesizing a face moving image having a mouth shape change corresponding thereto when you enter a sentence represented as a string. しかしながら、音声情報を入力した場合においても入力音声情報に対してこれを音素列に分割し、各音素ごとに音声特徴及び持続時間を出力することが可能な音声認識手法が利用できるのであれば、本発明における音声合成部1をこのような動作をする音声認識部に置き換えることにより、入力音声情報に対応した口形状変化を有する顔動画像を合成することも可能である。 However, this was divided into phoneme sequence for the input voice information in the case of inputting audio information, if the speech recognition method capable of outputting the audio features and duration for each phoneme is available, by replacing the speech synthesizer 1 of the present invention to the speech recognition unit for this operation, it is also possible to synthesize the face moving image having a mouth shape changes corresponding to the input voice information.

(発明の効果) 以上のように、本発明により、文字列として表現される文章を入力として音声出力との的確な対応付けがなされ、かつ、各音素の持続時間に合わせた口形状変化を有する、従って音声出力とのマッチングのとれた自然な口形状変化を有する動画像を合成することが可能である。 As described above (Effect of the Invention) The present invention, precise correspondence between the audio output as an input sentence represented as character strings is performed, and has a mouth shape changes to match the duration of each phoneme and thus it is possible to synthesize the moving picture having a balanced natural mouth shape changes in the matching with the speech output.

文章入力に対して、今まで音声を合成するのにとどまっていたのに対し、本発明では、音声とのマッチングのとれた自然な口形状変化を有する動画像まで容易に出力できるようになる。 Relative sentence input, while was limited to synthesize speech ever, in the present invention, it is possible to easily output to a moving image having a balanced natural mouth shape changes in the matching with the speech. 従って、本発明は実写を必要とせずにリアルな動画像を生成する用途(例えば、放送番組や映画の製作),音声及び画像による自動応答装置、マン・マシーン・インタフェースの手段としての利用、文章から音声及び動画像へのメディア変換等に適用可能であり、その効果が極めて大である。 Accordingly, the present invention uses to generate a realistic moving image without the need for live-action (e.g., production of broadcast programs and movies), automatic answering machine by voice and image, use as a means of man-machine interface, text from applicable to media conversion, etc. to audio and a moving image, the effect is very large.

【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS

第1図は本発明の第1の実施例に対応するブロック図、 Figure 1 is a block diagram corresponding to the first embodiment of the present invention,
第2図は口形状を表現するためのパラメータの例を示した図、第3図は本発明における時間調整部2の動作の一例に対応するブロック図、第4図は本発明の第2の実施例に対応するブロック図、第5図は本発明の第2の実施例における遷移検出部8の動作の一例に対応するブロック図、第6図は従来の画像合成方式の動作に対応するブロック図である。 Figure 2 is a diagram showing an example of a parameter for expressing the mouth shape, FIG. 3 is a block diagram corresponding to an example of the operation of the time adjustment part 2 of the present invention, Figure 4 is a second of the present invention block diagram corresponding to the embodiment, FIG. 5 is a block diagram corresponding to an example of the operation of the transition detection unit 8 in the second embodiment of the present invention, the block FIG. 6 is corresponding to the operation of the conventional image synthesis system it is a diagram.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 山本 誠一 東京都新宿区西新宿2丁目3番2号 国 際電信電話株式会社内 (72)発明者 樋口 宜男 東京都新宿区西新宿2丁目3番2号 国 際電信電話株式会社内 (56)参考文献 特開 昭63−225875(JP,A) IBM Technical Dis closure Bulletin,V ol. ────────────────────────────────────────────────── ─── of the front page continued (72) inventor Seiichi Yamamoto, Shinjuku-ku, Tokyo Nishi 2-chome No. 3 No. 2 country when telegraph and telephone within Co., Ltd. (72) inventor Higuchi Mubeotoko, Shinjuku-ku, Tokyo Nishi 2-chome 3 Ban No. 2 country when telegraph and telephone within Co., Ltd. (56) reference Patent Sho 63-225875 (JP, a) IBM Technical Dis closure Bulletin, V ol. 14,No. 14, No. 10,P. 10, P. 3039−3040, J. 3039-3040, J. D. D. Bagley et al. Bagley et al. , “Method for Comput er Animation of Li p Movements" 電子情報通信学会論文誌D,Vol. J70−D,No. , "Method for Comput er Animation of Li p Movements" Institute of Electronics, Information and Communication Engineers Journal D, Vol. J70-D, No. 11,P. 11, P. 2167−2171松 岡清利他,「聴覚障害者の読話訓練のた めの動画プログラム」 2167-2171 pine OkaKiyoshi altruistic, "deaf speechreading training other eye animation program of"

Claims (3)

    (57)【特許請求の範囲】 (57) [the claims]
  1. 【請求項1】文字列として表現される文章を入力し、これに対応した口形状変化を有する顔動画像を生成する画像合成方法において、前記文字列を音素列に分割し、各音素ごとに音声特徴及び持続時間を出力することが可能な音声規則合成手法を利用し、音声特徴に基づいて各音素に対応する口形特徴を決定し、更に該口形特徴に従って具体的な口形状を表現するための口形状パラメータの値を決定し、また、各音素ごとの該口形状パラメータの値に対して前記各音素ごとの持続時間に基づいて動画像の各フレームごとに与えられる口形状パラメータの値を制御し、音声出力に適合した口形状変化を有する顔動画像の合成を行うことを特徴とする画像合成方法。 1. A type the text represented as a string, an image synthesizing method for generating a face moving image having a mouth shape change corresponding thereto, to divide the string into a phoneme string, each phoneme using speech synthesis by rule techniques that can output sound characteristics and duration, determines a mouth shape features corresponding to each phoneme, based on the speech features, to represent a specific mouth shapes in accordance with further the mouth shape, wherein of determining the value of the mouth shape parameter, also the value of the mouth shape parameters given for each frame of the moving image on the basis of the duration of each of said phonemes to the value of the mouth shape parameters for each phoneme controlling, image composition method and performing the synthesis of facial motion picture having a mouth shape changes that conform to the audio output.
  2. 【請求項2】文字列として表現される文章を入力するための入力端子と、該入力端子より入力される該文字列を音素列に分割し、各音素ごとに音声特徴及び持続時間を出力することが可能な音声規則合成部と、各音素ごとの該音声特徴から口形特徴への変換を行う変換部と、種々の口形特徴と具体的な口形状を表現する口形状パラメータとを対応付けた変換テーブルと、前記変換部で得られる各音素ごとの口形特徴に対応する口形状パラメータを前記変換テーブルから取出す口形状パラメータ取得部と、一定時間間隔の画像系列として与えられる動画像を生成するために該口形状パラメータ取得部から得られる口形状パラメータの値の出力を前記音声規則合成部か与えられる各音素ごとの持続時間に従って制御するための時間調整部と、該時 2. A dividing an input terminal for inputting a sentence represented as character strings, the character string input from the input terminal to the phoneme string, and outputs the speech feature and duration for each phoneme it a voice rule synthesis unit capable, associating a conversion unit for converting into the mouth shape features from speech features of each phoneme, and a mouth shape parameter representing the various mouth shape features and specific mouth shapes a conversion table, and mouth shape parameter acquisition unit for taking out the mouth shape parameter corresponding to the mouth shape characteristic for each phoneme obtained by the conversion unit from the conversion table, for generating a moving image is given as an image sequence for a predetermined time interval a time adjuster for controlling according to the duration of each phoneme the output values ​​of the mouth shape parameters obtained from the mouth shape parameter acquiring unit provided or the speech synthesis by rule portion, said time 調整部の制御のもとに前記口形状パラメータ取得部から出力される口形状パラメータの値に従って画像を生成するための画像生成部とを備えたことを特徴とする画像合成装置。 Image synthesizing apparatus characterized by comprising an image generator for generating an image according to the value of the mouth shape parameters output from the port shape parameter acquisition unit under the control of the adjusting unit.
  3. 【請求項3】前記時間調整部の出力に従って、ある音素から次の音素への遷移を検出するための遷移検出部と、 According wherein an output of said time adjusting unit, a transition detector for detecting the transition from one phoneme to the next phoneme,
    前記画像生成部で用いられる口形状パラメータの値を少なくとも1フレーム時間以上保持することが可能なメモリと、該メモリに保持されている口形状パラメータの値と前記口形状パラメータ取得部より与えられる口形状パラメータの値との中間値を求める口形状パラメータ修正部とを更に備え、ある音素から次の音素への遷移時に中間的な口形状を生成して滑らかな口形状変化を有する顔動画像を生成することを特徴とする特許請求の範囲第2 A memory capable of retaining at least 1 frame time or the value of the mouth shape parameters used in the image generation unit, a mouth given from the value and the mouth shape parameter acquiring unit of the mouth shape parameters stored in the memory anda mouth shape parameter correcting section for obtaining an intermediate value between the value of the shape parameter, the face motion image having a smooth mouth shape changes and generate an intermediate mouth shape from one phoneme at the time of transition to the next phoneme claims second, characterized in that generation to
    項記載の画像合成装置。 Image synthesis apparatus of claim wherein.
JP5389989A 1989-03-08 1989-03-08 Image composition method and apparatus Expired - Fee Related JP2518683B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5389989A JP2518683B2 (en) 1989-03-08 1989-03-08 Image composition method and apparatus

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP5389989A JP2518683B2 (en) 1989-03-08 1989-03-08 Image composition method and apparatus
GB9005142A GB2231246B (en) 1989-03-08 1990-03-07 Picture synthesizing method and apparatus
US08183671 US6332123B1 (en) 1989-03-08 1994-01-19 Mouth shape synthesizing

Publications (2)

Publication Number Publication Date
JPH02234285A true JPH02234285A (en) 1990-09-17
JP2518683B2 true JP2518683B2 (en) 1996-07-24

Family

ID=12955569

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5389989A Expired - Fee Related JP2518683B2 (en) 1989-03-08 1989-03-08 Image composition method and apparatus

Country Status (2)

Country Link
JP (1) JP2518683B2 (en)
GB (1) GB2231246B (en)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9019829D0 (en) * 1990-09-11 1990-10-24 British Telecomm Speech analysis and image synthesis
EP0603809A3 (en) * 1992-12-21 1994-08-17 Casio Computer Co Ltd Object image display devices.
US5608839A (en) * 1994-03-18 1997-03-04 Lucent Technologies Inc. Sound-synchronized video system
US6330023B1 (en) * 1994-03-18 2001-12-11 American Telephone And Telegraph Corporation Video signal processing systems and methods utilizing automated speech analysis
EP0872120A1 (en) 1995-03-07 1998-10-21 Interval Research Corporation System and method for selective recording of information
US5880788A (en) * 1996-03-25 1999-03-09 Interval Research Corporation Automated synchronization of video image sequences to new soundtracks
US6208356B1 (en) * 1997-03-24 2001-03-27 British Telecommunications Public Limited Company Image synthesis
KR20000005183A (en) * 1996-03-26 2000-01-25 콜턴 리자 Image synthesizing method and apparatus
US5893062A (en) 1996-12-05 1999-04-06 Interval Research Corporation Variable rate video playback with synchronized audio
US6263507B1 (en) 1996-12-05 2001-07-17 Interval Research Corporation Browser for use in navigating a body of information, with particular application to browsing information represented by audiovisual data
KR100236974B1 (en) 1996-12-13 2000-02-01 정선종 Sync. system between motion picture and text/voice converter
US5884267A (en) * 1997-02-24 1999-03-16 Digital Equipment Corporation Automated speech alignment for image synthesis
KR100240637B1 (en) 1997-05-08 2000-01-15 정선종 Syntax for tts input data to synchronize with multimedia
US6567779B1 (en) * 1997-08-05 2003-05-20 At&T Corp. Method and system for aligning natural and synthetic video to speech synthesis
US7366670B1 (en) 1997-08-05 2008-04-29 At&T Corp. Method and system for aligning natural and synthetic video to speech synthesis
US7630897B2 (en) * 1999-09-07 2009-12-08 At&T Intellectual Property Ii, L.P. Coarticulation method for audio-visual text-to-speech synthesis
DE19758400A1 (en) * 1997-12-30 1999-07-01 Max Delbrueck Centrum Tumor vaccine for MUC1-positive cancers
CA2323421C (en) * 1998-03-11 2008-09-23 Entropic, Inc. Face synthesis system and methodology
US7155735B1 (en) 1999-10-08 2006-12-26 Vulcan Patents Llc System and method for the broadcast dissemination of time-ordered data
US6757682B1 (en) 2000-01-28 2004-06-29 Interval Research Corporation Alerting users to items of current interest
JP2012103904A (en) * 2010-11-10 2012-05-31 Sysystem Co Ltd Image processing device, method and program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3170907D1 (en) * 1981-01-19 1985-07-18 Richard Welcher Bloomstein Apparatus and method for creating visual images of lip movements
FR2571196B1 (en) * 1984-10-02 1987-01-23 Guinet Yves Process for television for multilingual programs
GB8528143D0 (en) * 1985-11-14 1985-12-18 British Telecomm Image encoding & synthesis
US4884972A (en) * 1986-11-26 1989-12-05 Bright Star Technology, Inc. Speech synchronized animation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
IBMTechnicalDisclosureBulletin,Vol.14,No.10,P.3039−3040,J.D.Bagleyetal.,"MethodforComputerAnimationofLipMovements"
電子情報通信学会論文誌D,Vol.J70−D,No.11,P.2167−2171松岡清利他,「聴覚障害者の読話訓練のための動画プログラム」

Also Published As

Publication number Publication date Type
GB2231246A (en) 1990-11-07 application
GB2231246B (en) 1993-06-30 grant
JPH02234285A (en) 1990-09-17 application
GB9005142D0 (en) 1990-05-02 application

Similar Documents

Publication Publication Date Title
US8553037B2 (en) Do-It-Yourself photo realistic talking head creation system and method
US5734923A (en) Apparatus for interactively editing and outputting sign language information using graphical user interface
US6449595B1 (en) Face synthesis system and methodology
Hueber et al. Development of a silent speech interface driven by ultrasound and optical images of the tongue and lips
US7076430B1 (en) System and method of providing conversational visual prosody for talking heads
US5608839A (en) Sound-synchronized video system
US4260229A (en) Creating visual images of lip movements
EP0225729A1 (en) Image encoding and synthesis
US6919892B1 (en) Photo realistic talking head creation system and method
US7027054B1 (en) Do-it-yourself photo realistic talking head creation system and method
US6492990B1 (en) Method for the automatic computerized audio visual dubbing of movies
US20040120554A1 (en) System and method for real time lip synchronization
Steinmetz Multimedia: computing communications & applications
Lewis Automated lip‐sync: Background and techniques
US6654018B1 (en) Audio-visual selection process for the synthesis of photo-realistic talking-head animations
Ezzat et al. Visual speech synthesis by morphing visemes
Revéret et al. MOTHER: a new generation of talking heads providing a flexible articulatory control for video-realistic speech animation
US5278943A (en) Speech animation and inflection system
Cosatto et al. Sample-based synthesis of photo-realistic talking heads
US6351265B1 (en) Method and apparatus for producing an electronic image
Deng et al. Expressive facial animation synthesis by learning speech coarticulation and expression spaces
US7015934B2 (en) Image displaying apparatus
US6697120B1 (en) Post-synchronizing an information stream including the replacement of lip objects
US6539354B1 (en) Methods and devices for producing and using synthetic visual speech based on natural coarticulation
US8224652B2 (en) Speech and text driven HMM-based body animation synthesis

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees