JPH02234285A - 画像合成方法及びその装置 - Google Patents

画像合成方法及びその装置

Info

Publication number
JPH02234285A
JPH02234285A JP1053899A JP5389989A JPH02234285A JP H02234285 A JPH02234285 A JP H02234285A JP 1053899 A JP1053899 A JP 1053899A JP 5389989 A JP5389989 A JP 5389989A JP H02234285 A JPH02234285 A JP H02234285A
Authority
JP
Japan
Prior art keywords
mouth shape
phoneme
mouth
output
shape parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1053899A
Other languages
English (en)
Other versions
JP2518683B2 (ja
Inventor
Masahide Kaneko
金子 正秀
Atsushi Koike
淳 小池
Yoshinori Hatori
羽鳥 好律
Seiichi Yamamoto
誠一 山本
Norio Higuchi
樋口 宜男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
Kokusai Denshin Denwa KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kokusai Denshin Denwa KK filed Critical Kokusai Denshin Denwa KK
Priority to JP1053899A priority Critical patent/JP2518683B2/ja
Priority to GB9005142A priority patent/GB2231246B/en
Publication of JPH02234285A publication Critical patent/JPH02234285A/ja
Priority to US08/183,671 priority patent/US6332123B1/en
Application granted granted Critical
Publication of JP2518683B2 publication Critical patent/JP2518683B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Image Generation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (発明の技術分野) 本発明は、ディジタル処理による画像合成方法に関する
もので、特に、発声に伴う口形状変化を表現する顔画像
(静止画像または動画像)を合成する方式に関するもの
である。
(従来技術) 人が発声する場合には、調音器官により音声情報が生成
され、同時に、外見的な変化として発声に伴い、口部分
の動き(形状変化)が生じる。人が直接発声するのでは
なく、文字列として入力された文章を音声情報に変換し
て出力する方法は音声合成と言われ、従来、多くの成果
が得られてきている。一方、入力された文章に対して対
応する口形状変化を有する顔画像を生成する方法に関し
ては従来技術は少な《、松岡清利,黒須顕二による次の
報告があるにどどまっている。
松岡.黒須の方法は、〔松岡清利,黒須顕二:「聴覚障
害者の読話訓練のための動画プログラム」電子情報通信
学会論文誌, vol,J70−D,no.11.PP
2167−2171. (1987年11月)〕に示さ
れている。これは、プログラムの形で実施されているが
、入力された文章に対して、対応する口形状変化を得る
ための考え方の基本を整理して示すと、第6図のように
なる。
第6図において、50は音節分離部、51は音節と口形
パターンの対応付け部、52は音節と口形パターンの対
応テーブル、53は口形状選択部、54は口形状用メモ
リである。次に各部の動作を簡単に説明する。音節分離
部50は、入力された文章(文字列)に対して、これを
音節単位に区切る働きをする。例えばr kuma J
という入力は、rkuJと[maJの2つの音節に分け
られる。次に、音節と口形パターンの対応テーブル52
は、予め用意された音節と口形パターンの対応関係を蓄
積したテーブルである。音節は゛.  II ka−1
などひとまとまりの音を表現するものである。口形パタ
ーンは、大口形(<A><I ><U><E><K>等
)と小口形( < u > < o > < k > 
< 3 >等)とがあり、口形の種類を示すものである
。これらを用いて11 aITに対しては<A><*>
<A>,  ”ka”に対しては<.K><*><A>
というように音節と口形パターンの対応関係をテーブル
にしておくわけである。ここで、〈*〉は中間口形を示
す。音節と口形パターンの対応付け部51では、音節分
離部50から送られてくる一つ一つの音節ごとに、音節
と口形パターンの対応テーブル52を参照して、対応す
る口形パターンをテーブルから読出す。次に口形状用メ
モリ54は、前述の口形パターンの各々について具体的
な口形状を図形或いは形状パラメータの形で蓄積したメ
モリである。口形状選択部53では、音節と口形パター
ンの対応付け部51から送られてくる口形パターン列に
対して、順次口形状用メモリ54を参照して、具体的な
口形状を選択し、画像として出力する。この時、必要に
応じて中間形状(前後の口形状の中間の形状)の生成も
行われる。なお、動画像としての出力のために、各音節
に対して固定的に4フレーム分の口形状を生成するよう
になっている。
この外に、関連する従来技術として、文章入力に対して
ではないが、音声を入力として対応する口形状変化を准
定する方法も報告されている。これは、〔森島繁生.相
沢清晴.原島博:「音声情報に基づく表情の自動合成の
研究」第4回NICOGRAPI+論文コンテスト論文
集, PP.l39−146、日本コンピュータ・グラ
フィックス協会(1988年11月)〕に示されている
。ここでは、入力された音声情報に対して、対数平均パ
ワーを計算して口の開き具合を制御する方法と、声道の
ホルマント特徴に対応する線形予測係数を計算して口形
状を推定する方法と2通りが提案されている。
(発明が解決しようとする課題) 従来技術として、文章(文字列)を入力して、これに対
応する口形状変化を有する顔画像を生成するための方法
については、松岡,黒須の方法を示したが、次のような
点で問題がある。すなわち、発声においては音声出力と
口形状とに密接な関係があるにもかかわらず、基本的に
は文章を文節に区切って文字上の対応から口形パターン
を選択しており、音声生成の機構と口形状生成との関連
付けが不十分である。従って、音声出力と的確に対応し
た口形状生成が困難であるという問題がある。
次に、音素(発声における最小単位.音節は複数の音素
の組合せからなる)については、前後の音素とのつなが
り等によって、持続時間が異なるにもかかわらず、松岡
,黒須の方法では、各音節に固定的に4フレームを割当
てており、入力される文章に応じた自然な口形状変化を
表現することが困難であるという問題がある。また、入
力された文章に対して、音声と口形状画像を同一のタイ
ミングで出力しようとした場合に両者でのマッチングを
とることも困難である。
さらに、森島,相沢.原島の方法は、入力された音声情
報をもとにして口形状を推定するという技術であり、文
章を入力して、これに対応した口形状変化を有する動画
像を生成するという目的には適用することができない。
(発明の目的) 本発明は、上述した従来技術の問題点を解決するために
なされたのもであり、音声出力との的確な対応付けがな
され、かつ、各音素の持続時間に合わせた形で口形状変
化を表現することが可能な画像合成方法及びその装置を
提供することを目的とする。
(発明の構成) 本発明の第1の特徴は、文字列として表現される文章を
入力し、これに対応した口形状変化を有する傾動画像を
生成する画像合成方法において、前記文字列を音素列に
分割し、各音素ごとに音声特徴及び持続時間を出力する
ことが可能な音声合成手法を利用し、音声特徴に基づい
て各音素に対応する口形特徴を決定し、更に咳口形特徴
に従って具体的な口形状を表現するための口形状パラメ
ータの値を決定し、また、各音素ごとの咳口形状パラメ
ータの値に対して前記各音素ごとの持続時間に基づいて
動画像の各フレームごとに与えられる口形状パラメータ
の値を制御し、音声出力に適合した口形状変化を有する
顔動画像の合成を行うことにある。
本発明の第2の特徴は、文字列として表現される文章を
入力するための入力端子と、該入力端子より入力される
該文字列を音素列に分割し、各音素ごとに音声特徴及び
持続時間を出力することが可能な音・声合成部と、各音
素ごとの該音声特徴から口形特徴への変換を行う変換部
と、種々の口形特徴と具体的な口形状を表現する口形状
パラメ−夕とを対応付けた変換テーブルと、前記変換部
で得られる各音素ごとの口形特徴に対応する口形状パラ
メータを前記変換テーブルから取出す口形状パラメータ
取得部と、一定時間間隔の画像系列として与えられる動
画像を生成するために該口形状パラメータ取得部から得
られる口形状パラメータの値の出力を前記音声合成部か
ら与えられる各音素ごとの持続時間に従って制御するた
めの時間調整部と、該時間調整部の制御のもとに前記口
形状パラメータ取得部から出力される口形状パラメータ
の値に従って画像を生成するための画像生成部とを備え
たことにある。
本発明の第3の特徴は、文字列として表現される文章を
入力するための入力端子と、核入力端子より入力される
該文字列を音素列に分割し、各音素ごとに音声特徴及び
持続時間を出力することが可能な音声合成部と、各音素
ごとの該音声特徴から口形特徴への変換を行う変換部と
、種々の口形特徴と具体的な口形状を表現する口形状パ
ラメータとを対応付けた変換テーブルと、前記変換部で
得られる各音素ごとの口形特徴に対応する口形状パラメ
ータを前記変換テーブルから取出す口形状パラメータ取
得部と、一定時間間隔の画像系列として与えられる動画
像を生成するために該口形状パラメータ取得部から得ら
れる口形状パラメータの値の出力を前記音声合成部から
与えられる各音素ごとの持続時間に従って制御するため
の時間調整部と、該時間調整部の制御のもとに前記口形
状パラメータ取得部から出力される口形状パラメータの
値に従って画像を生成するための画像生成部とをに加え
て、前記時間調整部の出力に従ってある音素から次の音
素への遷移を検出するための遷移検出部と、前記画像生
成部で用いられる口形状パラメータの値を少なくとも1
フレーム時間以上保持することが可能なメモリと、該メ
モリに保持されている口形状パラメータの値と前記口形
状パラメータ取得部より与えられる口形状パラメータの
値との中間値を求める口形状パラメータ修正部とを更に
備え、ある音素から次の音素への遷移時に中間的な口形
状を生成して滑らかな口形状変化を有する顔動画像を生
成することにある。
(実施例1) 第1図は、本発明における第1の実施例を説明するため
のブロック図である。入力情報としては、キーボード或
いは磁気ディスク等のファイル装置から得られる文字列
(文章)を考える。第1図において、1は音声合成部、
2は時間調整部、3は音声特徴から口形特徴への変換部
、4は口形特徴から口形状パラメータへの変換テーブル
、5は口形状パラメータ取得部、6は画像生成部、10
はゲート、900は文字列入力用の端子、901は画像
出力用の端子である。
次に各部の動作について説明する。音声合成部1は入力
された文字列に対応した音声出力を合成する部分である
。音声合成に関しては従来各種の方式が提案されている
が、ここでは、口形状生成との整合性が優れているとい
う点から、声道モデルとしてKlatt型ホルマント音
声合成器を用いた既存の音声規則合成手法の利用を想定
している。
この手法に関しては、〔山本誠一.樋口宜男,清水徹:
「テキストi集機能付き音声規則合成装置の試作」電子
情報通信学会技術報告SP87−137 (1988年
3月)〕に詳しく述べられている。音声合成部そのもの
は既存技術であり、また本発明が目的とする部分ではな
いので詳細な説明は省略する。
但し、音声生成と口形状六の的確な対応をとるために、
各音素毎に音韻特徴及び持続時間に関する情報が出力さ
れることが必要である。山本.樋口.清水の手法では、
調音様式,調音点,有声/無声の区別,ピッチ制御情報
などの音韻特徴及びこれに基づく持続時間の情報が出力
されるようになっており、この要求を満足している。こ
れらの情報が得られるのであれば、他の音声合成方法を
利用するものであっても差し支えはない。
次に時間調整部2は、音声合成部1より得られる各音素
毎の持続時間(第i番目の音素の持続時間を11とする
)に基づいて、画像生成部6への口形状パラメータの受
渡しを制御するためのものである。すなわち、テレビジ
ョン信号として画像(特に動画像)を出力するためには
、例えばNTSC方式の場合毎秒30フレーム(1フレ
ーム当り1730秒)であり、1730秒毎の情報に直
して画像を生成する必要がある。時間調整部2の詳しい
動作については後述する。
次に、音韻特徴から口形特徴への変換部3では、音声合
成部1から得られる音■特徴に基づいて、該当音素に対
応する口形特徴への変換を行う。口形特徴としては、例
えば、(1)口の開き具合(かなり開いている〜完全に
閉じている’) 、(2)唇の丸め具合(丸めている〜
横に引いている)、(3)下顎の高さ(上がっている〜
下がっている)、(4)舌の見え具合、を考える。各種
の音素に対して、人間が実際にどう発声しているかに関
する観察に基づいて、音韻特徴と口形特徴との対応を規
則化している。
例えば、“konnichiwa’”という文章が入力
された場合、 ##(無声) IVO  1h4  jatnok  
    1v2  1hx  jaw2  tbcko
      1v2  1hl  jaw2のような形
で口形特徴への変換がなされる。ここで、1ν+1h+
ja−は各々口の開き具合、唇の丸め具合、下顎の高さ
を示しており、数字は程度を表している。Xは程度が前
後の音素によって決められることを示している。また、
tbckは舌の見え具命を示している(この場合、舌が
奥の方にわずかに見えることを表している)。
口形特徴から口形状パラメータへの変換テーブル4は、
音声特徴から口形特徴への変換部3で得られる前述の口
形特徴の各々について、具体的な口形状を表現するため
のパラメータの値を与えるテーブルである。ここで第2
図は、口形状を表現するためのパラメータの例を示した
図である。第2図(a)は口部分を正面から眺めた時の
正面図であり、点P.−pllの8点の位置により口形
状を、点Q.,Q.の位置により上,下の歯の見え具合
を、ht,htの値により上.下の唇の厚みを与える。
第2図(b)は口部分を横から眺めた時の側面図であり
、θ1,θ2の角度により、上,下の唇のめくれを与え
る。変換テーブル4では、前述の口形特徴の各々につい
て、実際に人が発声をする時の口形状に対する計測結果
を参考にして前もって定められた上記パラメータP1〜
Pg,Q+ 〜Qz.h,,h.,  θ,.θ2の値
の組をテーブルの形で保持しておく。
口形状パラメータ取得部5では、音声特徴から口形特徴
への変換部3より得られる該当音素に対する口形特徴に
対して、口形特徴から口形状パラメータへの変換テーブ
ル4を参照して、該当音素に対する口形状パラメータの
値の組を取得する。
ゲートlOは、該当音素に対する上記口形状パラメータ
を画像生成部6に送るか否かを制御するためのものであ
り、時間調整部2から指示された回数(この回数に17
30秒を乗じた値が、該当音素に対する口形状の表示時
間となる)だけ、上記口形状パラメータを画像生成部6
に送る。
画像生成部6はゲート10を介して口形状パラメータ取
得部5より送られてくる1730秒毎の口形状パラメー
タに基づいて口形状画像の生成を行う。
必要に応じて顔全体を含めた画像の生成を行う。
口形状パラメータを与えての口形状画像ないし顔画像の
生成に関する詳細については、例えば〔金子正秀.羽鳥
好律,小池淳:「形状変化の検出と3次元形状モデルに
基づく顔動画像の符号化」電子情報通信学会論文誌B 
+ vol.J71− B + no+ 12+PP 
.1554−1563 (1988年12月)〕に述べ
られている。概略としては、人物頭部の3次元形状を表
現する3次元ワイヤフレームモデルを予め用意しておく
与えられた口形状パラメータに従って3次元ワイヤフレ
ームモデルの口部分(具体的には、唇,歯,顎等)の形
状を変形する。この変形後のモデルに、各部の濃淡や色
を表現する情報を画素単位で付与することにより、リア
ルな口形状画像或いは顔画像を得ることができる。
ここで、時間調整部2の動作について詳しく説明する。
第3図は時間調整部2の動作を説明するためのブロック
図である。第3図において、21は遅延部、22は大小
判定部、23. 24はメモリ、2526は加算器、2
7はスイッチ、28. 29は分岐、30は時間正規化
部、201 , 202は大小判定部22の出力線、9
02は初期リセット用の端子、903は定数(1/30
)入力用端子、920 ,921はスイッチ27に関わ
る端子である。次に各部の動作について説明する。
メモリ23は、工番目の音素までの合計の持続時間成を
始める前に、端子902より与えられる初期リセット信
号で零がセットされる。音声合成部1から1番目の音素
の持続時間が与えらると、加算器2&により、メモリ2
3に蓄えられた■−1番目の音が求められる遅延部21
は、■−1番目の音素まで対する処理に入るまで蓄積す
る働きをする。時間求め、1/30XNの値を出力する
。ここで、Nは整数、また、1/30は1フレームの時
間1/30秒を与える定数である。スイッチ27は、1
番目の音素に対する処理に入る時に、大小判定部22か
らの出力線202により端子920の側に接続される。
この時、加算器26により、時間正規化部30の出力1
/30xNと定数1730との和tが計算される。大小
判定部22終了したことを意味し、出力線202を介し
て、音声合成部1へ1+1番目の音素に関する情報を出
力するための指示、メモリ24へ内容をリセットするた
めの指示、スイッチ27へ端子920へ接続する値を出
力するための指示がなされる。メモリ24は、加算器2
6の出力を一時的に蓄えておくためのもの921に接続
されており、加算器26により、順次、今までのしにl
/30を加えたものを新たなtにするつ間、大小判定部
22より出力線201に信号が出力され、この信号によ
り第1図におけるゲート10が制御されることにより、
1番目の音素の持続時間の間、1番目の音素に対応する
口形状パラメータが画像生成部6に供給される。
以上が本発明の第1の実施例に対する説明である。ここ
で、第1の実施例の場合、1番目の音素からI+1番目
の音素に移る場合、1番目の音素に対する口形状パラメ
ータから、I+1番目の音素に対する口形状パラメータ
へと不連続に変化することになる。両者の口形状パラメ
ータに極端な違いがなければ、合成される動画像には余
り不自然さは生じない。しかし、人間が発声をする場合
、口形状は連続的に変化しており、■番目の音素からI
+1番目の音素に移る場合、口形状が連続的に変化する
ことが望ましい。
(実施例2) 第4図はこの要求を満足するための本発明の第2の実施
例を説明するためのブロック図である。
第4図において、7は口形状パラメータ修正部、8は遷
移検出部、9はメモリ、40はスイッチ、910. 9
11はスイッチ40に関わる端子、他は第1図に同様で
ある。次に新たに加わった部分の動作を説明する。
遷移検出部8は、ある音素(例えば1番目の音素)から
次の音素(■+1番目の音素)への遷移を検出するため
のものである。第5図は本発明による遷移検出部8の動
作を説明するためのブロック図であり、81はカウンタ
、82は判定回路、210,211は出力線である。カ
ウンタ81は、大小判定部22からの出力線202に信
号が出力された時にOにリセットされる。また、大小判
定部22において出力線201に信号が出力されるごと
に1ずっカウントアップする。判定回路82では、カウ
ンタ81の出力が“1゛であるか否かを判定し、゛゜1
”の時には、ある音素から次の音素への遷移が生じたと
いうことであるので、出力線210に信号を出力する。
一方、2以上の時には、現在の音素が持続しているとい
うことであるので、出力線211に信号を出力する。
メモリ9は、前フレームの画像を合成するために用いら
れた口形状パラメータを少なくとも1フレーム期間蓄え
ておくためのメモリである。口形状パラメータ修正部7
は、メモリ9に蓄えられていた前フレームにおける口形
状パラメータと、口形状パラメータ取得部5より与えら
れる現在の音素に対する口形状パラメータとに基づいて
、例えば両者の中間値を求めて、現フレームの画像を合
成するための口形状パラメータとする働きをする。
スイッチ40は、遷移検出部から出力線210, 21
.1のいずれに信号が出力されるかによって、端子91
0或いは911に接続され、端子910に接続された時
には、口形状パラメータ修正部7より得られる2つの音
素に対する口形状パラメータの中間値を、また、端子9
11に接続された時には現在の音素に対する口形状パラ
メータを、画像生成部6に渡す,以上の例では、ある音
素の口形状パラメータと次の音素の口形状パラメータと
の中間値は1フレーム分しか生成されないが、例えばカ
ンウタ82の値に応じて何段階かの中間値を生成するこ
とにより、より滑らかな口形状変化を実現することも可
能である。
以上述べたように、本発明は文字列として表現される文
章を入力した場合にこれに対応した口形状変化を有する
顔動画像を合成する方式に関するものである。しかしな
がら、音声情報を入力した場合においても入力音声情報
に対してこれを音素列に分割し、各音素ごとに音声特徴
及び持続時間を出力することが可能な音声認識手法が利
用できるのであれば、本発明における音声合成部1をこ
のような動作をする音声認識部に置き換えることにより
、入力音声情報に対応した口形状変化を有する顔動画像
を合成することも可能である。
(発明の効果) 以上のように、本発明により、文字列として表現される
文章を入力として音声出力との的確な対応付けがなされ
、かつ、各音素の持続時間に合わせた口形状変化を有す
る、従って音声出力とのマッチングのとれた自然な口形
状変化を有する動画像を合成することが可能である。
文章入力に対して、今まで音声を合成するのにとどまっ
ていたのに対し、本発明では、音声とのマッチングのと
れた自然な口形状変化を有する動画像まで容易に出力で
きるようになる。従って、本発明は実写を必要とせずに
リアルな動画像を生成する用途(例えば、放送番組や映
画の製作)音声及び画像による自動応答装置、マン・マ
シーン・インタフェースの手段とじての利用、文章から
音声及び動画像へのメディア変換等に適用可能であり、
その効果が極めて大である。
【図面の簡単な説明】
第1図は本発明の第1の実施例に対応ずるブロック図、
第2図は口形状を表現するためのパラメータの例を示し
た図、第3図は本発明における時間調整部2の動作の一
例に対応するブロック図、第4図は本発明の第2の実施
例に対応ずるブロック図、第5図は本発明の第2の実施
例におりる遷移検出部8の動作の一例に対応ずるブロッ
ク図、第6図は従来の画像合成方式の動作に対応ずるフ
ロック図である。

Claims (3)

    【特許請求の範囲】
  1. (1)文字列として表現される文章を入力し、これに対
    応した口形状変化を有する顔動画像を生成する画像合成
    方法において、前記文字列を音素列に分割し、各音素ご
    とに音声特徴及び持続時間を出力することが可能な音声
    合成手法を利用し、音声特徴に基づいて各音素に対応す
    る口形特徴を決定し、更に該口形特徴に従って具体的な
    口形状を表現するための口形状パラメータの値を決定し
    、また、各音素ごとの該口形状パラメータの値に対して
    前記各音素ごとの持続時間に基づいて動画像の各フレー
    ムごとに与えられる口形状パラメータの値を制御し、音
    声出力に適合した口形状変化を有する顔動画像の合成を
    行うことを特徴とする画像合成方法。
  2. (2)文字列として表現される文章を入力するための入
    力端子と、該入力端子より入力される該文字列を音素列
    に分割し、各音素ごとに音声特徴及び持続時間を出力す
    ることが可能な音声合成部と、各音素ごとの該音声特徴
    から口形特徴への変換を行う変換部と、種々の口形特徴
    と具体的な口形状を表現する口形状パラメータとを対応
    付けた変換テーブルと、前記変換部で得られる各音素ご
    との口形特徴に対応する口形状パラメータを前記変換テ
    ーブルから取出す口形状パラメータ取得部と、一定時間
    間隔の画像系列として与えられる動画像を生成するため
    に該口形状パラメータ取得部から得られる口形状パラメ
    ータの値の出力を前記音声合成部から与えられる各音素
    ごとの持続時間に従って制御するための時間調整部と、
    該時間調整部の制御のもとに前記口形状パラメータ取得
    部から出力される口形状パラメータの値に従って画像を
    生成するための画像生成部とを備えたことを特徴とする
    画像合成装置。
  3. (3)前記時間調整部の出力に従って、ある音素から次
    の音素への遷移を検出するための遷移検出部と、前記画
    像生成部で用いられる口形状パラメータの値を少なくと
    も1フレーム時間以上保持することが可能なメモリと、
    該メモリに保持されている口形状パラメータの値と前記
    口形状パラメータ取得部より与えられる口形状パラメー
    タの値との中間値を求める口形状パラメータ修正部とを
    更に備え、ある音素から次の音素への遷移時に中間的な
    口形状を生成して滑らかな口形状変化を有する顔動画像
    を生成することを特徴とする特許請求の範囲第2項記載
    の画像合成装置。
JP1053899A 1989-03-08 1989-03-08 画像合成方法及びその装置 Expired - Fee Related JP2518683B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP1053899A JP2518683B2 (ja) 1989-03-08 1989-03-08 画像合成方法及びその装置
GB9005142A GB2231246B (en) 1989-03-08 1990-03-07 Picture synthesizing method and apparatus
US08/183,671 US6332123B1 (en) 1989-03-08 1994-01-19 Mouth shape synthesizing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1053899A JP2518683B2 (ja) 1989-03-08 1989-03-08 画像合成方法及びその装置

Publications (2)

Publication Number Publication Date
JPH02234285A true JPH02234285A (ja) 1990-09-17
JP2518683B2 JP2518683B2 (ja) 1996-07-24

Family

ID=12955569

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1053899A Expired - Fee Related JP2518683B2 (ja) 1989-03-08 1989-03-08 画像合成方法及びその装置

Country Status (2)

Country Link
JP (1) JP2518683B2 (ja)
GB (1) GB2231246B (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006021273A (ja) * 2004-07-08 2006-01-26 Advanced Telecommunication Research Institute International テキストビジュアル音声(ttvs)合成方法及びコンピュータで実行可能なプログラム
US7584105B2 (en) 1997-08-05 2009-09-01 At&T Intellectual Property Ii, L.P. Method and system for aligning natural and synthetic video to speech synthesis
JP2009266240A (ja) * 1997-08-05 2009-11-12 At & T Corp ビデオと音とを整合させる方法および装置、コンピュータ可読媒体、ならびにデータを複合化する方法およびデコーダ
USRE42000E1 (en) 1996-12-13 2010-12-14 Electronics And Telecommunications Research Institute System for synchronization between moving picture and a text-to-speech converter
USRE42647E1 (en) 1997-05-08 2011-08-23 Electronics And Telecommunications Research Institute Text-to speech conversion system for synchronizing between synthesized speech and a moving picture in a multimedia environment and a method of the same
JP2012103904A (ja) * 2010-11-10 2012-05-31 Sysystem Co Ltd 画像処理装置および方法、並びに、プログラム

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3070073B2 (ja) 1990-07-13 2000-07-24 ソニー株式会社 音声信号に基づく形状制御方法
GB9019829D0 (en) * 1990-09-11 1990-10-24 British Telecomm Speech analysis and image synthesis
MY109854A (en) * 1992-12-21 1997-09-30 Casio Computer Co Ltd Object image display devices
US5608839A (en) * 1994-03-18 1997-03-04 Lucent Technologies Inc. Sound-synchronized video system
US6330023B1 (en) * 1994-03-18 2001-12-11 American Telephone And Telegraph Corporation Video signal processing systems and methods utilizing automated speech analysis
AT404887B (de) * 1994-06-08 1999-03-25 Siemens Ag Oesterreich Vorlesegerät
EP0872120A1 (en) 1995-03-07 1998-10-21 Interval Research Corporation System and method for selective recording of information
US5880788A (en) * 1996-03-25 1999-03-09 Interval Research Corporation Automated synchronization of video image sequences to new soundtracks
AU2167097A (en) * 1996-03-26 1997-10-17 British Telecommunications Public Limited Company Image synthesis
US5893062A (en) 1996-12-05 1999-04-06 Interval Research Corporation Variable rate video playback with synchronized audio
US6263507B1 (en) 1996-12-05 2001-07-17 Interval Research Corporation Browser for use in navigating a body of information, with particular application to browsing information represented by audiovisual data
US5884267A (en) * 1997-02-24 1999-03-16 Digital Equipment Corporation Automated speech alignment for image synthesis
US6208356B1 (en) * 1997-03-24 2001-03-27 British Telecommunications Public Limited Company Image synthesis
SE520065C2 (sv) * 1997-03-25 2003-05-20 Telia Ab Anordning och metod för prosodigenerering vid visuell talsyntes
SE519679C2 (sv) 1997-03-25 2003-03-25 Telia Ab Metod vid talsyntes
DE19758400A1 (de) * 1997-12-30 1999-07-01 Max Delbrueck Centrum Tumorvakzine für MUC1-positive Karzinome
WO1999046734A1 (en) * 1998-03-11 1999-09-16 Entropic, Inc. Face synthesis system and methodology
US7630897B2 (en) * 1999-09-07 2009-12-08 At&T Intellectual Property Ii, L.P. Coarticulation method for audio-visual text-to-speech synthesis
US7155735B1 (en) 1999-10-08 2006-12-26 Vulcan Patents Llc System and method for the broadcast dissemination of time-ordered data
US6757682B1 (en) 2000-01-28 2004-06-29 Interval Research Corporation Alerting users to items of current interest
CN117275485B (zh) * 2023-11-22 2024-03-12 翌东寰球(深圳)数字科技有限公司 一种音视频的生成方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63225875A (ja) * 1986-11-26 1988-09-20 エロン・ギャスパー スピーチ同期アニメーション

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0056507B1 (en) * 1981-01-19 1985-06-12 Richard Welcher Bloomstein Apparatus and method for creating visual images of lip movements
FR2571196B1 (fr) * 1984-10-02 1987-01-23 Guinet Yves Procede de television pour programmes multilingues
GB8528143D0 (en) * 1985-11-14 1985-12-18 British Telecomm Image encoding & synthesis

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63225875A (ja) * 1986-11-26 1988-09-20 エロン・ギャスパー スピーチ同期アニメーション

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE42000E1 (en) 1996-12-13 2010-12-14 Electronics And Telecommunications Research Institute System for synchronization between moving picture and a text-to-speech converter
USRE42647E1 (en) 1997-05-08 2011-08-23 Electronics And Telecommunications Research Institute Text-to speech conversion system for synchronizing between synthesized speech and a moving picture in a multimedia environment and a method of the same
US7584105B2 (en) 1997-08-05 2009-09-01 At&T Intellectual Property Ii, L.P. Method and system for aligning natural and synthetic video to speech synthesis
JP2009266240A (ja) * 1997-08-05 2009-11-12 At & T Corp ビデオと音とを整合させる方法および装置、コンピュータ可読媒体、ならびにデータを複合化する方法およびデコーダ
US7844463B2 (en) 1997-08-05 2010-11-30 At&T Intellectual Property Ii, L.P. Method and system for aligning natural and synthetic video to speech synthesis
JP2006021273A (ja) * 2004-07-08 2006-01-26 Advanced Telecommunication Research Institute International テキストビジュアル音声(ttvs)合成方法及びコンピュータで実行可能なプログラム
JP2012103904A (ja) * 2010-11-10 2012-05-31 Sysystem Co Ltd 画像処理装置および方法、並びに、プログラム

Also Published As

Publication number Publication date
GB2231246A (en) 1990-11-07
GB9005142D0 (en) 1990-05-02
JP2518683B2 (ja) 1996-07-24
GB2231246B (en) 1993-06-30

Similar Documents

Publication Publication Date Title
JP2518683B2 (ja) 画像合成方法及びその装置
Hill et al. Animating speech: an automated approach using speech synthesised by rules
US5657426A (en) Method and apparatus for producing audio-visual synthetic speech
CA2375350C (en) Method of animating a synthesised model of a human face driven by an acoustic signal
US20020024519A1 (en) System and method for producing three-dimensional moving picture authoring tool supporting synthesis of motion, facial expression, lip synchronizing and lip synchronized voice of three-dimensional character
US6208356B1 (en) Image synthesis
Cosi et al. LUCIA a new italian talking-head based on a modified cohen-massaro's labial coarticulation model.
JP2003530654A (ja) キャラクタのアニメ化
EP0890168B1 (en) Image synthesis
Waters et al. An automatic lip-synchronization algorithm for synthetic faces
US6332123B1 (en) Mouth shape synthesizing
Waters et al. DECface: A system for synthetic face applications
Morishima et al. Real-time facial action image synthesis system driven by speech and text
JP2974655B1 (ja) アニメーションシステム
KR100754430B1 (ko) 음성 기반 자동 립싱크 애니메이션 장치와 방법 및 기록매체
JP2003058908A (ja) 顔画像制御方法および装置、コンピュータプログラム、および記録媒体
CN115311731A (zh) 一种手语数字人的表情生成方法和装置
CN113362432B (zh) 一种面部动画生成方法及装置
JPH06162167A (ja) 合成画像表示システム
JP3298076B2 (ja) 画像作成装置
US7392190B1 (en) Coarticulation method for audio-visual text-to-speech synthesis
JP2003296753A (ja) 聴覚障害者用対話システム
GB2346526A (en) System for providing virtual actors using neural network and text-to-linguistics
Edge et al. Reusing motion data to animate visual speech
Wei et al. Speech animation based on Chinese mandarin triphone model

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees