JPH02234285A

JPH02234285A - 画像合成方法及びその装置

Info

Publication number: JPH02234285A
Application number: JP1053899A
Authority: JP
Inventors: Masahide Kaneko; 金子　正秀; Atsushi Koike; 淳小池; Yoshinori Hatori; 羽鳥　好律; Seiichi Yamamoto; 誠一山本; Norio Higuchi; 樋口　宜男
Original assignee: Kokusai Denshin Denwa KK
Current assignee: KDDI Corp
Priority date: 1989-03-08
Filing date: 1989-03-08
Publication date: 1990-09-17
Anticipated expiration: 2011-07-24
Also published as: GB2231246A; GB9005142D0; JP2518683B2; GB2231246B

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（発明の技術分野）本発明は、ディジタル処理による画像合成方法に関する
もので、特に、発声に伴う口形状変化を表現する顔画像
（静止画像または動画像）を合成する方式に関するもの
である。

（従来技術）人が発声する場合には、調音器官により音声情報が生成
され、同時に、外見的な変化として発声に伴い、口部分
の動き（形状変化）が生じる。人が直接発声するのでは
なく、文字列として入力された文章を音声情報に変換し
て出力する方法は音声合成と言われ、従来、多くの成果
が得られてきている。一方、入力された文章に対して対
応する口形状変化を有する顔画像を生成する方法に関し
ては従来技術は少な《、松岡清利，黒須顕二による次の
報告があるにどどまっている。

松岡．黒須の方法は、〔松岡清利，黒須顕二：「聴覚障
害者の読話訓練のための動画プログラム」電子情報通信
学会論文誌，　ｖｏｌ，Ｊ７０−Ｄ，ｎｏ．１１．ＰＰ
２１６７−２１７１．　（１９８７年１１月）〕に示さ
れている。これは、プログラムの形で実施されているが
、入力された文章に対して、対応する口形状変化を得る
ための考え方の基本を整理して示すと、第６図のように
なる。

第６図において、５０は音節分離部、５１は音節と口形
パターンの対応付け部、５２は音節と口形パターンの対
応テーブル、５３は口形状選択部、５４は口形状用メモ
リである。次に各部の動作を簡単に説明する。音節分離
部５０は、入力された文章（文字列）に対して、これを
音節単位に区切る働きをする。例えばｒ　ｋｕｍａ　Ｊ
という入力は、ｒｋｕＪと［ｍａＪの２つの音節に分け
られる。次に、音節と口形パターンの対応テーブル５２
は、予め用意された音節と口形パターンの対応関係を蓄
積したテーブルである。音節は゛．　　ＩＩ　ｋａ−１
などひとまとまりの音を表現するものである。口形パタ
ーンは、大口形（＜Ａ＞＜Ｉ　＞＜Ｕ＞＜Ｅ＞＜Ｋ＞等
）と小口形（　＜　ｕ　＞　＜　ｏ　＞　＜　ｋ　＞　
＜　３　＞等）とがあり、口形の種類を示すものである
。これらを用いて１１　ａＩＴに対しては＜Ａ＞＜＊＞
＜Ａ＞，　　”ｋａ”に対しては＜．Ｋ＞＜＊＞＜Ａ＞
というように音節と口形パターンの対応関係をテーブル
にしておくわけである。ここで、〈＊〉は中間口形を示
す。音節と口形パターンの対応付け部５１では、音節分
離部５０から送られてくる一つ一つの音節ごとに、音節
と口形パターンの対応テーブル５２を参照して、対応す
る口形パターンをテーブルから読出す。次に口形状用メ
モリ５４は、前述の口形パターンの各々について具体的
な口形状を図形或いは形状パラメータの形で蓄積したメ
モリである。口形状選択部５３では、音節と口形パター
ンの対応付け部５１から送られてくる口形パターン列に
対して、順次口形状用メモリ５４を参照して、具体的な
口形状を選択し、画像として出力する。この時、必要に
応じて中間形状（前後の口形状の中間の形状）の生成も
行われる。なお、動画像としての出力のために、各音節
に対して固定的に４フレーム分の口形状を生成するよう
になっている。

この外に、関連する従来技術として、文章入力に対して
ではないが、音声を入力として対応する口形状変化を准
定する方法も報告されている。これは、〔森島繁生．相
沢清晴．原島博：「音声情報に基づく表情の自動合成の
研究」第４回ＮＩＣＯＧＲＡＰＩ＋論文コンテスト論文
集，　ＰＰ．ｌ３９−１４６、日本コンピュータ・グラ
フィックス協会（１９８８年１１月）〕に示されている
。ここでは、入力された音声情報に対して、対数平均パ
ワーを計算して口の開き具合を制御する方法と、声道の
ホルマント特徴に対応する線形予測係数を計算して口形
状を推定する方法と２通りが提案されている。

（発明が解決しようとする課題）従来技術として、文章（文字列）を入力して、これに対
応する口形状変化を有する顔画像を生成するための方法
については、松岡，黒須の方法を示したが、次のような
点で問題がある。すなわち、発声においては音声出力と
口形状とに密接な関係があるにもかかわらず、基本的に
は文章を文節に区切って文字上の対応から口形パターン
を選択しており、音声生成の機構と口形状生成との関連
付けが不十分である。従って、音声出力と的確に対応し
た口形状生成が困難であるという問題がある。

次に、音素（発声における最小単位．音節は複数の音素
の組合せからなる）については、前後の音素とのつなが
り等によって、持続時間が異なるにもかかわらず、松岡
，黒須の方法では、各音節に固定的に４フレームを割当
てており、入力される文章に応じた自然な口形状変化を
表現することが困難であるという問題がある。また、入
力された文章に対して、音声と口形状画像を同一のタイ
ミングで出力しようとした場合に両者でのマッチングを
とることも困難である。

さらに、森島，相沢．原島の方法は、入力された音声情
報をもとにして口形状を推定するという技術であり、文
章を入力して、これに対応した口形状変化を有する動画
像を生成するという目的には適用することができない。

（発明の目的）本発明は、上述した従来技術の問題点を解決するために
なされたのもであり、音声出力との的確な対応付けがな
され、かつ、各音素の持続時間に合わせた形で口形状変
化を表現することが可能な画像合成方法及びその装置を
提供することを目的とする。

（発明の構成）本発明の第１の特徴は、文字列として表現される文章を
入力し、これに対応した口形状変化を有する傾動画像を
生成する画像合成方法において、前記文字列を音素列に
分割し、各音素ごとに音声特徴及び持続時間を出力する
ことが可能な音声合成手法を利用し、音声特徴に基づい
て各音素に対応する口形特徴を決定し、更に咳口形特徴
に従って具体的な口形状を表現するための口形状パラメ
ータの値を決定し、また、各音素ごとの咳口形状パラメ
ータの値に対して前記各音素ごとの持続時間に基づいて
動画像の各フレームごとに与えられる口形状パラメータ
の値を制御し、音声出力に適合した口形状変化を有する
顔動画像の合成を行うことにある。

本発明の第２の特徴は、文字列として表現される文章を
入力するための入力端子と、該入力端子より入力される
該文字列を音素列に分割し、各音素ごとに音声特徴及び
持続時間を出力することが可能な音・声合成部と、各音
素ごとの該音声特徴から口形特徴への変換を行う変換部
と、種々の口形特徴と具体的な口形状を表現する口形状
パラメ−夕とを対応付けた変換テーブルと、前記変換部
で得られる各音素ごとの口形特徴に対応する口形状パラ
メータを前記変換テーブルから取出す口形状パラメータ
取得部と、一定時間間隔の画像系列として与えられる動
画像を生成するために該口形状パラメータ取得部から得
られる口形状パラメータの値の出力を前記音声合成部か
ら与えられる各音素ごとの持続時間に従って制御するた
めの時間調整部と、該時間調整部の制御のもとに前記口
形状パラメータ取得部から出力される口形状パラメータ
の値に従って画像を生成するための画像生成部とを備え
たことにある。

本発明の第３の特徴は、文字列として表現される文章を
入力するための入力端子と、核入力端子より入力される
該文字列を音素列に分割し、各音素ごとに音声特徴及び
持続時間を出力することが可能な音声合成部と、各音素
ごとの該音声特徴から口形特徴への変換を行う変換部と
、種々の口形特徴と具体的な口形状を表現する口形状パ
ラメータとを対応付けた変換テーブルと、前記変換部で
得られる各音素ごとの口形特徴に対応する口形状パラメ
ータを前記変換テーブルから取出す口形状パラメータ取
得部と、一定時間間隔の画像系列として与えられる動画
像を生成するために該口形状パラメータ取得部から得ら
れる口形状パラメータの値の出力を前記音声合成部から
与えられる各音素ごとの持続時間に従って制御するため
の時間調整部と、該時間調整部の制御のもとに前記口形
状パラメータ取得部から出力される口形状パラメータの
値に従って画像を生成するための画像生成部とをに加え
て、前記時間調整部の出力に従ってある音素から次の音
素への遷移を検出するための遷移検出部と、前記画像生
成部で用いられる口形状パラメータの値を少なくとも１
フレーム時間以上保持することが可能なメモリと、該メ
モリに保持されている口形状パラメータの値と前記口形
状パラメータ取得部より与えられる口形状パラメータの
値との中間値を求める口形状パラメータ修正部とを更に
備え、ある音素から次の音素への遷移時に中間的な口形
状を生成して滑らかな口形状変化を有する顔動画像を生
成することにある。

（実施例１）第１図は、本発明における第１の実施例を説明するため
のブロック図である。入力情報としては、キーボード或
いは磁気ディスク等のファイル装置から得られる文字列
（文章）を考える。第１図において、１は音声合成部、
２は時間調整部、３は音声特徴から口形特徴への変換部
、４は口形特徴から口形状パラメータへの変換テーブル
、５は口形状パラメータ取得部、６は画像生成部、１０
はゲート、９００は文字列入力用の端子、９０１は画像
出力用の端子である。

次に各部の動作について説明する。音声合成部１は入力
された文字列に対応した音声出力を合成する部分である
。音声合成に関しては従来各種の方式が提案されている
が、ここでは、口形状生成との整合性が優れているとい
う点から、声道モデルとしてＫｌａｔｔ型ホルマント音
声合成器を用いた既存の音声規則合成手法の利用を想定
している。

この手法に関しては、〔山本誠一．樋口宜男，清水徹：
「テキストｉ集機能付き音声規則合成装置の試作」電子
情報通信学会技術報告ＳＰ８７−１３７　（１９８８年
３月）〕に詳しく述べられている。音声合成部そのもの
は既存技術であり、また本発明が目的とする部分ではな
いので詳細な説明は省略する。

但し、音声生成と口形状六の的確な対応をとるために、
各音素毎に音韻特徴及び持続時間に関する情報が出力さ
れることが必要である。山本．樋口．清水の手法では、
調音様式，調音点，有声／無声の区別，ピッチ制御情報
などの音韻特徴及びこれに基づく持続時間の情報が出力
されるようになっており、この要求を満足している。こ
れらの情報が得られるのであれば、他の音声合成方法を
利用するものであっても差し支えはない。

次に時間調整部２は、音声合成部１より得られる各音素
毎の持続時間（第ｉ番目の音素の持続時間を１１とする
）に基づいて、画像生成部６への口形状パラメータの受
渡しを制御するためのものである。すなわち、テレビジ
ョン信号として画像（特に動画像）を出力するためには
、例えばＮＴＳＣ方式の場合毎秒３０フレーム（１フレ
ーム当り１７３０秒）であり、１７３０秒毎の情報に直
して画像を生成する必要がある。時間調整部２の詳しい
動作については後述する。

次に、音韻特徴から口形特徴への変換部３では、音声合
成部１から得られる音■特徴に基づいて、該当音素に対
応する口形特徴への変換を行う。口形特徴としては、例
えば、（１）口の開き具合（かなり開いている〜完全に
閉じている’）　、（２）唇の丸め具合（丸めている〜
横に引いている）、（３）下顎の高さ（上がっている〜
下がっている）、（４）舌の見え具合、を考える。各種
の音素に対して、人間が実際にどう発声しているかに関
する観察に基づいて、音韻特徴と口形特徴との対応を規
則化している。

例えば、“ｋｏｎｎｉｃｈｉｗａ’”という文章が入力
された場合、＃＃（無声）　ＩＶＯ　　１ｈ４　　ｊａｔｎｏｋ　　
　　　　１ｖ２　　１ｈｘ　　ｊａｗ２　　ｔｂｃｋｏ
　　　　　　１ｖ２　　１ｈｌ　　ｊａｗ２のような形
で口形特徴への変換がなされる。ここで、１ν＋１ｈ＋
ｊａ−は各々口の開き具合、唇の丸め具合、下顎の高さ
を示しており、数字は程度を表している。Ｘは程度が前
後の音素によって決められることを示している。また、
ｔｂｃｋは舌の見え具命を示している（この場合、舌が
奥の方にわずかに見えることを表している）。

口形特徴から口形状パラメータへの変換テーブル４は、
音声特徴から口形特徴への変換部３で得られる前述の口
形特徴の各々について、具体的な口形状を表現するため
のパラメータの値を与えるテーブルである。ここで第２
図は、口形状を表現するためのパラメータの例を示した
図である。第２図（ａ）は口部分を正面から眺めた時の
正面図であり、点Ｐ．−ｐｌｌの８点の位置により口形
状を、点Ｑ．，Ｑ．の位置により上，下の歯の見え具合
を、ｈｔ，ｈｔの値により上．下の唇の厚みを与える。

第２図（ｂ）は口部分を横から眺めた時の側面図であり
、θ１，θ２の角度により、上，下の唇のめくれを与え
る。変換テーブル４では、前述の口形特徴の各々につい
て、実際に人が発声をする時の口形状に対する計測結果
を参考にして前もって定められた上記パラメータＰ１〜
Ｐｇ，Ｑ＋　〜Ｑｚ．ｈ，，ｈ．，　　θ，．θ２の値
の組をテーブルの形で保持しておく。

口形状パラメータ取得部５では、音声特徴から口形特徴
への変換部３より得られる該当音素に対する口形特徴に
対して、口形特徴から口形状パラメータへの変換テーブ
ル４を参照して、該当音素に対する口形状パラメータの
値の組を取得する。

ゲートｌＯは、該当音素に対する上記口形状パラメータ
を画像生成部６に送るか否かを制御するためのものであ
り、時間調整部２から指示された回数（この回数に１７
３０秒を乗じた値が、該当音素に対する口形状の表示時
間となる）だけ、上記口形状パラメータを画像生成部６
に送る。

画像生成部６はゲート１０を介して口形状パラメータ取
得部５より送られてくる１７３０秒毎の口形状パラメー
タに基づいて口形状画像の生成を行う。

必要に応じて顔全体を含めた画像の生成を行う。

口形状パラメータを与えての口形状画像ないし顔画像の
生成に関する詳細については、例えば〔金子正秀．羽鳥
好律，小池淳：「形状変化の検出と３次元形状モデルに
基づく顔動画像の符号化」電子情報通信学会論文誌Ｂ　
＋　ｖｏｌ．Ｊ７１−　Ｂ　＋　ｎｏ＋　１２＋ＰＰ　
．１５５４−１５６３　（１９８８年１２月）〕に述べ
られている。概略としては、人物頭部の３次元形状を表
現する３次元ワイヤフレームモデルを予め用意しておく
。

与えられた口形状パラメータに従って３次元ワイヤフレ
ームモデルの口部分（具体的には、唇，歯，顎等）の形
状を変形する。この変形後のモデルに、各部の濃淡や色
を表現する情報を画素単位で付与することにより、リア
ルな口形状画像或いは顔画像を得ることができる。

ここで、時間調整部２の動作について詳しく説明する。

第３図は時間調整部２の動作を説明するためのブロック
図である。第３図において、２１は遅延部、２２は大小
判定部、２３．　２４はメモリ、２５２６は加算器、２
７はスイッチ、２８．　２９は分岐、３０は時間正規化
部、２０１　，　２０２は大小判定部２２の出力線、９
０２は初期リセット用の端子、９０３は定数（１／３０
）入力用端子、９２０　，９２１はスイッチ２７に関わ
る端子である。次に各部の動作について説明する。

メモリ２３は、工番目の音素までの合計の持続時間成を
始める前に、端子９０２より与えられる初期リセット信
号で零がセットされる。音声合成部１から１番目の音素
の持続時間が与えらると、加算器２＆により、メモリ２
３に蓄えられた■−１番目の音が求められる遅延部２１
は、■−１番目の音素まで対する処理に入るまで蓄積す
る働きをする。時間求め、１／３０ＸＮの値を出力する
。ここで、Ｎは整数、また、１／３０は１フレームの時
間１／３０秒を与える定数である。スイッチ２７は、１
番目の音素に対する処理に入る時に、大小判定部２２か
らの出力線２０２により端子９２０の側に接続される。

この時、加算器２６により、時間正規化部３０の出力１
／３０ｘＮと定数１７３０との和ｔが計算される。大小
判定部２２終了したことを意味し、出力線２０２を介し
て、音声合成部１へ１＋１番目の音素に関する情報を出
力するための指示、メモリ２４へ内容をリセットするた
めの指示、スイッチ２７へ端子９２０へ接続する値を出
力するための指示がなされる。メモリ２４は、加算器２
６の出力を一時的に蓄えておくためのもの９２１に接続
されており、加算器２６により、順次、今までのしにｌ
／３０を加えたものを新たなｔにするつ間、大小判定部
２２より出力線２０１に信号が出力され、この信号によ
り第１図におけるゲート１０が制御されることにより、
１番目の音素の持続時間の間、１番目の音素に対応する
口形状パラメータが画像生成部６に供給される。

以上が本発明の第１の実施例に対する説明である。ここ
で、第１の実施例の場合、１番目の音素からＩ＋１番目
の音素に移る場合、１番目の音素に対する口形状パラメ
ータから、Ｉ＋１番目の音素に対する口形状パラメータ
へと不連続に変化することになる。両者の口形状パラメ
ータに極端な違いがなければ、合成される動画像には余
り不自然さは生じない。しかし、人間が発声をする場合
、口形状は連続的に変化しており、■番目の音素からＩ
＋１番目の音素に移る場合、口形状が連続的に変化する
ことが望ましい。

（実施例２）第４図はこの要求を満足するための本発明の第２の実施
例を説明するためのブロック図である。

第４図において、７は口形状パラメータ修正部、８は遷
移検出部、９はメモリ、４０はスイッチ、９１０．　９
１１はスイッチ４０に関わる端子、他は第１図に同様で
ある。次に新たに加わった部分の動作を説明する。

遷移検出部８は、ある音素（例えば１番目の音素）から
次の音素（■＋１番目の音素）への遷移を検出するため
のものである。第５図は本発明による遷移検出部８の動
作を説明するためのブロック図であり、８１はカウンタ
、８２は判定回路、２１０，２１１は出力線である。カ
ウンタ８１は、大小判定部２２からの出力線２０２に信
号が出力された時にＯにリセットされる。また、大小判
定部２２において出力線２０１に信号が出力されるごと
に１ずっカウントアップする。判定回路８２では、カウ
ンタ８１の出力が“１゛であるか否かを判定し、゛゜１
”の時には、ある音素から次の音素への遷移が生じたと
いうことであるので、出力線２１０に信号を出力する。

一方、２以上の時には、現在の音素が持続しているとい
うことであるので、出力線２１１に信号を出力する。

メモリ９は、前フレームの画像を合成するために用いら
れた口形状パラメータを少なくとも１フレーム期間蓄え
ておくためのメモリである。口形状パラメータ修正部７
は、メモリ９に蓄えられていた前フレームにおける口形
状パラメータと、口形状パラメータ取得部５より与えら
れる現在の音素に対する口形状パラメータとに基づいて
、例えば両者の中間値を求めて、現フレームの画像を合
成するための口形状パラメータとする働きをする。

スイッチ４０は、遷移検出部から出力線２１０，　２１
．１のいずれに信号が出力されるかによって、端子９１
０或いは９１１に接続され、端子９１０に接続された時
には、口形状パラメータ修正部７より得られる２つの音
素に対する口形状パラメータの中間値を、また、端子９
１１に接続された時には現在の音素に対する口形状パラ
メータを、画像生成部６に渡す，以上の例では、ある音
素の口形状パラメータと次の音素の口形状パラメータと
の中間値は１フレーム分しか生成されないが、例えばカ
ンウタ８２の値に応じて何段階かの中間値を生成するこ
とにより、より滑らかな口形状変化を実現することも可
能である。

以上述べたように、本発明は文字列として表現される文
章を入力した場合にこれに対応した口形状変化を有する
顔動画像を合成する方式に関するものである。しかしな
がら、音声情報を入力した場合においても入力音声情報
に対してこれを音素列に分割し、各音素ごとに音声特徴
及び持続時間を出力することが可能な音声認識手法が利
用できるのであれば、本発明における音声合成部１をこ
のような動作をする音声認識部に置き換えることにより
、入力音声情報に対応した口形状変化を有する顔動画像
を合成することも可能である。

（発明の効果）以上のように、本発明により、文字列として表現される
文章を入力として音声出力との的確な対応付けがなされ
、かつ、各音素の持続時間に合わせた口形状変化を有す
る、従って音声出力とのマッチングのとれた自然な口形
状変化を有する動画像を合成することが可能である。

文章入力に対して、今まで音声を合成するのにとどまっ
ていたのに対し、本発明では、音声とのマッチングのと
れた自然な口形状変化を有する動画像まで容易に出力で
きるようになる。従って、本発明は実写を必要とせずに
リアルな動画像を生成する用途（例えば、放送番組や映
画の製作）音声及び画像による自動応答装置、マン・マ
シーン・インタフェースの手段とじての利用、文章から
音声及び動画像へのメディア変換等に適用可能であり、
その効果が極めて大である。

【図面の簡単な説明】

第１図は本発明の第１の実施例に対応ずるブロック図、
第２図は口形状を表現するためのパラメータの例を示し
た図、第３図は本発明における時間調整部２の動作の一
例に対応するブロック図、第４図は本発明の第２の実施
例に対応ずるブロック図、第５図は本発明の第２の実施
例におりる遷移検出部８の動作の一例に対応ずるブロッ
ク図、第６図は従来の画像合成方式の動作に対応ずるフ
ロック図である。

Claims

【特許請求の範囲】

（１）文字列として表現される文章を入力し、これに対
応した口形状変化を有する顔動画像を生成する画像合成
方法において、前記文字列を音素列に分割し、各音素ご
とに音声特徴及び持続時間を出力することが可能な音声
合成手法を利用し、音声特徴に基づいて各音素に対応す
る口形特徴を決定し、更に該口形特徴に従って具体的な
口形状を表現するための口形状パラメータの値を決定し
、また、各音素ごとの該口形状パラメータの値に対して
前記各音素ごとの持続時間に基づいて動画像の各フレー
ムごとに与えられる口形状パラメータの値を制御し、音
声出力に適合した口形状変化を有する顔動画像の合成を
行うことを特徴とする画像合成方法。
（２）文字列として表現される文章を入力するための入
力端子と、該入力端子より入力される該文字列を音素列
に分割し、各音素ごとに音声特徴及び持続時間を出力す
ることが可能な音声合成部と、各音素ごとの該音声特徴
から口形特徴への変換を行う変換部と、種々の口形特徴
と具体的な口形状を表現する口形状パラメータとを対応
付けた変換テーブルと、前記変換部で得られる各音素ご
との口形特徴に対応する口形状パラメータを前記変換テ
ーブルから取出す口形状パラメータ取得部と、一定時間
間隔の画像系列として与えられる動画像を生成するため
に該口形状パラメータ取得部から得られる口形状パラメ
ータの値の出力を前記音声合成部から与えられる各音素
ごとの持続時間に従って制御するための時間調整部と、
該時間調整部の制御のもとに前記口形状パラメータ取得
部から出力される口形状パラメータの値に従って画像を
生成するための画像生成部とを備えたことを特徴とする
画像合成装置。
（３）前記時間調整部の出力に従って、ある音素から次
の音素への遷移を検出するための遷移検出部と、前記画
像生成部で用いられる口形状パラメータの値を少なくと
も１フレーム時間以上保持することが可能なメモリと、
該メモリに保持されている口形状パラメータの値と前記
口形状パラメータ取得部より与えられる口形状パラメー
タの値との中間値を求める口形状パラメータ修正部とを
更に備え、ある音素から次の音素への遷移時に中間的な
口形状を生成して滑らかな口形状変化を有する顔動画像
を生成することを特徴とする特許請求の範囲第２項記載
の画像合成装置。