JP3070136B2 - 音声信号に基づく画像の変形方法 - Google Patents
音声信号に基づく画像の変形方法Info
- Publication number
- JP3070136B2 JP3070136B2 JP3134954A JP13495491A JP3070136B2 JP 3070136 B2 JP3070136 B2 JP 3070136B2 JP 3134954 A JP3134954 A JP 3134954A JP 13495491 A JP13495491 A JP 13495491A JP 3070136 B2 JP3070136 B2 JP 3070136B2
- Authority
- JP
- Japan
- Prior art keywords
- lip
- image
- data
- vowel
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/60—Methods for processing data by generating or executing the game program
- A63F2300/66—Methods for processing data by generating or executing the game program for rendering three dimensional images
- A63F2300/6607—Methods for processing data by generating or executing the game program for rendering three dimensional images for animating game characters, e.g. skeleton kinematics
Landscapes
- Electrically Operated Instructional Devices (AREA)
- Processing Or Creating Images (AREA)
Description
【0001】
【産業上の利用分野】本発明は、音声信号に基づいて画
像の顔の顎と口唇の形状を制御する音声信号に基づく画
像の変形方法に関する。
像の顔の顎と口唇の形状を制御する音声信号に基づく画
像の変形方法に関する。
【0002】
【従来の技術】従来の例えばいわゆるアニメーションに
おいて、そのアニメーション中の人物が会話などを行う
際の口唇,顎などの顔の動きは、当該アニメーション画
像の作成者が、このときの会話に合わせた口唇などの動
きを例えば従来の経験に照らし合わせて推測することで
決めるようにしている。
おいて、そのアニメーション中の人物が会話などを行う
際の口唇,顎などの顔の動きは、当該アニメーション画
像の作成者が、このときの会話に合わせた口唇などの動
きを例えば従来の経験に照らし合わせて推測することで
決めるようにしている。
【0003】ところで、近年、アニメーションなどにお
いて、会話に合わせて、よりリアルに口唇,顎などを動
かすことができるようにすることが求められている。
いて、会話に合わせて、よりリアルに口唇,顎などを動
かすことができるようにすることが求められている。
【0004】このため、音声のホルマント成分を利用し
て、口唇などの動きを制御させることが考えられてい
る。即ち、音声の特徴量の一つにホルマントがあり、母
音の第1・第2ホルマントと発声時の舌面形状の曲率・
下顎開大度が対応付けられることが既に知られている。
この方法は、この第1・第2ホルマントと顎・口唇の開
大度の対応付けを利用してアニメーションの制御を行う
もので、音韻の認識を行なうことなく動画像の制御を行
なうものである。即ち、図1に示すように、アニメーシ
ョンの顔画像の口唇の開大度Lと下顎の開大度Dとを制
御するものである。
て、口唇などの動きを制御させることが考えられてい
る。即ち、音声の特徴量の一つにホルマントがあり、母
音の第1・第2ホルマントと発声時の舌面形状の曲率・
下顎開大度が対応付けられることが既に知られている。
この方法は、この第1・第2ホルマントと顎・口唇の開
大度の対応付けを利用してアニメーションの制御を行う
もので、音韻の認識を行なうことなく動画像の制御を行
なうものである。即ち、図1に示すように、アニメーシ
ョンの顔画像の口唇の開大度Lと下顎の開大度Dとを制
御するものである。
【0005】ここで、ホルマントと顎・口唇の開大度は
線形の変換では完全には対応付けられないこと、顎・口
唇の開大度に加え、「イ」らしさのパラメータが必要な
ことがわかった。
線形の変換では完全には対応付けられないこと、顎・口
唇の開大度に加え、「イ」らしさのパラメータが必要な
ことがわかった。
【0006】ホルマント周波数は音声の基本的な音響パ
ラメータの一つである。音声信号のスペクトル包絡を調
べると、いくつかのピークがあることがわかる。このピ
ークとなる周波数がホルマント周波数であり、周波数の
低い方から順に第1ホルマント、第2ホルマントと呼
ぶ。即ち、図11は母音「ア」の波形のパワースペクト
ルを示す図で、この図11に示すように、周波数の低い
方から順に第1ホルマントF1、第2ホルマントF2‥
‥とピークがあるのが判る。一般にホルマントは声道の
音響的インパルス応答の減衰正弦波成分と定義される。
平均的声道に対しては一般に3kHz以内に3ないし4
個のホルマントがある。なお、母音「イ」及び「ウ」の
波形のパワースペクトルを、図12及び図13に示す。
ラメータの一つである。音声信号のスペクトル包絡を調
べると、いくつかのピークがあることがわかる。このピ
ークとなる周波数がホルマント周波数であり、周波数の
低い方から順に第1ホルマント、第2ホルマントと呼
ぶ。即ち、図11は母音「ア」の波形のパワースペクト
ルを示す図で、この図11に示すように、周波数の低い
方から順に第1ホルマントF1、第2ホルマントF2‥
‥とピークがあるのが判る。一般にホルマントは声道の
音響的インパルス応答の減衰正弦波成分と定義される。
平均的声道に対しては一般に3kHz以内に3ないし4
個のホルマントがある。なお、母音「イ」及び「ウ」の
波形のパワースペクトルを、図12及び図13に示す。
【0007】また、音声「ア・イ・ウ・エ・オ」の第1
・第2ホルマント周波数の遷移の様子を図14に示す。
このように第1・第2ホルマントを調べることで、音声
信号がどの母音のものかをほぼ推定できる。
・第2ホルマント周波数の遷移の様子を図14に示す。
このように第1・第2ホルマントを調べることで、音声
信号がどの母音のものかをほぼ推定できる。
【0008】そして、第1・第2ホルマント平面(以
下、F1−F2平面)上と調音平面(舌面形状の曲率と
下顎開大度)上とでは、各母音の相対的な位置関係が一
致する。
下、F1−F2平面)上と調音平面(舌面形状の曲率と
下顎開大度)上とでは、各母音の相対的な位置関係が一
致する。
【0009】そこで、まず最初に、この結果を拡張して
口唇の開大度と舌の形状とに強い相関があるものと仮定
し、F1−F2平面から顎−口唇平面への変換を試みる
と、次式にしたがって、図15のF1−F2平面の
「ア」、「イ」、「ウ」の3母音による三角形は、顎−
口唇平面の「ア」、「イ」、「ウ」による三角形に線形
変換することができる。
口唇の開大度と舌の形状とに強い相関があるものと仮定
し、F1−F2平面から顎−口唇平面への変換を試みる
と、次式にしたがって、図15のF1−F2平面の
「ア」、「イ」、「ウ」の3母音による三角形は、顎−
口唇平面の「ア」、「イ」、「ウ」による三角形に線形
変換することができる。
【0010】
【数1】
【0011】ここで、Mlip は口唇の開大度、Mjaw は
顎の開大度、f1 、f2 は第1・第2ホルマントであ
る。また、Mlip-u 、Mjaw-u 、f1u、f2uはそれぞ
れ、「ウ」に対する口唇、顎の開大度、第1・第2ホル
マントであり、a、b、c、dは定数である。
顎の開大度、f1 、f2 は第1・第2ホルマントであ
る。また、Mlip-u 、Mjaw-u 、f1u、f2uはそれぞ
れ、「ウ」に対する口唇、顎の開大度、第1・第2ホル
マントであり、a、b、c、dは定数である。
【0012】この〔数1〕式を用いた変換により、各母
音の顎−口唇平面上の位置は図16のようになる。この
図16において、両パラメータの値が0のときが発声な
しの状態であり、正の時は開いた状態、負の時はつぼめ
た状態を表す。
音の顎−口唇平面上の位置は図16のようになる。この
図16において、両パラメータの値が0のときが発声な
しの状態であり、正の時は開いた状態、負の時はつぼめ
た状態を表す。
【0013】この図16に示されるように線形に変換し
た場合には、「エ」は適当と思われる位置となるが、
「オ」については、口唇を「ウ」よりもつぼめることに
なっていて不適当であり、これについての補正が必要で
ある。しかし、各母音のホルマントの値がある幅を持っ
て分布すること、したがって、その線形変換の結果も同
様に分布することから、顎−口唇平面上でこの補正を行
なうためにはその音韻を判別することが必要となり、あ
まり好ましくない。また、このパラメータがそのまま画
像発生装置に利用できるのではなく、パラメータの変換
が必要なこと、顔動画像の動きのスムージング処理が必
要なことなどから、この補正は画像発生装置への入力デ
ータの算出に含めている。
た場合には、「エ」は適当と思われる位置となるが、
「オ」については、口唇を「ウ」よりもつぼめることに
なっていて不適当であり、これについての補正が必要で
ある。しかし、各母音のホルマントの値がある幅を持っ
て分布すること、したがって、その線形変換の結果も同
様に分布することから、顎−口唇平面上でこの補正を行
なうためにはその音韻を判別することが必要となり、あ
まり好ましくない。また、このパラメータがそのまま画
像発生装置に利用できるのではなく、パラメータの変換
が必要なこと、顔動画像の動きのスムージング処理が必
要なことなどから、この補正は画像発生装置への入力デ
ータの算出に含めている。
【0014】
【発明が解決しようとする課題】ところで、公知の画像
発生装置にて顔動画像の制御を行なう場合、口の動きに
関するパラメータとしては顎を開く度合い、口唇をつぼ
める度合い、歯を見せる(上唇を上に引っ張る)度合い
(以下、順にM-JAW 、M-LIP-P 、M-LIP-I )の3つが定
義されている。大雑把に言って、上述した〔数1〕式を
用いて求めた顎と口唇の開大度はM-JAW とM-LIP-P にそ
れぞれが対応する。
発生装置にて顔動画像の制御を行なう場合、口の動きに
関するパラメータとしては顎を開く度合い、口唇をつぼ
める度合い、歯を見せる(上唇を上に引っ張る)度合い
(以下、順にM-JAW 、M-LIP-P 、M-LIP-I )の3つが定
義されている。大雑把に言って、上述した〔数1〕式を
用いて求めた顎と口唇の開大度はM-JAW とM-LIP-P にそ
れぞれが対応する。
【0015】まず、ホルマントの線形変換により求めた
データ(以下、顎・口唇データ)をそのまま画像発生装
置に入力して制御を行なったところ、「イ」や「エ」の
ような口の形を表現できず、また、「ア」の入力に対し
て「オ」と発声しているような画像となった。
データ(以下、顎・口唇データ)をそのまま画像発生装
置に入力して制御を行なったところ、「イ」や「エ」の
ような口の形を表現できず、また、「ア」の入力に対し
て「オ」と発声しているような画像となった。
【0016】次に、口唇データに対して適当なしきい値
を設定し、そのしきい値と入力データを比較して入力が
「イ」であるか否かを判断してM-LIP-Iを生成するよう
にしたところ、「イ」は表現できるが、「ア」や「エ」
は表現できなかった。さらに「ア」や「エ」まで判断す
ることも試みたが、困難であり、また、合成された動画
像も動きがスムーズなものとはならなかった。
を設定し、そのしきい値と入力データを比較して入力が
「イ」であるか否かを判断してM-LIP-Iを生成するよう
にしたところ、「イ」は表現できるが、「ア」や「エ」
は表現できなかった。さらに「ア」や「エ」まで判断す
ることも試みたが、困難であり、また、合成された動画
像も動きがスムーズなものとはならなかった。
【0017】以上のように顎・口唇データをそのまま与
えたのでは、「ウ」や「オ」のような丸い口の形は表現
できるが、「イ」や「エ」のような四角い口の形を表現
することができないため、顎・口唇データの2つのパラ
メータから、M-JAW 、M-LIP-P 、M-LIP-I の3つのパラ
メータを導出しなければならないことがわかった。ま
た、パラメータの決定に際して、ある母音から別の母音
へ、無音から発声へなどの中間状態での動作を自然なも
のにするために、各パラメータは連続なデータとなるよ
うに求めなければならない。さらに、発声開始・終了時
付近では顎・口唇データが必ずしも適当なものとはなら
ない。場合によっては、同じ母音に対して正・負の間を
大きく振動することもある。これに対するスムージング
の処理も必要となっていた。
えたのでは、「ウ」や「オ」のような丸い口の形は表現
できるが、「イ」や「エ」のような四角い口の形を表現
することができないため、顎・口唇データの2つのパラ
メータから、M-JAW 、M-LIP-P 、M-LIP-I の3つのパラ
メータを導出しなければならないことがわかった。ま
た、パラメータの決定に際して、ある母音から別の母音
へ、無音から発声へなどの中間状態での動作を自然なも
のにするために、各パラメータは連続なデータとなるよ
うに求めなければならない。さらに、発声開始・終了時
付近では顎・口唇データが必ずしも適当なものとはなら
ない。場合によっては、同じ母音に対して正・負の間を
大きく振動することもある。これに対するスムージング
の処理も必要となっていた。
【0018】本発明の目的は、ある母音を発声している
顔画像から別の母音を発声している顔画像へと言うよう
な変化がスムーズになるように、中間状態の画像が良好
に作成されるようにすることにある。
顔画像から別の母音を発声している顔画像へと言うよう
な変化がスムーズになるように、中間状態の画像が良好
に作成されるようにすることにある。
【0019】
【課題を解決するための手段】本発明は、入力音声信号
から、当該入力音声信号のスペクトルエンベロープのピ
ークを示すホルマント周波数の中心周波数を求め、この
ホルマント周波数を線型変換及び非線型変換することに
より、下顎及び口唇の動きに関する少なくとも2つのパ
ラメータを求め、これら2つのパラメータから第1の母
音群に対応する第1の関数と、第2の母音群に対応する
第2の関数との少なくとも2つの関数を、それぞれ下顎
開大度及び口唇開大度における関数とし、これらの関数
により求めた下顎及び口唇の変化量に基づき、画像表示
した顔の形状を変形させるようにしたものである。
から、当該入力音声信号のスペクトルエンベロープのピ
ークを示すホルマント周波数の中心周波数を求め、この
ホルマント周波数を線型変換及び非線型変換することに
より、下顎及び口唇の動きに関する少なくとも2つのパ
ラメータを求め、これら2つのパラメータから第1の母
音群に対応する第1の関数と、第2の母音群に対応する
第2の関数との少なくとも2つの関数を、それぞれ下顎
開大度及び口唇開大度における関数とし、これらの関数
により求めた下顎及び口唇の変化量に基づき、画像表示
した顔の形状を変形させるようにしたものである。
【0020】
【作用】このようにしたことで、実際の音声に基づいた
入力音声信号のホルマント周波数に、簡単な線型変換及
び非線型変換の演算を施して、下顎開大度及び口唇開大
度が求まると共に、下顎及び口唇の変化量が求まり、画
像表示した顔の形状を入力音声に合わせてリアルタイム
でスムーズに変化させることができるようになる。
入力音声信号のホルマント周波数に、簡単な線型変換及
び非線型変換の演算を施して、下顎開大度及び口唇開大
度が求まると共に、下顎及び口唇の変化量が求まり、画
像表示した顔の形状を入力音声に合わせてリアルタイム
でスムーズに変化させることができるようになる。
【0021】
【実施例】以下、本発明の一実施例を、添付図面を参照
して説明する。
して説明する。
【0022】本例においては、アニメーションの顔画像
の口唇の開大度Lと下顎の開大度D(図1参照)とをス
ムーズに制御するようにしたもので、この下顎及び口唇
の画像データを得るために、まず顎データM-JAW 、口唇
データM-LIP-P 、口唇データM-LIP-I の各平面を仮定す
る。口の形が最もそれらしく見えるようなところに各母
音の位置を決める。
の口唇の開大度Lと下顎の開大度D(図1参照)とをス
ムーズに制御するようにしたもので、この下顎及び口唇
の画像データを得るために、まず顎データM-JAW 、口唇
データM-LIP-P 、口唇データM-LIP-I の各平面を仮定す
る。口の形が最もそれらしく見えるようなところに各母
音の位置を決める。
【0023】次に、各平面上で全ての母音の位置を通過
する連続な曲線(関数)を定義する。この曲線は1次関
数とsigmoid 関数の組合せにより表現する。ここで、1
つの曲線では全ての母音を結ぶのは難しいので、1つの
平面に2つの曲線を定義し、2つの曲線により全ての母
音を含むものとする。ただし、実際には演算の高速化と
簡略化のためにsigmoid 関数を直線近似したものを利用
している。この曲線を図2,図3,図4に示す。この図
2,図3,図4において、M-JAW とM-LIP-I は値が大き
いほど顎を開く度合い、歯を見せる度合いが大きい。M-
LIP-P については値が正に大のときに口をつぼめる度合
いが大きく、負に大のときは口を横に開く度合いが大き
いことを示す。
する連続な曲線(関数)を定義する。この曲線は1次関
数とsigmoid 関数の組合せにより表現する。ここで、1
つの曲線では全ての母音を結ぶのは難しいので、1つの
平面に2つの曲線を定義し、2つの曲線により全ての母
音を含むものとする。ただし、実際には演算の高速化と
簡略化のためにsigmoid 関数を直線近似したものを利用
している。この曲線を図2,図3,図4に示す。この図
2,図3,図4において、M-JAW とM-LIP-I は値が大き
いほど顎を開く度合い、歯を見せる度合いが大きい。M-
LIP-P については値が正に大のときに口をつぼめる度合
いが大きく、負に大のときは口を横に開く度合いが大き
いことを示す。
【0024】そして、M-JAW に対して口唇データ、M-LI
P-Iに対して顎データというように、入力データが各平
面上の2つの曲線のいずれに近いかを特定できるパラメ
ータを基準として、それにより2つの曲線の重み付けを
施した平均をとり、そのフレームの入力データに対する
高速画像変換装置のパラメータとする。また、M-LIP-P
に対してはM-JAW の大きさに応じてM-LIP-P の最大値を
決定している(図5)。これは口唇をつぼめた状態で同
時に顎を大きく開くことはできないことを意味する。こ
れにより、F1−F2平面から顎−口唇平面への線形変
換では不適当な位置に写像されたデータの補正を行なっ
ている。以上の処理により、M-JAW 、M-LIP-P 、M-LIP-
I の3つのパラメータは顎・口唇データにより一意的に
求まり、かつ、顎・口唇データに対して連続な値を持
つ。
P-Iに対して顎データというように、入力データが各平
面上の2つの曲線のいずれに近いかを特定できるパラメ
ータを基準として、それにより2つの曲線の重み付けを
施した平均をとり、そのフレームの入力データに対する
高速画像変換装置のパラメータとする。また、M-LIP-P
に対してはM-JAW の大きさに応じてM-LIP-P の最大値を
決定している(図5)。これは口唇をつぼめた状態で同
時に顎を大きく開くことはできないことを意味する。こ
れにより、F1−F2平面から顎−口唇平面への線形変
換では不適当な位置に写像されたデータの補正を行なっ
ている。以上の処理により、M-JAW 、M-LIP-P 、M-LIP-
I の3つのパラメータは顎・口唇データにより一意的に
求まり、かつ、顎・口唇データに対して連続な値を持
つ。
【0025】さらに、現在のフレームを中心に前後2フ
レームずつ、合計5フレームのパラメータを求める。こ
の5フレームでパラメータの値が大きく異なるものがあ
るとき(例えば、4フレームが正の値で、残りの1フレ
ームが負の値のとき)にはそのフレームは無効とする。
そして、現在のフレームに2、それ以外に1の重み付け
をして有効なデータについて平均値を求め、これを画像
発生装置に供給するデータとする。
レームずつ、合計5フレームのパラメータを求める。こ
の5フレームでパラメータの値が大きく異なるものがあ
るとき(例えば、4フレームが正の値で、残りの1フレ
ームが負の値のとき)にはそのフレームは無効とする。
そして、現在のフレームに2、それ以外に1の重み付け
をして有効なデータについて平均値を求め、これを画像
発生装置に供給するデータとする。
【0026】なお、F1−F2平面から顎−口唇平面へ
の変換は「ア」、「イ」、「ウ」について次に示す〔表
1〕のように対応付けられるように係数を求めて、変換
を行なった。
の変換は「ア」、「イ」、「ウ」について次に示す〔表
1〕のように対応付けられるように係数を求めて、変換
を行なった。
【0027】
【表1】
【0028】このようにして、母音の離散発声と連続発
声(ともに「ア」、「イ」、「ウ」、「エ」、「オ」の
順に発声)のそれぞれについてデータを求め、同一の変
換を行なって画像発生装置に供給した。その結果、離散
発声・連続発声とも完全に動画の制御を行なうことがで
きた。また無音から発声へ、発声から無音への変化もス
ムーズなものとなった。本例での顔動画像の作成例を図
6,図7,図8,図9,図10に示す。この図6〜図1
0は、「ア」、「イ」、「ウ」、「エ」、「オ」の発声
時の顔動画像を示す。
声(ともに「ア」、「イ」、「ウ」、「エ」、「オ」の
順に発声)のそれぞれについてデータを求め、同一の変
換を行なって画像発生装置に供給した。その結果、離散
発声・連続発声とも完全に動画の制御を行なうことがで
きた。また無音から発声へ、発声から無音への変化もス
ムーズなものとなった。本例での顔動画像の作成例を図
6,図7,図8,図9,図10に示す。この図6〜図1
0は、「ア」、「イ」、「ウ」、「エ」、「オ」の発声
時の顔動画像を示す。
【0029】本実施例では3つのパラメータだけで口の
動きの制御を行なっており、動きは左右対称なものとな
っている。また、画像の変形は画像を構成する曲面の曲
げ延ばしや伸縮によりなされる。
動きの制御を行なっており、動きは左右対称なものとな
っている。また、画像の変形は画像を構成する曲面の曲
げ延ばしや伸縮によりなされる。
【0030】なお、動きのパラメータの求め方である
が、上述したように口の動きには左右非対称な成分も含
まれている。上述実施例のように母音のみの表現におい
ては左右対称な動きでも良いであろうが、顔全体の動き
を制御して表情を表現しようとするならば、より高度な
制御が必要になる。
が、上述したように口の動きには左右非対称な成分も含
まれている。上述実施例のように母音のみの表現におい
ては左右対称な動きでも良いであろうが、顔全体の動き
を制御して表情を表現しようとするならば、より高度な
制御が必要になる。
【0031】また、本例のデータに基づいて画像発生装
置で作成した画像は、曲面の伸縮・曲げ延ばしによる画
像の変形であり、口の動きが口の周辺にも影響し、自然
な動きに近いアニメーションとなる。
置で作成した画像は、曲面の伸縮・曲げ延ばしによる画
像の変形であり、口の動きが口の周辺にも影響し、自然
な動きに近いアニメーションとなる。
【0032】また、従来の方法では、音声入力による顔
動画像の制御を行なう場合に音韻の認識を必要とするの
に対し、本実施例では音韻の認識を行なうことなく画像
の制御を行なっており、音声の入力から顔動画像の出力
までを考えた場合に、より高速に処理できる。
動画像の制御を行なう場合に音韻の認識を必要とするの
に対し、本実施例では音韻の認識を行なうことなく画像
の制御を行なっており、音声の入力から顔動画像の出力
までを考えた場合に、より高速に処理できる。
【0033】
【発明の効果】本発明によると、音声信号のホルマント
周波数を与えると比較的簡単なアルゴリズムによって、
画像の口の動きをスムーズに制御することが可能とな
る。従って、音声による動画像の制御の利用分野とし
て、 ・発話障害者の発声矯正への利用 ・アニメーション作成支援 ・言語学習用CAI ・情報検索システムのMMI などに応用することができる。
周波数を与えると比較的簡単なアルゴリズムによって、
画像の口の動きをスムーズに制御することが可能とな
る。従って、音声による動画像の制御の利用分野とし
て、 ・発話障害者の発声矯正への利用 ・アニメーション作成支援 ・言語学習用CAI ・情報検索システムのMMI などに応用することができる。
【図1】本発明の一実施例により作成されるデータを示
す説明図である。
す説明図である。
【図2】一実施例による顎データからパラメータへの変
換状態を示す特性図である。
換状態を示す特性図である。
【図3】一実施例による口唇データからパラメータへの
変換状態を示す特性図である。
変換状態を示す特性図である。
【図4】一実施例による口唇データからパラメータへの
変換状態を示す特性図である。
変換状態を示す特性図である。
【図5】一実施例によるパラメータの決定状態を示す特
性図である。
性図である。
【図6】一実施例により作成された画像例を示す説明図
である。
である。
【図7】一実施例により作成された画像例を示す説明図
である。
である。
【図8】一実施例により作成された画像例を示す説明図
である。
である。
【図9】一実施例により作成された画像例を示す説明図
である。
である。
【図10】一実施例により作成された画像例を示す説明
図である。
図である。
【図11】音声の波形の一例を示す波形図である。
【図12】音声の波形の一例を示す波形図である。
【図13】音声の波形の一例を示す波形図である。
【図14】ホルマント周波数の遷移状態を示す特性図で
ある。
ある。
【図15】F1−F2平面を示す特性図である。
【図16】顎−口唇平面を示す特性図である。
D 下顎の開大度 L 口唇の開大度
フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 19/02 G10L 9/06 C 21/06 3/00 551H // A63F 13/00 S 9/04 G (56)参考文献 特開 平4−73698(JP,A) 特開 平2−83727(JP,A) 特開 昭57−126000(JP,A) 特開 昭47−3008(JP,A) 実開 平4−40285(JP,U) 特許2667455(JP,B2) 特許2644789(JP,B2) 特許2518683(JP,B2) (58)調査した分野(Int.Cl.7,DB名) G10L 11/00 - 13/08 G10L 19/00 - 21/06 G10L 15/00 - 17/00 JICSTファイル(JOIS) 実用ファイル(PATOLIS) 特許ファイル(PATOLIS)
Claims (1)
- 【請求項1】 入力音声信号から、当該入力音声信号の
スペクトルエンベロープのピークを示すホルマント周波
数の中心周波数を求め、このホルマント周波数を線型変
換及び非線型変換することにより、下顎及び口唇の動き
に関する少なくとも2つのパラメータを求め、 これら2つのパラメータから第1の母音群に対応する第
1の関数と、第2の母音群に対応する第2の関数との少
なくとも2つの関数を、それぞれ下顎開大度及び口唇開
大度における関数とし、 これらの関数により求めた下顎及び口唇の変化量に基づ
き、画像表示した顔の形状を変形させることを特徴とす
る音声信号に基づく画像の変形方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3134954A JP3070136B2 (ja) | 1991-06-06 | 1991-06-06 | 音声信号に基づく画像の変形方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3134954A JP3070136B2 (ja) | 1991-06-06 | 1991-06-06 | 音声信号に基づく画像の変形方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04359299A JPH04359299A (ja) | 1992-12-11 |
JP3070136B2 true JP3070136B2 (ja) | 2000-07-24 |
Family
ID=15140458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3134954A Expired - Fee Related JP3070136B2 (ja) | 1991-06-06 | 1991-06-06 | 音声信号に基づく画像の変形方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3070136B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100236974B1 (ko) | 1996-12-13 | 2000-02-01 | 정선종 | 동화상과 텍스트/음성변환기 간의 동기화 시스템 |
KR100240637B1 (ko) | 1997-05-08 | 2000-01-15 | 정선종 | 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치 |
EP0982684A4 (en) * | 1998-03-11 | 2001-05-09 | Mitsubishi Electric Corp | MOTION IMAGE GENERATION DEVICE AND LEARNING DEVICE VIA IMAGE CONTROL NETWORK |
JP5750636B2 (ja) * | 2011-02-18 | 2015-07-22 | 株式会社国際電気通信基礎技術研究所 | 口唇動作パラメータ生成装置及びコンピュータプログラム |
-
1991
- 1991-06-06 JP JP3134954A patent/JP3070136B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH04359299A (ja) | 1992-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ishi et al. | Evaluation of formant-based lip motion generation in tele-operated humanoid robots | |
US9009052B2 (en) | System and method for singing synthesis capable of reflecting voice timbre changes | |
JP2518683B2 (ja) | 画像合成方法及びその装置 | |
WO2014046789A1 (en) | System and method for voice transformation, speech synthesis, and speech recognition | |
WO2005071664A1 (ja) | 音声合成装置 | |
JPH11126090A (ja) | 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体 | |
Ishi et al. | Speech-driven lip motion generation for tele-operated humanoid robots | |
US20130238337A1 (en) | Voice quality conversion system, voice quality conversion device, voice quality conversion method, vocal tract information generation device, and vocal tract information generation method | |
Youssef et al. | Articulatory features for speech-driven head motion synthesis | |
JP3070136B2 (ja) | 音声信号に基づく画像の変形方法 | |
Ferreira | Implantation of voicing on whispered speech using frequency-domain parametric modelling of source and filter information | |
WO2008018653A1 (en) | Voice color conversion system using glottal waveform | |
JP5055486B2 (ja) | 遠隔操作アンドロイドの発話動作制御システム | |
JPH04504767A (ja) | 時系列結合学習 | |
Arslan et al. | 3-d face point trajectory synthesis using an automatically derived visual phoneme similarity matrix | |
JP2002099295A (ja) | 翻訳装置、画像合成装置、翻訳方法、画像合成方法および媒体 | |
JPH0744727A (ja) | 画像作成方法およびその装置 | |
Ishi et al. | Evaluation of a formant-based speech-driven lip motion generation | |
WO1999046732A1 (fr) | Dispositif de generation d'images en mouvement et dispositif d'apprentissage via reseau de controle d'images | |
Rajavel et al. | Optimum integration weight for decision fusion audio–visual speech recognition | |
JP3070073B2 (ja) | 音声信号に基づく形状制御方法 | |
JP6701483B2 (ja) | アンドロイドロボットの制御システム、装置、プログラムおよび方法 | |
Del Pozo | Voice source and duration modelling for voice conversion and speech repair | |
JP2019184813A (ja) | ロボット及びロボット制御プログラム | |
JPH08254992A (ja) | 話速変換装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |