JP3070136B2

JP3070136B2 - 音声信号に基づく画像の変形方法

Info

Publication number: JP3070136B2
Application number: JP3134954A
Authority: JP
Inventors: 史隆川手
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1991-06-06
Filing date: 1991-06-06
Publication date: 2000-07-24
Anticipated expiration: 2015-07-24
Also published as: JPH04359299A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声信号に基づいて画
像の顔の顎と口唇の形状を制御する音声信号に基づく画
像の変形方法に関する。

【０００２】

【従来の技術】従来の例えばいわゆるアニメーションに
おいて、そのアニメーション中の人物が会話などを行う
際の口唇，顎などの顔の動きは、当該アニメーション画
像の作成者が、このときの会話に合わせた口唇などの動
きを例えば従来の経験に照らし合わせて推測することで
決めるようにしている。

【０００３】ところで、近年、アニメーションなどにお
いて、会話に合わせて、よりリアルに口唇，顎などを動
かすことができるようにすることが求められている。

【０００４】このため、音声のホルマント成分を利用し
て、口唇などの動きを制御させることが考えられてい
る。即ち、音声の特徴量の一つにホルマントがあり、母
音の第１・第２ホルマントと発声時の舌面形状の曲率・
下顎開大度が対応付けられることが既に知られている。
この方法は、この第１・第２ホルマントと顎・口唇の開
大度の対応付けを利用してアニメーションの制御を行う
もので、音韻の認識を行なうことなく動画像の制御を行
なうものである。即ち、図１に示すように、アニメーシ
ョンの顔画像の口唇の開大度Ｌと下顎の開大度Ｄとを制
御するものである。

【０００５】ここで、ホルマントと顎・口唇の開大度は
線形の変換では完全には対応付けられないこと、顎・口
唇の開大度に加え、「イ」らしさのパラメータが必要な
ことがわかった。

【０００６】ホルマント周波数は音声の基本的な音響パ
ラメータの一つである。音声信号のスペクトル包絡を調
べると、いくつかのピークがあることがわかる。このピ
ークとなる周波数がホルマント周波数であり、周波数の
低い方から順に第１ホルマント、第２ホルマントと呼
ぶ。即ち、図１１は母音「ア」の波形のパワースペクト
ルを示す図で、この図１１に示すように、周波数の低い
方から順に第１ホルマントＦ１、第２ホルマントＦ２‥
‥とピークがあるのが判る。一般にホルマントは声道の
音響的インパルス応答の減衰正弦波成分と定義される。
平均的声道に対しては一般に３ｋＨｚ以内に３ないし４
個のホルマントがある。なお、母音「イ」及び「ウ」の
波形のパワースペクトルを、図１２及び図１３に示す。

【０００７】また、音声「ア・イ・ウ・エ・オ」の第１
・第２ホルマント周波数の遷移の様子を図１４に示す。
このように第１・第２ホルマントを調べることで、音声
信号がどの母音のものかをほぼ推定できる。

【０００８】そして、第１・第２ホルマント平面（以
下、Ｆ１−Ｆ２平面）上と調音平面（舌面形状の曲率と
下顎開大度）上とでは、各母音の相対的な位置関係が一
致する。

【０００９】そこで、まず最初に、この結果を拡張して
口唇の開大度と舌の形状とに強い相関があるものと仮定
し、Ｆ１−Ｆ２平面から顎−口唇平面への変換を試みる
と、次式にしたがって、図１５のＦ１−Ｆ２平面の
「ア」、「イ」、「ウ」の３母音による三角形は、顎−
口唇平面の「ア」、「イ」、「ウ」による三角形に線形
変換することができる。

【００１０】

【数１】

【００１１】ここで、Ｍ_lipは口唇の開大度、Ｍ_jawは
顎の開大度、ｆ₁、ｆ₂は第１・第２ホルマントであ
る。また、Ｍ_lip-u、Ｍ_jaw-u、ｆ_1u、ｆ_2uはそれぞ
れ、「ウ」に対する口唇、顎の開大度、第１・第２ホル
マントであり、ａ、ｂ、ｃ、ｄは定数である。

【００１２】この〔数１〕式を用いた変換により、各母
音の顎−口唇平面上の位置は図１６のようになる。この
図１６において、両パラメータの値が０のときが発声な
しの状態であり、正の時は開いた状態、負の時はつぼめ
た状態を表す。

【００１３】この図１６に示されるように線形に変換し
た場合には、「エ」は適当と思われる位置となるが、
「オ」については、口唇を「ウ」よりもつぼめることに
なっていて不適当であり、これについての補正が必要で
ある。しかし、各母音のホルマントの値がある幅を持っ
て分布すること、したがって、その線形変換の結果も同
様に分布することから、顎−口唇平面上でこの補正を行
なうためにはその音韻を判別することが必要となり、あ
まり好ましくない。また、このパラメータがそのまま画
像発生装置に利用できるのではなく、パラメータの変換
が必要なこと、顔動画像の動きのスムージング処理が必
要なことなどから、この補正は画像発生装置への入力デ
ータの算出に含めている。

【００１４】

【発明が解決しようとする課題】ところで、公知の画像
発生装置にて顔動画像の制御を行なう場合、口の動きに
関するパラメータとしては顎を開く度合い、口唇をつぼ
める度合い、歯を見せる（上唇を上に引っ張る）度合い
（以下、順にM-JAW 、M-LIP-P 、M-LIP-I ）の３つが定
義されている。大雑把に言って、上述した〔数１〕式を
用いて求めた顎と口唇の開大度はM-JAW とM-LIP-P にそ
れぞれが対応する。

【００１５】まず、ホルマントの線形変換により求めた
データ（以下、顎・口唇データ）をそのまま画像発生装
置に入力して制御を行なったところ、「イ」や「エ」の
ような口の形を表現できず、また、「ア」の入力に対し
て「オ」と発声しているような画像となった。

【００１６】次に、口唇データに対して適当なしきい値
を設定し、そのしきい値と入力データを比較して入力が
「イ」であるか否かを判断してM-LIP-Iを生成するよう
にしたところ、「イ」は表現できるが、「ア」や「エ」
は表現できなかった。さらに「ア」や「エ」まで判断す
ることも試みたが、困難であり、また、合成された動画
像も動きがスムーズなものとはならなかった。

【００１７】以上のように顎・口唇データをそのまま与
えたのでは、「ウ」や「オ」のような丸い口の形は表現
できるが、「イ」や「エ」のような四角い口の形を表現
することができないため、顎・口唇データの２つのパラ
メータから、M-JAW 、M-LIP-P 、M-LIP-I の３つのパラ
メータを導出しなければならないことがわかった。ま
た、パラメータの決定に際して、ある母音から別の母音
へ、無音から発声へなどの中間状態での動作を自然なも
のにするために、各パラメータは連続なデータとなるよ
うに求めなければならない。さらに、発声開始・終了時
付近では顎・口唇データが必ずしも適当なものとはなら
ない。場合によっては、同じ母音に対して正・負の間を
大きく振動することもある。これに対するスムージング
の処理も必要となっていた。

【００１８】本発明の目的は、ある母音を発声している
顔画像から別の母音を発声している顔画像へと言うよう
な変化がスムーズになるように、中間状態の画像が良好
に作成されるようにすることにある。

【００１９】

【課題を解決するための手段】本発明は、入力音声信号
から、当該入力音声信号のスペクトルエンベロープのピ
ークを示すホルマント周波数の中心周波数を求め、この
ホルマント周波数を線型変換及び非線型変換することに
より、下顎及び口唇の動きに関する少なくとも２つのパ
ラメータを求め、これら２つのパラメータから第１の母
音群に対応する第１の関数と、第２の母音群に対応する
第２の関数との少なくとも２つの関数を、それぞれ下顎
開大度及び口唇開大度における関数とし、これらの関数
により求めた下顎及び口唇の変化量に基づき、画像表示
した顔の形状を変形させるようにしたものである。

【００２０】

【作用】このようにしたことで、実際の音声に基づいた
入力音声信号のホルマント周波数に、簡単な線型変換及
び非線型変換の演算を施して、下顎開大度及び口唇開大
度が求まると共に、下顎及び口唇の変化量が求まり、画
像表示した顔の形状を入力音声に合わせてリアルタイム
でスムーズに変化させることができるようになる。

【００２１】

【実施例】以下、本発明の一実施例を、添付図面を参照
して説明する。

【００２２】本例においては、アニメーションの顔画像
の口唇の開大度Ｌと下顎の開大度Ｄ（図１参照）とをス
ムーズに制御するようにしたもので、この下顎及び口唇
の画像データを得るために、まず顎データM-JAW 、口唇
データM-LIP-P 、口唇データM-LIP-I の各平面を仮定す
る。口の形が最もそれらしく見えるようなところに各母
音の位置を決める。

【００２３】次に、各平面上で全ての母音の位置を通過
する連続な曲線（関数）を定義する。この曲線は１次関
数とsigmoid 関数の組合せにより表現する。ここで、１
つの曲線では全ての母音を結ぶのは難しいので、１つの
平面に２つの曲線を定義し、２つの曲線により全ての母
音を含むものとする。ただし、実際には演算の高速化と
簡略化のためにsigmoid 関数を直線近似したものを利用
している。この曲線を図２，図３，図４に示す。この図
２，図３，図４において、M-JAW とM-LIP-I は値が大き
いほど顎を開く度合い、歯を見せる度合いが大きい。M-
LIP-P については値が正に大のときに口をつぼめる度合
いが大きく、負に大のときは口を横に開く度合いが大き
いことを示す。

【００２４】そして、M-JAW に対して口唇データ、M-LI
P-Iに対して顎データというように、入力データが各平
面上の２つの曲線のいずれに近いかを特定できるパラメ
ータを基準として、それにより２つの曲線の重み付けを
施した平均をとり、そのフレームの入力データに対する
高速画像変換装置のパラメータとする。また、M-LIP-P
に対してはM-JAW の大きさに応じてM-LIP-P の最大値を
決定している（図５）。これは口唇をつぼめた状態で同
時に顎を大きく開くことはできないことを意味する。こ
れにより、Ｆ１−Ｆ２平面から顎−口唇平面への線形変
換では不適当な位置に写像されたデータの補正を行なっ
ている。以上の処理により、M-JAW 、M-LIP-P 、M-LIP-
I の３つのパラメータは顎・口唇データにより一意的に
求まり、かつ、顎・口唇データに対して連続な値を持
つ。

【００２５】さらに、現在のフレームを中心に前後２フ
レームずつ、合計５フレームのパラメータを求める。こ
の５フレームでパラメータの値が大きく異なるものがあ
るとき（例えば、４フレームが正の値で、残りの１フレ
ームが負の値のとき）にはそのフレームは無効とする。
そして、現在のフレームに２、それ以外に１の重み付け
をして有効なデータについて平均値を求め、これを画像
発生装置に供給するデータとする。

【００２６】なお、Ｆ１−Ｆ２平面から顎−口唇平面へ
の変換は「ア」、「イ」、「ウ」について次に示す〔表
１〕のように対応付けられるように係数を求めて、変換
を行なった。

【００２７】

【表１】

【００２８】このようにして、母音の離散発声と連続発
声（ともに「ア」、「イ」、「ウ」、「エ」、「オ」の
順に発声）のそれぞれについてデータを求め、同一の変
換を行なって画像発生装置に供給した。その結果、離散
発声・連続発声とも完全に動画の制御を行なうことがで
きた。また無音から発声へ、発声から無音への変化もス
ムーズなものとなった。本例での顔動画像の作成例を図
６，図７，図８，図９，図１０に示す。この図６〜図１
０は、「ア」、「イ」、「ウ」、「エ」、「オ」の発声
時の顔動画像を示す。

【００２９】本実施例では３つのパラメータだけで口の
動きの制御を行なっており、動きは左右対称なものとな
っている。また、画像の変形は画像を構成する曲面の曲
げ延ばしや伸縮によりなされる。

【００３０】なお、動きのパラメータの求め方である
が、上述したように口の動きには左右非対称な成分も含
まれている。上述実施例のように母音のみの表現におい
ては左右対称な動きでも良いであろうが、顔全体の動き
を制御して表情を表現しようとするならば、より高度な
制御が必要になる。

【００３１】また、本例のデータに基づいて画像発生装
置で作成した画像は、曲面の伸縮・曲げ延ばしによる画
像の変形であり、口の動きが口の周辺にも影響し、自然
な動きに近いアニメーションとなる。

【００３２】また、従来の方法では、音声入力による顔
動画像の制御を行なう場合に音韻の認識を必要とするの
に対し、本実施例では音韻の認識を行なうことなく画像
の制御を行なっており、音声の入力から顔動画像の出力
までを考えた場合に、より高速に処理できる。

【００３３】

【発明の効果】本発明によると、音声信号のホルマント
周波数を与えると比較的簡単なアルゴリズムによって、
画像の口の動きをスムーズに制御することが可能とな
る。従って、音声による動画像の制御の利用分野とし
て、・発話障害者の発声矯正への利用・アニメーション作成支援・言語学習用ＣＡＩ・情報検索システムのＭＭＩなどに応用することができる。

【図面の簡単な説明】

【図１】本発明の一実施例により作成されるデータを示
す説明図である。

【図２】一実施例による顎データからパラメータへの変
換状態を示す特性図である。

【図３】一実施例による口唇データからパラメータへの
変換状態を示す特性図である。

【図４】一実施例による口唇データからパラメータへの
変換状態を示す特性図である。

【図５】一実施例によるパラメータの決定状態を示す特
性図である。

【図６】一実施例により作成された画像例を示す説明図
である。

【図７】一実施例により作成された画像例を示す説明図
である。

【図８】一実施例により作成された画像例を示す説明図
である。

【図９】一実施例により作成された画像例を示す説明図
である。

【図１０】一実施例により作成された画像例を示す説明
図である。

【図１１】音声の波形の一例を示す波形図である。

【図１２】音声の波形の一例を示す波形図である。

【図１３】音声の波形の一例を示す波形図である。

【図１４】ホルマント周波数の遷移状態を示す特性図で
ある。

【図１５】Ｆ１−Ｆ２平面を示す特性図である。

【図１６】顎−口唇平面を示す特性図である。

【符号の説明】

Ｄ下顎の開大度Ｌ口唇の開大度

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＧ１０Ｌ 19/02 Ｇ１０Ｌ 9/06 Ｃ 21/06 3/00 ５５１Ｈ // Ａ６３Ｆ 13/00 Ｓ 9/04 Ｇ (56)参考文献特開平４−73698（ＪＰ，Ａ) 特開平２−83727（ＪＰ，Ａ) 特開昭57−126000（ＪＰ，Ａ) 特開昭47−3008（ＪＰ，Ａ) 実開平４−40285（ＪＰ，Ｕ) 特許2667455（ＪＰ，Ｂ２) 特許2644789（ＪＰ，Ｂ２) 特許2518683（ＪＰ，Ｂ２) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 11/00 - 13/08 G10L 19/00 - 21/06 G10L 15/00 - 17/00 ＪＩＣＳＴファイル（ＪＯＩＳ) 実用ファイル（ＰＡＴＯＬＩＳ) 特許ファイル（ＰＡＴＯＬＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】入力音声信号から、当該入力音声信号の
スペクトルエンベロープのピークを示すホルマント周波
数の中心周波数を求め、このホルマント周波数を線型変
換及び非線型変換することにより、下顎及び口唇の動き
に関する少なくとも２つのパラメータを求め、これら２つのパラメータから第１の母音群に対応する第
１の関数と、第２の母音群に対応する第２の関数との少
なくとも２つの関数を、それぞれ下顎開大度及び口唇開
大度における関数とし、これらの関数により求めた下顎及び口唇の変化量に基づ
き、画像表示した顔の形状を変形させることを特徴とす
る音声信号に基づく画像の変形方法。