JP2003281567A

JP2003281567A - ３次元画像生成装置およびその画像生成方法ならびにその画像生成プログラムを記録したコンピュータ読取り可能な記録媒体

Info

Publication number: JP2003281567A
Application number: JP2002077780A
Authority: JP
Inventors: Yukihiro Okutomi; 幸大奥富; Takahiro Watanabe; 孝弘渡辺; Masaharu Nagata; 政晴永田
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2002-03-20
Filing date: 2002-03-20
Publication date: 2003-10-03
Anticipated expiration: 2022-03-20
Also published as: JP3822828B2

Abstract

(57)【要約】【課題】環境変化の影響を受けにくい３次元画像を生
成する３次元画像生成装置およびその画像生成方法なら
びにその画像生成プログラムを記録したコンピュータ読
取り可能な記録媒体の提供。【解決手段】アニメーション合成装置10は、入力イン
タフェース部12を介して画像信号24、音声信号26および
キー信号28を入力し、パラメータ解析部14で動作パラメ
ータおよび確信情報を含む解析データ36, 38をそれぞれ
生成し、解析データ36, 38とキー信号による動作パラメ
ータ34をパラメータ統合選択部16にて統合し、パラメー
タ統合選択部16では入力した信号に対する優先度の順に
画像および音声確信情報を合わせて考慮し、選択する信
号の判断を行うことにより、表情合成部20に出力してい
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、たとえばビデオカ
メラ等の画像入力装置で撮影された人物の顔画像、音声
に基づいて３次元画像のアニメーションを合成する３次
元画像生成装置に関するものである。また、本発明は、
たとえば３次元画像を入力する情報に応じてアニメーシ
ョン合成を行う画像生成方法に関するものである。さら
に本発明は、この画像生成の機能を実現させる画像生成
プログラムを記録したコンピュータ読取り可能な記録媒
体に関するものである。

【０００２】

【従来の技術】テレビジョンカメラで撮影された人物の
顔画像の表情を他の人物の３次元顔モデルに反映させた
３次元顔画像を作成する３次元画像生成装置が、特許第
3055666号公報に提案されている。この３次元画像生成
装置は、入力した顔動画像から顔要素の変化量を表情認
識手段で抽出し、抽出した変化量を表情変換手段であら
かじめ得られた顔要素の変化率に基づいて３次元顔モデ
ルの変形パラメータに変換し、変形パラメータに応じた
３次元顔モデルの画像を合成している。

【０００３】

【発明が解決しようとする課題】ところで、上述した３
次元画像生成装置は、撮影環境の変化に応じて３次元顔
モデルの画像が生成できないことがある。画像生成がで
きない一例に、撮影環境が暗い場合がある。このような
環境下で撮影すると、得られる動画像も環境に応じて暗
い画像が得られる。表情認識手段でこの暗い画像を基に
顔要素の変化量を抽出しようとしても変化量が取得でき
ないことがある。このため、３次元顔モデルを用いた３
次元の顔画像を生成しても、この顔画像には、表情に応
じて変形を反映させることができない。これは、３次元
画像生成装置の目的が達成できないことを意味する。

【０００４】本発明はこのような従来技術の欠点を解消
し、環境変化の影響を受けにくい３次元画像を生成する
３次元画像生成装置およびその画像生成方法ならびにそ
の画像生成プログラムを記録したコンピュータ読取り可
能な記録媒体を提供することを目的とする。

【課題を解決するための手段】本発明は上述の課題を解
決するために、撮影された対象人物を含む第１の画像信
号を入力するとともに、第１の画像信号に関連して対象
人物が付帯的に発する情報の変換された電気信号および
この付帯情報を示す電気信号を入力するインタフェース
手段と、第１の画像信号に含まれる顔画像を抽出して顔
の特徴的な部位の変化を解析して表情を表すパラメータ
とこのパラメータの信頼性を示す画像確信情報を生成
し、付帯情報のうち、対象人物の発話による音声信号か
ら表情を反映する情報を解析して表情を表すパラメータ
とこのパラメータの信頼性を示す音声確信情報を生成す
る情報解析手段と、この情報解析手段で解析したパラメ
ータおよびインタフェース手段からの付帯情報信号に対
してあらかじめ判断手順の優先度を設定し、この設定し
た優先度の高さとともに、画像および音声確信情報のそ
れぞれが各所定の閾値以上か否かを基にパラメータおよ
び付帯情報信号のいずれか一つを選択判断する統合選択
手段と、この統合選択手段からの選択に応じてあらかじ
め選んだ前記対象人物と異なる３次元表示される第２の
画像信号に表情を反映させる表情合成手段とを含むこと
を特徴とする。

【０００５】本発明の３次元画像生成装置は、インタフ
ェース手段を介して第１の画像信号および付帯的な電気
信号を入力し、情報解析手段でこれら入力された信号を
解析することにより直接的に表情を表すパラメータや間
接的に表情の情報から表情を表すパラメータならびに画
像および音声確信情報をそれぞれ生成し、これらパラメ
ータと付帯情報信号を統合選択手段に統合し、統合選択
手段では入力した信号に対する優先度の順に画像および
音声確信情報を合わせて考慮し、選択する信号の判断を
行うことにより、表情合成手段に供給されるこれまでの
直接的に表情を表すパラメータと異なるパラメータでも
対象人物の表情にあわせた変化を持たせて３次元表示さ
れる第２の画像信号を生成することができる。

【０００６】また、本発明は上述の課題を解決するため
に、供給される第１の画像信号に含まれる顔画像を抽出
し、抽出した顔画像から顔の表情を表す表情データを基
に第２の画像信号に表情を持たせる３次元画像を生成す
る方法において、撮影された対象人物を含む第１の画像
信号の入力、第１の画像信号に関連して前記対象人物が
付帯的に発する情報の変換された電気信号およびこの付
帯情報を示す電気信号を入力する第１の工程と、第１の
画像信号が含む顔画像を抽出して顔の特徴的な部位の変
化を解析するパラメータおよびこのパラメータの信頼性
を示す画像確信情報、ならびに付帯情報のうち、電気信
号としての音声信号から表情を反映する情報を解析して
表情を表すパラメータおよびとこのパラメータの信頼性
を示す音声確信情報の少なくとも一方の組を生成する第
２の工程と、この解析したパラメータおよび付帯情報に
対してあらかじめ判断を行う優先度を与えておき、この
与えた優先度の高さを考慮しながら、画像確信情報や音
声確信情報のそれぞれが各所定の閾値以上か否かを基に
パラメータおよび付帯情報信号のいずれか一つを選択判
断する第３の工程と、この判断による選択に応じてあら
かじめ選んだ前記対象人物と異なる３次元表示される第
２の画像信号に表情を反映させた合成画像を生成する第
４の工程とを含むことを特徴とする。

【０００７】本発明の３次元画像生成方法は、第１の画
像信号だけでなく、付帯情報信号も入力しておき、これ
ら入力された信号を解析して直接的に表情を表すパラメ
ータおよび画像確信情報や間接的に表情の情報から表情
を表すパラメータおよび音声確信情報をそれぞれ生成
し、これらパラメータと付帯情報信号を統合する。統合
した中から現状に合った信号を出力する際に、あらかじ
め与えてある優先度の高さを考慮しながら、画像確信情
報と音声確信情報のそれぞれが各所定の閾値以上か否か
を基に判断し、この判断により選択した信号に応じた３
次元表示される第２の画像信号に表情を持たせて出力す
る。このように統合選択することにより、たとえば不完
全な環境で第１の画像信号をサンプリングするような場
合でも、途切れることなく第２の画像を合成することが
できる。

【０００８】

【発明の実施の形態】次に添付図面を参照して本発明に
よる３次元画像生成装置の実施例を詳細に説明する。

【０００９】本実施例は、本発明の３次元画像生成装置
をアニメーション合成装置10に適用した場合である。本
発明と直接関係のない部分について図示および説明を省
略する。以下の説明で、信号はその現れる接続線の参照
番号で指示する。

【００１０】アニメーション合成装置10には、図１に示
すように、入力インタフェース部12、パラメータ解析部
14、パラメータ統合選択部16、パラメータ自動提供部1
8、表情合成部20および音声出力部22が含まれている。

【００１１】入力インタフェース部12には、外部のセン
サや装置のそれぞれにて取り込んだ信号をチャネルと
し、アニメーション合成装置10に入力する機能が信号の
種類に応じて用意されている。入力信号の種類は、画像
信号24、音声信号26およびキー信号28である。入力イン
タフェース部12は、これら３つの信号24, 26, 28に対応
して画像入力部12a、音声入力部12bおよびキー入力部12
cが配設されている。入力インタフェース部12には、画
像信号24、音声信号26およびキー信号28のように複数チ
ャネルが供給されるが、これらチャネルのうち、少なく
とも２種類以上の入力に対応できるように構成すること
が好ましい。これは、後述するようにたとえば画像信号
24が動作パラメータの信頼性が低い場合でもこれ以外の
動作パラメータで３次元画像を生成させるためである。

【００１２】画像入力部12aは、図示しないビデオカメ
ラからの顔画像を含む画像信号24を１フレーム単位でキ
ャプチャするインタフェース回路である。画像信号24
は、外部に設けたビデオカメラから得られた画像信号を
ディジタル化した画像データである。画像信号がアナロ
グ信号の場合、画像アナログ入力端（図示せず）に供給
する。ここに供給することにより、入力信号を図示しな
いA/D変換器でディジタル信号に変換する。画像入力部1
2aは、画像データ30を画像解析部14aに供給する。

【００１３】音声入力部12bは、図示しないマイクロフ
ォンからたとえば、会話時の発話にともなう音声信号26
をキャプチャするインタフェース回路である。音声信号
26は、外部に設けたマイクロフォンで得られた音声信号
をディジタル化した音声データである。音声信号がアナ
ログ信号で供給される場合、音声アナログ入力端（図示
せず）に供給する。ここに供給することにより、入力信
号を図示しないA/D変換器でディジタル信号に変換す
る。音声入力部12bは、音声データ32aを音声解析部14b
に供給する。また、音声入力部12bは、入力した音声デ
ータ26をそのまま音声データ32bとして音声出力部22に
も供給している。

【００１４】キー入力部12cは、図示しないキーボード
の押圧操作にともない供給されるキー入力信号（キー情
報）28を取得するインタフェース回路である。キーボー
ドには、キーのアドレスが設定されているだけである。
このため、キー設定用のレジスタが設定される。たとえ
ばアドレス先のレジスタには、動作パラメータが格納さ
れている。表情の作成に用いる動作パラメータと特定の
動作とを対応付けている。具体的には、感情の表れであ
る喜怒哀楽、たとえば人物の動作を総称するジェスチャ
ー、強調等の動作パラメータがあらかじめ登録されてい
る。ジェスチャーには、たとえばうなずき動作が含まれ
ている。アドレスが直接的に供給される設定の場合、キ
ー入力部12cにはレジスタが配設されている。キー入力
部12cは、供給されるデータに対応した動作パラメータ3
4をパラメータ統合選択部16に出力する。

【００１５】なお、本実施例では、画像信号処理に着目
して説明していることから、画像、音声をサンプリング
するセンサや情報入力装置を外部に設ける設定にしてい
るが、この設定に限定されることなく、情報入力部とし
て一体的に配設したり、システム化するように構成して
もよい。一体的に構成し、小型化が実現できれば、携帯
機器に対応できるし、システム化すると、たとえばコン
ピュータを利用したテレビ電話等の情報端末装置に適用
できる。

【００１６】パラメータ解析部14には、画像解析部14a
および音声解析部14bが備えられている。画像解析部14a
には、図示しないが画像データ30に含まれる顔画像の解
析、顔要素の変形量の測定、この変形量から３次元画像
データを変形させる動作パラメータおよび顔要素の変形
量測定にともなう画像解析確信度の算出を行う機能部が
含まれている。画像解析部14aは、動作パラメータおよ
び画像解析確信度を含む解析データ36をパラメータ統合
選択部16に出力する。

【００１７】音声解析部14bには、ここでも詳細に図示
しないが供給された音声データ32aの解析、発話にとも
なう口の形状変形量の測定、この変形量から３次元画像
データを変形させる動作パラメータおよび変形量測定に
ともなう音声解析確信度の算出を行う機能部が含まれて
いる。音声解析部14bは、動作パラメータおよび音声解
析確信度を含む解析データ38をパラメータ統合選択部16
に出力する。

【００１８】パラメータ統合選択部16には、解析データ
36, 38および動作パラメータ34, 40と４つのデータがチ
ャネルとして統合的にパラメータ選択部16aに供給され
る。パラメータ選択部16aは、図示しないシステム制御
部の制御により、供給された４種類のデータの中で、３
次元のキャラクタ画像（またはモデル画像）に対して表
情を反映させることができるかを判断して表情合成部20
に出力する判断選択機能を有している。また、パラメー
タ統合選択部16には、後述するように、パラメータ選択
部16aの他に、選択した動作パラメータに対して処理を
施す機能を含むようにしてもよい。パラメータ統合選択
部16は、最終的に選択した動作パラメータ42を表情合成
部20に出力する。

【００１９】表情合成部20は、供給される動作パラメー
タ42に応じて３次元のキャラクタ画像（またはモデル画
像）の特徴点の位置を変化させ、ポリゴンによって構成
される３次元キャラクタモデルをレンダリング処理する
グラフィック機能を有している。表情合成部20は、生成
した３次元のキャラクタ画像データ44を図示しないモニ
タに出力する。

【００２０】パラメータ自動提供部18は、表情をもたら
すパターン、たとえばN秒毎（NはN＞0の実数)に「まば
たき」をさせるパターン、頭部をランダムに上下左右に
動かすパターン、「うなずき」のパターン等に対応した
動作パラメータを保存し、ランダムまたは規則的に、自
動的にパターンを出力する機能を有する。この機能を実
現するためパラメータ自動提供部18には、図示しないが
各パターンに対応した特徴点の位置に対する動作パラメ
ータを保存するメモリと、パターンの読出しを自動制御
する機能部とを含んでいる。パラメータ自動提供部18
は、動作パラメータ40をパラメータ統合選択部16に出力
する。

【００２１】本実施例において、後段の動作手順で説明
するように信頼性の高い動作パラメータが得られなか
った場合にパラメータ自動提供部18からの動作パラメー
タを採用するようにしているが、この手順に限定されな
い。パラメータ自動提供部18は、たとえば信頼性の高い
動作パラメータが画像解析部14aや音声解析部14bから得
られている場合でも「まばたき」やランダムに頭を動か
す等の動作パラメータを挿入するようにしてもよい。

【００２２】音声出力部22は、供給される音声データ32
bをアナログ音声信号に変換するD/A変換器と、音量調整
用の可変増幅回路とを含んでいる。音声出力部22は、音
声信号46を図示しないスピーカに供給する。

【００２３】これらの構成要素が有する機能を実現する
ようにプログラムを生成し、この記録媒体に格納するよ
うにしてもよい。

【００２４】表情を加味した３次元のキャラクタ画像
（またはモデル画像）を順次生成することによりアニメ
ーションとして図示しないモニタに表示させることがで
きる。このとき、表示する画像の発話タイミングと音声
信号の出力を同期させると、見る側に違和感のない鑑賞
が行える。

【００２５】次にアニメション合成装置10の動作を説明
する（図２を参照）。まず、外部からアニメーション合
成装置10に画像データ、音声データおよびキーデータを
入力する（ステップS10)。このデータ入力を具体的に説
明すると、ビデオカメラで対象となる人物の顔画像を撮
影し、アニメーション合成装置10の画像入力部12aに撮
影した人物の顔画像を１フレーム単位でキャプチャす
る。

【００２６】また、撮影と同時にマイクロフォン（図示
せず）で発話にともなう音声を取得する。この取得した
音声は、A/D変換にてディジタル信号に変換しておくと
よい。アニメーション合成装置10の音声入力部12bには
画像と同じくディジタル化した音声データが供給され
る。音声入力部12bは音声データをキャプチャする。さ
らに、図示しないキーポードの押圧操作でキーアドレス
に対応して割り当てておいた動作パラメータをキー入力
部12cに供給する。キー入力部12cは、キーに対応して供
給された動作パラメータをキー情報としてキャプチャす
る。

【００２７】画像入力部12aおよび音声入力部12bは、パ
ラメータ解析部14にそれぞれ画像データ30および音声デ
ータ32aを出力する。キー入力部12cは、動作パラメータ
34をパラメータ統合選択部16に送る。また、アニメーシ
ョン合成装置10がパラメータ自動提供部18を有している
とき、上述したキャプチャに対応した動作パラメータが
パラメータ自動提供部18からパラメータ統合選択部16に
供給されている。

【００２８】次に画像データ30および音声データ32aに
対するパラメータ解析処理を施す（サブルーチンSUB
1）。パラメータ解析処理は、動作パラメータの解析を
行うとともに、解析の信頼性の判断尺度を表す解析確信
度も解析するデータ毎に生成する。動作パラメータと
は、３次元画像を合成する上で、たとえば「目」や
「口」といった顔の特徴的な部位を要素（特徴点）と
し、各要素における基本位置からの変化量を表したデー
タで、表情データとも呼ぶものである。画像および音声
におけるパラメータ解析については後段でさらに説明す
る。画像および音声における動作パラメータおよび解析
確信度を含む解析データ36, 38をパラメータ統合選択部
16に送ってパラメータ統合選択処理に進む（サブルーチ
ンSUB2）。

【００２９】パラメータ統合選択処理では、供給される
解析データ36, 38および動作パラメータ34, 40を入力と
し、図３に示すように、これらに基づく動作パラメータ
の選択処理（パラメータ選択処理：サブルーチンSUB3）
を行い、環境変化の影響を受け難い動作パラメータを選
択して表情合成部20に出力する（サブステップSS20）。
詳細は後段で説明する。

【００３０】図２に戻って、次に動作パラメータ42を基
に３次元画像モデルから３次元画像を生成する（ステッ
プS12)。３次元画像を生成する方法は、様々な手法が提
案されている。一例として所望する３次元画像モデルに
おけるワイヤフレームによる顔の骨格（ボーン）モデル
に対してこのモデルの動作パラメータに供給される動作
パラメータ42を使用して３次元画像を生成する。

【００３１】次に生成した３次元画像データ44および音
声信号46を出力する（ステップS14)。アニメーション合
成装置10は、表情合成部20から３次元画像データ44を図
示しないモニタに出力するとともに、音声データ32bをD
/A変換した音声信号46を図示しないスピーカに出力す
る。

【００３２】そして１枚の３次元画像および音声信号を
出力の後、たとえば、ボタン押圧操作によりアニメーシ
ョン合成装置10の動作終了を示す割込信号が供給された
か否かを判断する（ステップS16)。画像生成を継続させ
る場合（NO）、データの入力を継続する。また、画像生
成を終了させる場合（YES)、アニメーション合成装置10
の動作を終了させる。アニメーション合成装置10は、継
続動作させることによって生成した３次元画像を連続に
供給する。これによって、表情を反映したアニメーショ
ン表示が行われる。この場合、表情の読取りに用いる画
像の撮影状況が悪化して画像から動作パラメータが読み
取れなくても、読み取れなかった動作パラメータと異な
る選択した動作パラメータで３次元画像を生成すること
ができる。

【００３３】次にパラメータ解析部14の動作について図
４を参照しながら説明する（サブルーチンSUB1）。ま
ず、画像解析部12aで供給される画像データ30に対して
画像解析を行う（サブステップSS10）。この画像解析
は、供給される画像データ30から顔の領域を抽出し、顔
画像を得る。本実施例では、あらかじめ、基準となる顔
画像の中で「口」、「目」、「鼻」など、顔を構成する
部位を特徴点としてその座標値とともに切出しテンプレ
ートを用意しておく。

【００３４】なお、テンプレートは、複数の画像から作
成し、各部位毎に複数枚用意しておくことが好ましい。

【００３５】顔の３次元画像の生成に用いる動作パラメ
ータを基準となる特徴点の位置からの変化量すなわち、
差として部位毎に求める。また、供給された画像に対す
る画像解析確信度も併せて求める。本実施例ではテンプ
レートマッチングを用いた手法を用いる。

【００３６】テンプレートマッチングは、動作パラメー
タの抽出対象となる対象画像データ（以下、単に対象画
像という）が入力された際に、前述した各部位毎のテン
プレートのうち、たとえば「口」のテンプレートに近い
画像形状を持つ部分を対象画像から探索する。そして、
この方法は、「口」の動作パラメータとして探索した中
で最も近い形状のテンプレートの座標値を出力する。

【００３７】なお、テンプレートとの比較は、たとえ
ば、ユークリッド距離を求めてこの距離をテンプレート
との差として用いることにより行うことができる。さら
に、「口」における動作パラメータの画像解析確信度
は、このユークリッド距離としている。したがって、画
像解析確信度が小さいほどこの動作パラメータの信頼性
は高くなる。同様にして「目」や「鼻」などの動作パラ
メータおよぴ画像解析確信度も生成する。

【００３８】次に音声解析部12bで供給される音声デー
タ32aに対して音声解析を行う（サブステップSS12）。
音声解析は、音声データ32aから動作パラメータおよび
音声解析確信度を生成する。本実施例では、隠れマルコ
フモデル(Hidden Markov model: 以下、HMMという)の手
法を用いる。このモデルでは、あらかじめ、基準となる
音声データからHMMで音素をモデル化し、このモデルと
対応する「口」形状の動作パラメータとをともに、辞書
として用意しておく。

【００３９】動作パラメータの抽出対象となる音声デー
タ（以下、対象音声という）が入力されると、HMMで対
象音声をモデル化する。音声解析部14bでは、対象音声
のモデルと上述した辞書にあるモデルとの尤度を評価し
て、辞書中の最も尤度の高いモデルを探索する。探索結
果、このモデルに対応する辞書中のモデルが有する動作
パラメータを対象音声の動作パラメータとして出力す
る。さらに、この動作パラメータの音声解析確信度は、
前述の評価に用いた尤度とする。したがって、この場
合、音声解析確信度が大きいほどこの動作パラメータの
信頼性は高くなる。また、前述したHMMを用いた手法に
加え、たとえば大きな声が発声された場合に「まばた
き」をするなどの定義をあらかじめ行うことにより、
「口」の形状以外の動作パラメータも生成することがで
きる。

【００４０】音声解析の後、リターンに移行してサブル
ーチンSUB1を終了し、メインルーチンに戻る。

【００４１】ここで、画像解析処理と音声解析処理は、
便宜上、逐次的に記載したが、これらの処理動作は、同
時並行的に行われるものである。したがって、各処理の
動作パラメータは、ほぼ同時にパラメータ統合選択部16
に出力される。

【００４２】次にパラメータ統合選択部16におけるパラ
メータ選択部16aの動作について図５を参照しながら説
明する（サブルーチンSUB3）。パラメータ選択部16aで
は、選択に優先度を持たせて判断するようにしている。
優先順位は、最優先をキー情報の動作パラメータ34の入
力、第２に、画像における解析データ36の入力、第３
に、音声における解析データ38、そして最後にパラメー
タ自動提供部18からの動作パラメータ40にしている。本
実施例では、キー情報はユーザが特に意図して動作させ
たい要求の高いときに行う行為と判断して最優先を設定
している。この優先順位を考慮してパラメータの選択判
断が行われる。

【００４３】最初にキー情報が供給されているか否かを
確認する（サブステップSS300)。キー情報が存在する場
合（YES)、サブステップSS302に進む。サブステップSS3
02では、キー情報に対応付けられた動作パラメータ34を
選択し、表情合成部20に出力する。この出力後、リター
ンに移行してサブルーチンSUB3を終了する。また、キー
情報が存在しない場合（NO)、画像における解析データ3
6が供給されているか否かの確認へ進む（サブステップS
S304へ)。

【００４４】次に画像における解析データ36が供給され
ているか否かを確認する（サブステップSS304)。解析デ
ータ36が供給されている場合（YES)、解析データ36の判
定に進む（サブステップSS306へ)。また、解析データ36
が供給されていない場合（NO)、音声における解析デー
タ38が供給されているか否かの確認へ進む（サブステッ
プSS308へ)。

【００４５】サブステップSS306では、解析データ36に
含まれる画像解析確信度が所定の閾値以下の値を有する
か否かを判断する。画像解析確信度が所定の閾値以下の
値にある場合（YES)、動作パラメータの信頼性が十分に
高いと判断して解析データ36の動作パラメータを出力す
る（サブステップSS310）。そして、この出力後、リタ
ーンに移行してサブルーチンSUB3を終了する。また、解
析データ36に含まれる画像解析確信度が所定の閾値より
高い値の場合（サブステップSS306: NO)、解析データ36
が存在しない場合（NO)と同様に音声における解析デー
タ38が供給されているか否かの確認へ進む（サブステッ
プSS308へ)。

【００４６】次に音声における解析データ38が供給され
ているか否かを確認する（サブステップSS308)。解析デ
ータ38が供給されている場合（YES)、解析データ38の判
定に進む（サブステップSS312へ)。また、解析データ38
が供給されていない場合（NO)、パラメータ自動提供部1
8から供給される動作パラメータ40を出力する。この
後、リターンに進んでサブルーチンSUB3を終了する。

【００４７】次にサブステップSS312において解析デー
タ38に含まれる音声解析確信度が所定の閾値以上の値を
有するか否かを判断する。音声解析確信度が所定の閾値
以上の値にある場合（YES)、動作パラメータの信頼性が
十分に高いと判断して解析データ38の動作パラメータを
出力する（サブステップSS316)。そして、この出力後、
リターンに移行してサブルーチンSUB3を終了する。ま
た、解析データ38に含まれる音声解析確信度が所定の閾
値より低い値の場合（サブステップSS312: NO)、信頼で
きる動作パラメータがないと判断し、解析データ38が存
在しない場合（NO)と同様にパラメータ自動提供部18に
より供給される動作パラメータ40を出力する。そして、
サブステップSS314へ進み、リターンに進んでサブルー
チンSUB3を終了する。

【００４８】このように複数のチャネルとしてキーボー
ドからの入力、画像、音声および自動生成された動作パ
ラメータなどを統合し、これら動作パラメータから信頼
性の高いもの優先順位に応じて選択することにより、環
境により一部のチャネルからの抽出する表情に関する情
報が不完全にしか得られない場合においても、別なチャ
ネルからの動作パラメータを的確に適用することができ
るようになる。これにより、アニメーション合成装置10
は、環境変化に影響を受けにくいアニメーション合成を
行うことができるようになる。

【００４９】なお、本実施例は、３次元画像の生成につ
いて説明したが、本発明はこの実施例に限定されるもの
でなく、動作パラメータに設定している基準位置からの
変化量を視覚的に表せるものであれば２次元画像の生成
等にも適用できる。また、本実施例では、概念的なもの
として、「口」の動作パラメータを画像解析部14aから
求めたが、この方法に限定されるものでなく、たとえば
音声解析部14bから「口」の動作パラメータを求め、
「目」の動作パラメータを画像解析部14aから得る等の
ように、任意に部位（部品）毎に動作パラメータを取捨
選択して組み合わせてもよい。

【００５０】次に本発明の３次元画像生成装置を適用し
たアニメーション合成装置10の変形例をいくつか説明す
る。本実施例は、先の実施例と構成が同じであることか
ら、同じ参照符号を用い、構成の説明を省略する。さら
に、本実施例は、先の実施例と異なるパラメータ統合選
択部16におけるパラメータ選択部16aの動作について説
明する。〈第１変形例〉この変形例は、図６に示すように、図５
におけるサブステップSS306とサブステップSS310との間
に処理手順を追加している。

【００５１】サブステップSS306で画像における解析デ
ータ36が存在し、画像解析確信度が所定の閾値以下にあ
る場合（YES)、動作パラメータが十分信頼できる値であ
ると判断し、さらに音声解析に進む（サブステップSS31
8へ)。音声解析において、音声における解析データ38が
存在するか否かを判断する（サブステップSS318)。解析
データ38が存在すると判断した場合（YES)、音声解析確
信度の確認に進む（サブステップSS320へ)。

【００５２】音声解析確信度の確認は、サブステップSS
312と同様に、音声解析確信度が所定の閾値以上にある
か否かの判断処理である（サブステップSS320)。音声解
析確信度が閾値以上の場合（YES)、解析データ38の動作
パラメータが十分信頼できる値であると判断する。そし
て、平均化処理に進む（サブステップSS322)。また、先
のサブステップSS318で解析データ38が存在しなかった
場合（NO)やこのサブステップSS320で音声解析確信度が
所定の閾値より小さかった場合（NO）、画像における解
析データ36の動作パラメータを出力するサブステップSS
310に進む。

【００５３】平均化処理は、画像における動作パラメー
タと音声における動作パラメータとの平均値を算出する
（サブステップSS322)。ここで、平均化処理は、両動作
パラメータの平均化に限定されるものでなく、各確信度
に応じて各動作パラメータへの重みを決定し、これを考
慮した動作パラメータを用いる。

【００５４】この手順を加えることにより、画像および
音声から得られた動作パラメータの信頼性がともに高い
場合、平均化することにより双方の動作パラメータが融
合される。これにより、より正確な３次元画像が合成で
きるようになる。〈第２変形例〉次に図７を用いてパラメータ統合選択部
16の変形例を説明する。パラメータ統合選択部16は、パ
ラメータ選択部16aだけでなく、平滑化処理部16bおよび
メモリ16cを含んでいる。平滑化処理部16bは、現フレー
ム画像における動作パラメータを過去に合成した３次元
画像における動作パラメータを基にこの動作パラメータ
との変化量として調整する機能を有している。

【００５５】平滑化処理部16bは、メモリ6cから１つ前
のフレームにおける動作パラメータを読み出して現フレ
ームにおける動作パラメータとの差分を算出する差分算
出機能部（図示せず）と、この差分があらかじめ設定し
た所定の最大値と所定の最小値で示す許容範囲から外れ
た少なくとも所定の最大値以上および所定の最小値以下
のいずれであるか否かを判断する許容判断機能部（図示
せず）とを含む。許容判断機能部は、判断結果の真偽に
応じて差分を所定の最大値および所定の最小値の近い方
のいずれかで現フレームにおける動作パラメータを書き
換えている。平滑化処理部16bは、パラメータ選択部16a
から供給される動作パラメータ42を入力し、アニメーシ
ョンとして時間方向に対する平滑化の施された動作パラ
メータ42aを表情合成部20に出力する。

【００５６】メモリ16cは、複数の３次元画像における
動作パラメータを保持する記憶回路を有している。メモ
リ16cは、Mフレーム前（MはM＞0の整数)から現フレーム
までのM+1フレーム分の動作パラメータを格納してい
る。また、メモリ16cは、１フレーム毎に最も古いフレ
ームの動作パラメータと最新フレームの動作パラメータ
とを更新している。メモリ16cでは、図示しないシステ
ム制御部からの制御に応じて動作パラメータ42bの書込
み／読出しが行われている。

【００５７】この変形例における動作手順は、図８に示
すようにパラメータ選択処理（サブルーチンSUB3）の後
段に平滑化処理（サブルーチンSUB4）を行い、得られた
動作パラメータ42aを出力する（サブステップSS20)。こ
の後に手順をリターンに移行させ、サブルーチンSUB2を
終了する。

【００５８】この平滑化処理については、より詳細な動
作について図９を参照しながら説明する。本実施例で、
メモリ16cは、過去のフレーム分として１フレームを蓄
積している。この処理手順に先立ち、フレーム間におけ
る動作パラメータの変化量が許容される範囲をあらかじ
め設定しておく。すなわち各部位（特徴点）毎の動作パ
ラメータに対する変化量の最大値および最小値を設定し
ている。

【００５９】まず、メモリ16cが保存する現フレームに
対して１フレーム前の動作パラメータを読み出す（サブ
ステップSS400)。次に１フレーム前の動作パラメータと
現フレームの動作パラメータの差分を変化量として算出
する（サブステップSS402)。

【００６０】次に特徴点毎に算出した動作パラメータと
あらかじめ設定している変化量の最大値およぴ最小値と
を比較し、許容範囲内にあるか否かを判断する（サブス
テップSS404)。変化量があらかじめ設定している最大値
よりも大きい場合（NO)、変化量が許容範囲内にないと
判断し、この変化量の書換え処理に進む（サブステップ
SS406)。サブステップSS406では、変化量が最大値とな
るように現フレームの該当する部位の動作パラメータを
図示しないシステム制御部の制御により書き換える。

【００６１】同様に、サブステップSS404では、変化量
があらかじめ設定している最小値よりも小さい場合（N
O)も変化量が許容範囲内にないと判断し、この変化量が
最小値となるように現フレームの該当する動作パラメー
タを図示しないシステム制御部の制御により書き換え
る。このように変化量を最小値と最大値の間の許容範囲
内に収めるように動作パラメータを書き換える処理を平
滑化処理と呼ぶ。

【００６２】また、変化量が許容範囲内にある場合（YE
S)、アニメーション合成装置10は、図示しないシステム
制御部の制御により動作パラメータの書き換えを行わな
い。

【００６３】次に現フレームにおける動作パラメータを
メモリ16cに記憶保存する（サブステップSS408)。ここ
での保存は現フレームの動作パラメータであり、許容範
囲内の変化量である。そして、この現フレームの動作パ
ラメータ42aとして表情合成部20に出力する（サブステ
ップSS410)。この後、リターンに移行してサブルーチン
SUB4を終了する。

【００６４】なお、本実施例では、過去フレームを１フ
レーム前まで遡っているが、遡るフレーム数はこれに限
定されるものでなく、たとえば10フレーム分の動作パラ
メータを保存しておき、前述した変化量を各フレーム毎
に求め、算出した変化量の最大値およぴ最小値を統計的
に決定し、得られた統計的な値を基に動作パラメータを
算出するようにしてもよい。

【００６５】これにより、何らかの影響で解析確信度が
高いにもかかわらず、動作パラメータの値に異常が発生
したとしても、変化量を許容範囲に制限することで、た
とえば急激な動作変化を抑えることができ、合成した３
次元画像を動画表示させた際にこの動画動作を滑らかに
見せることができる。〈第３変形例〉次に図10を用いて
パラメータ統合選択部16の変形例を説明する。パラメー
タ統合選択部16は、パラメータ選択部16aおよびパラメ
ータ強調処理部16dを含む。パラメータ強調処理部16d
は、供給される動作パラメータ42をR倍（Rは実数)する
機能を有する。パラメータ強調処理部16dは、強調した
動作パラメータ42cを表情合成部20に出力する。

【００６６】また、パラメータ統合選択部16の動作は、
図11に示すようにパラメータ選択処理（サブルーチンSU
B3）を施した後に、パラメータ強調処理（サブルーチン
SUB5）を施す。パラメータ強調処理には、たとえばあら
かじめ動作パラメータを強調するための係数が設定され
ている。この係数は、ユーザによりマニュアル設定でき
るようにしてもよい。パラメータ強調処理は、図12に示
すように、サブルーチンSUB5として供給される動作パラ
メータ42に係数を乗算する処理を行う（サブステップSS
50）。この処理により強調した動作パラメータ42cを出
力する（サブステップSS52）。この後、リターンに移行
してサブルーチンSUB5を終了する。この後、図11のサブ
ルーチンSUB2に戻って、サブルーチンSUB5によって得ら
れた動作パラメータ42cを出力する（サブステップSS2
0）。そして、リターンに移行してサブルーチンSUB2を
終了する。

【００６７】ところで、３次元画像を動画表現（アニメ
ーション表示）する際には、用いるモデルのキャラクタ
によって実際よりも大きなアクションを起こしたり、ま
たは実際よりも控えめな動作に見せる方がより表現豊か
になる場合がある。このような場合に動作パラメータに
係数を乗算することにより、上述した特定のキャラクタ
に対する動作表現を容易にかつ統括に調整してキャラク
タに適したアニメーション合成を行うことが可能とな
る。〈第４変形例〉さらに、図13を用いてパラメータ統合選
択部16の変形例を説明する。パラメータ統合選択部16
は、パラメータ選択部16a、定レート出力処理部16eおよ
びメモリ16cを含む。パラメータ選択部16aおよびメモリ
16cは、前述した第２変形例の場合と同じであるから説
明を省略する。定レート出力処理部16eは、パラメータ
選択処理部16aから供給される動作パラメータ42のタイ
ミングによらず、あらかじめ設定されたフレームレート
で動作パラメータ42dを出力する機能を有している。定
レート出力処理部16eには、図示しないが出力監視とし
てメモリ16cから読み出した過去の動作パラメータの作
成時刻と現フレームにおける動作パラメータの抽出時刻
との比較する比較判定機能部、上述した両時刻の差から
生成所要時間を算出する生成所要時間演算機能部、生成
所要時間内に生成するフレーム数を求め、該フレーム数
の逆数を差分係数として算出する差分係数算出機能部、
および過去における動作パラメータと前記現フレームに
おける動作パラメータとの差分値を基に該差分値に差分
係数と枚数分の数値を乗算して擬似フレームにおける動
作パラメータを生成して擬似フレーム間の補間を行う生
成所要時間内補間機能部が含まれている。生成所要時間
内補間機能部には、後述するように動作パラメータを蓄
積するバッファメモリも含み、動作パラメータの入出力
（バッファ）管理も行われている。また、メモリ16cに
は、１フレーム前の動作パラメータが保持されている。
時刻を報知するタイマは、定レート出力処理部16eの内
部に配設してもよいし、外部に配設して時刻を報知する
ようにしてもよい。

【００６８】パラメータ統合選択部16の動作は、基本的
に、図14に示すようにパラメータ選択処理（サブルーチ
ンSUB3）を施した後に、定レート出力処理部16eで定レ
ート出力処理（サブルーチンSUB6）を施し、得られた動
作パラメータを出力する（サブステップSS20）。この処
理により、定レートに動作パラメータを出力することが
できる。さらに、この定レート出力処理について図15を
参照しながら説明する。

【００６９】ここで、定レート出力処理部16eには、あ
らかじめパラメータ選択処理部16aにおける動作パラメ
ータ42の出力時間間隔、すなわち最大待ち時間が設定さ
れている。最大待ち時間は、以後タイムアウト時間とい
う。また、定レート出力処理部16eでは、定レート出力
時間もあらかじめ設定しておく。

【００７０】まず、図15に示すように、定レート出力処
理部16eに１フレーム前の動作パラメータとこの動作パ
ラメータが生成された時刻をメモリ16cから読み出す
（サブステップSS600)。次にパラメータ選択処理部16a
に対する動作パラメータ42の出力監視を行う（サブステ
ップSS602)。定レート出力処理部16eは、図示しないが
タイマを有し、動作パラメータ42の出力に応じて時間計
測を行う。出力監視は、タイマで計測した時間とあらか
じめ設定したタイムアウト時間とを比較して、動作パラ
メータ42がタイムアウト時間内に出力されたか否かを判
断する。本実施例では、タイムアウト時間を１秒間とし
ている。

【００７１】出力監視結果が異常と判断された場合（N
O)、タイムアウトに対応して動作パラメータおよび生成
時刻の書換えに進む（サブステップSS604へ)。この書換
え処理は、前フレームにて得られた動作パラメータを現
フレームの動作パラメータとし、この書換えを行った現
在時刻を現フレームにおける動作パラメータの生成時刻
とする（サブステップSS604)。また、出力監視結果が正
常と判断された場合（YES)、動作パラメータおよび生成
時刻の設定に進む（サブステップSS606へ)。この設定
は、正常に得られた動作パラメータとこの動作パラメー
タの得られた時刻を生成時刻とする（サブステップSS60
6)。これらの出力監視にともなう処理の後、動作パラメ
ータの生成に要した時間の算出に進む（サブステップSS
608へ)。

【００７２】サブステップSS608では、動作パラメータ
の生成所要時間の算出を行う。生成所要時間は、現フレ
ームにおける動作パラメータの生成時刻から１フレーム
前で生成した動作パラメータの生成時刻を減算処理して
算出している。

【００７３】次に動作パラメータの生成所要時間とあら
かじめ設定されている定レート出力時間とを基に動作パ
ラメータを定レートで補間して表示合成部42dに出力す
る（サブステップSS610：定レート補間処理)。また、定
レート出力処理部16eは、メモリ16cへのデータ出力も行
う（サブステップSS612へ)。

【００７４】ここで、定レート出力の方法を説明する。
たとえば定レート出力時間を50ミリ秒とする。この場
合、アニメーション合成装置10は、１秒間に20フレーム
分の動作パラメータを用いることになる。一方、生成所
要時間が100ミリ秒要していた場合、生成所要時間は、
設定した定レート出力時間の50ミリ秒よりも１フレーム
分余分に時間がかかっている。したがって、生成所要時
間の間に動作パラメータが不足することから、フレーム
が欠落してしまう。この足りないフレームの動作パラメ
ータを擬似的に生成するサブステップが生成所要時間内
補間処理である。

【００７５】生成所要時間内補間機能部では、擬似的に
動作パラメータを生成する方法として、前フレームの動
作パラメータと現フレームの動作パラメータの差分を算
出する。定レート出力時間と生成所要時間の除算が不足
を示す差分係数である。上述した条件でこの差分係数は
1/2である。生成所要時間内の動作パラメータは、前フ
レームの動作パラメータと差分にこの差分係数を乗算し
た値とを加えて擬似フレームの動作パラメータとする。

【００７６】そこで、仮に、生成所要時間150ミリ秒、
定レート出力時間50ミリ秒の場合も同様な手法で、前フ
レームの動作パラメータと現フレームの動作パラメータ
の差分に差分係数1/3を掛けた擬似差分値に前フレーム
の動作パラメータに加えて１枚目の擬似フレームに対す
る動作パラメータを補間用に出力する。さらに、前フレ
ームの動作パラメータと現フレームの動作パラメータの
差分を求める。この差分に差分係数2/3を掛けて擬似差
分値を生成する。２枚目の擬似フレームに対する動作パ
ラメータは、前フレームの動作パラメークに擬似差分値
を加えて算出する。生成所要時間内補間機能部では、こ
の２枚目の擬似フレームの動作パラメータとして表示合
成部20に出力することにより、実際には得られないフレ
ーム間に擬似的に画像合成できるように動作パラメータ
を補間する。

【００７７】ところで、生成所要時間内補間機能部に
は、図示しないFIFO（First-In First-Out)バッファが
配設され、バッファ管理されている。生成所要時間内補
間機能部におけるFIFOバッファの大きさは、タイムアウ
ト時間により決定される。本実施例の場合、タイムアウ
ト１秒、定レート出力時間50ミリ秒であるから、FIFOパ
ッファには20フレーム分の動作パラメータが蓄積できる
容量になる。

【００７８】したがって、実際の入力より１秒遅れて１
フレーム目の動作パラメータが出力されるが、１フレー
ム目以降は定レート出力時間間隔で確実に動作パラメー
タが出力されることとなる。

【００７９】図15に戻って、現フレームの動作パラメー
タとこのパラメータ取得時刻をメモリ16cに格納する
（サブステップSS612)。そして、前述した処理によって
得られた動作パラメータを出力する（サブステップSS61
4)。この後、リターンに移行してサブルーチンSUB6を終
了する。

【００８０】ここで、本実施例では、パラメータ選択部
16aから動作パラメータ42が出力される時間のみを考慮
しているが、実際にはそれ以外の各部が処理に要する時
間も考慮してFIFOの長さ等を決定することが好ましい。

【００８１】このように動作させることにより、不定期
で発行される動作パラメータを用いても定レートで動作
パラメータを出力することができ、かつフレーム間の補
間を行うことにより滑らかで高品質なアニメーション合
成を行うことができる。

【００８２】なお、前述した実施例は、すべて顔につい
ての３次元画像を合成し、アニメーション動作を行わせ
る場合について説明しているが、本発明はこの実施例に
限定されるものではなく、体全体、動物等の物体や２次
元画像等にも適用できることは言うまでもない。また、
画像の入力にビデオカメラを使用しているが、連続して
画像を収集可能なデバイスであればよいことも明らかで
ある。

【００８３】さらに、前述した実施例は、個々に４つの
変形例を説明したが、これらに限定されるものでなく、
これらの変形例を組み合わせても実現できることは言う
までもない。

【００８４】以上のように構成することにより、複数の
チャネルから得られる動作パラメータや解析確信度の情
報を統合し、状況に適した動作パラメータを選択して出
力していることから、環境により一部のチャネルが不完
全になってしまっても３次元画像の生成が損なわれるこ
となく画像を生成し、アニメーション表示させることが
できる。これにより、環境変化の影響を受け難い３次元
画像生成を提供することができる。

【００８５】また、画像および音声における信頼性の高
い動作パラメータを融合して新たな動作パラメータとし
て提供することにより、より正確な３次元画像を生成す
ることができる。

【００８６】解析確信度が高いにも関わらず、動作パラ
メータ値に異常が生じても変化量をあらかじめ設定した
範囲内に制限してアニメーションとして急激な変化を抑
制して滑らかな動作表示する３次元画像を生成すること
ができる。

【００８７】動作パラメータに強調処理や抑制処理を施
して３次元画像を生成することにより、アニメーション
としての表現をより豊かにすることができる。

【００８８】さらに、動作パラメータのないフレーム間
を補間して定期的に発行することにより、定レートの３
次元画像生成を行うことができ、アニメーションの表現
を滑らかに高品質な画像を提供することができる。

【００８９】

【発明の効果】このように本発明の３次元画像生成装置
によれば、インタフェース手段を介して第１の画像信号
および付帯的な電気信号を入力し、情報解析手段でこれ
ら入力された信号を解析し、統合選択手段にて入力した
信号に対する優先度の順に画像および音声確信情報も合
わせて考慮して表情合成手段に供給されるこれまでの直
接的に表情を表すパラメータと異なるパラメータでも対
象人物の表情にあわせた変化を持たせて３次元表示され
る第２の画像信号を生成することにより、環境により一
部のチャネルが不完全になってしまっても３次元画像の
生成が損なわれることなく画像を生成し、アニメーショ
ン表示させることができる。これにより、環境変化の影
響を受け難い３次元画像生成を提供することができる。

【００９０】また、本発明の３次元画像生成方法によれ
ば、第１の画像信号だけでなく、付帯情報信号も入力
し、解析に応じて生成したパラメータおよび確信情報の
それぞれ生成し、統合する。統合した中から現状に合っ
た信号を出力する際に、あらかじめ与えてある優先度の
高さを考慮しながら、確信情報のそれぞれが各所定の閾
値以上か否かを基に判断し、この判断により選択した信
号に応じた３次元表示される第２の画像信号に表情を持
たせて出力する。このように統合選択することにより、
たとえば不完全な環境で第１の画像信号をサンプリング
するような場合でも、途切れることなく第２の画像を合
成することができるので、環境変化の影響を受け難い３
次元画像生成を提供することができる。

【図面の簡単な説明】

【図１】本発明の３次元画像生成装置をアニメーション
合成装置に適用した概略的な構成を示すブロック図であ
る。

【図２】図１のアニメーション合成装置の動作における
メインフローチャートである。

【図３】図２のパラメータ統合選択処理（サブルーチン
SUB2）の手順を示すフローチャートである。

【図４】図２の解析手順を示すサブルーチンSUB1のフロ
ーチャートである。

【図５】図３におけるパラメータ選択処理の手順を示す
サブルーチンSUB3のフローチャートである。

【図６】図５のサブルーチンSUB3の変形例を示すフロー
チャートである。

【図７】図１のパラメータ統合選択部を変形した概略的
な構成を示すブロック図である。

【図８】図７のパラメータ統合選択の処理手順を説明す
るフローチャートである。

【図９】図８の処理手順のうち、サブルーチンSUB4の平
滑化処理の手順を説明するフローチャートである。

【図１０】図１のパラメータ統合選択部を変形した概略
的な構成を示すブロック図である。

【図１１】図10のパラメータ統合選択の処理手順を説明
するフローチャートである。

【図１２】図11のパラメータ強調における処理手順を説
明するフローチャートである。

【図１３】図１のパラメータ統合選択部を変形した概略
的な構成を示すブロック図である。

【図１４】図12のパラメータ統合選択の処理手順を説明
するフローチャートである。

【図１５】図14の処理手順のうち、サブルーチンSUB6の
平滑化処理の手順を説明するフローチャートである。

【符号の説明】

10 アニメーション合成装置 12 入力インタフェース部 12a 画像入力部 12b 音声入力部 12c キー入力部 14 パラメータ解析部 14a 画像解析部 14b 音声解析部 16 パラメータ統合選択部 18 パラメータ自動提供部 20 表情合成部

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成１５年２月４日（２００３．２．４）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】請求項１５

【補正方法】変更

【補正内容】

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】０００６

【補正方法】変更

【補正内容】

【０００６】また、本発明は上述の課題を解決するため
に、供給される第１の画像信号に含まれる顔画像を抽出
し、抽出した顔画像から顔の表情を表す表情データを基
に第２の画像信号に表情を持たせる３次元画像を生成す
る方法において、撮影された対象人物を含む第１の画像
信号の入力、第１の画像信号に関連して前記対象人物が
付帯的に発する情報の変換された電気信号およびこの付
帯情報を示す電気信号を入力する第１の工程と、第１の
画像信号が含む顔画像を抽出して顔の特徴的な部位の変
化を解析するパラメータおよびこのパラメータの信頼性
を示す画像確信情報、ならびに付帯情報のうち、電気信
号としての音声信号から表情を反映する情報を解析して
表情を表すパラメータおよびこのパラメータの信頼性を
示す音声確信情報の少なくとも一方の組を生成する第２
の工程と、この解析したパラメータおよび付帯情報に対
してあらかじめ判断を行う優先度を与えておき、この与
えた優先度の高さを考慮しながら、画像確信情報や音声
確信情報のそれぞれが各所定の閾値以上か否かを基にパ
ラメータおよび付帯情報信号のいずれか一つを選択判断
する第３の工程と、この判断による選択に応じてあらか
じめ選んだ前記対象人物と異なる３次元表示される第２
の画像信号に表情を反映させた合成画像を生成する第４
の工程とを含むことを特徴とする。

【手続補正３】

【補正対象書類名】明細書

【補正対象項目名】００２４

【補正方法】変更

【補正内容】

【００２４】表情を加味した３次元のキャラクタ画像
（またはモデル画像）を順次生成することによりアニメ
ーションとして図示しないモニタに表示させることがで
きる。このとき、表示する画像の発話タイミングと音声
信号の出力を同期させると、見る側では違和感のない鑑
賞が行える。

【手続補正４】

【補正対象書類名】明細書

【補正対象項目名】００２６

【補正方法】変更

【補正内容】

【００２６】また、撮影と同時にマイクロフォン（図示
せず）で発話にともなう音声を取得する。この取得した
音声は、A/D変換にてディジタル信号に変換しておくと
よい。アニメーション合成装置10の音声入力部12bには
画像と同じくディジタル化した音声データが供給され
る。音声入力部12bは音声データをキャプチャする。さ
らに、図示しないキーボードの押圧操作でキーアドレス
に対応して割り当てておいた動作パラメータをキー入力
部12cに供給する。キー入力部12cは、キーに対応して供
給された動作パラメータをキー情報としてキャプチャす
る。

【手続補正５】

【補正対象書類名】明細書

【補正対象項目名】００２８

【補正方法】変更

【補正内容】

【００２８】次に画像データ30および音声データ32aに
対するパラメータ解析処理を施す（サブルーチンSUB
1）。パラメータ解析処理は、動作パラメータの解析を
行うとともに、解析の信頼性の判断尺度を表す解析確信
度も解析してデータ毎に生成する。動作パラメータと
は、３次元画像を合成する上で、たとえば「目」や
「口」といった顔の特徴的な部位を要素（特徴点）と
し、各要素における基本位置からの変化量を表したデー
タで、表情データとも呼ぶものである。画像および音声
におけるパラメータ解析については後段でさらに説明す
る。画像および音声における動作パラメータおよび解析
確信度を含む解析データ36, 38をパラメータ統合選択部
16に送ってパラメータ統合選択処理に進む（サブルーチ
ンSUB2）。

【手続補正６】

【補正対象書類名】明細書

【補正対象項目名】００６７

【補正方法】変更

【補正内容】

【００６７】ところで、３次元画像を動画表現（アニメ
ーション表示）する際には、用いるモデルのキャラクタ
によって実際よりも大きなアクションを起こしたり、ま
たは実際よりも控えめな動作に見せる方がより表現豊か
になる場合がある。このような場合に動作パラメータに
係数を乗算することにより、上述した特定のキャラクタ
に対する動作表現を容易にかつ統括に調整してキャラク
タに適したアニメーション合成を行うことが可能とな
る。〈第４変形例〉さらに、図13を用いてパラメータ統合選
択部16の変形例を説明する。パラメータ統合選択部16
は、パラメータ選択部16a、定レート出力処理部16eおよ
びメモリ16cを含む。パラメータ選択部16aおよびメモリ
16cは、前述した第２変形例の場合と同じであるから説
明を省略する。定レート出力処理部16eは、パラメータ
選択処理部16aから供給される動作パラメータ42のタイ
ミングによらず、あらかじめ設定されたフレームレート
で動作パラメータ42dを出力する機能を有している。定
レート出力処理部16eには、図示しないが出力監視とし
てメモリ16cから読み出した過去の動作パラメータの作
成時刻と現フレームにおける動作パラメータの抽出時刻
とを比較する比較判定機能部、上述した両時刻の差から
生成所要時間を算出する生成所要時間演算機能部、生成
所要時間内に生成するフレーム数を求め、該フレーム数
の逆数を差分係数として算出する差分係数算出機能部、
および過去における動作パラメータと前記現フレームに
おける動作パラメータとの差分値を基に該差分値に差分
係数と枚数分の数値を乗算して擬似フレームにおける動
作パラメータを生成して擬似フレーム間の補間を行う生
成所要時間内補間機能部が含まれている。生成所要時間
内補間機能部には、後述するように動作パラメータを蓄
積するバッファメモリも含み、動作パラメータの入出力
（バッファ）管理も行われている。また、メモリ16cに
は、１フレーム前の動作パラメータが保持されている。
時刻を報知するタイマは、定レート出力処理部16eの内
部に配設してもよいし、外部に配設して時刻を報知する
ようにしてもよい。

───────────────────────────────────────────────────── フロントページの続き (72)発明者永田政晴東京都港区虎ノ門１丁目７番12号沖電気工業株式会社内Ｆターム(参考） 5B050 AA08 AA09 BA06 BA08 BA12 CA07 DA02 EA06 EA19 EA24 FA09 FA10 5B057 BA24 CA08 CA12 CA16 CB08 CB13 CB16 CC01 CE08 CE11 DA08 DB02 DB09 DC05 DC09 DC16 DC36 5D015 AA06 5L096 BA16 CA02 FA76 HA07 JA09

Claims

【特許請求の範囲】

【請求項１】撮影された対象人物を含む第１の画像信
号を入力するとともに、第１の画像信号に関連して前記
対象人物が付帯的に発する情報の変換された電気信号お
よび該付帯情報を示す電気信号を入力するインタフェー
ス手段と、第１の画像信号に含まれる顔画像を抽出して顔の特徴的
な部位の変化を解析して表情を表すパラメータと該パラ
メータの信頼性を示す画像確信情報を生成し、前記付帯
情報のうち、前記対象人物の発話による音声信号から表
情を反映する情報を解析して表情を表すパラメータと該
パラメータの信頼性を示す音声確信情報を生成する情報
解析手段と、該情報解析手段で解析したパラメータおよび前記インタ
フェース手段からの前記付帯情報信号に対してあらかじ
め判断手順の優先度を設定し、該設定した優先度の高さ
とともに、前記画像および音声確信情報のそれぞれが各
所定の閾値以上か否かを基に前記パラメータおよび付帯
情報信号のいずれか一つを選択判断する統合選択手段
と、該統合選択手段からの選択に応じてあらかじめ選んだ前
記対象人物と異なる３次元表示される第２の画像信号に
表情を反映させる表情合成手段とを含むことを特徴とす
る３次元画像生成装置。
【請求項２】請求項１に記載の装置において、前記イ
ンタフェース手段は、第１の画像信号を入力するととも
に、前記付帯情報として前記音声信号および前記対象人
物による文字信号を入力することを特徴とする３次元画
像生成装置。
【請求項３】請求項２に記載の装置において、前記イ
ンタフェース手段は、第１の画像信号、前記音声信号、
および前記文字信号のうち、少なくとも２つ以上の信号
を入力する手段を含むことを特徴とする３次元画像生成
装置。
【請求項４】請求項１に記載の装置において、前記情
報解析手段は、前記顔画像を抽出して顔の特徴的な部位
の変化をパラメータ化する画像解析手段と、前記付帯情
報のうち、前記音声信号から表情を反映する情報を解析
してパラメータ化する音声解析手段とを含むことを特徴
とする３次元画像生成装置。
【請求項５】請求項１、２または４に記載の装置にお
いて、該装置は、あらかじめ前記顔の特徴的な部位の変
化をパターン化したパラメータを保存し、ランダムまた
は規則的に、自動的に該パラメータを出力するパラメー
タ供給手段を含むことを特徴とする３次元画像生成装
置。
【請求項６】請求項１または２に記載の装置におい
て、前記統合選択手段は、前記優先度を前記文字信号、
前記画像解析のパラメータおよび前記音声解析のパラメ
ータの順にし、前記統合選択手段は、前記パラメータにおける信頼性を
示すそれぞれの確信情報が所定の閾値以上か否かを前記
優先度の順に判断するパラメータ選択手段を含むことを
特徴とする３次元画像生成装置。
【請求項７】請求項６に記載の装置において、前記統
合選択手段は、前記パラメータ選択手段で選択したパラ
メータにおける過去のフレームと現在のフレームの間で
調整する平滑化手段と、前記過去のフレームにおけるパラメータを格納するパラ
メータ保持手段とを含むことを特徴とする３次元画像生
成装置。
【請求項８】請求項７に記載の装置において、前記平
滑化手段は、前記パラメータ保持手段から前記過去の
フレームにおける動作パラメータを読み出して前記現フ
レームにおける動作パラメータとの差分を算出する差分
算出手段と、該差分があらかじめ設定した所定の最大値と所定の最小
値で示す許容範囲から外れた少なくとも所定の最大値以
上および所定の最小値以下のいずれかか否かを判断する
許容判断手段とを含み、該許容判断手段は、判断結果の真偽に応じて前記差分を
前記所定の最大値および前記所定の最小値の近い方のい
ずれかで前記現フレームにおける動作パラメータを書き
換えることを特徴とする３次元画像生成装置。
【請求項９】請求項６、７または８に記載の装置にお
いて、前記統合選択手段は、前記パラメータ選択手段で
選択したパラメータを実数倍する強調手段を含むことを
特徴とする３次元画像生成装置。
【請求項１０】請求項６ないし９のいずれか一項に記
載の装置において、前記統合選択手段は、前記パラメー
タ選択手段で選択したパラメータをあらかじめ設定した
フレームレートで出力するレート調整手段と、前記過去のフレームにおけるパラメータおよび該動作パ
ラメータの作成時刻を格納するパラメータ保持手段とを
含むことを特徴とする３次元画像生成装置。
【請求項１１】請求項10に記載の装置において、該装
置は、あらかじめ前記顔の特徴的な部位の変化をパター
ン化したパラメータを保存し、ランダムまたは規則的
に、自動的に該パラメータを出力するパラメータ供給手
段を含むことを特徴とする３次元画像生成装置。
【請求項１２】請求項10に記載の装置において、前記
レート調整手段は、前記パラメータ保持手段から読み出
した過去の動作パラメータの作成時刻と前記現フレーム
における動作パラメータの抽出時刻との比較から生成所
要時間を算出する生成所要時間算出手段と、該生成所要時間内に生成するフレーム数を求め、該フレ
ーム数の逆数を差分係数として算出する差分係数算出手
段と、前記過去における動作パラメータと前記現フレームにお
ける動作パラメータとの差分値を基に該差分値に差分係
数と枚数分の数値を乗算して擬似フレームにおける動作
パラメータを生成する擬似フレーム間補間手段とを含む
ことを特徴とする３次元画像生成装置。
【請求項１３】請求項１ないし12のいずれか一項に記
載した前記インタフェース手段、前記情報解析手段、前
記統合選択手段および前記表情合成手段をそれぞれの機
能としてコンピュータに実現させるための画像生成プロ
グラム。
【請求項１４】請求項13に記載の前記画像生成プログ
ラムを記録したコンピュータ読取り可能な記録媒体。
【請求項１５】供給される第１の画像信号に含まれる
顔画像を抽出し、抽出した顔画像から顔の表情を表す表
情データを基に第２の画像信号に表情を持たせる３次元
画像を生成する方法において、該方法は、撮影された対象人物を含む第１の画像信号の入力、第１
の画像信号に関連して前記対象人物が付帯的に発する情
報の変換された電気信号および該付帯情報を示す電気信
号を入力する第１の工程と、第１の画像信号が含む顔画像を抽出して顔の特徴的な部
位の変化を解析するパラメータおよび該パラメータの信
頼性を示す画像確信情報、ならびに前記付帯情報のう
ち、前記電気信号としての音声信号から表情を反映する
情報を解析して表情を表すパラメータおよびと該パラメ
ータの信頼性を示す音声確信情報の少なくとも一方の組
を生成する第２の工程と、該解析したパラメータおよび前記付帯情報に対してあら
かじめ判断を行う優先度を与えておき、該与えた優先度
の高さを考慮しながら、前記画像確信情報や前記音声確
信情報のそれぞれが各所定の閾値以上か否かを基に前記
パラメータおよび付帯情報信号のいずれか一つを選択判
断する第３の工程と、該判断による選択に応じてあらかじめ選んだ前記対象人
物と異なる３次元表示される第２の画像信号に表情を反
映させた合成画像を生成する第４の工程とを含むことを
特徴とする３次元画像生成方法。
【請求項１６】請求項15に記載の方法において、第１
の工程は、第１の画像信号とともに、前記付帯情報とし
て対象人物の発話による音声信号および前記対象人物に
よる文字信号を入力することを特徴とする３次元画像生
成方法。
【請求項１７】請求項16に記載の方法において、第１
の工程は、第１の画像信号、前記音声信号、および前記
文字信号のうち、少なくとも２つ以上の信号を入力する
ことを特徴とする３次元画像生成方法。
【請求項１８】請求項15に記載の方法において、第２
の工程は、前記顔画像を抽出して顔の特徴的な部位の変
化を解析し、パラメータ化する第５の工程と、前記付帯情報のうち、前記音声信号から表情を反映する
情報を解析し、パラメータ化する第６の工程とを含むこ
とを特徴とする３次元画像生成方法。
【請求項１９】請求項15ないし18のいずれか一項に記
載の方法において、該方法は、第２の工程に並行してあ
らかじめ前記顔の特徴的な部位の変化をパターン化した
パラメータを保存し、ランダムにまたは規則的に、自動
的に該パラメータを出力する第７の工程を含むことを特
徴とする３次元画像生成方法。
【請求項２０】請求項15または16に記載の方法におい
て、第３の工程は、前記優先度を前記文字信号、前記画
像解析のパラメータおよび前記音声解析のパラメータの
順にし、前記パラメータにおける信頼性を示すそれぞれ
の確信情報が所定の閾値以上か否かを前記優先度の順に
判断することを特徴とする３次元画像生成方法。
【請求項２１】請求項20に記載の方法において、第３
の工程は、前記選択したパラメータをあらかじめ保存し
ておき、該保存されている過去のフレームと現在のフレ
ームのパラメータを平滑化する調整を施す第８の工程を
含むことを特徴とする３次元画像生成方法。
【請求項２２】請求項21に記載の方法において、第８
の工程は、あらかじめ保存していた前記過去のフレーム
における動作パラメータと前記現フレームにおける動作
パラメータとの差分を算出する工程と、該差分があらかじめ設定した所定の最大値と所定の最小
値で示す許容範囲から外れた少なくとも所定の最大値以
上および所定の最小値以下のいずれであるか否かを判断
し、判断結果の真偽に応じて前記差分を前記所定の最大
値および前記所定の最小値の近い方のいずれかで前記現
フレームにおける動作パラメータを書き換える工程とを
含むことを特徴とする３次元画像生成方法。
【請求項２３】請求項20、21または22に記載の方法に
おいて、第３の工程は、前記選択したパラメータを実数
倍する第９の工程を含むことを特徴とする３次元画像生
成方法。
【請求項２４】請求項20ないし23のいずれか一項に記
載の方法において、第３の工程は、前記選択したパラメ
ータをあらかじめ保存しておき、前記選択したパラメー
タをあらかじめ設定したフレームレートで出力させる第
10の工程を含むことを特徴とする３次元画像生成方法。
【請求項２５】請求項24に記載の方法において、第10
の工程は、前記あらかじめ保存していた前記過去の動
作パラメータの作成時刻と前記現フレームにおける動作
パラメータの抽出時刻からこの間の生成所要時間を算出
する工程と、該生成所要時間内に生成するフレーム数を求め、該フレ
ーム数の逆数を差分係数として算出する工程と、前記過去における動作パラメータと前記現フレームにお
ける動作パラメータとの差分値を基に該差分値に差分係
数と枚数分の数値を乗算して擬似フレームにおける動作
パラメータを生成して蓄積する工程と、該蓄積した擬似フレームにおける動作パラメータを時間
管理して出力する工程とを含むことを特徴とする３次元
画像生成方法。
【請求項２６】請求項20ないし24のいずれか一項に記
載の方法において、第３の工程は、第２の工程に並行し
てあらかじめ前記顔の特徴的な部位の変化をパターン化
して保存されたパラメータをランダムにまたは規則的
に、自動的に入力し、前記パラメータおよび付帯情報信
号とともに、該保存されたパラメータも含めていずれか
一つを選択判断することを特徴とする３次元画像生成方
法。