JP3822828B2 - 3次元画像生成装置およびその画像生成方法ならびにその画像生成プログラムを記録したコンピュータ読取り可能な記録媒体 - Google Patents
3次元画像生成装置およびその画像生成方法ならびにその画像生成プログラムを記録したコンピュータ読取り可能な記録媒体 Download PDFInfo
- Publication number
- JP3822828B2 JP3822828B2 JP2002077780A JP2002077780A JP3822828B2 JP 3822828 B2 JP3822828 B2 JP 3822828B2 JP 2002077780 A JP2002077780 A JP 2002077780A JP 2002077780 A JP2002077780 A JP 2002077780A JP 3822828 B2 JP3822828 B2 JP 3822828B2
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- image
- signal
- information
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Description
【発明の属する技術分野】
本発明は、たとえばビデオカメラ等の画像入力装置で撮影された人物の顔画像、音声に基づいて3次元画像のアニメーションを合成する3次元画像生成装置に関するものである。また、本発明は、たとえば3次元画像を入力する情報に応じてアニメーション合成を行う画像生成方法に関するものである。さらに本発明は、この画像生成の機能を実現させる画像生成プログラムを記録したコンピュータ読取り可能な記録媒体に関するものである。
【0002】
【従来の技術】
テレビジョンカメラで撮影された人物の顔画像の表情を他の人物の3次元顔モデルに反映させた3次元顔画像を作成する3次元画像生成装置が、特許第3055666号公報に提案されている。この3次元画像生成装置は、入力した顔動画像から顔要素の変化量を表情認識手段で抽出し、抽出した変化量を表情変換手段であらかじめ得られた顔要素の変化率に基づいて3次元顔モデルの変形パラメータに変換し、変形パラメータに応じた3次元顔モデルの画像を合成している。
【0003】
【発明が解決しようとする課題】
ところで、上述した3次元画像生成装置は、撮影環境の変化に応じて3次元顔モデルの画像が生成できないことがある。画像生成ができない一例に、撮影環境が暗い場合がある。このような環境下で撮影すると、得られる動画像も環境に応じて暗い画像が得られる。表情認識手段でこの暗い画像を基に顔要素の変化量を抽出しようとしても変化量が取得できないことがある。このため、3次元顔モデルを用いた3次元の顔画像を生成しても、この顔画像には、表情に応じて変形を反映させることができない。これは、3次元画像生成装置の目的が達成できないことを意味する。
【0004】
本発明はこのような従来技術の欠点を解消し、環境変化の影響を受けにくい3次元画像を生成する3次元画像生成装置およびその画像生成方法ならびにその画像生成プログラムを記録したコンピュータ読取り可能な記録媒体を提供することを目的とする。
【課題を解決するための手段】
本発明は上述の課題を解決するために、撮影された対象人物を含む第1の画像信号を入力するとともに、第1の画像信号に関連して対象人物が付帯的に発する情報の変換された電気信号およびこの付帯情報を示す電気信号を入力するインタフェース手段と、第1の画像信号に含まれる顔画像を抽出して顔の特徴的な部位の変化を解析して表情を表すパラメータとこのパラメータの信頼性を示す画像確信情報を生成し、付帯情報のうち、対象人物の発話による音声信号から表情を反映する情報を解析して表情を表すパラメータとこのパラメータの信頼性を示す音声確信情報を生成する情報解析手段と、この情報解析手段で解析したパラメータおよびインタフェース手段からの付帯情報信号に対してあらかじめ判断手順の優先度を設定し、この設定した優先度の高さとともに、画像および音声確信情報のそれぞれが各所定の閾値以上か否かを基にパラメータおよび付帯情報信号のいずれか一つを選択判断する統合選択手段と、この統合選択手段からの選択に応じてあらかじめ選んだ前記対象人物と異なる3次元表示される第2の画像信号に表情を反映させる表情合成手段とを含むことを特徴とする。
【0005】
本発明の3次元画像生成装置は、インタフェース手段を介して第1の画像信号および付帯的な電気信号を入力し、情報解析手段でこれら入力された信号を解析することにより直接的に表情を表すパラメータや間接的に表情の情報から表情を表すパラメータならびに画像および音声確信情報をそれぞれ生成し、これらパラメータと付帯情報信号を統合選択手段に統合し、統合選択手段では入力した信号に対する優先度の順に画像および音声確信情報を合わせて考慮し、選択する信号の判断を行うことにより、表情合成手段に供給されるこれまでの直接的に表情を表すパラメータと異なるパラメータでも対象人物の表情にあわせた変化を持たせて3次元表示される第2の画像信号を生成することができる。
【0006】
また、本発明は上述の課題を解決するために、供給される第1の画像信号に含まれる顔画像を抽出し、抽出した顔画像から顔の表情を表す表情データを基に第2の画像信号に表情を持たせる3次元画像を生成する方法において、撮影された対象人物を含む第1の画像信号の入力、第1の画像信号に関連して前記対象人物が付帯的に発する情報の変換された電気信号およびこの付帯情報を示す電気信号を入力する第1の工程と、第1の画像信号が含む顔画像を抽出して顔の特徴的な部位の変化を解析するパラメータおよびこのパラメータの信頼性を示す画像確信情報、ならびに付帯情報のうち、電気信号としての音声信号から表情を反映する情報を解析して表情を表すパラメータおよびこのパラメータの信頼性を示す音声確信情報の少なくとも一方の組を生成する第2の工程と、この解析したパラメータおよび付帯情報に対してあらかじめ判断を行う優先度を与えておき、この与えた優先度の高さを考慮しながら、画像確信情報や音声確信情報のそれぞれが各所定の閾値以上か否かを基にパラメータおよび付帯情報信号のいずれか一つを選択判断する第3の工程と、この判断による選択に応じてあらかじめ選んだ前記対象人物と異なる3次元表示される第2の画像信号に表情を反映させた合成画像を生成する第4の工程とを含むことを特徴とする。
【0007】
本発明の3次元画像生成方法は、第1の画像信号だけでなく、付帯情報信号も入力しておき、これら入力された信号を解析して直接的に表情を表すパラメータおよび画像確信情報や間接的に表情の情報から表情を表すパラメータおよび音声確信情報をそれぞれ生成し、これらパラメータと付帯情報信号を統合する。統合した中から現状に合った信号を出力する際に、あらかじめ与えてある優先度の高さを考慮しながら、画像確信情報と音声確信情報のそれぞれが各所定の閾値以上か否かを基に判断し、この判断により選択した信号に応じた3次元表示される第2の画像信号に表情を持たせて出力する。このように統合選択することにより、たとえば不完全な環境で第1の画像信号をサンプリングするような場合でも、途切れることなく第2の画像を合成することができる。
【0008】
【発明の実施の形態】
次に添付図面を参照して本発明による3次元画像生成装置の実施例を詳細に説明する。
【0009】
本実施例は、本発明の3次元画像生成装置をアニメーション合成装置10に適用した場合である。本発明と直接関係のない部分について図示および説明を省略する。以下の説明で、信号はその現れる接続線の参照番号で指示する。
【0010】
アニメーション合成装置10には、図1に示すように、入力インタフェース部12、パラメータ解析部14、パラメータ統合選択部16、パラメータ自動提供部18、表情合成部20および音声出力部22が含まれている。
【0011】
入力インタフェース部12には、外部のセンサや装置のそれぞれにて取り込んだ信号をチャネルとし、アニメーション合成装置10に入力する機能が信号の種類に応じて用意されている。入力信号の種類は、画像信号24、音声信号26およびキー信号28である。入力インタフェース部12は、これら3つの信号24, 26, 28に対応して画像入力部12a、音声入力部12bおよびキー入力部12cが配設されている。入力インタフェース部12には、画像信号24、音声信号26およびキー信号28のように複数チャネルが供給されるが、これらチャネルのうち、少なくとも2種類以上の入力に対応できるように構成することが好ましい。これは、後述するようにたとえば画像信号24が動作パラメータの信頼性が低い場合でもこれ以外の動作パラメータで3次元画像を生成させるためである。
【0012】
画像入力部12aは、図示しないビデオカメラからの顔画像を含む画像信号24を1フレーム単位でキャプチャするインタフェース回路である。画像信号24は、外部に設けたビデオカメラから得られた画像信号をディジタル化した画像データである。画像信号がアナログ信号の場合、画像アナログ入力端(図示せず)に供給する。ここに供給することにより、入力信号を図示しないA/D変換器でディジタル信号に変換する。画像入力部12aは、画像データ30を画像解析部14aに供給する。
【0013】
音声入力部12bは、図示しないマイクロフォンからたとえば、会話時の発話にともなう音声信号26をキャプチャするインタフェース回路である。音声信号26は、外部に設けたマイクロフォンで得られた音声信号をディジタル化した音声データである。音声信号がアナログ信号で供給される場合、音声アナログ入力端(図示せず)に供給する。ここに供給することにより、入力信号を図示しないA/D変換器でディジタル信号に変換する。音声入力部12bは、音声データ32aを音声解析部14bに供給する。また、音声入力部12bは、入力した音声データ26をそのまま音声データ32bとして音声出力部22にも供給している。
【0014】
キー入力部12cは、図示しないキーボードの押圧操作にともない供給されるキー入力信号(キー情報)28を取得するインタフェース回路である。キーボードには、キーのアドレスが設定されているだけである。このため、キー設定用のレジスタが設定される。たとえばアドレス先のレジスタには、動作パラメータが格納されている。表情の作成に用いる動作パラメータと特定の動作とを対応付けている。具体的には、感情の表れである喜怒哀楽、たとえば人物の動作を総称するジェスチャー、強調等の動作パラメータがあらかじめ登録されている。ジェスチャーには、たとえばうなずき動作が含まれている。アドレスが直接的に供給される設定の場合、キー入力部12cにはレジスタが配設されている。キー入力部12cは、供給されるデータに対応した動作パラメータ34をパラメータ統合選択部16に出力する。
【0015】
なお、本実施例では、画像信号処理に着目して説明していることから、画像、音声をサンプリングするセンサや情報入力装置を外部に設ける設定にしているが、この設定に限定されることなく、情報入力部として一体的に配設したり、システム化するように構成してもよい。一体的に構成し、小型化が実現できれば、携帯機器に対応できるし、システム化すると、たとえばコンピュータを利用したテレビ電話等の情報端末装置に適用できる。
【0016】
パラメータ解析部14には、画像解析部14aおよび音声解析部14bが備えられている。画像解析部14aには、図示しないが画像データ30に含まれる顔画像の解析、顔要素の変形量の測定、この変形量から3次元画像データを変形させる動作パラメータおよび顔要素の変形量測定にともなう画像解析確信度の算出を行う機能部が含まれている。画像解析部14aは、動作パラメータおよび画像解析確信度を含む解析データ36をパラメータ統合選択部16に出力する。
【0017】
音声解析部14bには、ここでも詳細に図示しないが供給された音声データ32aの解析、発話にともなう口の形状変形量の測定、この変形量から3次元画像データを変形させる動作パラメータおよび変形量測定にともなう音声解析確信度の算出を行う機能部が含まれている。音声解析部14bは、動作パラメータおよび音声解析確信度を含む解析データ38をパラメータ統合選択部16に出力する。
【0018】
パラメータ統合選択部16には、解析データ36, 38および動作パラメータ34, 40と4つのデータがチャネルとして統合的にパラメータ選択部16aに供給される。パラメータ選択部16aは、図示しないシステム制御部の制御により、供給された4種類のデータの中で、3次元のキャラクタ画像(またはモデル画像)に対して表情を反映させることができるかを判断して表情合成部20に出力する判断選択機能を有している。また、パラメータ統合選択部16には、後述するように、パラメータ選択部16aの他に、選択した動作パラメータに対して処理を施す機能を含むようにしてもよい。パラメータ統合選択部16は、最終的に選択した動作パラメータ42を表情合成部20に出力する。
【0019】
表情合成部20は、供給される動作パラメータ42に応じて3次元のキャラクタ画像(またはモデル画像)の特徴点の位置を変化させ、ポリゴンによって構成される3次元キャラクタモデルをレンダリング処理するグラフィック機能を有している。表情合成部20は、生成した3次元のキャラクタ画像データ44を図示しないモニタに出力する。
【0020】
パラメータ自動提供部18は、表情をもたらすパターン、たとえばN秒毎(NはN>0の実数)に「まばたき」をさせるパターン、頭部をランダムに上下左右に動かすパターン、「うなずき」のパターン等に対応した動作パラメータを保存し、ランダムまたは規則的に、自動的にパターンを出力する機能を有する。この機能を実現するためパラメータ自動提供部18には、図示しないが各パターンに対応した特徴点の位置に対する動作パラメータを保存するメモリと、パターンの読出しを自動制御する機能部とを含んでいる。パラメータ自動提供部18は、動作パラメータ40をパラメータ統合選択部16に出力する。
【0021】
本実施例において、後段の動作手順で説明するように 信頼性の高い動作パラメータが得られなかった場合にパラメータ自動提供部18からの動作パラメータを採用するようにしているが、この手順に限定されない。パラメータ自動提供部18は、たとえば信頼性の高い動作パラメータが画像解析部14aや音声解析部14bから得られている場合でも「まばたき」やランダムに頭を動かす等の動作パラメータを挿入するようにしてもよい。
【0022】
音声出力部22は、供給される音声データ32bをアナログ音声信号に変換するD/A変換器と、音量調整用の可変増幅回路とを含んでいる。音声出力部22は、音声信号46を図示しないスピーカに供給する。
【0023】
これらの構成要素が有する機能を実現するようにプログラムを生成し、この記録媒体に格納するようにしてもよい。
【0024】
表情を加味した3次元のキャラクタ画像(またはモデル画像)を順次生成することによりアニメーションとして図示しないモニタに表示させることができる。このとき、表示する画像の発話タイミングと音声信号の出力を同期させると、見る側では違和感のない鑑賞が行える。
【0025】
次にアニメション合成装置10の動作を説明する(図2を参照)。まず、外部からアニメーション合成装置10に画像データ、音声データおよびキーデータを入力する(ステップS10)。このデータ入力を具体的に説明すると、ビデオカメラで対象となる人物の顔画像を撮影し、アニメーション合成装置10の画像入力部12aに撮影した人物の顔画像を1フレーム単位でキャプチャする。
【0026】
また、撮影と同時にマイクロフォン(図示せず)で発話にともなう音声を取得する。この取得した音声は、A/D変換にてディジタル信号に変換しておくとよい。アニメーション合成装置10の音声入力部12bには画像と同じくディジタル化した音声データが供給される。音声入力部12bは音声データをキャプチャする。さらに、図示しないキーボードの押圧操作でキーアドレスに対応して割り当てておいた動作パラメータをキー入力部12cに供給する。キー入力部12cは、キーに対応して供給された動作パラメータをキー情報としてキャプチャする。
【0027】
画像入力部12aおよび音声入力部12bは、パラメータ解析部14にそれぞれ画像データ30および音声データ32aを出力する。キー入力部12cは、動作パラメータ34をパラメータ統合選択部16に送る。また、アニメーション合成装置10がパラメータ自動提供部18を有しているとき、上述したキャプチャに対応した動作パラメータがパラメータ自動提供部18からパラメータ統合選択部16に供給されている。
【0028】
次に画像データ30および音声データ32aに対するパラメータ解析処理を施す(サブルーチンSUB1)。パラメータ解析処理は、動作パラメータの解析を行うとともに、解析の信頼性の判断尺度を表す解析確信度も解析してデータ毎に生成する。動作パラメータとは、3次元画像を合成する上で、たとえば「目」や「口」といった顔の特徴的な部位を要素(特徴点)とし、各要素における基本位置からの変化量を表したデータで、表情データとも呼ぶものである。画像および音声におけるパラメータ解析については後段でさらに説明する。画像および音声における動作パラメータおよび解析確信度を含む解析データ36, 38をパラメータ統合選択部16に送ってパラメータ統合選択処理に進む(サブルーチンSUB2)。
【0029】
パラメータ統合選択処理では、供給される解析データ36, 38および動作パラメータ34, 40を入力とし、図3に示すように、これらに基づく動作パラメータの選択処理(パラメータ選択処理:サブルーチンSUB3)を行い、環境変化の影響を受け難い動作パラメータを選択して表情合成部20に出力する(サブステップSS20)。詳細は後段で説明する。
【0030】
図2に戻って、次に動作パラメータ42を基に3次元画像モデルから3次元画像を生成する(ステップS12)。3次元画像を生成する方法は、様々な手法が提案されている。一例として所望する3次元画像モデルにおけるワイヤフレームによる顔の骨格(ボーン)モデルに対してこのモデルの動作パラメータに供給される動作パラメータ42を使用して3次元画像を生成する。
【0031】
次に生成した3次元画像データ44および音声信号46を出力する(ステップS14)。アニメーション合成装置10は、表情合成部20から3次元画像データ44を図示しないモニタに出力するとともに、音声データ32bをD/A変換した音声信号46を図示しないスピーカに出力する。
【0032】
そして1枚の3次元画像および音声信号を出力の後、たとえば、ボタン押圧操作によりアニメーション合成装置10の動作終了を示す割込信号が供給されたか否かを判断する(ステップS16)。画像生成を継続させる場合(NO)、データの入力を継続する。また、画像生成を終了させる場合(YES)、アニメーション合成装置10の動作を終了させる。アニメーション合成装置10は、継続動作させることによって生成した3次元画像を連続に供給する。これによって、表情を反映したアニメーション表示が行われる。この場合、表情の読取りに用いる画像の撮影状況が悪化して画像から動作パラメータが読み取れなくても、読み取れなかった動作パラメータと異なる選択した動作パラメータで3次元画像を生成することができる。
【0033】
次にパラメータ解析部14の動作について図4を参照しながら説明する(サブルーチンSUB1)。まず、画像解析部12aで供給される画像データ30に対して画像解析を行う(サブステップSS10)。この画像解析は、供給される画像データ30から顔の領域を抽出し、顔画像を得る。本実施例では、あらかじめ、基準となる顔画像の中で「口」、「目」、「鼻」など、顔を構成する部位を特徴点としてその座標値とともに切出しテンプレートを用意しておく。
【0034】
なお、テンプレートは、複数の画像から作成し、各部位毎に複数枚用意しておくことが好ましい。
【0035】
顔の3次元画像の生成に用いる動作パラメータを基準となる特徴点の位置からの変化量すなわち、差として部位毎に求める。また、供給された画像に対する画像解析確信度も併せて求める。本実施例ではテンプレートマッチングを用いた手法を用いる。
【0036】
テンプレートマッチングは、動作パラメータの抽出対象となる対象画像データ(以下、単に対象画像という)が入力された際に、前述した各部位毎のテンプレートのうち、たとえば「口」のテンプレートに近い画像形状を持つ部分を対象画像から探索する。そして、この方法は、「口」の動作パラメータとして探索した中で最も近い形状のテンプレートの座標値を出力する。
【0037】
なお、テンプレートとの比較は、たとえば、ユークリッド距離を求めてこの距離をテンプレートとの差として用いることにより行うことができる。さらに、「口」における動作パラメータの画像解析確信度は、このユークリッド距離としている。したがって、画像解析確信度が小さいほどこの動作パラメータの信頼性は高くなる。同様にして「目」や「鼻」などの動作パラメータおよぴ画像解析確信度も生成する。
【0038】
次に音声解析部12bで供給される音声データ32aに対して音声解析を行う(サブステップSS12)。音声解析は、音声データ32aから動作パラメータおよび音声解析確信度を生成する。本実施例では、隠れマルコフモデル(Hidden Markov model: 以下、HMMという)の手法を用いる。このモデルでは、あらかじめ、基準となる音声データからHMMで音素をモデル化し、このモデルと対応する「口」形状の動作パラメータとをともに、辞書として用意しておく。
【0039】
動作パラメータの抽出対象となる音声データ(以下、対象音声という)が入力されると、HMMで対象音声をモデル化する。音声解析部14bでは、対象音声のモデルと上述した辞書にあるモデルとの尤度を評価して、辞書中の最も尤度の高いモデルを探索する。探索結果、このモデルに対応する辞書中のモデルが有する動作パラメータを対象音声の動作パラメータとして出力する。さらに、この動作パラメータの音声解析確信度は、前述の評価に用いた尤度とする。したがって、この場合、音声解析確信度が大きいほどこの動作パラメータの信頼性は高くなる。また、前述したHMMを用いた手法に加え、たとえば大きな声が発声された場合に「まばたき」をするなどの定義をあらかじめ行うことにより、「口」の形状以外の動作パラメータも生成することができる。
【0040】
音声解析の後、リターンに移行してサブルーチンSUB1を終了し、メインルーチンに戻る。
【0041】
ここで、画像解析処理と音声解析処理は、便宜上、逐次的に記載したが、これらの処理動作は、同時並行的に行われるものである。したがって、各処理の動作パラメータは、ほぼ同時にパラメータ統合選択部16に出力される。
【0042】
次にパラメータ統合選択部16におけるパラメータ選択部16aの動作について図5を参照しながら説明する(サブルーチンSUB3)。パラメータ選択部16aでは、選択に優先度を持たせて判断するようにしている。優先順位は、最優先をキー情報の動作パラメータ34の入力、第2に、画像における解析データ36の入力、第3に、音声における解析データ38、そして最後にパラメータ自動提供部18からの動作パラメータ40にしている。本実施例では、キー情報はユーザが特に意図して動作させたい要求の高いときに行う行為と判断して最優先を設定している。この優先順位を考慮してパラメータの選択判断が行われる。
【0043】
最初にキー情報が供給されているか否かを確認する(サブステップSS300)。キー情報が存在する場合(YES)、サブステップSS302に進む。サブステップSS302では、キー情報に対応付けられた動作パラメータ34を選択し、表情合成部20に出力する。この出力後、リターンに移行してサブルーチンSUB3を終了する。また、キー情報が存在しない場合(NO)、画像における解析データ36が供給されているか否かの確認へ進む(サブステップSS304へ)。
【0044】
次に画像における解析データ36が供給されているか否かを確認する(サブステップSS304)。解析データ36が供給されている場合(YES)、解析データ36の判定に進む(サブステップSS306へ)。また、解析データ36が供給されていない場合(NO)、音声における解析データ38が供給されているか否かの確認へ進む(サブステップSS308へ)。
【0045】
サブステップSS306では、解析データ36に含まれる画像解析確信度が所定の閾値以下の値を有するか否かを判断する。画像解析確信度が所定の閾値以下の値にある場合(YES)、動作パラメータの信頼性が十分に高いと判断して解析データ36の動作パラメータを出力する(サブステップSS310)。そして、この出力後、リターンに移行してサブルーチンSUB3を終了する。また、解析データ36に含まれる画像解析確信度が所定の閾値より高い値の場合(サブステップSS306: NO)、解析データ36が存在しない場合(NO)と同様に音声における解析データ38が供給されているか否かの確認へ進む(サブステップSS308へ)。
【0046】
次に音声における解析データ38が供給されているか否かを確認する(サブステップSS308)。解析データ38が供給されている場合(YES)、解析データ38の判定に進む(サブステップSS312へ)。また、解析データ38が供給されていない場合(NO)、パラメータ自動提供部18から供給される動作パラメータ40を出力する。この後、リターンに進んでサブルーチンSUB3を終了する。
【0047】
次にサブステップSS312において解析データ38に含まれる音声解析確信度が所定の閾値以上の値を有するか否かを判断する。音声解析確信度が所定の閾値以上の値にある場合(YES)、動作パラメータの信頼性が十分に高いと判断して解析データ38の動作パラメータを出力する(サブステップSS316)。そして、この出力後、リターンに移行してサブルーチンSUB3を終了する。また、解析データ38に含まれる音声解析確信度が所定の閾値より低い値の場合(サブステップSS312: NO)、信頼できる動作パラメータがないと判断し、解析データ38が存在しない場合(NO)と同様にパラメータ自動提供部18により供給される動作パラメータ40を出力する。そして、サブステップSS314へ進み、リターンに進んでサブルーチンSUB3を終了する。
【0048】
このように複数のチャネルとしてキーボードからの入力、画像、音声および自動生成された動作パラメータなどを統合し、これら動作パラメータから信頼性の高いもの優先順位に応じて選択することにより、環境により一部のチャネルからの抽出する表情に関する情報が不完全にしか得られない場合においても、別なチャネルからの動作パラメータを的確に適用することができるようになる。これにより、アニメーション合成装置10は、環境変化に影響を受けにくいアニメーション合成を行うことができるようになる。
【0049】
なお、本実施例は、3次元画像の生成について説明したが、本発明はこの実施例に限定されるものでなく、動作パラメータに設定している基準位置からの変化量を視覚的に表せるものであれば2次元画像の生成等にも適用できる。また、本実施例では、概念的なものとして、「口」の動作パラメータを画像解析部14aから求めたが、この方法に限定されるものでなく、たとえば音声解析部14bから「口」の動作パラメータを求め、「目」の動作パラメータを画像解析部14aから得る等のように、任意に部位(部品)毎に動作パラメータを取捨選択して組み合わせてもよい。
【0050】
次に本発明の3次元画像生成装置を適用したアニメーション合成装置10の変形例をいくつか説明する。本実施例は、先の実施例と構成が同じであることから、同じ参照符号を用い、構成の説明を省略する。さらに、本実施例は、先の実施例と異なるパラメータ統合選択部16におけるパラメータ選択部16aの動作について説明する。
〈第1変形例〉
この変形例は、図6に示すように、図5におけるサブステップSS306とサブステップSS310との間に処理手順を追加している。
【0051】
サブステップSS306で画像における解析データ36が存在し、画像解析確信度が所定の閾値以下にある場合(YES)、動作パラメータが十分信頼できる値であると判断し、さらに音声解析に進む(サブステップSS318へ)。音声解析において、音声における解析データ38が存在するか否かを判断する(サブステップSS318)。解析データ38が存在すると判断した場合(YES)、音声解析確信度の確認に進む(サブステップSS320へ)。
【0052】
音声解析確信度の確認は、サブステップSS312と同様に、音声解析確信度が所定の閾値以上にあるか否かの判断処理である(サブステップSS320)。音声解析確信度が閾値以上の場合(YES)、解析データ38の動作パラメータが十分信頼できる値であると判断する。そして、平均化処理に進む(サブステップSS322)。また、先のサブステップSS318で解析データ38が存在しなかった場合(NO)やこのサブステップSS320で音声解析確信度が所定の閾値より小さかった場合(NO)、画像における解析データ36の動作パラメータを出力するサブステップSS310に進む。
【0053】
平均化処理は、画像における動作パラメータと音声における動作パラメータとの平均値を算出する(サブステップSS322)。ここで、平均化処理は、両動作パラメータの平均化に限定されるものでなく、各確信度に応じて各動作パラメータへの重みを決定し、これを考慮した動作パラメータを用いる。
【0054】
この手順を加えることにより、画像および音声から得られた動作パラメータの信頼性がともに高い場合、平均化することにより双方の動作パラメータが融合される。これにより、より正確な3次元画像が合成できるようになる。
〈第2変形例〉
次に図7を用いてパラメータ統合選択部16の変形例を説明する。パラメータ統合選択部16は、パラメータ選択部16aだけでなく、平滑化処理部16bおよびメモリ16cを含んでいる。平滑化処理部16bは、現フレーム画像における動作パラメータを過去に合成した3次元画像における動作パラメータを基にこの動作パラメータとの変化量として調整する機能を有している。
【0055】
平滑化処理部16bは、メモリ6cから1つ前のフレームにおける動作パラメータを読み出して現フレームにおける動作パラメータとの差分を算出する差分算出機能部(図示せず)と、この差分があらかじめ設定した所定の最大値と所定の最小値で示す許容範囲から外れた少なくとも所定の最大値以上および所定の最小値以下のいずれであるか否かを判断する許容判断機能部(図示せず)とを含む。許容判断機能部は、判断結果の真偽に応じて差分を所定の最大値および所定の最小値の近い方のいずれかで現フレームにおける動作パラメータを書き換えている。平滑化処理部16bは、パラメータ選択部16aから供給される動作パラメータ42を入力し、アニメーションとして時間方向に対する平滑化の施された動作パラメータ42aを表情合成部20に出力する。
【0056】
メモリ16cは、複数の3次元画像における動作パラメータを保持する記憶回路を有している。メモリ16cは、Mフレーム前(MはM>0の整数)から現フレームまでのM+1フレーム分の動作パラメータを格納している。また、メモリ16cは、1フレーム毎に最も古いフレームの動作パラメータと最新フレームの動作パラメータとを更新している。メモリ16cでは、図示しないシステム制御部からの制御に応じて動作パラメータ42bの書込み/読出しが行われている。
【0057】
この変形例における動作手順は、図8に示すようにパラメータ選択処理(サブルーチンSUB3)の後段に平滑化処理(サブルーチンSUB4)を行い、得られた動作パラメータ42aを出力する(サブステップSS20)。この後に手順をリターンに移行させ、サブルーチンSUB2を終了する。
【0058】
この平滑化処理については、より詳細な動作について図9を参照しながら説明する。本実施例で、メモリ16cは、過去のフレーム分として1フレームを蓄積している。この処理手順に先立ち、フレーム間における動作パラメータの変化量が許容される範囲をあらかじめ設定しておく。すなわち各部位(特徴点)毎の動作パラメータに対する変化量の最大値および最小値を設定している。
【0059】
まず、メモリ16cが保存する現フレームに対して1フレーム前の動作パラメータを読み出す(サブステップSS400)。次に1フレーム前の動作パラメータと現フレームの動作パラメータの差分を変化量として算出する(サブステップSS402)。
【0060】
次に特徴点毎に算出した動作パラメータとあらかじめ設定している変化量の最大値およぴ最小値とを比較し、許容範囲内にあるか否かを判断する(サブステップSS404)。変化量があらかじめ設定している最大値よりも大きい場合(NO)、変化量が許容範囲内にないと判断し、この変化量の書換え処理に進む(サブステップSS406)。サブステップSS406では、変化量が最大値となるように現フレームの該当する部位の動作パラメータを図示しないシステム制御部の制御により書き換える。
【0061】
同様に、サブステップSS404では、変化量があらかじめ設定している最小値よりも小さい場合(NO)も変化量が許容範囲内にないと判断し、この変化量が最小値となるように現フレームの該当する動作パラメータを図示しないシステム制御部の制御により書き換える。このように変化量を最小値と最大値の間の許容範囲内に収めるように動作パラメータを書き換える処理を平滑化処理と呼ぶ。
【0062】
また、変化量が許容範囲内にある場合(YES)、アニメーション合成装置10は、図示しないシステム制御部の制御により動作パラメータの書き換えを行わない。
【0063】
次に現フレームにおける動作パラメータをメモリ16cに記憶保存する(サブステップSS408)。ここでの保存は現フレームの動作パラメータであり、許容範囲内の変化量である。そして、この現フレームの動作パラメータ42aとして表情合成部20に出力する(サブステップSS410)。この後、リターンに移行してサブルーチンSUB4を終了する。
【0064】
なお、本実施例では、過去フレームを1フレーム前まで遡っているが、遡るフレーム数はこれに限定されるものでなく、たとえば10フレーム分の動作パラメータを保存しておき、前述した変化量を各フレーム毎に求め、算出した変化量の最大値およぴ最小値を統計的に決定し、得られた統計的な値を基に動作パラメータを算出するようにしてもよい。
【0065】
これにより、何らかの影響で解析確信度が高いにもかかわらず、動作パラメータの値に異常が発生したとしても、変化量を許容範囲に制限することで、たとえば急激な動作変化を抑えることができ、合成した3次元画像を動画表示させた際にこの動画動作を滑らかに見せることができる。
〈第3変形例〉
次に図10を用いてパラメータ統合選択部16の変形例を説明する。パラメータ統合選択部16は、パラメータ選択部16aおよびパラメータ強調処理部16dを含む。パラメータ強調処理部16dは、供給される動作パラメータ42をR倍(Rは実数)する機能を有する。パラメータ強調処理部16dは、強調した動作パラメータ42cを表情合成部20に出力する。
【0066】
また、パラメータ統合選択部16の動作は、図11に示すようにパラメータ選択処理(サブルーチンSUB3)を施した後に、パラメータ強調処理(サブルーチンSUB5)を施す。パラメータ強調処理には、たとえばあらかじめ動作パラメータを強調するための係数が設定されている。この係数は、ユーザによりマニュアル設定できるようにしてもよい。パラメータ強調処理は、図12に示すように、サブルーチンSUB5として供給される動作パラメータ42に係数を乗算する処理を行う(サブステップSS50)。この処理により強調した動作パラメータ42cを出力する(サブステップSS52)。この後、リターンに移行してサブルーチンSUB5を終了する。この後、図11のサブルーチンSUB2に戻って、サブルーチンSUB5によって得られた動作パラメータ42cを出力する(サブステップSS20)。そして、リターンに移行してサブルーチンSUB2を終了する。
【0067】
ところで、3次元画像を動画表現(アニメーション表示)する際には、用いるモデルのキャラクタによって実際よりも大きなアクションを起こしたり、または実際よりも控えめな動作に見せる方がより表現豊かになる場合がある。このような場合に動作パラメータに係数を乗算することにより、上述した特定のキャラクタに対する動作表現を容易にかつ統括に調整してキャラクタに適したアニメーション合成を行うことが可能となる。
〈第4変形例〉
さらに、図13を用いてパラメータ統合選択部16の変形例を説明する。パラメータ統合選択部16は、パラメータ選択部16a、定レート出力処理部16eおよびメモリ16cを含む。パラメータ選択部16aおよびメモリ16cは、前述した第2変形例の場合と同じであるから説明を省略する。定レート出力処理部16eは、パラメータ選択処理部16aから供給される動作パラメータ42のタイミングによらず、あらかじめ設定されたフレームレートで動作パラメータ42dを出力する機能を有している。定レート出力処理部16eには、図示しないが出力監視として メモリ16cから読み出した過去の動作パラメータの作成時刻と現フレームにおける動作パラメータの抽出時刻とを比較する比較判定機能部、上述した両時刻の差から生成所要時間を算出する生成所要時間演算機能部、生成所要時間内に生成するフレーム数を求め、該フレーム数の逆数を差分係数として算出する差分係数算出機能部、および過去における動作パラメータと前記現フレームにおける動作パラメータとの差分値を基に該差分値に差分係数と枚数分の数値を乗算して擬似フレームにおける動作パラメータを生成して擬似フレーム間の補間を行う生成所要時間内補間機能部が含まれている。生成所要時間内補間機能部には、後述するように動作パラメータを蓄積するバッファメモリも含み、動作パラメータの入出力(バッファ)管理も行われている。また、メモリ16cには、1フレーム前の動作パラメータが保持されている。時刻を報知するタイマは、定レート出力処理部16eの内部に配設してもよいし、外部に配設して時刻を報知するようにしてもよい。
【0068】
パラメータ統合選択部16の動作は、基本的に、図14に示すようにパラメータ選択処理(サブルーチンSUB3)を施した後に、定レート出力処理部16eで定レート出力処理(サブルーチンSUB6)を施し、得られた動作パラメータを出力する(サブステップSS20)。この処理により、定レートに動作パラメータを出力することができる。さらに、この定レート出力処理について図15を参照しながら説明する。
【0069】
ここで、定レート出力処理部16eには、あらかじめパラメータ選択処理部16aにおける動作パラメータ42の出力時間間隔、すなわち最大待ち時間が設定されている。最大待ち時間は、以後タイムアウト時間という。また、定レート出力処理部16eでは、定レート出力時間もあらかじめ設定しておく。
【0070】
まず、図15に示すように、定レート出力処理部16eに1フレーム前の動作パラメータとこの動作パラメータが生成された時刻をメモリ16cから読み出す(サブステップSS600)。次にパラメータ選択処理部16aに対する動作パラメータ42の出力監視を行う(サブステップSS602)。定レート出力処理部16eは、図示しないがタイマを有し、動作パラメータ42の出力に応じて時間計測を行う。出力監視は、タイマで計測した時間とあらかじめ設定したタイムアウト時間とを比較して、動作パラメータ42がタイムアウト時間内に出力されたか否かを判断する。本実施例では、タイムアウト時間を1秒間としている。
【0071】
出力監視結果が異常と判断された場合(NO)、タイムアウトに対応して動作パラメータおよび生成時刻の書換えに進む(サブステップSS604へ)。この書換え処理は、前フレームにて得られた動作パラメータを現フレームの動作パラメータとし、この書換えを行った現在時刻を現フレームにおける動作パラメータの生成時刻とする(サブステップSS604)。また、出力監視結果が正常と判断された場合(YES)、動作パラメータおよび生成時刻の設定に進む(サブステップSS606へ)。この設定は、正常に得られた動作パラメータとこの動作パラメータの得られた時刻を生成時刻とする(サブステップSS606)。これらの出力監視にともなう処理の後、動作パラメータの生成に要した時間の算出に進む(サブステップSS608へ)。
【0072】
サブステップSS608では、動作パラメータの生成所要時間の算出を行う。生成所要時間は、現フレームにおける動作パラメータの生成時刻から1フレーム前で生成した動作パラメータの生成時刻を減算処理して算出している。
【0073】
次に動作パラメータの生成所要時間とあらかじめ設定されている定レート出力時間とを基に動作パラメータを定レートで補間して表示合成部42dに出力する(サブステップSS610:定レート補間処理)。また、定レート出力処理部16eは、メモリ16cへのデータ出力も行う(サブステップSS612へ)。
【0074】
ここで、定レート出力の方法を説明する。たとえば定レート出力時間を50ミリ秒とする。この場合、アニメーション合成装置10は、1秒間に20フレーム分の動作パラメータを用いることになる。一方、生成所要時間が100ミリ秒要していた場合、生成所要時間は、設定した定レート出力時間の50ミリ秒よりも1フレーム分余分に時間がかかっている。したがって、生成所要時間の間に動作パラメータが不足することから、フレームが欠落してしまう。この足りないフレームの動作パラメータを擬似的に生成するサブステップが生成所要時間内補間処理である。
【0075】
生成所要時間内補間機能部では、擬似的に動作パラメータを生成する方法として、前フレームの動作パラメータと現フレームの動作パラメータの差分を算出する。定レート出力時間と生成所要時間の除算が不足を示す差分係数である。上述した条件でこの差分係数は1/2である。生成所要時間内の動作パラメータは、前フレームの動作パラメータと差分にこの差分係数を乗算した値とを加えて擬似フレームの動作パラメータとする。
【0076】
そこで、仮に、生成所要時間150ミリ秒、定レート出力時間50ミリ秒の場合も同様な手法で、前フレームの動作パラメータと現フレームの動作パラメータの差分に差分係数1/3を掛けた擬似差分値に前フレームの動作パラメータに加えて1枚目の擬似フレームに対する動作パラメータを補間用に出力する。さらに、前フレームの動作パラメータと現フレームの動作パラメータの差分を求める。この差分に差分係数2/3を掛けて擬似差分値を生成する。2枚目の擬似フレームに対する動作パラメータは、前フレームの動作パラメークに擬似差分値を加えて算出する。生成所要時間内補間機能部では、この2枚目の擬似フレームの動作パラメータとして表示合成部20に出力することにより、実際には得られないフレーム間に擬似的に画像合成できるように動作パラメータを補間する。
【0077】
ところで、生成所要時間内補間機能部には、図示しないFIFO(First-In First-Out)バッファが配設され、バッファ管理されている。生成所要時間内補間機能部におけるFIFOバッファの大きさは、タイムアウト時間により決定される。本実施例の場合、タイムアウト1秒、定レート出力時間50ミリ秒であるから、FIFOパッファには20フレーム分の動作パラメータが蓄積できる容量になる。
【0078】
したがって、実際の入力より1秒遅れて1フレーム目の動作パラメータが出力されるが、1フレーム目以降は定レート出力時間間隔で確実に動作パラメータが出力されることとなる。
【0079】
図15に戻って、現フレームの動作パラメータとこのパラメータ取得時刻をメモリ16cに格納する(サブステップSS612)。そして、前述した処理によって得られた動作パラメータを出力する(サブステップSS614)。この後、リターンに移行してサブルーチンSUB6を終了する。
【0080】
ここで、本実施例では、パラメータ選択部16aから動作パラメータ42が出力される時間のみを考慮しているが、実際にはそれ以外の各部が処理に要する時間も考慮してFIFOの長さ等を決定することが好ましい。
【0081】
このように動作させることにより、不定期で発行される動作パラメータを用いても定レートで動作パラメータを出力することができ、かつフレーム間の補間を行うことにより滑らかで高品質なアニメーション合成を行うことができる。
【0082】
なお、前述した実施例は、すべて顔についての3次元画像を合成し、アニメーション動作を行わせる場合について説明しているが、本発明はこの実施例に限定されるものではなく、体全体、動物等の物体や2次元画像等にも適用できることは言うまでもない。また、画像の入力にビデオカメラを使用しているが、連続して画像を収集可能なデバイスであればよいことも明らかである。
【0083】
さらに、前述した実施例は、個々に4つの変形例を説明したが、これらに限定されるものでなく、これらの変形例を組み合わせても実現できることは言うまでもない。
【0084】
以上のように構成することにより、複数のチャネルから得られる動作パラメータや解析確信度の情報を統合し、状況に適した動作パラメータを選択して出力していることから、環境により一部のチャネルが不完全になってしまっても3次元画像の生成が損なわれることなく画像を生成し、アニメーション表示させることができる。これにより、環境変化の影響を受け難い3次元画像生成を提供することができる。
【0085】
また、画像および音声における信頼性の高い動作パラメータを融合して新たな動作パラメータとして提供することにより、より正確な3次元画像を生成することができる。
【0086】
解析確信度が高いにも関わらず、動作パラメータ値に異常が生じても変化量をあらかじめ設定した範囲内に制限してアニメーションとして急激な変化を抑制して滑らかな動作表示する3次元画像を生成することができる。
【0087】
動作パラメータに強調処理や抑制処理を施して3次元画像を生成することにより、アニメーションとしての表現をより豊かにすることができる。
【0088】
さらに、動作パラメータのないフレーム間を補間して定期的に発行することにより、定レートの3次元画像生成を行うことができ、アニメーションの表現を滑らかに高品質な画像を提供することができる。
【0089】
【発明の効果】
このように本発明の3次元画像生成装置によれば、インタフェース手段を介して第1の画像信号および付帯的な電気信号を入力し、情報解析手段でこれら入力された信号を解析し、統合選択手段にて入力した信号に対する優先度の順に画像および音声確信情報も合わせて考慮して表情合成手段に供給されるこれまでの直接的に表情を表すパラメータと異なるパラメータでも対象人物の表情にあわせた変化を持たせて3次元表示される第2の画像信号を生成することにより、環境により一部のチャネルが不完全になってしまっても3次元画像の生成が損なわれることなく画像を生成し、アニメーション表示させることができる。これにより、環境変化の影響を受け難い3次元画像生成を提供することができる。
【0090】
また、本発明の3次元画像生成方法によれば、第1の画像信号だけでなく、付帯情報信号も入力し、解析に応じて生成したパラメータおよび確信情報のそれぞれ生成し、統合する。統合した中から現状に合った信号を出力する際に、あらかじめ与えてある優先度の高さを考慮しながら、確信情報のそれぞれが各所定の閾値以上か否かを基に判断し、この判断により選択した信号に応じた3次元表示される第2の画像信号に表情を持たせて出力する。このように統合選択することにより、たとえば不完全な環境で第1の画像信号をサンプリングするような場合でも、途切れることなく第2の画像を合成することができるので、環境変化の影響を受け難い3次元画像生成を提供することができる。
【図面の簡単な説明】
【図1】本発明の3次元画像生成装置をアニメーション合成装置に適用した概略的な構成を示すブロック図である。
【図2】図1のアニメーション合成装置の動作におけるメインフローチャートである。
【図3】図2のパラメータ統合選択処理(サブルーチンSUB2)の手順を示すフローチャートである。
【図4】図2の解析手順を示すサブルーチンSUB1のフローチャートである。
【図5】図3におけるパラメータ選択処理の手順を示すサブルーチンSUB3のフローチャートである。
【図6】図5のサブルーチンSUB3の変形例を示すフローチャートである。
【図7】図1のパラメータ統合選択部を変形した概略的な構成を示すブロック図である。
【図8】図7のパラメータ統合選択の処理手順を説明するフローチャートである。
【図9】図8の処理手順のうち、サブルーチンSUB4の平滑化処理の手順を説明するフローチャートである。
【図10】図1のパラメータ統合選択部を変形した概略的な構成を示すブロック図である。
【図11】図10のパラメータ統合選択の処理手順を説明するフローチャートである。
【図12】図11のパラメータ強調における処理手順を説明するフローチャートである。
【図13】図1のパラメータ統合選択部を変形した概略的な構成を示すブロック図である。
【図14】図12のパラメータ統合選択の処理手順を説明するフローチャートである。
【図15】図14の処理手順のうち、サブルーチンSUB6の平滑化処理の手順を説明するフローチャートである。
【符号の説明】
10 アニメーション合成装置
12 入力インタフェース部
12a 画像入力部
12b 音声入力部
12c キー入力部
14 パラメータ解析部
14a 画像解析部
14b 音声解析部
16 パラメータ統合選択部
18 パラメータ自動提供部
20 表情合成部
Claims (26)
- 撮影された対象人物を含む第1の画像信号を入力するとともに、第1の画像信号に関連して前記対象人物が付帯的に発する情報の変換された電気信号および該付帯情報を示す電気信号を入力するインタフェース手段と、
第1の画像信号に含まれる顔画像を抽出して顔の特徴的な部位の変化を解析して表情を表すパラメータと該パラメータの信頼性を示す画像確信情報を生成し、前記付帯情報のうち、前記対象人物の発話による音声信号から表情を反映する情報を解析して表情を表すパラメータと該パラメータの信頼性を示す音声確信情報を生成する情報解析手段と、
該情報解析手段で解析した両パラメータおよび前記インタフェース手段からの前記付帯情報信号に対してあらかじめ判断手順の優先度を設定し、該設定した優先度の高さとともに、前記付帯情報信号の有無、ならびに前記画像および音声確信情報のそれぞれが各所定の閾値以上か否かを基に前記パラメータおよび付帯情報信号のいずれか一つを選択判断する統合選択手段と、
該統合選択手段からの選択に応じてあらかじめ選んだ前記対象人物と異なる3次元表示される第2の画像信号に表情を反映させる表情合成手段とを含むことを特徴とする3次元画像生成装置。 - 請求項1に記載の装置において、前記インタフェース手段は、第1の画像信号を入力するとともに、前記付帯情報として前記音声信号および前記対象人物による文字信号を入力することを特徴とする3次元画像生成装置。
- 請求項2に記載の装置において、前記インタフェース手段は、第1の画像信号、前記音声信号、および前記文字信号のうち、少なくとも2つ以上の信号を入力する手段を含むことを特徴とする3次元画像生成装置。
- 請求項1に記載の装置において、前記情報解析手段は、前記顔画像を抽出して顔の特徴的な部位の変化をパラメータ化する画像解析手段と、
前記付帯情報のうち、前記音声信号から表情を反映する情報を解析してパラメータ化する音声解析手段とを含むことを特徴とする3次元画像生成装置。 - 請求項1、2または4に記載の装置において、該装置は、あらかじめ前記顔の特徴的な部位の変化をパターン化したパラメータを保存し、ランダムまたは規則的に、自動的に該パラメータを出力するパラメータ供給手段を含むことを特徴とする3次元画像生成装置。
- 請求項1または2に記載の装置において、前記統合選択手段は、前記優先度を前記文字信号、前記画像解析のパラメータおよび前記音声解析のパラメータの順にし、
前記統合選択手段は、前記パラメータにおける信頼性を示すそれぞれの確信情報が所定の閾値以上か否かを前記優先度の順に判断するパラメータ選択手段を含むことを特徴とする3次元画像生成装置。 - 請求項6に記載の装置において、前記統合選択手段は、前記パラメータ選択手段で選択したパラメータにおける過去のフレームと現在のフレームの間で調整する平滑化手段と、
前記過去のフレームにおけるパラメータを格納するパラメータ保持手段とを含むことを特徴とする3次元画像生成装置。 - 請求項7に記載の装置において、前記平滑化手段は、 前記パラメータ保持手段から前記過去のフレームにおける動作パラメータを読み出して前記現フレームにおける動作パラメータとの差分を算出する差分算出手段と、
該差分があらかじめ設定した所定の最大値と所定の最小値で示す許容範囲から外れた少なくとも所定の最大値以上および所定の最小値以下のいずれか否かを判断する許容判断手段とを含み、
該許容判断手段は、判断結果の真偽に応じて前記差分を前記所定の最大値および前記所定の最小値の近い方のいずれかで前記現フレームにおける動作パラメータを書き換えることを特徴とする3次元画像生成装置。 - 請求項6、7または8に記載の装置において、前記統合選択手段は、前記パラメータ選択手段で選択したパラメータを実数倍する強調手段を含むことを特徴とする3次元画像生成装置。
- 請求項6ないし9のいずれか一項に記載の装置において、前記統合選択手段は、前記パラメータ選択手段で選択したパラメータをあらかじめ設定したフレームレートで出力するレート調整手段と、
前記過去のフレームにおけるパラメータおよび該動作パラメータの作成時刻を格納するパラメータ保持手段とを含むことを特徴とする3次元画像生成装置。 - 請求項10に記載の装置において、該装置は、あらかじめ前記顔の特徴的な部位の変化をパターン化したパラメータを保存し、ランダムまたは規則的に、自動的に該パラメータを出力するパラメータ供給手段を含むことを特徴とする3次元画像生成装置。
- 請求項10に記載の装置において、前記レート調整手段は、前記パラメータ保持手段から読み出した過去の動作パラメータの作成時刻と前記現フレームにおける動作パラメータの抽出時刻との比較から生成所要時間を算出する生成所要時間算出手段と、
該生成所要時間内に生成するフレーム数を求め、該フレーム数の逆数を差分係数として算出する差分係数算出手段と、
前記過去における動作パラメータと前記現フレームにおける動作パラメータとの差分値を基に該差分値に差分係数と枚数分の数値を乗算して擬似フレームにおける動作パラメータを生成する擬似フレーム間補間手段とを含むことを特徴とする3次元画像生成装置。 - 請求項1ないし12のいずれか一項に記載した前記インタフェース手段、前記情報解析手段、前記統合選択手段および前記表情合成手段をそれぞれの機能としてコンピュータに実現させるための画像生成プログラム。
- 請求項13に記載の前記画像生成プログラムを記録したコンピュータ読取り可能な記録媒体。
- 供給される第1の画像信号に含まれる顔画像を抽出し、抽出した顔画像から顔の表情を表す表情データを基に第2の画像信号に表情を持たせる3次元画像を生成する方法において、該方法は、
入力インタフェース手段を介して撮影された対象人物を含む第1の画像信号の入力、第1の画像信号に関連して前記対象人物が付帯的に発する情報の変換された電気信号および該付帯情報を示す電気信号を入力する第1の工程と、
情報解析部で第1の画像信号が含む顔画像を抽出して顔の特徴的な部位の変化を解析するパラメータおよび該パラメータの信頼性を示す画像確信情報、ならびに前記付帯情報のうち、前記電気信号としての音声信号から表情を反映する情報を解析して表情を表すパラメータおよび該パラメータの信頼性を示す音声確信情報の少なくとも一方の組を生成する第2の工程と、
統合選択部で該解析したパラメータおよび前記付帯情報に対してあらかじめ判断を行う優先度を与えておき、該与えた優先度の高さとともに、前記付帯情報信号の有無、ならびに前記画像確信情報や前記音声確信情報のそれぞれが各所定の閾値以上か否かを基に前記パラメータおよび付帯情報信号のいずれか一つを選択判断する第3の工程と、
表情合成部で該判断による選択に応じてあらかじめ選んだ前記対象人物と異なる3次元表示される第2の画像信号に表情を反映させた合成画像を生成する第4の工程とを含むことを特徴とする3次元画像生成方法。 - 請求項15に記載の方法において、第1の工程は、第1の画像信号とともに、前記付帯情報として対象人物の発話による音声信号および前記対象人物による文字信号を入力することを特徴とする3次元画像生成方法。
- 請求項16に記載の方法において、第1の工程は、第1の画像信号、前記音声信号、および前記文字信号のうち、少なくとも2つ以上の信号を入力することを特徴とする3次元画像生成方法。
- 請求項15に記載の方法において、第2の工程は、前記顔画像を抽出して顔の特徴的な部位の変化を解析し、パラメータ化する第5の工程と、
前記付帯情報のうち、前記音声信号から表情を反映する情報を解析し、パラメータ化する第6の工程とを含むことを特徴とする3次元画像生成方法。 - 請求項15ないし18のいずれか一項に記載の方法において、該方法は、第2の工程に並行してあらかじめ前記顔の特徴的な部位の変化をパターン化したパラメータを保存し、ランダムにまたは規則的に、自動的に該パラメータを出力する第7の工程を含むことを特徴とする3次元画像生成方法。
- 請求項15または16に記載の方法において、第3の工程は、前記優先度を前記文字信号、前記画像解析のパラメータおよび前記音声解析のパラメータの順にし、前記パラメータにおける信頼性を示すそれぞれの確信情報が所定の閾値以上か否かを前記優先度の順に判断することを特徴とする3次元画像生成方法。
- 請求項20に記載の方法において、第3の工程は、前記選択したパラメータをあらかじめ保存しておき、該保存されている過去のフレームと現在のフレームのパラメータを平滑化する調整を施す第8の工程を含むことを特徴とする3次元画像生成方法。
- 請求項21に記載の方法において、第8の工程は、あらかじめ保存していた前記過去のフレームにおける動作パラメータと前記現フレームにおける動作パラメータとの差分を算出する工程と、
該差分があらかじめ設定した所定の最大値と所定の最小値で示す許容範囲から外れた少なくとも所定の最大値以上および所定の最小値以下のいずれであるか否かを判断し、判断結果の真偽に応じて前記差分を前記所定の最大値および前記所定の最小値の近い方のいずれかで前記現フレームにおける動作パラメータを書き換える工程とを含むことを特徴とする3次元画像生成方法。 - 請求項20、21または22に記載の方法において、第3の工程は、前記選択したパラメータを実数倍する第9の工程を含むことを特徴とする3次元画像生成方法。
- 請求項20ないし23のいずれか一項に記載の方法において、第3の工程は、前記選択したパラメータをあらかじめ保存しておき、前記選択したパラメータをあらかじめ設定したフレームレートで出力させる第10の工程を含むことを特徴とする3次元画像生成方法。
- 請求項24に記載の方法において、第10の工程は、 前記あらかじめ保存していた前記過去の動作パラメータの作成時刻と前記現フレームにおける動作パラメータの抽出時刻からこの間の生成所要時間を算出する工程と、
該生成所要時間内に生成するフレーム数を求め、該フレーム数の逆数を差分係数として算出する工程と、
前記過去における動作パラメータと前記現フレームにおける動作パラメータとの差分値を基に該差分値に差分係数と枚数分の数値を乗算して擬似フレームにおける動作パラメータを生成して蓄積する工程と、
該蓄積した擬似フレームにおける動作パラメータを時間管理して出力する工程とを含むことを特徴とする3次元画像生成方法。 - 請求項20ないし24のいずれか一項に記載の方法において、第3の工程は、第2の工程に並行してあらかじめ前記顔の特徴的な部位の変化をパターン化して保存されたパラメータをランダムにまたは規則的に、自動的に入力し、前記パラメータおよび付帯情報信号とともに、該保存されたパラメータも含めていずれか一つを選択判断することを特徴とする3次元画像生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002077780A JP3822828B2 (ja) | 2002-03-20 | 2002-03-20 | 3次元画像生成装置およびその画像生成方法ならびにその画像生成プログラムを記録したコンピュータ読取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002077780A JP3822828B2 (ja) | 2002-03-20 | 2002-03-20 | 3次元画像生成装置およびその画像生成方法ならびにその画像生成プログラムを記録したコンピュータ読取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003281567A JP2003281567A (ja) | 2003-10-03 |
JP3822828B2 true JP3822828B2 (ja) | 2006-09-20 |
Family
ID=29228112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002077780A Expired - Fee Related JP3822828B2 (ja) | 2002-03-20 | 2002-03-20 | 3次元画像生成装置およびその画像生成方法ならびにその画像生成プログラムを記録したコンピュータ読取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3822828B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4617500B2 (ja) * | 2006-07-24 | 2011-01-26 | 株式会社国際電気通信基礎技術研究所 | リップシンクアニメーション作成装置、コンピュータプログラム及び顔モデル生成装置 |
JP2008193563A (ja) * | 2007-02-07 | 2008-08-21 | Nec Design Ltd | 撮像装置、再生装置、撮像方法、再生方法及びプログラム |
JP4999570B2 (ja) | 2007-06-18 | 2012-08-15 | キヤノン株式会社 | 表情認識装置及び方法、並びに撮像装置 |
JP5109038B2 (ja) * | 2007-09-10 | 2012-12-26 | 株式会社国際電気通信基礎技術研究所 | リップシンクアニメーション作成装置及びコンピュータプログラム |
KR101541907B1 (ko) | 2008-10-14 | 2015-08-03 | 삼성전자 주식회사 | 음성 기반 얼굴 캐릭터 형성 장치 및 방법 |
JP5423379B2 (ja) * | 2009-08-31 | 2014-02-19 | ソニー株式会社 | 画像処理装置および画像処理方法、並びにプログラム |
GB2510200B (en) * | 2013-01-29 | 2017-05-10 | Toshiba Res Europe Ltd | A computer generated head |
GB2510201B (en) * | 2013-01-29 | 2017-05-03 | Toshiba Res Europe Ltd | A computer generated head |
CN104992461B (zh) * | 2015-06-29 | 2018-05-04 | 北京奇虎科技有限公司 | 一种快速动画场景构建方法和装置 |
CN109377540B (zh) * | 2018-09-30 | 2023-12-19 | 网易(杭州)网络有限公司 | 面部动画的合成方法、装置、存储介质、处理器及终端 |
-
2002
- 2002-03-20 JP JP2002077780A patent/JP3822828B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003281567A (ja) | 2003-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6662161B1 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
US6513011B1 (en) | Multi modal interactive system, method, and medium | |
US8125485B2 (en) | Animating speech of an avatar representing a participant in a mobile communication | |
US8725507B2 (en) | Systems and methods for synthesis of motion for animation of virtual heads/characters via voice processing in portable devices | |
US7630897B2 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
KR100948600B1 (ko) | 제스처/음성 융합 인식 시스템 및 방법 | |
JP3822828B2 (ja) | 3次元画像生成装置およびその画像生成方法ならびにその画像生成プログラムを記録したコンピュータ読取り可能な記録媒体 | |
US20020024519A1 (en) | System and method for producing three-dimensional moving picture authoring tool supporting synthesis of motion, facial expression, lip synchronizing and lip synchronized voice of three-dimensional character | |
JP4886645B2 (ja) | 仮想顔モデル変形装置及び仮想顔モデル変形プログラム | |
WO2012103030A1 (en) | Synchronized gesture and speech production for humanoid robots | |
US7257538B2 (en) | Generating animation from visual and audio input | |
US7117155B2 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
JP2008052628A (ja) | アニメーションデータ作成装置及びアニメーションデータ作成プログラム | |
JP4599606B2 (ja) | 頭部動作自動生成のための頭部動作学習装置及び頭部動作合成装置並びにコンピュータプログラム | |
Zhang et al. | Apb2face: Audio-guided face reenactment with auxiliary pose and blink signals | |
JP4379616B2 (ja) | モーションキャプチャデータ補正装置、マルチモーダルコーパス作成システム、画像合成装置、及びコンピュータプログラム | |
JPH11175061A (ja) | 制御装置およびカラオケ装置 | |
JP4631077B2 (ja) | アニメーション作成装置 | |
JP2006065683A (ja) | アバタ通信システム | |
JP4011844B2 (ja) | 翻訳装置、翻訳方法および媒体 | |
Ding et al. | Lip animation synthesis: a unified framework for speaking and laughing virtual agent. | |
JP4254400B2 (ja) | 画像生成装置およびその画像生成方法、ならびにコンピュータ読み取り可能な記録媒体 | |
WO2022091426A1 (ja) | 顔画像処理システム、顔画像生成用情報提供装置、顔画像生成用情報提供方法および顔画像生成用情報提供プログラム | |
JP2001034785A (ja) | 仮想変身装置 | |
US7392190B1 (en) | Coarticulation method for audio-visual text-to-speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051213 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060307 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060508 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060530 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060623 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090630 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100630 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100630 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110630 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110630 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120630 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |