JP2015507272A

JP2015507272A - ３ｄモデル・モーフィングのための方法および装置

Info

Publication number: JP2015507272A
Application number: JP2014551585A
Authority: JP
Inventors: リーヴェンス，サミー; ティトガット，ドニー; アーツ，マーチン; シックス，エルヴィン
Original assignee: アルカテル−ルーセント
Priority date: 2012-01-12
Filing date: 2013-01-08
Publication date: 2015-03-05
Anticipated expiration: 2033-01-08
Also published as: KR101602593B1; JP5893166B2; EP2615583B1; US20140340397A1; CN104040593A; CN104040593B; KR20140109496A; WO2013104592A1; EP2615583A1

Abstract

２Ｄ画像データ入力に基づいて標準３Ｄモデルをモーフィングするための方法は、検出モデルとモーフィング・モデルとを使用して前記標準３Ｄモデルの初期モーフィングを実行することによって、モーフィングされた標準３Ｄモデルを取得するステップ（１００）と、２Ｄ画像データ入力と、モーフィングされた標準３Ｄモデルとの間のオプティカル・フローを決定するステップ（２００）と、前記モーフィングされた標準３Ｄモデルに対してオプティカル・フローを適用することによって、微調整された３Ｄ標準モデルを提供するステップ（３００）、とを含む。

Description

本発明は、３次元モデル・モーフィングのための方法に関する。

現在、実際の動的なシーンに基づいた、または安価なカメラによって撮影される画像にさえも基づいたモデルのモーフィングは、困難な問題である可能性がある。３次元（本文書では以後３Ｄと省略する）のモデルのアーティストは、例えば、非常に長い時間と多くの労力を費やして、非常に詳細で生きているような３Ｄコンテンツと３Ｄアニメーションを生成することができる。しかしながら、例えば、会議の参加者の３Ｄ可視化を即座に作成する必要があるとしたら、これは望ましくなく、また次世代の通信システムにおいては実現可能でさえもない。

したがって、画像モデル・モーフィングのための方法および装置を提示することが、本発明の実施形態の一目的であり、この画像モデル・モーフィングは、より低品質の実在のキャプションから２次元（以下で２Ｄと省略する）のビデオ・シーンに基づいて、高品質の３Ｄ画像モデルを生成することができ、同時に安価で、単純で、かつ自動化された解決手段を提供することができる。

本発明の実施形態によれば、この目的は、２Ｄ画像データ入力に基づいた標準３Ｄモデルをモーフィングするための方法によって達成され、前記方法は、
検出モデルとモーフィング・モデルとを使用して前記標準３Ｄモデルの初期モーフィングを実行し、それによってモーフィングされた標準３Ｄモデルを取得するステップと、
２Ｄ画像データ入力と、モーフィングされた標準３Ｄモデルとの間のオプティカル・フロー（ｏｐｔｉｃａｌｆｌｏｗ）を決定するステップと、
前記モーフィングされた標準３Ｄモデルに対してオプティカル・フローを適用し、それによって微調整されモーフィングされた３Ｄ標準モデルを提供するステップと
を含む。

このようにして、古典的な検出に基づいたモーフィングは、オプティカル・フロー・モーフィングで強化される。これは、はるかに現実的なモデルをもたらし、しかもこの現実的なモデルをリアル・タイムで実現することができる。

一実施形態においては、２Ｄ画像データ入力と、モーフィングされた標準３Ｄモデルとの間のオプティカル・フローは、以前の２Ｄ画像フレームの上で決定される、以前の微調整されたモーフィングされた３Ｄ標準モデルに基づいて決定される。

一変形形態においては、２Ｄ画像データ入力と、モーフィングされた標準３Ｄモデルとの間のオプティカル・フロー決定ステップは、
モーフィングされた標準３Ｄモデルの２Ｄ投影と、以前の微調整された３Ｄ標準モデルの２Ｄ投影との間の第１のオプティカル・フローを決定するステップと、
実際の２Ｄフレームと、以前の微調整され、モーフィングされた３Ｄ標準モデルの２Ｄ投影との間の第２のオプティカル・フローを決定するステップと、
実際の２Ｄフレームと、モーフィングされた標準３Ｄモデルの２Ｄ投影との間の第３のオプティカル・フローを取得するために、前記第１のオプティカル・フローと前記第２のオプティカル・フローとを結合するステップと、
２Ｄ画像データ入力と、モーフィングされた標準３Ｄモデルとの間のオプティカル・フローを取得するために、前記モーフィングされた標準３Ｄモデルの２Ｄ投影中に取得される深さ情報に基づいて前記第３のオプティカル・フローを適応させるステップと
を含むことができる。

これは、高品質の、またさらに時間効率のよい方法を可能にする。

別の実施形態においては、前記初期モーフィング・ステップにおいて使用されるモーフィング・モデルは、２Ｄ画像データ入力と、モーフィングされた標準３Ｄモデルとの間のオプティカル・フローに基づいて適応させられる。これは、さらに結果として生ずるモデルの品質と、入力ビデオ・オブジェクトとのその対応関係とを向上させることになる。

別の実施形態においては、前記初期モーフィング・ステップにおいて使用される検出モデルは、２Ｄ画像フレームと、以前の２Ｄ画像フレームとの間で決定されるオプティカル・フロー情報に基づいて、同様に適応させられる。

この場合にも、これは、入力２Ｄ画像に対応した３Ｄ標準モデルのより高速で、またよりリアル感のある成形／モーフィングを増大させる。

さらに別の変形形態においては、オプティカル・フローを適用するステップは、エネルギー最小化プロシージャを含んでいる。

これは、さらに、結果として生じる微調整されたモーフィングされたモデルの品質を向上させることさえできる。

本発明は、同様に、そのような装置を組み込んでいる画像処理デバイスまたはビデオ処理デバイスのために、この方法を実行するための装置についての実施形態に関し、またデータ処理装置の上で実行されるときに、上述の、または特許請求の範囲の方法ステップを実行するように適合されたソフトウェアを備えるコンピュータ・プログラム製品にも関する。

本特許請求の範囲において使用される、用語「結合される（ｃｏｕｐｌｅｄ）」は、直接接続だけに限定されているようには解釈されるべきではないことに注意すべきである。したがって、表現「デバイスＢに結合されたデバイスＡ」の範囲は、デバイスＡの出力がデバイスＢの入力に直接接続されているデバイスまたはシステムだけに限定されるべきではない。それは、Ａの出力とＢの入力との間の経路が存在していることを意味するものであり、他のデバイスまたは手段を含む経路である可能性がある。

本特許請求の範囲において使用される用語「備えている／含んでいる（ｃｏｍｐｒｉｓｉｎｇ）」は、その後にリストアップされる手段だけに限定されているようには解釈されるべきではないことに、注意すべきである。したがって、表現「手段ＡとＢとを備えるデバイス」の範囲は、コンポーネントＡとＢのみで構成されるデバイスだけに限定されるべきではない。それは、本発明に関して、デバイスに唯一関連するコンポーネントが、ＡとＢとであることを意味するものである。

上記で述べられているように、テキストの全体の中で、２次元は２Ｄによって省略され、３次元は３Ｄによって省略されることになる。

添付の図面と組み合わせて解釈される一実施形態の以下の説明を参照することにより、本発明の上記および他の目的および特徴はより明らかになり、また本発明自体、最も良く理解されるであろう。

本方法の第１の高レベルな実施形態を示す図である。図１に示される実施形態のいくつかのモジュールについてのより詳細な実施形態を示す図である。図１に示される実施形態のいくつかのモジュールについてのより詳細な実施形態を示す図である。本方法の別の実施形態についての高レベルな概略図である。図４に示される実施形態のいくつかのモジュールについてのさらなる詳細を示す図である。図４に示される実施形態のいくつかのモジュールについてのさらなる詳細を示す図である。２つのさらなる詳細な実施形態を示す図である。２つのさらなる詳細な実施形態を示す図である。本方法の別の高レベルな実施形態を示す図である。２つのより詳細な代替的実施形態を示す図である。２つのより詳細な代替的実施形態を示す図である。

本明細書における任意のブロック図は、本発明の原理を実施する実例となる回路の概念図を表すことが、当業者によって理解されるべきである。同様に、任意のフロー・チャートと、フロー図と、状態遷移図と、擬似コードなどは、実質的にコンピュータ読取り可能媒体の形で表され、また、そのようなコンピュータまたはプロセッサが明示的に示されているか否かにかかわらず、コンピュータまたはプロセッサによって実行され得る様々なプロセスを表すことが、理解されるであろう。

図１は、入力２Ｄビデオから高品質のリアル・タイム３Ｄモデルを生成するための装置と対応する方法との第１の実施形態について、高レベルのスキームを示すものである。実施形態は、入力としてビデオ・シーケンスの連続フレームを取得する。図１において、それらのステップは、特定のフレームの上で実行されるように説明されており、時刻Ｔにおいては２Ｄビデオ・フレームである。

第１のオペレーション・モジュール１００は、例えば、メモリにおいて前もって選択され、または記憶される、使用可能な、標準３Ｄモデルのモーフィングを伴う。この標準３Ｄモデルは、時刻Ｔにおける入力２Ｄビデオ・フレームに従ってモジュール１００においてモーフィングされる。このモーフィング・プロシージャのための詳細な実施形態は、図２において説明されるであろう。モジュール１００の出力は、それゆえに、時刻Ｔにおけるモーフィングされた標準３Ｄモデルである。

部分的に、モーフィング・ステップ１００と並列して、オプティカル・フローは、時刻Ｔにおける２Ｄビデオ・フレームから時刻Ｔにおけるモーフィングされた標準３Ｄモデルに向かって決定される。これは、入力として時刻Ｔにおける２Ｄビデオ・フレームと、モジュール１００によって提供されるようなモーフィングされた標準３Ｄモデルと、以前の時間ステップにおいて決定される装置の出力とを有するモジュール２００の中で起こる。この以前に決定された出力は、時刻Ｔ−１である、図１に示される実施形態において、以前の時間ステップにおいて決定される、微調整され、モーフィングされた３Ｄ標準モデルに関し、またこれは、フィードバック接続を経由して装置の出力からこのモジュール２００へと提供される。図１においては、フィードバック・ループは、以前に決定された出力の提供を可能にするようになど、遅延要素Ｄを組み込んでいるように示される。もちろん、たくさんの他の実装形態は、簡単なメモリ・ストレージに基づいて考えることが可能であり、このようにして、専用の遅延要素の必要性をなくしている。別の以前の時間ステップにおいて決定される出力もまた、このようにして以前のビデオ・フレームＴ−１に対応する出力だけでなく、使用され得ることにも気付くべきである。遅延は、それに応じて、これらの実施形態において適応させられる必要がある。

図１の実施形態は、モジュール２００において決定されるような、オプティカル・フローを、モジュール１００によって提供されるモーフィングされた標準３Ｄモデルに対して適用することを目指した別のモジュール３００をさらに含んでいる。基本的なアイデアは、したがって、比較的簡単な３Ｄモデルを使用している、モジュール１００のモデル・ベースのアプローチを、モジュール３００よりも詳細なフロー・ベースのモーフィングと組み合わせることであり、それによってオプティカル・フローそれ自体は、モジュール２００の中で導き出される。実際に、例えば、顔モデリングに適用されるときには、モジュール１００からのモデル・ベースのモーフィングは、一般に、いくぶん作り物に見える顔をもたらす可能性があり、これらの顔は、次いで、モジュール３００のフロー・ベースのモーフィングを用いてさらに補強され／補正され、オプティカル・フローそれ自体は、モジュール２００によって決定されている。

前述のように、結果として生じる微調整され、モーフィングされた３Ｄ標準モデルは、オプティカル・フローの決定のためにフィードバック・ループにおいて使用される。

以下のより詳細な実施形態は、顔の特徴のモデリングに関連して説明されるであろう。例えば、動物など、ビデオにおける他の変形可能なオブジェクトをモーフィングに応用するために、この文書の教示をどのようにして使用すべきかは、当業者には知られている。

図２は、図１の標準３Ｄモーフィング・ブロック１００についてのより詳細な実施形態を示すものである。このモジュールは、アクティブ・アピアランス・モデル（ＡｃｔｉｖｅＡｐｐｅａｒａｎｃｅＭｏｄｅｌ）の省略形であるＡＡＭ検出モジュールなどの検出モジュールを備える。しかしながら、アクティブ形状モデル（ＡｃｔｉｖｅＳｈａｐｅＭｏｄｅｌ）の省略形であるＡＳＭなど、他の検出モデルを使用した他の実施形態が、存在する。

この検出モジュール１１０は、ＡＡＭ検出モデルなどの検出モデルに従って、時刻Ｔにおけるビデオ・フレーム内の顔の特徴を検出することを可能にする。ＡＡＭモデルとＡＡＭ検出とは、非剛性オブジェクトので特徴点を検出するためのコンピュータ・ビジョンにおいて、よく知られている技法である。ＡＡＭモーフィングは、万一３Ｄビデオがシステムに対して入力される場合に、３Ｄローカライゼーションへと拡張される可能性もあり、またＡＡＭ検出モジュールは、同様に顔以外の他のオブジェクトの上で特徴点を検出することができる。検出が実行されるオブジェクト・カテゴリは、ＡＡＭモデル検出モジュールのトレーニング・フェーズに関連していることもあり、このトレーニングは、オフラインで、または早期のトレーニング・プロシージャにおいて行われている可能性もある。説明された実施形態においては、ＡＡＭ検出モジュール１１０は、２Ｄビデオ・フレームにおいて検出される、非剛性オブジェクトである人間の顔の鼻、口、目、眉毛、頬など、顔の特徴点を検出するようにトレーニングされる。ＡＡＭ検出モジュール１１０それ自体の内部で使用されるＡＡＭ検出モデルは、このようにして、一連のモデル中から選択される可能性があり、または事前にプログラムされ、またはオフラインでトレーニングされて、一般的にすべての人間の顔に対して適用可能にすることができる。

例えば、猫などの動物モデルをモーフィングする場合、そのときにはトレーニング・プロシージャは、この猫についての形態／考え得る表情に関する他の重要な特徴点を検出するように適合されていることになる。これらの技法はまた、当業者にはよく知られてもいる。

人間の顔モデリングの例においては、ＡＡＭ検出ブロック１１０は、一般に、人間の感情に関連した何らかのより詳細な顔の表情を検出することにより、一緒に、またはそれに続いて、ビデオ・フレームの中の人間の顔について大まかな動きを検出することを含むことになる。ライブ・ビデオ・フレームの中の顔全体の相対的な位置または絶対的な位置は、図１の上では、「位置」情報として示される。この位置情報を使用して、モジュール１２０において「標準３Ｄモデル」と示される顔の３Ｄ標準モデルを移動させ、かつ／または回転させることになる。さらに、限られた顔の表情もまた、鼻、眉毛、口などの位置についての何らかの目安を用いて、モジュール１１０の中で検出される。この出力は、図１において、「特徴」として示され、またこれらの特徴はモーフィング・モジュール１３０の中で使用され、モジュール１２０によって出力されるように、位置適応された標準モデルの対応する顔の特徴を適応させる。

モジュール１２０に入力される３Ｄ標準モデルはまた、一般に、標準データベースから使用可能／選択可能でもある。そのような標準データベースは、人間の顔と、猫、犬の種類など、いくつかの動物とについての３Ｄ標準モデルを含むことができる。この標準３Ｄは、このようにして、モジュール１１０からの位置情報に従って変換され、回転され、かつ／または拡大縮小されることになる。

人間の顔モデリングの場合には、この位置適応ステップは、ライブ・ビデオ・フィード（ｌｉｖｅｖｉｄｅｏｆｅｅｄ）の中の顔と同じポーズを反映した３Ｄ標準モデルをもたらすことになる。２Ｄフレームの正しい顔の表情に３Ｄモデルをさらに適応させるために、モジュール１１０からの検出された特徴は、ステップ１３０における部分的に調整された３Ｄ標準モデルに適用される。このモーフィング・モジュール１３０は、さらに、図２において「モーフィング・モデル」で示される特定の適応モデルを使用しており、この適応モデルは、検出モジュールからのそれらの提供に応じて標準３Ｄモデルの上で顔の特徴をどのようにして適応させるべきかについての指示を含むこともできる。万一ＡＡＭ検出モデルが使用された場合に、モーフィング・モデルは、一般に、ＡＡＭモーフィング・モデルになる。万一上述のＡＳＭモーフィングなど、他のモデルが使用される場合にも、類似した考察が適用できる。

結果は、それゆえに、モジュール１３０によって提供されるモーフィングされた標準３Ｄモデルである。

このモデル・ベースのモーフィングについての例示の実装形態は、ライブ・ビデオ・フィードの顔の特徴の検出結果に基づいて、顔の特徴に関連した標準モデルの３Ｄの頂点を再配置することを含むことができる。顔の特徴の間の３Ｄコンテンツは、簡単な線形補間によってさらに補充される可能性があり、または万一顔の弾力性を含む、より複雑な高次のＡＡＭモーフィング・モデルが、使用される場合には、より高次の補間、または他のより複雑な機能でさえも、使用される。どのようにしてそれらの頂点が変位させられるか、またどのようにしてその間にあるデータが補充されるかは、すべてモーフィング・モデルに含まれる。

使用可能な（ＡＡＭ）検出およびモーフィング・モデルの品質にかかわらず、包括的な適用可能な検出モデルはライブ・ビデオ・フィードの中の顔の特徴のロケーションを検出するためだけに使用されるため、依然として作り物のような結果となり、これらをその後に使用して、ビデオフィードの中のそれらのロケーションに基づいて３Ｄ位置適応モデルの顔の特徴を変位させることに気付くこともできる。この３Ｄ標準モデルにおける顔の特徴間の部分は、次いで、（ＡＡＭ）モーフィング・モデルを使用して補間される。しかしながら、後者は、各々の顔の特徴の変位が、どのようにして、隣接する顔の部位に影響を及ぼす可能性があるかについての知識を有しておらず、または限られた知識だけを有する。弾力性に関連していることである、顔の表情およびそれが顔の部位に与える影響についての何らかの一般的な情報は、このモーフィング・モデルに入れられる可能性があるが、それにもかかわらず、作り物に見えるモーフィング結果をもたらすのは、単に、人はそれぞれ異なっており、すべての人間の顔を網羅する１つの非常に包括的なモデルが、各々の人の全表情をカバーすることはできないからである。

同様な考察が、３Ｄ標準モデルに基づいたビデオにおいて検出された動物など、他の変形可能なオブジェクトをモーフィングするために有効である。

モーフィングされた標準３Ｄモデルをさらに改善するために、モジュール１００によって提供されたこの作り物に見えるモーフィング・モデルは、図１を参照して先に述べたように、ステップ３００におけるフロー・ベースのモーフィングを使用して補強される可能性がある。

このフロー・ベースのモーフィング・ステップを実行する前に、オプティカル・フローそれ自体が、決定される必要がある。オプティカル・フローは、ここでは、１つのフレームから他のフレームへと、あるいはフレームから２Ｄモデルまたは３Ｄモデルへと目に見えるシーンの中のオブジェクト、表面、およびエッジの変位、または明らかな動きのパターンとして規定される。ここで説明される実施形態においては、オプティカル・フローを決定するための方法は、ピクセル・レベルで、異なる時刻において、例えば、ＴおよびＴ−１において撮影される２つの画像の間の動きを算出することを目指しており、または代わりに、時刻Ｔにおけるピクセルと、時刻Ｔにおける３Ｄモデルに対応するボクセルとの間の変位を算出することを目指しており、あるいは逆も同様である。

オプティカル・フローは、２Ｄビデオ・フレームに基づいて、モーフィングされた標準３Ｄモデルに対してモジュール３００で適用される必要があるので、オプティカル・フローは、このフレームからこの３Ｄモデルへと算出されることになる。しかしながら、一般には、オプティカル・フローの算出は、２Ｄフレームから別の２Ｄフレームへと実行され、それゆえに、いくつかの余分なステップが、２Ｄフレームから３Ｄモーフィングされたモデルへのオプティカル・フローを決定するために追加される。この余分なステップは、例えば、Ｔ−１において決定された、以前に決定され、微調整された３Ｄモデルである、参照３Ｄ入力を使用することを伴うこともある。この情報は、このようにして、装置の出力からモジュール２００へと提供される。

図３は、モジュール２００を実現するための詳細な実施形態を示すものである。この実施形態においては、第１のモジュール２５０は、モーフィングされた標準３Ｄモデルの２Ｄ投影と、以前の微調整され、モーフィングされた３Ｄ標準モデルの２Ｄ投影との間の第１のオプティカル・フローを決定するように適合されている。第２のモジュール２９０は、時刻Ｔにおける実際の２Ｄフレームと、以前の微調整された、モーフィングされた３Ｄ標準モデルの２Ｄ投影との間の第２のオプティカル・フローを決定するように適合されている。結合モジュール２７０は、前記の第１のオプティカル・フローと第２のオプティカル・フローから第３のオプティカル・フローを算出する。この第３のオプティカル・フローは、時刻Ｔにおける実際の２Ｄフレームと、時刻Ｔにおけるモーフィングされた標準３Ｄモデルの２Ｄ投影との間のオプティカル・フローである。モジュール２８０は、次いで、時刻Ｔにおける２Ｄ画像データ入力と、時刻Ｔにおけるモーフィングされた標準３Ｄモデルとの間の望ましいオプティカル・フローを取得するために、この第３のオプティカル・フローをさらに適応させることになる。さらなる詳細が、次に説明されるであろう。

モーフィングされた標準３Ｄモデルの２Ｄ投影と、以前の微調整されモーフィングされた３Ｄ標準モデルの２Ｄ投影との間の第１のオプティカル・フローを決定するために、これらの２Ｄ投影は、モジュール２００に提供されるそれぞれの３Ｄモデルの上で実行される。この目的を達成するために、モジュール２３０は、モジュール１００によって提供されるようなモーフィングされた標準３Ｄモデルの上で２Ｄレンダリングまたは投影を実行するように適合されているのに対して、モジュール２４０は、図３の実施形態においては、時刻Ｔ−１において決定されるモデルである、以前の微調整され、モーフィングされた３Ｄ標準モデルの類似した２Ｄ投影を実行するように適合されている。これらの投影において使用される投影パラメータは、２Ｄビデオ・フレームを録画するためのビデオ・カメラの投影パラメータに対応していることが好ましい。これらは、ビデオ・カメラのキャリブレーション・パラメータに関連している。

図３に示される実施形態においては、モジュール２９０は、３つのさらなるサブモジュールを備える。そのうちのモジュール２２０においては、時刻Ｔにおける現在のビデオ・フレームと、以前のビデオ・フレーム、この場合には時刻Ｔ−１におけるビデオ・フレーム、との間のオプティカル・フローは、すなわち、ビデオは決定される。以前の２Ｄフレームのタイミング・インスタンスは、以前の微調整されモーフィングされた３Ｄ標準モデルのタイミング・インスタンスと同じである。

したがって、モジュール２９０の遅延要素２１０は、図１における完全な装置のフィードバック・ループの中で使用される遅延と同じ遅延を導入する。もちろん、この場合にも、２Ｄビデオの以前の値を提供するための他の実施形態も可能であり、この以前の値はまた、このようにして、単に、内部メモリに記憶されることも可能性であり、追加の遅延ブロックの必要性を軽減している。

連続するビデオ・フレームＴと、Ｔ−１との間で算出されるオプティカル・フローは、このようにしてモジュール２２０において決定され、またさらにこれをモジュール２６０において使用して、時刻Ｔ−１における３Ｄの微調整された出力の２Ｄ投影からＴにおける２Ｄビデオ・フレームへのオプティカル・フローを決定することなどを行う。投影それ自体は、このようにしてモジュール２４０において実行された。投影パラメータは、２Ｄビデオ・フレームが、録画される２Ｄカメラの中で使用されるこれらのパラメータにマッピングすることなどである。

ステップ２６０における第２のオプティカル・フローの決定は、標準のモデルと、ライブ・ビデオ・フィードとが、ときには異なる人を表現することができることを考慮に入れ、これらの異なる人は、何としてもアラインされるべきである。いくつかの実施形態においては、モジュール２６０は、２つのステップを含むことができ、すなわち、第１の顔登録ステップでは、以前のフレームＴ−１におけるライブ・ビデオ・フィードの顔の輪郭は、以前の微調整されモーフィングされた３Ｄコンテンツ（時刻Ｔ−１上）の２Ｄ投影の顔の輪郭に対してマッピングされる。この登録ステップは、この場合にも、ＡＡＭ検出器を使用することができる。次に、時刻Ｔにおけるライブ・ビデオ・フィードの上で算出されるオプティカル・フローは、例えば、時刻Ｔ−１における２Ｄ投影された３Ｄコンテンツの顔の輪郭に対する補間を用いてアラインされる。これらの実施形態は、図７および８に、より詳細に示されている。

時刻Ｔにおけるモーフィングされた標準モデルの２Ｄ投影と、時刻Ｔ−１における以前に微調整された標準モデルとの間で、モジュール２５０によって決定される第１のオプティカル・フローは、次いで、モジュール２６０において決定される第２のオプティカル・フローと結合されて、時刻Ｔにおける２Ｄビデオから時刻Ｔにおけるモーフィングされた標準モデルの２Ｄ投影への第３のオプティカル・フローをもたらす。これは、２Ｄにおいては、実際には望ましいオプティカル・フロー情報である。この結合は、以前に決定された、微調整されたモデルの２Ｄ投影である、中間の共通要素を差し引くことを伴うので、この結合はモジュール２７０において、「−」符号を用いて示されている。

しかしながら、この決定された第３のオプティカル・フローは、依然として、２Ｄにおける２つの画像の間のオプティカル・フローに関係するので、追加のステップ２８０は、時刻Ｔにおける２Ｄビデオ・フレームから時刻Ｔにおけるモーフィングされた標準３Ｄモデルの３Ｄコンテンツへのこのオプティカル・フローの変換のために必要とされる。これは、２Ｄ投影中に使用されるような逆プロセスを使用している逆投影を伴うことがあるため、同じ投影パラメータを有することもある。この目的を達成するために、２Ｄ投影からもたらされた深さが、２Ｄから３Ｄへの頂点を算出し直すために使用される。

時刻Ｔと、Ｔ−１とにおける、連続するフレームと、逐次的に決定され微調整された、モーフィングされた３Ｄモデルとを使用する代わりに、新しいフレームと以前のフレームとの間のタイム・ギャップは、フレーム遅延よりも長い可能性があることに気付くべきである。この場合には、対応する以前に決定された、出力モーフィングされたモデルは、モジュール２００において使用されるような実際のフレームと以前のフレームとの間のタイミング差が、オプティカル・フローを決定するために使用される新しく決定されるべき出力と、以前の出力との間のタイミング差に対応するように、使用されるべきである。一実施形態においては、これは、例えば、図１のフィードバック・ループと、図３のモジュール２１０とにおいて類似した遅延要素Ｄを使用することにより実現される可能性がある。

次いで、図１のモジュール３００は、このようにして算出されたオプティカル・フローをモーフィングされた標準３Ｄモデルに対して適用し、それによって微調整されモーフィングされた３Ｄ標準モデルを生成する。

図４に示される、本装置の第１の変形の実施形態においては、追加のフィードバック・ループが、時刻Ｔにおける２Ｄビデオと、この時刻Ｔにおけるモーフィングされた標準３Ｄモデルとの間のオプティカル・フローを計算するモジュール２００の出力と、標準３Ｄモデルの初期モーフィングを実行するための適応モジュール１０００との間に存在する。この適応モジュール１０００は、さらに、図５の上に詳細に示されている。図２と比べて、このモジュール１０００は、オプティカル・フロー算出モジュール２００の出力によって提供される「オプティカル・フロー」で示される余分な入力信号を受信し、この情報は、モーフィング・モジュール１３０それ自体の中で使用されるモーフィング・モデルを適応させるために使用される。モーフィング・モジュール１０００内部の追加モジュール１４０は、このようにして、このオプティカル・フロー情報に基づいて、モーフィング・モデルの以前のバージョンをアップデートする。図５に示される実施形態においては、この場合にも、遅延要素の使用が示されているが、以前の値をただ記憶する他の実施形態も同様に可能である。

標準の包括的なモーフィング・モデルは、各々の顔の特徴の変位がどのようにしてその隣接する顔の部分に影響を及ぼすかについての知識を有していないので、オプティカル・フロー・フィードバックを使用したモーフィング・モデルのこのアップデートは、有用である可能性がある。これは、この基本的なモーフィング・モデルの中には、弾力性の概念が存在しておらず、または弾力性の十分な概念が存在していないからである。オプティカル・フロー情報の提供は、それゆえに、より複雑な高次のモーフィング・モデルの学習を可能にすることができる。ここでのアイデアは、完全なモーフィング・モデルが、ライブ・ビデオ・フィードと完全に似ているように、３Ｄ標準モデルをモーフィングすることであり、この場合には、モジュール２００の「オプティカル・フロー結合」ブロック２７０は、最終的に、適用される余分なオプティカル・フローはない、したがって必要以上のものは存在しないということになる。

図６に示される、別の変形の実施形態においては、さらに別のフィードバック・ループが、オプティカル・フロー算出モジュール２００から標準３Ｄモーフィング・モジュール１００へと内部信号をフィードバックするために存在している。図７は、これに関して、詳細な実施形態を示すものであり、すなわち、フィードバックは、実際に、時刻Ｔにおけるビデオ・フレームと、時刻Ｔ−１におけるビデオ・フレームとの間の２Ｄレベルにおけるオプティカル・フローから余分なＡＡＭまたは他の検出モデル適応モジュールそれ自体へと提供される。ライブ・ビデオ・フィードにおけるフレームＴ−１とＴとの間で算出されるオプティカル・フローは、フレームＴ−１において検出される顔の特徴を、フレームＴにおいて検出される顔の特徴に対してマッピングすることを仮定することができる。必ずしもすべての顔の表情が、この検出モデルの対象として含まれるとは限らない可能であるので、ライブ・ビデオ・フィードにおける顔の特徴検出は、ときには失敗する可能性がある。このシナリオは、将来的な発生が検出され、それに応じて３Ｄ標準モデルに適用できるように、表情が含まれる顔の特徴を検出するための検出モデルを適合することで解決できる可能性がある。

図８は、これまでに説明されたすべてのフィードバック・ループが、組み込まれている一実施形態を示すものである。

図９は、モデル・ベースのモーフィングとフロー・ベースのモーフィング、これら両方についての組合せに対する、より確率論的アプローチを実施する別の高レベルの実施形態を示すものである。モデル・ベースのモジュール１００は、３Ｄモデルの特徴点の限られた希薄な組の正確な変位を提供するのに対して、フロー・ベースのモジュールは、あまり正確ではない２次元変位推定値を、ただしモデルの上の点のより高密度の組のために提供する。確率論的なアプローチを経由して異なる精度を有するこれらの異なる種類の観察を組み合わせることにより、微調整されモーフィングされた３Ｄ標準モデルのより正確な結果さえも取得することができる。そのような確率論的アプローチは、図９の実施形態のエネルギー最小化モジュール４００を用いて実現される。

顔のモデリングの場合には、そのような確率論的アプローチは、顔の基礎になっている弾力性モデルが、観察されていないギャップの中を補充することを直観的に可能にする。顔は、ある種のやり方でのみ移動することができる。動きには、制約条件が存在している。例えば、モデルの上の隣接するポイントは、同様なやり方で移動することになる。また、顔の上の対称点も相互に関連づけられる。これは、貴方が、貴方の顔の左部分がほほえんでいるのを見る場合に、右側も、この部分は観察されない可能性もあるが、高い確率で同様にほほえむという、存在していることを意味している。

数学的には、これは、２つのデータ項と、平滑度項とから構成されるエネルギー最小化問題として定式化される可能性がある。
Ｅ＝Ｓ＋Ｄ_ＦＬＯＷ＋Ｄ_{ＭＯＤＥＬ}

Ｄ_ＦＬＯＷは、最終的に微調整されモーフィングされた３Ｄモデルのための提案された候補の問題解決手法と、２Ｄ入力画像のオプティカル・フローのみを見ることから予期できるものとの間の何らかの距離測定基準である。提案された候補が、確率分布により良くマッチすればするほど、観察された高密度のオプティカル・フロー・マップを仮定すると、この距離はそれだけ短くなる。測定基準は、オプティカル・フローの推定値の精度に逆比例して重み付けされる。

Ｄ_{ＭＯＤＥＬ}は類似した測定基準であるが、候補の問題解決手法と、観察されたＡＡＭ−ベースのモーフィングされた３Ｄモデルとの間のマッチに従った距離を表す。それはまた、ＡＡＭアルゴリズムの精度に逆比例して重み付けされる。

Ｓは、顔の起こりそうにない動きにペナルティを科す。それは、２つのタイプの部分項目、すなわち、絶対ペナルティと相対ペナルティとを含む。絶対ペナルティは、提案された方向に突然動く顔のポイントの起こりそうにないことに比例してペナルティを科す。相対ペナルティは、同様なやり方でペナルティを科すが、隣接するポイント（または他の関連のあるポイント、例えば、対称ポイント）についての変位が与えられる。

エネルギー最小化問題は、非常に多数の技法によって解決される可能性がある。例は、すなわち、傾斜降下法（ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔｍｅｔｈｏｄｓ）、確率統計的手法（ｓｔｏｃｈａｓｔｉｃｍｅｔｈｏｄｓ）（シミュレーテッド・アニーリング、遺伝的アルゴリズム、ランダム・ウォーク）、グラフ・カット、信念伝搬、カルマン・フィルタ（Ｋａｌｍａｎｆｉｌｔｅｒ）、．．．である。その目的は、常に同じであり、すなわち、上記式におけるエネルギーが最小となる、提案されたモーフィング３Ｄモデルを見出すことである。

図９の実施形態についてのより詳細な実施形態が、図１０に示されている。

第２の確率論的実施形態が、図１１に示されている。この実施形態においては、アラインされたオプティカル・フローは、時間とともに蓄積される。エネルギー最小化問題において、蓄積されアラインされたオプティカル・フローと、ＡＡＭ検出／モーフィング結果とを結合することにより、３Ｄデータベース・コンテンツの、簡単かつ実物のようなモーフィングが可能になる。時間とともにオプティカル・フローを蓄積することにより引き起こされる可能性のあるドリフトは、ＡＡＭモーフィング結果を含めることにより対処される。また、作り物に見えるモーフィング結果は、オプティカル・フローをモーフィング結果に含めることにより取り除かれる。

すべての説明された実施形態は、人間の顔のモーフィングだけには限定されないことに注意すべきである。任意の非剛性オブジェクトについてのモデルは、モデル・ベースのアプローチにおけるモーフィングのために構築され、また使用される可能性がある。さらに、それらの実施形態は、ＡＡＭモデルの使用だけには限定されない。例えば、ＡＳＭ（アクティブ形状モデル）のような他のモデルが、初期のモーフィング・モジュール１００の間で使用される可能性がある。

本発明の原理は、特定の装置に関連して上記で説明されてきているが、この説明は、例としてだけ行われており、添付の特許請求の範囲において規定されるような本発明の範囲についての限定としては行われていないことを明確に理解すべきである。その特許請求の範囲においては、指定された機能を実行するための手段として示される任意の要素は、その機能を実行する任意のやり方を包含することを意図している。これは、例えば、機能を実行するそのソフトウェアを実行するための適切な回路と組み合わされた、それゆえに、ファームウェア、マイクロコードなどを含む、任意の形態のその機能またはソフトウェアを実行する電気的要素または機械的要素、ならびにもしあれば、ソフトウェア制御された回路に結合された機械的要素の組合せを含むことができる。そのような特許請求の範囲によって規定されるような本発明は、列挙された様々な手段によって提供される機能が、特許請求の範囲が要求する方法の中で、一緒に組み合わされ、まとめられ、またそれ以外の方法で具体的に規定されていない限り、どのような物理的構造も、本発明の新規性に対して特許請求の範囲のほとんどが重要ではなく、または全く重要でない。したがって、出願人は、これらの機能を提供することができるどのような手段も、本明細書において示されるこれらの手段と同等であるものと見なしている。

Claims

２Ｄ画像データ入力に基づいて標準３Ｄモデルをモーフィングするための方法であって、
検出モデルとモーフィング・モデルとを使用して前記標準３Ｄモデルの初期モーフィングを実行し、それによってモーフィングされた標準３Ｄモデルを取得するステップ（１００）と、
前記２Ｄ画像データ入力と、前記モーフィングされた標準３Ｄモデルとの間のオプティカル・フローを決定するステップ（２００）と、
前記モーフィングされた標準３Ｄモデルに対してオプティカル・フローを適用し、それによって微調整されモーフィングされた３Ｄ標準モデルを提供するステップ（３００）と
を含む方法。
前記２Ｄ画像データ入力と、前記モーフィングされた標準３Ｄモデルとの間のオプティカル・フローは、以前の２Ｄ画像フレームの上で決定される、以前の微調整され、モーフィングされた３Ｄ標準モデルに基づいて決定される、請求項１に記載の方法。
前記２Ｄ画像データ入力と、前記モーフィングされた標準３Ｄモデルとの間の前記オプティカル・フロー決定ステップ（２００）は、
前記モーフィングされた標準３Ｄモデルの２Ｄ投影と、前記以前の微調整され、モーフィングされた３Ｄ標準モデルの２Ｄ投影との間の第１のオプティカル・フローを決定するステップ（２５０）と、
前記実際の２Ｄフレームと、前記以前の微調整され、モーフィングされた３Ｄ標準モデルの２Ｄ投影との間の第２のオプティカル・フローを決定するステップ（２９０）と、
前記実際の２Ｄフレームと、前記モーフィングされた標準３Ｄモデルの２Ｄ投影との間の第３のオプティカル・フローを取得するために、前記第１のオプティカル・フローと前記第２のオプティカル・フローとを結合するステップ（２７０）と、
前記２Ｄ画像データ入力と、前記モーフィングされた標準３Ｄモデルとの間のオプティカル・フローを取得するために、前記モーフィングされた標準３Ｄモデルの２Ｄ投影中に取得される深さ情報に基づいて前記第３のオプティカル・フローを適応させるステップ（２８０）と
を含む、請求項２に記載の方法。
前記２Ｄ画像データ入力と、前記モーフィングされた標準３Ｄモデルとの間のオプティカル・フローに基づいて、前記初期モーフィング・ステップ（１０００）において使用される前記モーフィング・モデルを適応させるステップ（１４０）をさらに含む、請求項１乃至３のいずれか１項に記載の方法。
前記２Ｄ画像フレームと、以前の２Ｄ画像フレームとの間で決定されるオプティカル・フロー情報に基づいて、前記初期モーフィング・ステップにおいて使用される前記検出モデルを適応させるステップをさらに含む、請求項１乃至４のいずれか１項に記載の方法。
オプティカル・フローを適用する前記ステップは、エネルギー最小化プロシージャ（４００）を含む、請求項１乃至３のいずれか１項に記載の方法。
２Ｄ画像データ入力に基づいて標準３Ｄモデルをモーフィングするための装置であって、
検出モデルとモーフィング・モデルとを使用して前記標準３Ｄモデルの初期モーフィングを実行し、それによってモーフィングされた標準３Ｄモデルを取得し（１００）、
前記２Ｄ画像データ入力と、前記モーフィングされた標準３Ｄモデルとの間のオプティカル・フローを決定し（２００）、
前記モーフィングされた標準３Ｄモデルに対してオプティカル・フローを適用し、それによって微調整されモーフィングされた３Ｄ標準モデルを前記装置の出力に対して提供する（３００）ように
適合されている装置。
以前の２Ｄ画像フレームの上で決定される以前の微調整されモーフィングされた３Ｄ標準モデルに基づいて、前記２Ｄ画像データ入力と、前記モーフィングされた標準３Ｄモデルとの間のオプティカル・フローを決定するようにさらに適合されている、請求項７に記載の装置。
前記モーフィングされた標準３Ｄモデルの２Ｄ投影と、前記以前の微調整され、モーフィングされた３Ｄ標準モデルの２Ｄ投影との間の第１のオプティカル・フローを決定し（２５０）、
前記実際の２Ｄフレームと、前記以前の微調整され、モーフィングされた３Ｄ標準モデルの２Ｄ投影との間の第２のオプティカル・フローを決定し（２９０）、
前記実際の２Ｄフレームと、前記モーフィングされた標準３Ｄモデルの２Ｄ投影との間の第３のオプティカル・フローを取得するために、前記第１のオプティカル・フローと第２のオプティカル・フローとを結合し（２７０）、
前記２Ｄ画像データ入力と、前記モーフィングされた標準３Ｄモデルとの間のオプティカル・フローを取得するために、前記モーフィングされた標準３Ｄモデルの２Ｄ投影中に取得される深さ情報に基づいて前記第３のオプティカル・フローを適応させる（２８０）
ことにより、前記２Ｄ画像データ入力と、前記モーフィングされた標準３Ｄモデルとの間のオプティカル・フローを決定するようにさらに適合されている、請求項８に記載の装置。
前記２Ｄ画像データ入力と、前記モーフィングされた標準３Ｄモデルとの間のオプティカル・フローに基づいて前記初期モーフィング・ステップ（１０００）において使用される前記モーフィング・モデルを適応させる（１４０）ことがさらにできるようになっている、請求項７乃至９のいずれか１項に記載の装置。
前記２Ｄ画像フレームと、以前の２Ｄ画像フレームとの間で決定されるオプティカル・フロー情報に基づいて、前記初期モーフィング・ステップにおいて使用される前記検出モデルを適応させることがさらにできるようになっている、請求項７乃至１０のいずれか１項に記載の装置。
請求項７乃至１１のいずれか１項に記載の装置を備える画像処理装置。
データ処理装置の上で実行されるときに、請求項１乃至６のいずれか１項に記載の方法ステップを実行するように適合されたソフトウェアを備えるコンピュータ・プログラム製品。