JP2014520332A

JP2014520332A - 画像モデルの構築のための方法および装置

Info

Publication number: JP2014520332A
Application number: JP2014516259A
Authority: JP
Inventors: ティガット，ドニー; シックス，アーウィン; リーヴェンス，サミー; アーツ，マーチン
Original assignee: アルカテル−ルーセント
Priority date: 2011-06-20
Filing date: 2012-06-04
Publication date: 2014-08-21
Anticipated expiration: 2032-06-04
Also published as: KR20140024058A; EP2538388A1; EP2538389B1; JP5806399B2; EP2538389A1; US20140212030A1; KR101560508B1; CN103608847B; WO2012175321A1; WO2012175320A1; CN103608847A; US20140212031A1; JP2014520333A; CN103608846A; EP2538388B1; KR101547780B1; CN103608846B; US9269194B2; KR20140037936A; JP5784226B2

Abstract

【課題】画像データ入力から画像モデルを構築するための方法を提供する。
【解決手段】画像データ入力から画像モデルを構築するための方法であって、反復的やり方で、画像データ入力の少なくとも１つの状態、および中間の学習モデルの状態を決定し、少なくとも１つの画像データ入力の状態から、中間の学習モデルの状態から、ターゲット状態を決定し、画像データ入力についての決定されたターゲット状態に従って変換を実行し、それによって変換された画像を生成し、中間の学習モデル情報と変換された画像を集約し、それによって画像モデルのアップデートされた推定値を生成し、画像モデルとして画像モデルのアップデートされた推定値を提供し、中間の学習モデルのアップデートを導き出すためにモデル・オブジェクト学習モジュールに対して、フィードバック・ループにおいて、画像モデルのアップデートされた推定値を提供する、方法。
【選択図】図２ａ

Description

本発明は、画像モデルの構築のための方法に関する。

現在では、実際の動的なシーンに基づいた、または安価なカメラによって撮影された画像にさえ基づいたモデルの構築が、難しい問題になっている可能性がある。

専用のハードウェア・ソリューションが、存在しているが、これらは、高くつき、高価なカメラを利用しており、また使用するために扱いにくいものである。さらに、ほとんどのソリューションはまた、シーンが動的であることを可能にすることはなく、このことは、それらの使用をかなり制約する。

本文の残りの中では３Ｄによって省略されることになるが、３Ｄの測定からの３次元の構築では、最新式のメッシュ生成アルゴリズム（meshing algorithms）が、品質測定から良好な品質を有する結果を作り出すことができるが、しかしながら、これらのソリューションは、非常に計算集約的なものである。さらに、どのソリューションも、より低い品質の画像に基づいて、良好な品質を有する３Ｄのモデルの生成のためには、使用可能ではない。

特開２００９−４２８１１号公報

したがって、画像モデルの構築のための方法および装置を提示することが、本発明の実施形態の一目的であり、この画像モデルの構築は、同時に、安価で簡単なソリューションを提供しながら、低品質の実生活のキャプションから高品質の２Ｄおよび３Ｄの画像モデルとビデオ・シーンとを生成することができる。

本発明の実施形態によれば、この目的は、少なくとも１つの画像データ入力から画像モデルを構築するための方法によって達成され、前記方法は、反復プロセスにおいて、
前記少なくとも１つの画像データ入力の少なくとも１つの状態および中間の学習モデルの状態を決定するステップと、
前記少なくとも１つの画像データ入力の前記少なくとも１つの状態から、また前記中間の学習モデルの状態から、ターゲット状態を決定するステップと、
前記少なくとも１つの画像データ入力についての決定されたターゲット状態に従って少なくとも１つの変換を実行し、それによって少なくとも１つの変換された画像を生成するステップと、
中間の学習モデル情報と前記少なくとも１つの変換された画像を集約し、それによって前記画像モデルのアップデートされた推定値を生成するステップと、
前記画像モデルとして前記画像モデルの前記アップデートされた推定値を提供するステップと、
前記中間の学習モデルのアップデートを導き出すためのモデル・オブジェクト学習モジュールに対して、フィードバック・ループにおいて、前記画像モデルの前記アップデートされた推定値を提供するステップと
を含む。

このようにして、反復プロセスにおいて、モデルの後続のアップデートされた推定値のフィードバックを提供することにより、学習モデルを生成するためのこれらの以前に生成されたアップデートされた推定モデルのうちの少なくとも１つを使用することにより、また同様に入力と、この連続的に適応された学習モデルとの両方の状態パラメータを利用することにより、非常に正確なモデルが、現在の最新の技法に比べてずっと少ない計算の努力とリソースとを使用しながら、取得されることになる。

一実施形態においては、変換が、入力データのうちの一部について、または全部について実行されるだけでなく、中間の学習モデルについても実行される。これらの変換は、決定されたターゲット状態に従って実行される。集約するステップ中に、変換された１つまたは複数の画像と一緒に、このようにして生成された中間の変換されたモデルをさらに使用することにより、画像モデルのより正確なアップデートされた推定値が、より速いやり方でさえ、取得される可能性もある。

別の実施形態においては、後続の状態が、同じ画像データ入力について決定され、そこでは、前記集約するステップは、前記画像モデルの最後にアップデートされた推定値だけが、前記画像モデルとして提供されるように、前記画像モデルの前記アップデートされた推定値のうちの後続の推定値についての収束チェックを含んでいる。

これは、特に、先行技術の方法に比べてより少ない計算リソースを使用して、場合によっては低品質である静止画像入力についての正確なモデルを生成するために適している。

別の実施形態においては、状態の後続の値は、前記画像モデルの後続のアップデートされた推定値が、前記ビデオの前記後続のフレームにおいてオブジェクトを追跡しているように、ビデオ入力データの後続のフレームについて決定される。

これは、ビデオの上のオブジェクトを追跡する高品質モデルを生成するためのソリューションをその問題に対して提供する。

別の実施形態においては、前記少なくとも１つの画像データ入力は、２Ｄのフォーマット、または２Ｄ＋ｚのフォーマットにおけるオブジェクトのビデオ・シーケンスを含む第１の画像データ入力と、前記オブジェクトの完全な３Ｄの画像を含む第２の画像データ入力とを含んでおり、そこでは、前記状態は、３Ｄにおける前記画像モデルの逐次的なアップデートされた推定値が、前記画像モデルとして提供されるように、３Ｄにおける前記オブジェクトの位置パラメータおよびモーフィング・パラメータを表す値の組合せを含んでいる。

一実施形態においては、そのような位置パラメータは、３Ｄにおける前記オブジェクトの方向、３Ｄにおける前記オブジェクトのスケール、３Ｄにおける前記オブジェクトのロケーションを含むことができる。モーフィング・パラメータは、表されるべき人間の頭の場合における顔の特徴、または表されるべき自動車など比較的静的なオブジェクトの場合におけるカラーおよびテクスチャを表すパラメータを含むことができる。

これは、２Ｄのビデオ画像を追跡する高品質の３Ｄのモデルを生成するための第１の詳細な例を与えている。これは、例えば、高品質の３Ｄのモデルが２Ｄのビデオにおけるオブジェクトを追跡して生成されることになる場合のビデオ会議アプリケーションにおいて使用されることもある。

万一、第２の画像データ入力が少なくとも１つの異なる特徴を有する前記オブジェクトの完全な３Ｄの画像を含む場合には、生成されたモデルは、それにもかかわらずこの異なる特徴を示しながら、２Ｄのビデオ・シーケンスのオブジェクトを追跡することなどとすることができる。別の実施形態においては、そのような３Ｄの推定値は、２Ｄにおけるこれらの２Ｄの投影が、出力に対して前記画像モデルとして提供されるように、さらに、２Ｄのプレーン上へと投影される。

これはまた、人々が、それらについて行われている実生活のビデオ入力に比べて、依然として現実的であるが、改善されたやり方で表されることを望む可能性がある場合のビデオ会議アプリケーションにおいて、あるいは例えば、インターネット・アプリケーションまたはオンライン・ミーティング・アプリケーションにおいて使用することもできる。これは、例えば、誰かが、そのようなビデオ・オンライン・ミーティング・セッション中にキーボードの上で情報をタイプしている場合とすることができる。この人は、このようにして、カメラをまっすぐにのぞき込んでいないが、彼／彼女は、このライフ・トラッキング・モデルが、このオンライン・ミーティングの他の参加者に対して通信され、また他の参加者によって閲覧されることになるので、いずれにせよカメラをまっすぐにのぞき込んでいるライフ・トラッキング・モデルによって表されていることをそれにもかかわらず望む可能性がある。これらの実施形態は、簡単であるが、それにもかかわらず非常に正確なソリューションをこの問題に対して提供している。少し補正されたモデルが、このようにして生成され、このモデルは、３Ｄにおいて、または２Ｄにおける投影するステップの後に提供されることもあり、またアプリケーションに応じて、例えば、生成されたモデルのビデオ・シーケンスとして、さらに通信され、または送信され、あるいは記憶される。

さらに他の実施形態においては、前記ターゲット状態は、さらに、前記画像モデルが生成されるべきオブジェクトに関連した追加の情報に基づいて決定される。

代わりに、前記中間の学習モデルは、さらに、外部で提供されたモデル情報から導き出されることもある。

本発明は、同様に、この方法を実行するための装置についての実施形態、そのような装置を組み込んでいる画像処理デバイスまたはビデオ処理デバイスについての実施形態に関し、またデータ処理装置の上で実行されるときに、上記の方法ステップまたは特許請求される方法ステップを実行するように適合されたソフトウェアを含むコンピュータ・プログラム製品に関する。

特許請求の範囲において使用される用語「結合される」は、直接接続だけに限定されるように解釈されるべきではないことに注意すべきである。それゆえに、「デバイスＢに結合されたデバイスＡ」という表現の範囲は、デバイスＡの出力が、デバイスＢの入力に直接に接続されているデバイスまたはシステムだけに限定されるべきではない。それは、他のデバイスまたは手段を含む経路とすることができる、Ａの出力と、Ｂの入力との間の経路が存在していることを意味している。

特許請求の範囲において使用される用語「備えている／含んでいる（ｃｏｍｐｒｉｓｉｎｇ）」は、その後にリストアップされる手段だけに限定されているように解釈されるべきではないことに注意すべきである。したがって、「手段ＡとＢとを備えるデバイス」という表現の範囲は、コンポーネントＡとＢとだけから構成されるデバイスだけに限定されるべきではない。それは、本発明に関して、デバイスの単に関連のあるコンポーネントが、ＡとＢとであることを意味している。

本文の全体の間で、２次元は、２Ｄによって省略されることになるが、上記で述べられるように、３次元は、３Ｄによって省略されることになる。

添付の図面と併せて解釈される実施形態の以下の説明を参照することにより、本発明の上記および他の目的と特徴とは、より明らかになり、また本発明は、それ自体、最もよく理解されることになる。

画像データの単一の入力源からモデルを提供するための方法についての概略的な実施形態を示す図である。画像データの単一の入力源からモデルを提供するための方法についての概略的な実施形態を示す図である。単一の入力源からモデルを提供するための装置Ａ１についての概略的な実施形態を示す図である。画像データの複数の入力源からモデルを提供するための方法についての概略的な実施形態を示す図である。画像データの複数の入力源からモデルを提供するための方法についての概略的な実施形態を示す図である。画像データのｎ個の入力源からモデルを提供するための装置Ａｎについての概略的な実施形態を示す図である。その２Ｄ＋ｚの情報が、単一の３Ｄの画像と同様に提供される、人の動きおよび特性をほとんど瞬間に表す現実的な３Ｄのモデルの生成のために適している、本方法の２つの他の実施形態を示す図である。その２Ｄ＋ｚの情報が、単一の３Ｄの画像と同様に提供される、人の動きおよび特性をほとんど瞬間に表す現実的な３Ｄのモデルの生成のために適している、本方法の２つの他の実施形態を示す図である。場合によっては人の不完全性を示す２Ｄのビデオに基づいて、またこの人の単一の３Ｄの画像に基づいて３Ｄのモデルの生成のために適している、本方法のさらに異なる実施形態を示す図である。図４ａの実施形態に対する別の変形形態を表す図である。

本明細書における任意のブロック図は、本発明の原理を具現化する、実例となる回路の概念図を表すことが、当業者によって理解されるべきである。同様に、任意のフロー・チャート、流れ図、状態遷移図、擬似コードなどは、そのようなコンピュータまたはプロセッサが明示的に示されているか否かにかかわらず、実質的に、コンピュータ読取り可能媒体において表され、またそのようにしてコンピュータまたはプロセッサによって実行され得る様々なプロセスを表すことが理解されるであろう。

図１ａは、単一の画像データ入力の中から２Ｄまたは３Ｄの画像モデルを生成し、また提供するための方法の一実施形態についての概略的な図を示すものである。この画像データ入力は、カメラによって提供されていることもあり、場合によっては２Ｄのフォーマット、３Ｄのフォーマットまたは２Ｄ＋ｚのフォーマットで移動するオブジェクトを表す、静止画像または一連のピクチャを提供している。２Ｄ＋ｚを用いて、２次元のピクセル・データが深さ情報に関連して提供されることが、意味される。そのような表現を使用して、３Ｄのピクセル・データを再構築することができ、またそのような表現は、一般的に３Ｄのカメラを用いて生成される。画像入力データは、同様に、例えば、メモリまたはストレージ・デバイスから取られ、または任意のタイプの通信ネットワークを経由して提供されることもあり、例えば、ＭＭＳピクチャが、通常のモバイル電話によって送信されることもある。入力画像データは、図１ａにおいてＩＶ１と示され、また２つのオペレーションを受ける。第１のオペレーションは、状態抽出または状態決定に関するものであり、この状態抽出または状態決定を用いて、画像入力のオブジェクトの状態を表すための状態パラメータが、決定されることが、意味される。状態を用いて、オブジェクトの特徴の構成が、意味され、またこれらの特徴は、それら自体、１組の値によって表される。これらの値は、それゆえに、場合によってはオブジェクトの可変の特性または特徴を説明することができる。値のこの組は、ベクトルへと配列される可能性があるが、そのような状態についての他の表現もまた、もちろん可能である。その状態が決定されるべきオブジェクトとしての人間の頭の例では、この状態は、以下の特徴または特性：（頭の方向＿ｘ（headOrientation_x）、頭の方向＿ｙ、頭の方向＿ｚ、スケール、ロケーション＿ｘ（location_x）、ロケーション＿ｙ、ロケーション＿ｚ、顔の表情＿１＿ｘ（faceExpression_1_x）、顔の表情＿１＿ｙ、．．．、顔の表情＿６８＿ｘ、顔の表情＿６８＿ｙ）の値を有するベクトルによって表されることもある。「頭の方向＿ｘ」は、それゆえに、水平方向における頭の傾きを示し、「頭の方向＿ｙ」は、それゆえに、垂直方向における頭の傾きを示し、また「頭の方向＿ｚ」は、それゆえに、深さ方向における頭の傾きを示している。「顔の表情＿１＿ｘ」は、画像の中の、項目１によって示されるある種の顔の特徴の、水平方向における、ロケーションを示している。上記の例においては、そのような特徴のうちの６８は、次いで、それらの２Ｄのロケーションを用いて表されることになる。そのような顔の特徴は、例えば、口の左端／右端、または目の左端／右端とすることができる。

同様に、例えば、レーシング・カーの画像を移動させる場合に、表されるべきオブジェクトは、このレーシング・カーであることになり、またこのオブジェクトの状態は、以下の特性、すなわち、３Ｄにおける自動車の方向、３Ｄにおける自動車のスケールおよびロケーション、３Ｄにおけるホイール（wheels）の方向、カラーなどについての値を有するベクトルによって表されることもある。

上記の例からのように、顔の表情を決定するこれらの特徴など、モーフィングの特徴、ならびに、例えば、カラーおよびテクスチャが、外観に関連した特徴を識別するために使用されるのに対して、方向、スケール、ロケーションなどの位置パラメータは、３Ｄにおける位置を識別するために使用されることは明確である。

着信する生データの中からオブジェクトの状態を決定するための方法は、一般に第１に、考慮中のオブジェクトの認識のステップを必要とすることになるが、場合によっては、必ずしもセグメンテーション・オペレーションを実行することによるものとは限らず、このようにして認識されたオブジェクトの深さ分析がさらに続いている。このさらなる分析は、例えば、ＡＡＭと略記される、アクティブ外観モデル（Active Appearance Model）の使用を必要とする可能性があり、このアクティブ外観モデルは、例えば、２Ｄの画像入力に基づいてモデル化されるべきオブジェクトとしての人間の頭の場合に、３Ｄまたは２ＤのＡＡＭ内部形成モデルとの適合を経由した２Ｄの入力画像の上の顔の特徴についての形状と外観との決定を可能にする。それは、２ＤＡＡＭモデルの開始値と２Ｄの入力画像を比較することとともに開始されることもあり、このＡＡＭモデルそれ自体は、次いでさらに、最適な適合を見出すように徐々に変更される。ひとたび良好なマッチが見出された後に、このＡＡＭ適応モデルに基づいてこのようにして決定される「顔の表情＿１＿ｘ」、「顔の表情＿１＿ｙ」などのパラメータが、出力される。

もちろん、他の方法が、当業者によってよく知られているように、認識されたオブジェクトの状態を決定するために、使用されることもある。

万一、画像データ入力が、複数のオブジェクトを含む場合には、状態パラメータを決定するためのプロセスが、それについてのモデルが望ましいオブジェクトごとに実行されることもある。これは、入力データが、それら自体、静止画像であるか、または動画であるかに応じて、精度の望ましいレベルに応じて、また使用可能な計算のリソースに応じて、並列に、または逐次的に行われることもある。当業者なら、万一、画像データが、複数のオブジェクトを含む場合には、複数のモデルを提供するための実施形態を生成することができるであろう。

オブジェクトの状態は、図１ａにおいてＰＳ１と示され、またモジュール２００の「ターゲット状態合成」によって示されるステップのための入力として使用される。このステップ中に、ターゲット状態ＴＳＰは、１つまたは複数の状態入力に基づいて決定される。図１ａのこの例においては、２つの状態の入力が、すなわち、入力画像ＰＳ１の状態、ならびに「学習モデル状態」ＰＳＭＦが、示される。後者は、出力モデルのフィードバックから取得される値に関する。一般に、そのようなフィードバック情報は、ＰＳＭＦの初期値が、万一、最終モデルについての何らかの初期知識が既に前もって知られている可能性がある場合に、デフォルト値になることができるように、第１の画像が分析される方法のスタートアップにおいて、まだ使用可能でない。代わりに、ステップ２００は、この第１のＰＳＭＦ値をただ無視することもできる。別の実施形態においては、図１ａの上でＰＳＥと示される何らかの外部状態情報もまた、図１ａの上の破線矢印によって示されるように、オプションの入力として提供される可能性がある。この外部情報は、例えば、万一、ＩＶ１がそのようなビデオを含む場合に、同じ入力ビデオ・データＩＶ１について実行される外部スピーチ分析モジュールから取得される可能性がある。このスピーチ分析からの結果である外部オーディオ情報をターゲット状態決定モジュール２００に対して提供することにより、いくつかの洗練された方法を使用して、ＰＳ１においてより早期に決定された顔の表情をこのスピーチ情報と比較し、またターゲット状態ＴＳＰとして提供されるためのより洗練された顔の状態をそれから推定し、または最適化することができる。

異なる入力状態ＰＳ１、ＰＳＭＦの中から、また余分な情報ＰＳＥからオプションとして、図１ａにおいてＴＳＰによって示されるターゲット状態を決定するための他の方法は、重みが、状態の信頼度を反映して、様々な入力状態の重み付けされた組合せを実行するステップを含むことができ、この信頼度レベルは、それら自体、状態抽出それ自体の間に決定された。ＰＳ１パラメータを決定するためのＡＡＭ方法の上記の例では、マッチした結果を識別するパラメータが、次いで、例えば、そのような信頼度の評価尺度として選択される可能性がある。

ターゲット状態を決定するための別の方法は、単に、入力状態のうちの１つを選択するステップから構成されることもあり、このオプションは、万一、異なる状態の以前の例において説明されるような補間または重み付けされた組合せの結果のチェックが、そのような補間された結果が所定の限界の外側に位置していることを示す場合には、好ましい可能性がある。このオプションはまた、万一、ＰＳＭＦがただデフォルト値を含むだけの場合に、または万一、入力状態の間の違いが、かなり大きい場合に、方法の初期化フェーズ中により適切なものとすることもできる。これは、例えば、万一、ＰＳ１がｚ−方向における１８０度の頭の方向を示す場合に、起こる可能性があり、これは、０．２の信頼度で、頭が後ろに向けられる場合とすることができるが、別の状態値、例えば、ＰＳＭＦは、モデルについての既に知られている情報によって例えば課されるように０．６の信頼度を有するただ２０度の方向を示している。そのような場合には、重み付けされた組合せ、または補間を実行する代わりに、両方の状態のうちの一方をターゲット状態として選択することだけが、最良である。選択それ自体は、そのときには、単に、最高の信頼度レベルを有する状態を選択することに基づいたものとすることができる。

ターゲット状態ＴＳＰは、入力画像データの変換を実行するために使用され、この変換は、ステップ３００の「画像変換」によって表される。そのような画像変換は、２Ｄにおけるピクセル・レベルにおいて、または３Ｄにおける、３Ｄのピクセルを示すための用語であるボクセルのレベルにおいて、行われる可能性がある。２Ｄにおける一実施形態においては、いくつかのフィルタリング・オペレーションが、それについてモデルが、出力において示されるべきオブジェクトに関して、有用なピクセル情報を保持するためだけなどに、行われる可能性がある。このオブジェクトは、もちろん、それについての状態が決定されたオブジェクトと同じである。それゆえに、状態抽出と、画像変換とのプロセスは、画像変換が、ターゲット状態の決定の後に起こるように、揃えられ、またさらに同期化される必要もある。

そのような画像変換の別の例は、顔のパラメータについての調整を伴うこともある。２Ｄにおける入力データが、適応されるべき一例においては、顔の特徴を表すための三角形を利用する方法が、使用されることもある。これらの三角形によって規定されるように距離を補間すること、および特徴を以前にはそれらの以前の位置におけるそれらのピクセルのせいにされていたこれらの新しい位置としてのそれらのピクセルのせいにすることを用いて、画像変換が、もたらされる可能性がある。

この変換を実行するための別の方法は、図３ａ〜ｂの実施形態の例を説明するときに与えられるであろう。

すべての場合に、この画像変換オペレーションの結果は、ＩＶ１Ｔで示される変換された画像であり、この画像は、一般に、考慮中のオブジェクトの詳細だけを含むことになる。

この変換された画像ＩＶ１Ｔは、中間の学習モデル情報ＭＦと集約されることになる。方法のスタートアップのすぐ後に、このＭＦ情報は、モデルについてのデフォルト情報を含む可能性があり、または代わりに、単に無視されることもある。使用可能な場合には、ＩＶ１ＴとＭＦとの両方が、ステップ４００において単一の画像へと集約されることになり、また一般的に出力されることになり、この単一の画像は、オブジェクトの推定モデルを含んでいる。この画像モデルは、Ｍ１で示される。

この決定された推定モデルＭ１は、モデル・オブジェクト学習モジュール５００へとフィードバックされ、このモデル・オブジェクト学習モジュールは、この推定モデルから学習モデルのアップデートを導き出すように適合される。次いで、学習モデルは、逐次的な反復ステップにおいて連続して適応されることになるので、それは、一般に「中間の学習モデル」ＭＦとして示される。画像モデルＭ１の推定値から中間の学習モデルのアップデートを導き出すことは、例えば、それらを記憶することにより、モデルＭ１の逐次的な推定値を追跡することを必要とする可能性があり、また最新のモデルと、以前に生成された出力Ｍ１とから中間の学習モデルＭＦを生成するために、画像モデルのすべての以前に決定された推定値のうちの最新のものの上での、あるいはそのすべてまたはサブセットの上での処理オペレーションを必要とする可能性もある。第１の反復ステップにおいて、ＭＦは、Ｍ１と同じとすることができ、この場合における同じ名前のついたモジュール５００によって実行されるこのモデル・オブジェクト学習ステップは、そのときには、その第１の入力Ｍ１と同じであるように、「中間の学習モデル」ＭＦを導き出すことをただ含んでいる。一般に、いくつかの反復が必要とされる可能性があるので、ＭＦの後続の値は、フィードバックの反復が使用される量に応じて、また集約ステップの後に画像モデルの推定値が、それ自体どのように変化する可能性があるかに応じて、中間の学習モデルが、連続的に変化することができるように、生成されることになる。

中間の学習モデルＭＦはまた、この中間の学習モデルの状態を決定するための状態抽出ステップ１００を受けることになる。入力画像の状態の決定のためと類似したオペレーションが、これに関して実行されることもあるが、モデルが、一般に考慮中のオブジェクトについてのデータを含むにすぎないことになるので、オブジェクト認識は、一般にもはや必要とはされない。中間の学習モデルの状態は、ＰＳＭＦで示される。中間の学習モデルの状態パラメータは、ターゲット状態ＴＳＰを決定するための入力画像データの状態パラメータと一緒に使用される。

フィードバック・プロセス中に、したがって、中間の学習モデルの生成およびその状態抽出中に、ＩＶ１は、次のフレームが、既に入力ＩＶ１において提示されていることもある入力ビデオの場合に特に、既に変化している可能性がある。この場合に、ビデオ・シーケンスのこの新しいフレームは、さらに、状態抽出ステップ１０１のために、また同様に画像変換のために使用されることもある。しかしながら、これは、必須ではなく、また実施形態に依存することになる。入力において提示される新しいフレームの場合に、状態抽出は、このようにしてそれに応じて起こる可能性があり、その結果、この入力画像の新しい状態は、ＴＳＰを生成するために、以前のフレームに基づいて決定される中間の学習モデルの状態と一緒に使用されることになる。万一、ＩＶ１が変化していなかった場合には、例えば、静止入力画像の場合には、状態抽出１０１は、たぶんこのオペレーションの以前の期間と類似した結果をもたらすことになるが、ターゲット状態合成は、今や、中間の学習モデルから抽出される状態を考慮に入れることにもなる。このようにして、ターゲット状態のよりよいチューニングが、もたらされることになり、これは、次には、さらに、画像変換３００に影響を及ぼすことになる。これは、一般に、より速い収束をもたらすことになる。図１ｂにおいて提示される実施形態など、別の実施形態においては、中間の学習モデルＭＦはまた、ターゲット状態パラメータによって制御される画像変換ステップ３０１を受けることになる。中間の学習モデルに対するこの画像変換は、例えば、万一、画像入力データが、２Ｄとして提示され、またモデルが、３Ｄのモデルである場合に、データそれら自体に応じて、画像入力データに対する変換と同様なやり方で、または場合によっては異なるやり方で、実行されることもある。しかしながら、両方の変換オペレーションでは、ＴＳＰは、両方のプロセスに対する制御入力として使用される。ＭＦに対する画像変換オペレーションの結果は、中間の変換されたモデルＭＦＴで示される。この実施形態においては、ＭＦＴは、集約ステップ中に中間の学習モデル情報として使用される。

スムーズなオペレーションのためには、すべてのこれらのステップのタイミング制御は、ＭＦの変換が、ターゲット状態ＴＳＰが決定される前に起こっていないようにするために、極度に重要であることは、明らかである。変換が学習モデルに対して実行されない、図１ａの実施形態においては、変換された画像データが、変換されていない学習モデルと集約されるべき集約ステップのタイミング制御が、極度に重要である。しかしながら、当業者なら、これが、この文書においてさらに論じられることにならないように、これを実現するための技法について熟知している。

図１ｂに示される実施形態においては、両方の変換された画像データＩＶ１ＴとＭＦＰとは、さらに、集約ステップ４００において入力として使用されることになるので、モデルのより良い、またより現実的な推定値がもたらされることになる。Ｍ１の後続のアップデートされた推定値についてのこのようにして説明されたフィードバック・プロシージャをさらに反復することにより、結果として生じるモデルは、さらに微調整されることになる。画像モデルについての、後でアップデートされた推定値が、後続のタイミングの場合において、出力に対して提供されることもある。これは、入力ビデオ・データのために最も役に立ち、ここでは、このようにして、モデルは、入力ビデオの中のモデル化されるべきオブジェクトの動きを追跡することになる。代わりに、集約ステップは、それ自体、さらに実質的に変化しない推定値に向かってモデルが、収束している後だけに、それが、出力に対して提供されることになるように、例えば、収束判断基準をチェックするステップをさらに含むことができる。そのような実施形態は、静止画像の場合により適切であるのに対して、入力ビデオを伴う場合のように、時間とともに画像を変化させる速度は、いくつかの反復が、１つの画像の上で起こらないようにするようなものとすることができることが、明らかである。入力ビデオ・データを処理する他の実施形態においては、いくつかの反復は、モデルの最新のアップデートが、出力に対して提供される可能性がある前に、後で提供された画像またはフレームの上で起こる可能性がある。そのような場合には、また、収束テストが、この場合にも適用される可能性がある。

図１ｃは、図１ａの方法のステップを実行するための装置Ａ１を示すものである。そのような装置は、このようなソフトウェアが、それがプロセッサの上で実行され、または代わりにそれ自体このサーバの上で実行され得るように、キャリアの上の、またはメモリへとプログラマブルな実行可能コードを用いて、あるいはサーバからのダウンロード・オペレーションを用いてのいずれかで提供された、ソフトウェア実装形態を用いて実現される可能性がある。代わりに、そのような装置は、ハードウェア要素を用いて、例えば、単一のプロセッサを用いて、または分散型のやり方で実現されることもある。異なるステップは、異なるモジュールによって表されるが、そのような明確な構造の描写が、いくつかの実装形態においては存在しないこともあること、およびそれらのステップのうちのすべてまたはサブセットが、１つの単一のプロセッサによって実行されることもあることは、明らかである。

図１ａの実施形態は、さらに、モデル・オブジェクト学習ステップ５００の間に、このモデルに関する、例えば、本方法の以前の使用中に取得され、また外部に記憶された以前に生成されたモデルに関する外部データもまた、次に外部入力として提供され得ることを示している。これは、オプションのステップであり、このオプションのステップは、それにもかかわらず収束速度を高めることができる。

図２ａは、本方法の別の実施形態を示すものであり、この方法は、今や、様々な入力源からの画像情報を使用している。図２ａの実施形態においては、ＩＶ１、ＩＶ２からＩＶｎで示される、ｎ個の異なる画像入力が、示されている。これらは、画像データを、例えば、２Ｄ、３Ｄおよび２Ｄ＋ｚにおける画像情報を含んでおり、またカメラからの実生活のストリーミング・データを含むことができ、あるいはメモリによって、または遠く離れたコンピュータ、カメラ、もしくはモバイル・デバイスなどからの電気通信チャネルを経由して提供されるデータを含むことができる。

図２ａの実施形態は、図１ａの実施形態に類似しており、各画像入力データの上で、状態が、そのモデルが出力Ｍとして表されるべきオブジェクトに関連して決定されるという違いを有している。それゆえに、ｎ個の状態抽出ステップは、ｎ個の画像入力源の上で並列に実行されることもあり、同じオブジェクトのｎ個のオブジェクト状態を生成している。良好なオペレーションでは、これらの状態抽出モジュールは、この場合にも、同じオブジェクトのパラメータを抽出するなどのように同期化され、また動作可能である必要があり、これらのオブジェクトについては、いくつかの基本的な詳細が、場合によっては前もって知られていることは、明らかである。代わりに、計算のリソースに応じて、ｎ個の状態抽出１０１、１０２から１０ｎは、例えば、同じモジュールによってシリアルなやり方で実行されることもある。この場合にはまた、実行されるべきこれらのステップと次のステップとの間の良好なタイミングの同期化が、重要であり、また、当業者なら、同期化の態様に対処するための実装形態を実現するように順応させられる。これは、主題の本発明の実施形態に直接に関連していないので、本発明者等は、この文書の中でこの態様をさらに詳細に論じることはない。

目的が、例えば、人間の頭の良好なモデルを生成することである場合、すべての状態抽出モジュール１０１、１０２から１０ｎは、「人間の頭のような」オブジェクトについて検索するように、また例えば、万一、これが、時としてこれらの画像の上に現れる場合に、自動車については検索しないように、適合される。ＰＳ１、ＰＳ２からＰＳｎで示されるこのオブジェクトの結果として生じる抽出された状態パラメータは、ターゲット状態合成モジュール２００に対して提供され、このターゲット状態合成モジュールは、今や、ターゲット状態ＴＳＰを決定するように適合される。一般に、このオブジェクトのモデルを生成するために使用される、同じオブジェクトに関連した画像入力源が、多くなればなるほど、より良好に、このモデルが構築される可能性がある。しかしながら、万一、オブジェクトが、例えば、時として入力画像の上に存在しなかった場合に、得られるこれらの値を除外する配慮が行われ、あるいは少なくともあまり注意を払わない必要がある。ターゲット状態合成ステップ２００は、図１ａの実施形態において使用されるステップに類似していることもあるが、次には、より多くの入力を考慮に入れている。これらの状態についての第１のチェックは、それらのすべてを考慮するか否かを決定する助けとなることもあり、これは、それらのすべてが、ある種の所定の限界の内部に位置する値を含むかどうかをチェックすることにより、またはそれらを互いに比較することにより実行されることもある。万一、いくつかの値が、実際に、これらの限界の外部に位置しているが、他の大多数がそうでない場合には、例えば、万一、２つの状態が、ｎ−２個の他の状態に比べて非常に外れた値を有する場合に、これらを切り捨てることが適切とすることができる。

次いで、公表されない状態が、補間を経由して、例えば、それらの値の重み付けされた平均化によって、ターゲット状態を決定するために使用されることもある。代わりに、信頼度レベルのチェックは、図１ａに関して以前の段落において説明されているように、最高の信頼度を有する状態を選択することだけを示すことができる。

このようにして決定されたターゲット状態ＴＳＰに基づいて、入力画像は、それぞれ、図１ａに関して説明されるものと類似したやり方で、ステップ３０１、３０２および３０ｎによって示されるように、変換を受ける。いくつかの実施形態においては、図３ａ〜ｂと、図４ａ〜ｂとを参照して説明されるように、これらの変換のうちのいくつかは、モデルそれ自体が、画像データ入力からひどく逸脱しているか否かに応じて、他の変換と比較して、大したことのないものになる。次に、変換された画像データＩＶ１Ｔ、ＩＶ２ＴからＩＶｎＴは、ステップ４００において集約される。図１ａの実施形態に類似して、中間の学習モデルＭＩＦの初期のデフォルト値が、初期のフェーズにおけるこの集約ステップにおいて使用されることもあり、またはこの値は、ただ無視される可能性もある。ｎ個の変換された画像の、また場合によっては反復プロセスの第１の期間におけるＭＩＦの入力デフォルト値の集約中に、モデルのより現実的な推定値が、場合によっては、変換のために使用される状態に整合したデータＴＳＰの組合せによってもたらされることになる。さらに、あるメトリクス（metric）を使用して、特にある種の入力画像の信頼性を集約ステップ中のメトリクスとして考慮に入れるときに、モデルの結果として生じる推定値をさらに洗練し、また改善する可能性さえある。例えば、人間の頭のモデルの顔の特徴の構築のために、正面のショット画像の信頼性は、一般に、側面のショット画像の信頼性よりも大きいが、必ずしも大きいとは限らない。集約ステップ中に、側面のショットの情報に比べて、このようにして、相対的に正面のショット画像についてのより多くの情報を使用することにより、よりよい推定モデルが、取得される可能性がある。状態抽出中に決定される信頼性はまた、どの画像が、集約ステップ中により多くの重みを与えるかを判断するときに、使用される可能性がある。

この場合にも、結果として生ずるモデルＭは、モデル・オブジェクト学習モジュール５００に対してフィードバックされ、このモデル・オブジェクト学習モジュールは、例えば、時間とともに、逐次的に決定された推定されたモデルを追跡することができ、またこのモデル・オブジェクト学習モジュールは、それらから、または最新の生成されたモデルから、あるいはその重み付けされた組合せなどから、改善された中間の学習モデルＭＩＦを作り出すことができる。もちろん、中間の学習モデルを生成するためのより多くの実装形態のうちの多くのものが可能である。

中間の学習モデルＭＩＦは、状態抽出ステップ１００を受けることになり、この抽出された状態ＰＳＭＦは、さらに、ターゲット状態合成２００中に使用される。このように取得されたターゲット状態パラメータＴＳＰは、さらに、入力画像ＩＶ１からＩＶｎの変換中に使用され、また場合によっては、図２ｂの実施形態の中に示されるように、中間の学習モデルについてのモデル変換ステップ３００中に使用される。後者のステップは、中間の変換されモデルＭＩＴを提供することになる。変換された画像データにこの中間の変換されたモデルを追加することにより、望ましい出力モデルＭに向かう、より正確な、またより高速な収束が、得られることになる。

図１ａ〜ｂに関して説明される考察と類似した考察が、入力画像データのタイプに応じて、また使用可能な計算のリソースに応じて、出力モデルの提供に関して適用することができる。類似した見解が、入力画像データそれら自体の状態決定と変換とに関して、この反復ステップ中に、また場合によっては、次の反復ステップ中に、特にビデオの場合の変化する入力画像データを考慮して、行われることもある。この場合にもまた、すべてのステップの同期化が、スムーズなオペレーションを保証するために重要であることが述べられていることもある。この場合にも、当業者なら、同期化のこの態様を実現することができる。

図２ｃは、この方法を実行するための装置を示すものである。ここでもまた、類似した考察が、そのような装置の実用化に関して、図１ｃについて述べられるこれらのものに関するように、適用される。

図１ａ〜ｃにおける実施形態と同様に、何らかの外部から供給されたデータ、例えば、本方法の以前の使用中に取得される、以前に外部に記憶されたモデルが、モデル・オブジェクト学習ステップ中に使用されるようにステップ５００に対して提供される可能性がある。図１ａの実施形態の説明中により詳細に説明されるように、外部情報をターゲット状態合成モジュール２００に対して提供することも可能である。

これらの方法と装置との利点は、図３ａ〜ｂと４ａ〜ｂとの中に示されるさらなる実施形態を用いてより明確になることさえある。

図３ａに示される実施形態は、人間の頭、自動車、木、．．．などのオブジェクトの２Ｄ＋ｚの画像のシーケンスを含む第１の画像データ入力ＩＶ１と、この同じオブジェクトの静止３Ｄ画像を含む第２の画像データ入力ＩＶ２とを受信している。画像モデルＭは、このオブジェクトの３Ｄのモデルであり、また「リアル・タイムに」提供される必要があることが好ましく、このようにして、２Ｄ＋ｚの画像のシーケンスの中で示されるオブジェクトについての、もしあれば、動きが、表される必要があり、また可能な限り現実的で正確であり、また３Ｄである必要があることを意味している。

そのような状況は、例えば、ユーザが、ラップトップの前に位置しているが、ステレオ・カメラが、場合によっては、必ずしもそうであるとは限らないが、２つのウェブカメラの安価な組合せを経由して実現されているが、ユーザの顔と上半身とを記録しているときに、起こる可能性がある。

現在では、最良の３Ｄの再構築アルゴリズムと組み合わせて最良のステレオ・マッチング・アルゴリズムを提供された最良の最も高価なステレオ・カメラを使用するときでさえ、十分に高い品質で３Ｄにおいて全部の頭を構築することは、可能ではない。これが、安価なカメラによって取得される２Ｄ＋ｚの画像データについての場合に確実になることは、疑う余地がない。

第２の画像入力が、次に、場合によっては、オフラインで取られ、またこのようにしてこのオブジェクトまたは人の２Ｄ＋ｚのビデオ・シーケンスに先立つ３Ｄのピクチャであるこの場合において、使用される。万一、その正確な、また「実生活の」モデルが生成されるべきオブジェクトが自動車に関する場合に、この自動車の３Ｄのピクチャが、使用されるなどである。

２Ｄ＋ｚの監視された人の頭と顔との、３Ｄにおける正確な、「実生活の」表現が、提供されることになる場合の実施形態では、状態は、位置パラメータ、例えば、頭の方向、３Ｄにおけるスケール、３Ｄにおけるロケーションと、モーフィング・パラメータ、例えば、顔の表情に関連したこれらのパラメータとの組合せとして決定される。後者は、例えば、それら自体、口、鼻、目、あごのライン、まゆ毛などの特定の相対位置または絶対位置に関連した、例えば、６８個の属性の値によって表現される可能性がある。これらは、３Ｄにおけるそれらの絶対座標または相対座標として表現されることもある。モデル化されるべき自動車の場合では、状態は、３Ｄにおける位置パラメータと、モーフィング・パラメータとを表す値の組合せを含んでおり、位置パラメータは、この場合にも、この自動車の３Ｄにおけるロケーションと、スケールと、方向とに関連しており、またモーフィング・パラメータは、例えば、ホイールなどの部分オブジェクトについてのカラー、テクスチャ、方向を識別している。

３Ｄのピクチャの状態は、２Ｄ＋ｚのビデオのそれぞれの後続の画像の状態と一緒に決定される可能性があるが、３Ｄのピクチャは、オフラインの静止画像に関するので、これはまた、前もって行われていることもある。その場合には、これらの状態パラメータは、早期に決定され、また記憶されていることもある。しかしながら、オンラインの２Ｄ＋ｚの入力画像データでは、画像は、例えば、人が折にふれて必然的に動くことになるので、変化することになり、またできるだけ現実的な人の頭と動きとのモデルを表現する、正確なオンラインの３Ｄの出力をレンダリングするために、できるだけ忠実にこれらの画像を追跡することが、目的である。同様な考察は、移動することになる動いている自動車が、外観において変化することもあり、またホイールのビュー、位置および方向が、変化することもあるなど、他の例の場合にも有効である。

人間の頭の後続の２Ｄ＋ｚの画像の各々、またはサブセットについての望ましい状態は、頭のポーズ推定と、顔の特徴抽出とのための最新式の画像処理技法を用いて決定される可能性がある。以上で説明されたＡＡＭ方法などの技法は、顔の特徴を決定するために使用されることもあるが、頭のポーズ・パラメータ値は、例えば、グリュナート・アルゴリズム（Grunert algorithm）を使用した顔の特徴三角形マッチングを経由して決定される可能性がある。

３Ｄの画像の状態は、この人間の頭の３Ｄの画像についてのいくつかの投影されたバージョンについての１組の顔の特徴のマニュアル表示を経由して、より早期にユーザによって決定されていることもある。代わりに、これはまた、例えば、認識技法を経由して、より自動的なやり方で実行されることもある。両方の状態ＰＳ１とＰＳ２とは、ターゲット状態ＴＳＰを決定するための入力として提供される。この場合には、動きの追跡は、後続の２Ｄ＋ｚの画像の上で決定される状態が、３Ｄの画像の変わらない状態に比べてより多くの重みが与えられることになるように、最も重要である。一実施形態においては、ＴＳＰは、ＰＳ１の値をただ引き継ぐ可能性さえあり、２Ｄ＋ｚの画像の状態であり、このようにしてＰＳ２値を切り捨てている。次の反復期間においては、生成された中間のモデルから抽出される状態が、ターゲット状態の決定のために使用されることにもなるが、これは、さらに、さらなる段落で説明されるであろう。

ターゲット状態ＴＳＰに基づいて、画像は、変換される。できるだけ忠実に２Ｄ＋ｚのビデオ画像の動きと表現に従うことが目的であるので、個々の画像を含む後続のビデオ・フレームは、それゆえにあまり変換されないことになり、何らかのフィルタリングだけが、行われることになる。他方、３Ｄの画像は、後続の２Ｄ＋ｚの画像の上に存在するような、顔の変化する表情／動きに向かってそれをより多く適応させるようになど、変換されることになる。これは、例えば、入力画像において検出されたオブジェクトのどのピクセル／ボクセルが、ＴＳＰ入力として提供されたある種の顔の特徴に適応させようと試みるときに、変化させられるべきかを示す、「操作された３Ｄのモデル」法を使用して、顔の特徴の適応に沿って、オブジェクトの回転と、変換と、スケーリングとの組合せによって行われる可能性がある。

これらの画像入力データに加えて、後続の反復ループにおいて連続的にフィードバックされる、人間の頭それ自体の３ＤのモデルＭのフィードバック情報もまた、存在している。モデル・オブジェクト学習ステップ５００は、３ＤのモデルＭについての異なる反復または推定値のロギングを意味しており、この３ＤのモデルＭは、このようにして、変化する表情および動きに応じて時間とともに変化する可能性がある。さらに、中間の学習モデルＭＩＦそれ自体はまた、好ましくは、空間的に依存するやり方で、いくつかのフィードバック・ループの上で適応され、中間の学習モデルＭＩＦが、スパース適応サンプリングのために一般に使用されるように、３Ｄの空間におけるあらゆる考慮されたポイントについて、距離メトリクスのせいにされることになることを意味している。あらゆる学習モデル・オペレーション中に、これらの距離メトリクスは、指数関数的に下降する時間モデルに基づいて、さらにアップデートされる。

中間の学習モデルＭＩＦは、さらに、状態抽出のために使用されることもあり、この情報はまた、さらに、このようにして、補間が適しているか否かを最初に決定することにより、上記の段落において説明されるようなやり方でターゲット状態ＴＳＰを決定するために使用されることもある。この補間は、万一、ＰＳ１データの信頼度が、それほど高くなく、例えば、５０％である場合に、適していることがある。代わりに、低い信頼度の、例えば、ＰＳ１の２０％よりも低い場合に、ＰＳＭＦを使用するだけのことが、より適切とすることさえできる。例えば、５０％よりも大きな、ＰＳ１データの比較的高い信頼度の場合には、ＰＳ１データだけが、使用される可能性がある。もちろん他の判断基準が、使用される可能性もあり、また補間の場合には、ＩＶ１入力ビデオの状態は、依然として、ターゲット状態の決定のために、ＰＳＭＦに関してより多くの重みを与えられる可能性がある。

このターゲット状態ＴＳＰは、入力画像データを変換するために使用されることもある。図３ａの実施形態においては、中間の学習モデルについてのさらなる変換は存在しておらず、この場合に、中間の学習モデルＭＩＦが、「状態依存」であることを意味している。図３ｂに示される代替的な実施形態においては、中間のモデルＭＩＦは、さらに、ＴＳＰを、そのようにして変化する入力の状態もまた間接的に考慮したさらなるチューニングを用いて、ＴＳＰに従って変換される。これは、「状態に独立したモデル」で示される。図３ａの実施形態においては、中間の学習モデルは、集約ステップ４００において直接に使用されるが、図３ｂの実施形態においては、変換されたモデル情報ＭＩＴは、このステップにおいて使用される。両方の実施形態においては、集約ステップ４００は、さらに、信頼度マップに基づいたものとすることができ、この信頼度マップは、いくつかの実装形態においては、信頼度が、ステレオ・カメラ画像から２Ｄ＋ｚのデータを決定するときのステレオ・マッチング・プロセスの結果とすることができるので、２Ｄ＋ｚのデータと一緒に提供されることもある。

信頼度マップは、変換された３ＤのデータＩＶ２Ｔのために構築される可能性もある。例えば、３Ｄのオフラインにスキャンされたデータの最初の高い信頼度が、かなりの変換が、顔のある種の部分に対して適用されるときに、低下することが、可能である。

学習モデルＭＩＦに関する信頼度メトリクスについては、人は、過去から信頼度を推論することができ、すなわち、例えば、モデルの以前の状態が、ある種のピクセルについての新しい測定値と適合していない場合に、人は、その部分の中に動きが存在しており、また信頼度が、同様に劣化することになっていることを仮定することができる。

それらの適切に決定された信頼度を有する適応された画像ＩＶ１Ｔ、ＩＶ２ＴをＭＩＦまたはＭＩＴと組み合わせることにより、３Ｄの構築アルゴリズム、例えば、「マーチング・キューブ（marching cubes）」アルゴリズムは、２Ｄ＋ｚの動きおよび表情に正確に従う整合した３Ｄのモデルを構築するために使用される可能性がある。

人間の頭の正確な、また「実生活」の３Ｄの表現を提供するための上記の例は、このようにして、たとえこの人についてのオンラインの追跡のための限られたリソースだけが使用可能であるとしても、例えば、参加するメンバーの完全な３Ｄの表現が、すべての他の参加者に示され、また送信されるために望ましい場合のビデオ会議の状況において適用されることもある。そのような状況においては、例えば、ラップトップなどのモバイル・デバイスの２つのウェブカメラの組合せ、またはウェブカメラと組み込み式のカメラとの組合せが、すべての参加者の安価な２Ｄ＋ｚの画像を生成するために使用される可能性があるのに対して、他方では、各々の人の３Ｄの表現における現実的で正確なオフラインの表現が、ビデオ会議中に、方法の実施形態を利用することにより、各々の人が、リアル・タイムに、また３Ｄで表現され得るように、前もって記憶されることもある。

図４ａは、異なる透視角からの入力の生活の２Ｄのビデオを表すために、例えば、「Ｐ」で示されるステップ６００を用いて図４ｂにおいて提示されるなど、一般的な投影技法を経由して、後で使用されることもあるが、同時に、場合によっては、いくつかのアーティファクトを含む可能性のある元の実生活の２Ｄのビデオを補正している３Ｄのビデオを生成するための実施形態を説明するものである。この補正は、この場合に、正しい３Ｄモデルだけが、この異なる投影の角度およびプレーンを考慮に入れて、後続の投影のために生成されることになるように、異なる投影ポイントから投影する結果とすることができる。この場合には、図３ａに関して説明されるような技法が、使用される可能性があり、投影ステップが、続いている。現実的な３Ｄのモデルを実現するための情報は、同じオブジェクトの３Ｄの画像を経由して提供されるが、この３Ｄの画像は、このアーティファクトを示してはいない。これは、例えば、オンライン・ビデオ通信のドメインにおいて使用することができ、ここでは、ユーザは、例えば、ウェブカメラによって撮影されており、またそれゆえに、カメラをまっすぐに見つめているように期待されるが、その代わりにユーザのキーボードの上でタイプしている。それにもかかわらず、目でカメラをまっすぐに見つめているこの人についてのビューが、この通信の他のパーティに送信されているために望ましい可能性があるので、いくつかの画像処理オペレーションが、ユーザの動きを現実的に追跡しているが、両目が、この望ましい光景を有するようになど補正されている、この人のモデルを生成するために必要とされる可能性がある。「下を」見ている人についての現象は、視線と呼ばれ、また視線補正は、それゆえに望ましい。

そのような視線補正を実行する上記の方法は、画面の周囲の複数のカメラのセットアップと、必要とされるカメラ位置のビューの補間を行うためのアルゴリズムとを必要としていた。他方、図４ａ〜ｂの実施形態は、非常に簡単であり、また場合によっては、正しいビューについてオフラインで取られ、このようにして、参加者が、カメラをまっすぐに見つめている３Ｄの画像を必要とするだけである。

図３ａの上記の例に関して説明されるように、状態は、この場合にも、それが、人間の頭、顔の回転、スケール、３Ｄにおけるロケーション、および顔の表情に関するので、とりわけさらに、位置パラメータと、モーフィング・パラメータとの組合せとして規定される。リアル・タイムの２Ｄのビデオの状態は、ターゲット状態として使用されることになり、またオフラインでスキャンされた３Ｄの測定値は、このターゲット状態を考慮に入れて変換される。集約ステップにおいては、オフラインの３Ｄの画像についての３Ｄの幾何学は、リアル・タイムに取り込まれた２Ｄの情報によって提供されるテクスチャ情報と一緒に使用される。

Ｍ３Ｄで示される図４ａ〜ｂの中の３Ｄのモデルが、生成され、また反復ループにおいてフィードバックされる。図４ａの実施形態においては、この３Ｄのモデルは、出力に対して提供されるが、図４ｂにおいては、追加の投影ステップは、生成されたモデルの２Ｄの投影が、出力に対して提供されるように、行われる。両方の実施形態においては、モデル変換が、実行されるが、他の実施形態は、図３ａに関して説明されるように、このステップ３００なしに存在する。

すべてのこれらの実施形態においては、ターゲット状態は、３Ｄのモデルが、２Ｄのビデオ画像の動きと顔の表情とを追跡しているように、図３ａの実施形態と類似したやり方で決定されることもある。異なる投影プランに対して取得された人間の頭の、このようにして実現された３Ｄのモデルを単に投影することにより、視線補正は、そのときには、既に取得されている可能性がある。これに関して、余分な投影ステップ６００の追加を伴う、図３ａの実施形態に類似した実施形態が、２Ｄ＋ｚの代わりに２Ｄのビデオをただ受信しながら、既に十分である可能性がある。

代替的なやり方においては、３Ｄのモデルは、単に入力の２Ｄのビデオの表情および動きに従わないことになるにすぎないが、また３Ｄの画像によって提供されるように、改善された見る位置を考慮に入れることにもなる。このようにして、ＴＳＰは、ＴＳＰを算出するための異なるやり方が、図３ａ〜ｂの実施形態と比べて、使用されることになるように、ＰＳ２からこの入力を獲得する必要がある。ＴＳＰは、ＩＶ１が、この場合には、補正されている、人の異なる顔つきである、望ましい特徴を有するように既に試みるために変換されているのに対して、ＩＶ２もまた、ＩＶ１の変化する表情に追随するが、依然として補正された特徴を保存するようになど、ＴＳＰに基づいて変換されるように、ＩＶ１の画像変換ステップ３０１中に考慮に入れられることになる。これを実施するための可能な方法は、上記で説明されるような、「操作された」３Ｄのモデルを使用することによるものであり、それゆえに、ＴＳＰ入力として提供されたある種の顔の特徴に適応させるように試みるときに、入力画像において検出されたオブジェクトのどのピクセル／ボクセルが、変更されるべきかを示している。

学習モデルそれ自体はまた、ＩＶ１データからの変化する情報が、中間の学習モデルを適応させるために使用されるように、この「操作されたモデル」に基づいて、モデル変換ステップ３００において変換されることもある。

すべての実施形態においては、それぞれの変換された画像は、最新の生成されたモデル、または最新の変換されたモデルのいずれかと集約される。一実施形態においては、ＩＶ１Ｔのテクスチャ情報は、ＩＶ２Ｔと、ＭＩＦまたはＭＩＴとのテクスチャ情報と統合される。これは、いわゆる「アルファ・ブレンディング」技法を用いて実現される可能性があり、ここで、ＩＶ１Ｔのピクセルは、ＩＶ２ＴおよびＭＩＴのボクセルのこれらと比べてより多い重みのせいにされることになる。幾何学に関しては、よく知られているポアソン表面構築技法が、メッシュを生成するために使用されてもよい。

図４ｂの実施形態はまた、モデル・オブジェクト学習ステップ５００に対する外部モデル情報ＭＥのオプションの入力を示している。この外部情報は、この場合に、ＭＩＦの初期値が、既に状態抽出ステップに対して提供されており、またモデル変換のために使用される可能性があるように、例えば、図３ａの実施形態としての実施形態から提供されることもあり、また本方法の第１の初期ステップ中に開始値として使用される可能性がある。このモデル変換オペレーション３００が存在していない場合の、さらに他の実施形態においては、この初期情報ＭＥは、集約ステップ４００中に直接に提供され、また使用されているためのＭＩＦとして使用される可能性がある。

本発明の原理は、特定の装置に関連して上記で説明されているが、この説明は、単に例として行われているにすぎず、また添付の特許請求の範囲において規定されるような、本発明の範囲に対する限定として行われているものではないことを明確に理解すべきである。その特許請求の範囲においては、指定された機能を実行するための手段として表現されるどのような要素も、その機能を実行するどのようなやり方も包含することを意図している。これは、例えば、それゆえに、機能を実行するそのソフトウェアを実行するための適切な回路、ならびに少しでもあるとしたら、ソフトウェア制御された回路に結合された機械的要素と組み合わされた、ファームウェア、マイクロコードなどを含めて、任意の形態のその機能またはソフトウェアを実行する電気的要素または機械的要素の組合せを含むことができる。本発明は、かかる特許請求の範囲によって規定されるように、様々な列挙された手段によって提供される機能が、特許請求の範囲が要求するようにして結合され、また一緒にされることにあり、具体的にそうであると規定されていない限り、どのような物理的構造も、特許請求される本発明の新規性にとってほとんど重要でなく、または重要ではない。それゆえに、出願人は、これらの機能を提供することができる任意の手段を、本明細書に示した手段と均等であると考える。

Claims

少なくとも１つの画像データ入力（ＩＶ１；ＩＶ１〜ＩＶｎ）から画像モデル（Ｍ１；Ｍ）を構築するための方法であって、反復的やり方で、
前記少なくとも１つの画像データ入力（ＩＶ１；ＩＶ１〜ＩＶｎ）の少なくとも１つの状態（ＰＳ１；ＰＳ１〜ＰＳｎ）および中間の学習モデル（ＭＦ；ＭＩＦ）の状態（ＰＳＭＦ）を決定するステップと、
前記少なくとも１つの画像データ入力の前記少なくとも１つの状態（ＰＳ１；ＰＳ１〜ＰＳｎ）から、また前記中間の学習モデル（ＭＦ；ＭＩＦ）の前記状態（ＰＳＭＦ）から、ターゲット状態（ＴＳＰ）を決定するステップと、
前記少なくとも１つの画像データ入力（ＩＶ１；ＩＶ１〜ＩＶｎ）についての前記決定されたターゲット状態（ＴＳＰ）に従って少なくとも１つの変換を実行し、それによって少なくとも１つの変換された画像（ＩＶ１Ｔ；ＩＶ１Ｔ〜ＩＶｎＴ）を生成するステップと、
中間の学習モデル（ＭＦ；ＭＩＦ；ＭＩＴ；ＭＦＴ）情報と前記少なくとも１つの変換された画像（ＩＶ１Ｔ；ＩＶ１Ｔ〜ＩＶｎＴ）を集約し、それによって前記画像モデル（Ｍ１；Ｍ）のアップデートされた推定値を生成するステップと、
前記画像モデル（Ｍ１；Ｍ）として前記画像モデル（Ｍ１；Ｍ）の前記アップデートされた推定値を提供するステップと、
前記中間の学習モデル（ＭＦ；ＭＩＦ）のアップデートを導き出すためにモデル・オブジェクト学習モジュール（５００）に対して、フィードバック・ループにおいて、前記画像モデル（Ｍ１；Ｍ）の前記アップデートされた推定値を提供するステップと
を含む方法。
前記集約ステップ中に、前記中間の変換されたモデル（ＭＦＴ；ＭＩＴ）が、前記画像モデル（Ｍ１；Ｍ）の前記アップデートされた推定値を生成するために前記少なくとも１つの変換された画像（ＩＶ１Ｔ；ＩＶ１Ｔ〜ＩＶｎＴ）と集約されるように、前記決定されたターゲット状態（ＴＳＰ）に従って前記中間の学習モデル（ＭＦ，ＭＩＦ）の上で変換を実行し、それによって中間の変換されたモデル（ＭＦＴ；ＭＩＴ）を生成するステップをさらに含む、請求項１に記載の方法。
前記少なくとも１つの画像データ入力は、２Ｄのフォーマットまたは２Ｄ＋ｚのフォーマットにおけるオブジェクトのビデオ・シーケンスを含む第１の画像データ入力（ＩＶ１）と、前記オブジェクトの完全な３Ｄの画像を含む第２の画像データ入力（ＩＶ２）とを含み、前記状態は、３Ｄにおける前記画像モデルの逐次的にアップデートされた推定値が、前記画像モデル（Ｍ３Ｄ）として提供されるように、３Ｄにおける前記オブジェクトの位置パラメータおよびモーフィング・パラメータを表す値の組合せを含む、請求項１または２に記載の方法。
前記オブジェクトの前記完全な３Ｄの画像は、前記オブジェクトの前記ビデオ・シーケンス画像に関して少なくとも１つの異なる特徴を有する前記オブジェクトを示しており、また前記オブジェクトの３Ｄにおける前記画像モデル（Ｍ３Ｄ）は、前記少なくとも１つの異なる特徴を示している、請求項３に記載の方法。
前記３Ｄの画像モデルの前記アップデートされた推定値（Ｍ３Ｄ）を２Ｄのプレーンに対して投影するステップと、前記画像モデルとして前記アップデートされた推定値の２Ｄ（Ｍ２Ｄ）における前記投影を提供するステップとをさらに含む、請求項３または４に記載の方法。
前記ターゲット状態は、さらに、前記画像モデルが生成されるべきオブジェクトに関連した追加の情報（ＰＳＥ）に基づいて決定される、請求項１乃至５のいずれか１項に記載の方法。
前記中間の学習モデルは、さらに、外部から提供されるモデル情報（ＭＥ）から導き出される、請求項１乃至６のいずれか１項に記載の方法。
少なくとも１つの画像データ入力（ＩＶ１；ＩＶ１〜ＩＶｎ）から画像モデル（Ｍ１；Ｍ）を構築するための装置（Ａ１）であって、
前記装置の少なくとも１つの入力に対して提供される前記少なくとも１つの画像データ入力（ＩＶ１；ＩＶ１〜ＩＶｎ）、および中間の学習モデル（ＭＦ；ＭＩＦ）の状態（ＰＳ１；ＰＳ１〜ＰＳｎ）のそれぞれの値を決定するように、
前記少なくとも１つの画像データ入力の前記状態（ＰＳ１；ＰＳ１〜ＰＳｎ）の前記それぞれの値のうちの少なくとも１つから、また前記中間の学習モデル（ＭＦ；ＭＩＦ）の前記状態の少なくとも１つの値から、ターゲット状態（ＴＳＰ）の少なくとも１つの値を決定するように、
前記少なくとも１つの画像データ入力（ＩＶ１；ＩＶ１〜ＩＶｎ）について少なくとも１つの変換を実行し、それによって少なくとも１つの変換された画像（ＩＶ１Ｔ；ＩＶ１Ｔ〜ＩＶｎＴ）を生成するように、
中間の学習モデル（ＭＦ；ＭＩＦ；ＭＩＴ；ＭＦＴ）情報と前記少なくとも１つの変換された画像（ＩＶ１Ｔ；ＩＶ１Ｔ〜ＩＶｎＴ）を集約し、それによって前記画像モデル（Ｍ１；Ｍ）のアップデートされた推定値を生成するように、
前記中間の学習モデル（ＭＦ；ＭＩＦ）のアップデートをそこから導き出すために、フィードバック・ループにおいて、前記画像モデル（Ｍ１；Ｍ）の前記アップデートされた推定値を提供するように、
前記画像モデル（Ｍ１；Ｍ）として前記画像モデル（Ｍ１；Ｍ）の前記アップデートされた推定値を前記装置の出力に対して提供するように、
適合されている装置（Ａ１）。
前記中間の変換されたモデル（ＭＦＴ；ＭＩＴ）が、前記画像モデル（Ｍ１；Ｍ）の前記アップデートされた推定値を生成するために前記少なくとも１つの変換された画像（ＩＶ１Ｔ；ＩＶ１Ｔ〜ＩＶｎＴ）と集約されるように、前記決定されたターゲット状態（ＴＳＰ）に従って前記中間の学習モデル（ＭＦ，ＭＩＦ）の上で変換を実行し、それによって中間の変換されたモデル（ＭＦＴ；ＭＩＴ）を生成するようにさらに適合されている、請求項８に記載の装置（Ａｎ）。
前記少なくとも１つの画像データ入力は、２Ｄのフォーマットまたは２Ｄ＋ｚのフォーマットにおけるオブジェクトのビデオ・シーケンスを含む第１の画像データ入力（ＩＶ１）、および前記オブジェクトの完全な３Ｄの画像を含む第２の画像データ入力（ＩＶ２）を含み、前記状態は、３Ｄにおける前記オブジェクトの位置パラメータおよびモーフィング・パラメータを表す値の組合せを含み、前記装置は、３Ｄにおける前記画像モデルの逐次的にアップデートされた推定値を前記画像モデル（Ｍ３Ｄ）として生成するように適合されている、請求項８または９に記載の装置。
前記３Ｄの画像モデルの前記アップデートされた推定値（Ｍ３Ｄ）を２Ｄのプレーンに対して投影し、また前記画像モデルとして前記アップデートされた推定値の２Ｄ（Ｍ２Ｄ）における前記投影を前記出力に対して提供するようにさらに適合されている、請求項１０に記載の装置。
前記画像モデルが、生成され、また前記装置の別の入力に対して提供されるべきオブジェクトに関連した追加の情報（ＰＳＥ）に基づいて、前記ターゲット状態（ＴＳＰ）を決定するようにさらに適合されている、請求項８乃至１１のいずれか１項に記載の装置。
前記装置の別の入力に対して提供される外部から提供されたモデル情報（ＭＥ）から前記中間の学習モデル（ＭＦ；ＭＩＦ）を導き出すようにさらに適合されている、請求項８乃至１２のいずれか１項に記載の装置。
請求項８乃至１３のいずれか１項に記載の装置を備える画像処理装置。
データ処理装置の上で実行されるときに、請求項１乃至７のいずれか１項に記載の方法ステップを実行するように適合されたソフトウェアを含むコンピュータ・プログラム製品。