JP5784226B2 - 画像モデルの構築のための方法および装置 - Google Patents

画像モデルの構築のための方法および装置 Download PDF

Info

Publication number
JP5784226B2
JP5784226B2 JP2014516259A JP2014516259A JP5784226B2 JP 5784226 B2 JP5784226 B2 JP 5784226B2 JP 2014516259 A JP2014516259 A JP 2014516259A JP 2014516259 A JP2014516259 A JP 2014516259A JP 5784226 B2 JP5784226 B2 JP 5784226B2
Authority
JP
Japan
Prior art keywords
image
model
state
image data
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014516259A
Other languages
English (en)
Other versions
JP2014520332A (ja
Inventor
ティガット,ドニー
シックス,アーウィン
リーヴェンス,サミー
アーツ,マーチン
Original Assignee
アルカテル−ルーセント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アルカテル−ルーセント filed Critical アルカテル−ルーセント
Publication of JP2014520332A publication Critical patent/JP2014520332A/ja
Application granted granted Critical
Publication of JP5784226B2 publication Critical patent/JP5784226B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20121Active appearance model [AAM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Architecture (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)
  • Transforming Electric Information Into Light Information (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Description

本発明は、画像モデルの構築のための方法に関する。
現在では、実際の動的なシーンに基づいた、または安価なカメラによって撮影された画像にさえ基づいたモデルの構築が、難しい問題になっている可能性がある。
専用のハードウェア・ソリューションが、存在しているが、これらは、高くつき、高価なカメラを利用しており、また使用するために扱いにくいものである。さらに、ほとんどのソリューションはまた、シーンが動的であることを可能にすることはなく、このことは、それらの使用をかなり制約する。
本文の残りの中では3Dによって省略されることになるが、3Dの測定からの3次元の構築では、最新式のメッシュ生成アルゴリズム(meshing algorithms)が、品質測定から良好な品質を有する結果を作り出すことができるが、しかしながら、これらのソリューションは、非常に計算集約的なものである。さらに、どのソリューションも、より低い品質の画像に基づいて、良好な品質を有する3Dのモデルの生成のためには、使用可能ではない。
特開2009−42811号公報
したがって、画像モデルの構築のための方法および装置を提示することが、本発明の実施形態の一目的であり、この画像モデルの構築は、同時に、安価で簡単なソリューションを提供しながら、低品質の実生活のキャプションから高品質の2Dおよび3Dの画像モデルとビデオ・シーンとを生成することができる。
本発明の実施形態によれば、この目的は、少なくとも1つの画像データ入力から画像モデルを構築するための方法によって達成され、前記方法は、反復プロセスにおいて、
前記少なくとも1つの画像データ入力の少なくとも1つの状態および中間の学習モデルの状態を決定するステップと、
前記少なくとも1つの画像データ入力の前記少なくとも1つの状態から、また前記中間の学習モデルの状態から、ターゲット状態を決定するステップと、
前記少なくとも1つの画像データ入力についての決定されたターゲット状態に従って少なくとも1つの変換を実行し、それによって少なくとも1つの変換された画像を生成するステップと、
中間の学習モデル情報と前記少なくとも1つの変換された画像を集約し、それによって前記画像モデルのアップデートされた推定値を生成するステップと、
前記画像モデルとして前記画像モデルの前記アップデートされた推定値を提供するステップと、
前記中間の学習モデルのアップデートを導き出すためのモデル・オブジェクト学習モジュールに対して、フィードバック・ループにおいて、前記画像モデルの前記アップデートされた推定値を提供するステップと
を含む。
このようにして、反復プロセスにおいて、モデルの後続のアップデートされた推定値のフィードバックを提供することにより、学習モデルを生成するためのこれらの以前に生成されたアップデートされた推定モデルのうちの少なくとも1つを使用することにより、また同様に入力と、この連続的に適応された学習モデルとの両方の状態パラメータを利用することにより、非常に正確なモデルが、現在の最新の技法に比べてずっと少ない計算の努力とリソースとを使用しながら、取得されることになる。
一実施形態においては、変換が、入力データのうちの一部について、または全部について実行されるだけでなく、中間の学習モデルについても実行される。これらの変換は、決定されたターゲット状態に従って実行される。集約するステップ中に、変換された1つまたは複数の画像と一緒に、このようにして生成された中間の変換されたモデルをさらに使用することにより、画像モデルのより正確なアップデートされた推定値が、より速いやり方でさえ、取得される可能性もある。
別の実施形態においては、後続の状態が、同じ画像データ入力について決定され、そこでは、前記集約するステップは、前記画像モデルの最後にアップデートされた推定値だけが、前記画像モデルとして提供されるように、前記画像モデルの前記アップデートされた推定値のうちの後続の推定値についての収束チェックを含んでいる。
これは、特に、先行技術の方法に比べてより少ない計算リソースを使用して、場合によっては低品質である静止画像入力についての正確なモデルを生成するために適している。
別の実施形態においては、状態の後続の値は、前記画像モデルの後続のアップデートされた推定値が、前記ビデオの前記後続のフレームにおいてオブジェクトを追跡しているように、ビデオ入力データの後続のフレームについて決定される。
これは、ビデオの上のオブジェクトを追跡する高品質モデルを生成するためのソリューションをその問題に対して提供する。
別の実施形態においては、前記少なくとも1つの画像データ入力は、2Dのフォーマット、または2D+zのフォーマットにおけるオブジェクトのビデオ・シーケンスを含む第1の画像データ入力と、前記オブジェクトの完全な3Dの画像を含む第2の画像データ入力とを含んでおり、そこでは、前記状態は、3Dにおける前記画像モデルの逐次的なアップデートされた推定値が、前記画像モデルとして提供されるように、3Dにおける前記オブジェクトの位置パラメータおよびモーフィング・パラメータを表す値の組合せを含んでいる。
一実施形態においては、そのような位置パラメータは、3Dにおける前記オブジェクトの方向、3Dにおける前記オブジェクトのスケール、3Dにおける前記オブジェクトのロケーションを含むことができる。モーフィング・パラメータは、表されるべき人間の頭の場合における顔の特徴、または表されるべき自動車など比較的静的なオブジェクトの場合におけるカラーおよびテクスチャを表すパラメータを含むことができる。
これは、2Dのビデオ画像を追跡する高品質の3Dのモデルを生成するための第1の詳細な例を与えている。これは、例えば、高品質の3Dのモデルが2Dのビデオにおけるオブジェクトを追跡して生成されることになる場合のビデオ会議アプリケーションにおいて使用されることもある。
万一、第2の画像データ入力が少なくとも1つの異なる特徴を有する前記オブジェクトの完全な3Dの画像を含む場合には、生成されたモデルは、それにもかかわらずこの異なる特徴を示しながら、2Dのビデオ・シーケンスのオブジェクトを追跡することなどとすることができる。別の実施形態においては、そのような3Dの推定値は、2Dにおけるこれらの2Dの投影が、出力に対して前記画像モデルとして提供されるように、さらに、2Dのプレーン上へと投影される。
これはまた、人々が、それらについて行われている実生活のビデオ入力に比べて、依然として現実的であるが、改善されたやり方で表されることを望む可能性がある場合のビデオ会議アプリケーションにおいて、あるいは例えば、インターネット・アプリケーションまたはオンライン・ミーティング・アプリケーションにおいて使用することもできる。これは、例えば、誰かが、そのようなビデオ・オンライン・ミーティング・セッション中にキーボードの上で情報をタイプしている場合とすることができる。この人は、このようにして、カメラをまっすぐにのぞき込んでいないが、彼/彼女は、このライフ・トラッキング・モデルが、このオンライン・ミーティングの他の参加者に対して通信され、また他の参加者によって閲覧されることになるので、いずれにせよカメラをまっすぐにのぞき込んでいるライフ・トラッキング・モデルによって表されていることをそれにもかかわらず望む可能性がある。これらの実施形態は、簡単であるが、それにもかかわらず非常に正確なソリューションをこの問題に対して提供している。少し補正されたモデルが、このようにして生成され、このモデルは、3Dにおいて、または2Dにおける投影するステップの後に提供されることもあり、またアプリケーションに応じて、例えば、生成されたモデルのビデオ・シーケンスとして、さらに通信され、または送信され、あるいは記憶される。
さらに他の実施形態においては、前記ターゲット状態は、さらに、前記画像モデルが生成されるべきオブジェクトに関連した追加の情報に基づいて決定される。
代わりに、前記中間の学習モデルは、さらに、外部で提供されたモデル情報から導き出されることもある。
本発明は、同様に、この方法を実行するための装置についての実施形態、そのような装置を組み込んでいる画像処理デバイスまたはビデオ処理デバイスについての実施形態に関し、またデータ処理装置の上で実行されるときに、上記の方法ステップまたは特許請求される方法ステップを実行するように適合されたソフトウェアを含むコンピュータ・プログラム製品に関する。
特許請求の範囲において使用される用語「結合される」は、直接接続だけに限定されるように解釈されるべきではないことに注意すべきである。それゆえに、「デバイスBに結合されたデバイスA」という表現の範囲は、デバイスAの出力が、デバイスBの入力に直接に接続されているデバイスまたはシステムだけに限定されるべきではない。それは、他のデバイスまたは手段を含む経路とすることができる、Aの出力と、Bの入力との間の経路が存在していることを意味している。
特許請求の範囲において使用される用語「備えている/含んでいる(comprising)」は、その後にリストアップされる手段だけに限定されているように解釈されるべきではないことに注意すべきである。したがって、「手段AとBとを備えるデバイス」という表現の範囲は、コンポーネントAとBとだけから構成されるデバイスだけに限定されるべきではない。それは、本発明に関して、デバイスの単に関連のあるコンポーネントが、AとBとであることを意味している。
本文の全体の間で、2次元は、2Dによって省略されることになるが、上記で述べられるように、3次元は、3Dによって省略されることになる。
添付の図面と併せて解釈される実施形態の以下の説明を参照することにより、本発明の上記および他の目的と特徴とは、より明らかになり、また本発明は、それ自体、最もよく理解されることになる。
画像データの単一の入力源からモデルを提供するための方法についての概略的な実施形態を示す図である。 画像データの単一の入力源からモデルを提供するための方法についての概略的な実施形態を示す図である。 単一の入力源からモデルを提供するための装置A1についての概略的な実施形態を示す図である。 画像データの複数の入力源からモデルを提供するための方法についての概略的な実施形態を示す図である。 画像データの複数の入力源からモデルを提供するための方法についての概略的な実施形態を示す図である。 画像データのn個の入力源からモデルを提供するための装置Anについての概略的な実施形態を示す図である。 その2D+zの情報が、単一の3Dの画像と同様に提供される、人の動きおよび特性をほとんど瞬間に表す現実的な3Dのモデルの生成のために適している、本方法の2つの他の実施形態を示す図である。 その2D+zの情報が、単一の3Dの画像と同様に提供される、人の動きおよび特性をほとんど瞬間に表す現実的な3Dのモデルの生成のために適している、本方法の2つの他の実施形態を示す図である。 場合によっては人の不完全性を示す2Dのビデオに基づいて、またこの人の単一の3Dの画像に基づいて3Dのモデルの生成のために適している、本方法のさらに異なる実施形態を示す図である。 図4aの実施形態に対する別の変形形態を表す図である。
本明細書における任意のブロック図は、本発明の原理を具現化する、実例となる回路の概念図を表すことが、当業者によって理解されるべきである。同様に、任意のフロー・チャート、流れ図、状態遷移図、擬似コードなどは、そのようなコンピュータまたはプロセッサが明示的に示されているか否かにかかわらず、実質的に、コンピュータ読取り可能媒体において表され、またそのようにしてコンピュータまたはプロセッサによって実行され得る様々なプロセスを表すことが理解されるであろう。
図1aは、単一の画像データ入力の中から2Dまたは3Dの画像モデルを生成し、また提供するための方法の一実施形態についての概略的な図を示すものである。この画像データ入力は、カメラによって提供されていることもあり、場合によっては2Dのフォーマット、3Dのフォーマットまたは2D+zのフォーマットで移動するオブジェクトを表す、静止画像または一連のピクチャを提供している。2D+zを用いて、2次元のピクセル・データが深さ情報に関連して提供されることが、意味される。そのような表現を使用して、3Dのピクセル・データを再構築することができ、またそのような表現は、一般的に3Dのカメラを用いて生成される。画像入力データは、同様に、例えば、メモリまたはストレージ・デバイスから取られ、または任意のタイプの通信ネットワークを経由して提供されることもあり、例えば、MMSピクチャが、通常のモバイル電話によって送信されることもある。入力画像データは、図1aにおいてIV1と示され、また2つのオペレーションを受ける。第1のオペレーションは、状態抽出または状態決定に関するものであり、この状態抽出または状態決定を用いて、画像入力のオブジェクトの状態を表すための状態パラメータが、決定されることが、意味される。状態を用いて、オブジェクトの特徴の構成が、意味され、またこれらの特徴は、それら自体、1組の値によって表される。これらの値は、それゆえに、場合によってはオブジェクトの可変の特性または特徴を説明することができる。値のこの組は、ベクトルへと配列される可能性があるが、そのような状態についての他の表現もまた、もちろん可能である。その状態が決定されるべきオブジェクトとしての人間の頭の例では、この状態は、以下の特徴または特性:(頭の方向_x(headOrientation_x)、頭の方向_y、頭の方向_z、スケール、ロケーション_x(location_x)、ロケーション_y、ロケーション_z、顔の表情_1_x(faceExpression_1_x)、顔の表情_1_y、...、顔の表情_68_x、顔の表情_68_y)の値を有するベクトルによって表されることもある。「頭の方向_x」は、それゆえに、水平方向における頭の傾きを示し、「頭の方向_y」は、それゆえに、垂直方向における頭の傾きを示し、また「頭の方向_z」は、それゆえに、深さ方向における頭の傾きを示している。「顔の表情_1_x」は、画像の中の、項目1によって示されるある種の顔の特徴の、水平方向における、ロケーションを示している。上記の例においては、そのような特徴のうちの68は、次いで、それらの2Dのロケーションを用いて表されることになる。そのような顔の特徴は、例えば、口の左端/右端、または目の左端/右端とすることができる。
同様に、例えば、レーシング・カーの画像を移動させる場合に、表されるべきオブジェクトは、このレーシング・カーであることになり、またこのオブジェクトの状態は、以下の特性、すなわち、3Dにおける自動車の方向、3Dにおける自動車のスケールおよびロケーション、3Dにおけるホイール(wheels)の方向、カラーなどについての値を有するベクトルによって表されることもある。
上記の例からのように、顔の表情を決定するこれらの特徴など、モーフィングの特徴、ならびに、例えば、カラーおよびテクスチャが、外観に関連した特徴を識別するために使用されるのに対して、方向、スケール、ロケーションなどの位置パラメータは、3Dにおける位置を識別するために使用されることは明確である。
着信する生データの中からオブジェクトの状態を決定するための方法は、一般に第1に、考慮中のオブジェクトの認識のステップを必要とすることになるが、場合によっては、必ずしもセグメンテーション・オペレーションを実行することによるものとは限らず、このようにして認識されたオブジェクトの深さ分析がさらに続いている。このさらなる分析は、例えば、AAMと略記される、アクティブ外観モデル(Active Appearance Model)の使用を必要とする可能性があり、このアクティブ外観モデルは、例えば、2Dの画像入力に基づいてモデル化されるべきオブジェクトとしての人間の頭の場合に、3Dまたは2DのAAM内部形成モデルとの適合を経由した2Dの入力画像の上の顔の特徴についての形状と外観との決定を可能にする。それは、2D AAMモデルの開始値と2Dの入力画像を比較することとともに開始されることもあり、このAAMモデルそれ自体は、次いでさらに、最適な適合を見出すように徐々に変更される。ひとたび良好なマッチが見出された後に、このAAM適応モデルに基づいてこのようにして決定される「顔の表情_1_x」、「顔の表情_1_y」などのパラメータが、出力される。
もちろん、他の方法が、当業者によってよく知られているように、認識されたオブジェクトの状態を決定するために、使用されることもある。
万一、画像データ入力が、複数のオブジェクトを含む場合には、状態パラメータを決定するためのプロセスが、それについてのモデルが望ましいオブジェクトごとに実行されることもある。これは、入力データが、それら自体、静止画像であるか、または動画であるかに応じて、精度の望ましいレベルに応じて、また使用可能な計算のリソースに応じて、並列に、または逐次的に行われることもある。当業者なら、万一、画像データが、複数のオブジェクトを含む場合には、複数のモデルを提供するための実施形態を生成することができるであろう。
オブジェクトの状態は、図1aにおいてPS1と示され、またモジュール200の「ターゲット状態合成」によって示されるステップのための入力として使用される。このステップ中に、ターゲット状態TSPは、1つまたは複数の状態入力に基づいて決定される。図1aのこの例においては、2つの状態の入力が、すなわち、入力画像PS1の状態、ならびに「学習モデル状態」PSMFが、示される。後者は、出力モデルのフィードバックから取得される値に関する。一般に、そのようなフィードバック情報は、PSMFの初期値が、万一、最終モデルについての何らかの初期知識が既に前もって知られている可能性がある場合に、デフォルト値になることができるように、第1の画像が分析される方法のスタートアップにおいて、まだ使用可能でない。代わりに、ステップ200は、この第1のPSMF値をただ無視することもできる。別の実施形態においては、図1aの上でPSEと示される何らかの外部状態情報もまた、図1aの上の破線矢印によって示されるように、オプションの入力として提供される可能性がある。この外部情報は、例えば、万一、IV1がそのようなビデオを含む場合に、同じ入力ビデオ・データIV1について実行される外部スピーチ分析モジュールから取得される可能性がある。このスピーチ分析からの結果である外部オーディオ情報をターゲット状態決定モジュール200に対して提供することにより、いくつかの洗練された方法を使用して、PS1においてより早期に決定された顔の表情をこのスピーチ情報と比較し、またターゲット状態TSPとして提供されるためのより洗練された顔の状態をそれから推定し、または最適化することができる。
異なる入力状態PS1、PSMFの中から、また余分な情報PSEからオプションとして、図1aにおいてTSPによって示されるターゲット状態を決定するための他の方法は、重みが、状態の信頼度を反映して、様々な入力状態の重み付けされた組合せを実行するステップを含むことができ、この信頼度レベルは、それら自体、状態抽出それ自体の間に決定された。PS1パラメータを決定するためのAAM方法の上記の例では、マッチした結果を識別するパラメータが、次いで、例えば、そのような信頼度の評価尺度として選択される可能性がある。
ターゲット状態を決定するための別の方法は、単に、入力状態のうちの1つを選択するステップから構成されることもあり、このオプションは、万一、異なる状態の以前の例において説明されるような補間または重み付けされた組合せの結果のチェックが、そのような補間された結果が所定の限界の外側に位置していることを示す場合には、好ましい可能性がある。このオプションはまた、万一、PSMFがただデフォルト値を含むだけの場合に、または万一、入力状態の間の違いが、かなり大きい場合に、方法の初期化フェーズ中により適切なものとすることもできる。これは、例えば、万一、PS1がz−方向における180度の頭の方向を示す場合に、起こる可能性があり、これは、0.2の信頼度で、頭が後ろに向けられる場合とすることができるが、別の状態値、例えば、PSMFは、モデルについての既に知られている情報によって例えば課されるように0.6の信頼度を有するただ20度の方向を示している。そのような場合には、重み付けされた組合せ、または補間を実行する代わりに、両方の状態のうちの一方をターゲット状態として選択することだけが、最良である。選択それ自体は、そのときには、単に、最高の信頼度レベルを有する状態を選択することに基づいたものとすることができる。
ターゲット状態TSPは、入力画像データの変換を実行するために使用され、この変換は、ステップ300の「画像変換」によって表される。そのような画像変換は、2Dにおけるピクセル・レベルにおいて、または3Dにおける、3Dのピクセルを示すための用語であるボクセルのレベルにおいて、行われる可能性がある。2Dにおける一実施形態においては、いくつかのフィルタリング・オペレーションが、それについてモデルが、出力において示されるべきオブジェクトに関して、有用なピクセル情報を保持するためだけなどに、行われる可能性がある。このオブジェクトは、もちろん、それについての状態が決定されたオブジェクトと同じである。それゆえに、状態抽出と、画像変換とのプロセスは、画像変換が、ターゲット状態の決定の後に起こるように、揃えられ、またさらに同期化される必要もある。
そのような画像変換の別の例は、顔のパラメータについての調整を伴うこともある。2Dにおける入力データが、適応されるべき一例においては、顔の特徴を表すための三角形を利用する方法が、使用されることもある。これらの三角形によって規定されるように距離を補間すること、および特徴を以前にはそれらの以前の位置におけるそれらのピクセルのせいにされていたこれらの新しい位置としてのそれらのピクセルのせいにすることを用いて、画像変換が、もたらされる可能性がある。
この変換を実行するための別の方法は、図3a〜bの実施形態の例を説明するときに与えられるであろう。
すべての場合に、この画像変換オペレーションの結果は、IV1Tで示される変換された画像であり、この画像は、一般に、考慮中のオブジェクトの詳細だけを含むことになる。
この変換された画像IV1Tは、中間の学習モデル情報MFと集約されることになる。方法のスタートアップのすぐ後に、このMF情報は、モデルについてのデフォルト情報を含む可能性があり、または代わりに、単に無視されることもある。使用可能な場合には、IV1TとMFとの両方が、ステップ400において単一の画像へと集約されることになり、また一般的に出力されることになり、この単一の画像は、オブジェクトの推定モデルを含んでいる。この画像モデルは、M1で示される。
この決定された推定モデルM1は、モデル・オブジェクト学習モジュール500へとフィードバックされ、このモデル・オブジェクト学習モジュールは、この推定モデルから学習モデルのアップデートを導き出すように適合される。次いで、学習モデルは、逐次的な反復ステップにおいて連続して適応されることになるので、それは、一般に「中間の学習モデル」MFとして示される。画像モデルM1の推定値から中間の学習モデルのアップデートを導き出すことは、例えば、それらを記憶することにより、モデルM1の逐次的な推定値を追跡することを必要とする可能性があり、また最新のモデルと、以前に生成された出力M1とから中間の学習モデルMFを生成するために、画像モデルのすべての以前に決定された推定値のうちの最新のものの上での、あるいはそのすべてまたはサブセットの上での処理オペレーションを必要とする可能性もある。第1の反復ステップにおいて、MFは、M1と同じとすることができ、この場合における同じ名前のついたモジュール500によって実行されるこのモデル・オブジェクト学習ステップは、そのときには、その第1の入力M1と同じであるように、「中間の学習モデル」MFを導き出すことをただ含んでいる。一般に、いくつかの反復が必要とされる可能性があるので、MFの後続の値は、フィードバックの反復が使用される量に応じて、また集約ステップの後に画像モデルの推定値が、それ自体どのように変化する可能性があるかに応じて、中間の学習モデルが、連続的に変化することができるように、生成されることになる。
中間の学習モデルMFはまた、この中間の学習モデルの状態を決定するための状態抽出ステップ100を受けることになる。入力画像の状態の決定のためと類似したオペレーションが、これに関して実行されることもあるが、モデルが、一般に考慮中のオブジェクトについてのデータを含むにすぎないことになるので、オブジェクト認識は、一般にもはや必要とはされない。中間の学習モデルの状態は、PSMFで示される。中間の学習モデルの状態パラメータは、ターゲット状態TSPを決定するための入力画像データの状態パラメータと一緒に使用される。
フィードバック・プロセス中に、したがって、中間の学習モデルの生成およびその状態抽出中に、IV1は、次のフレームが、既に入力IV1において提示されていることもある入力ビデオの場合に特に、既に変化している可能性がある。この場合に、ビデオ・シーケンスのこの新しいフレームは、さらに、状態抽出ステップ101のために、また同様に画像変換のために使用されることもある。しかしながら、これは、必須ではなく、また実施形態に依存することになる。入力において提示される新しいフレームの場合に、状態抽出は、このようにしてそれに応じて起こる可能性があり、その結果、この入力画像の新しい状態は、TSPを生成するために、以前のフレームに基づいて決定される中間の学習モデルの状態と一緒に使用されることになる。万一、IV1が変化していなかった場合には、例えば、静止入力画像の場合には、状態抽出101は、たぶんこのオペレーションの以前の期間と類似した結果をもたらすことになるが、ターゲット状態合成は、今や、中間の学習モデルから抽出される状態を考慮に入れることにもなる。このようにして、ターゲット状態のよりよいチューニングが、もたらされることになり、これは、次には、さらに、画像変換300に影響を及ぼすことになる。これは、一般に、より速い収束をもたらすことになる。図1bにおいて提示される実施形態など、別の実施形態においては、中間の学習モデルMFはまた、ターゲット状態パラメータによって制御される画像変換ステップ301を受けることになる。中間の学習モデルに対するこの画像変換は、例えば、万一、画像入力データが、2Dとして提示され、またモデルが、3Dのモデルである場合に、データそれら自体に応じて、画像入力データに対する変換と同様なやり方で、または場合によっては異なるやり方で、実行されることもある。しかしながら、両方の変換オペレーションでは、TSPは、両方のプロセスに対する制御入力として使用される。MFに対する画像変換オペレーションの結果は、中間の変換されたモデルMFTで示される。この実施形態においては、MFTは、集約ステップ中に中間の学習モデル情報として使用される。
スムーズなオペレーションのためには、すべてのこれらのステップのタイミング制御は、MFの変換が、ターゲット状態TSPが決定される前に起こっていないようにするために、極度に重要であることは、明らかである。変換が学習モデルに対して実行されない、図1aの実施形態においては、変換された画像データが、変換されていない学習モデルと集約されるべき集約ステップのタイミング制御が、極度に重要である。しかしながら、当業者なら、これが、この文書においてさらに論じられることにならないように、これを実現するための技法について熟知している。
図1bに示される実施形態においては、両方の変換された画像データIV1TとMFPとは、さらに、集約ステップ400において入力として使用されることになるので、モデルのより良い、またより現実的な推定値がもたらされることになる。M1の後続のアップデートされた推定値についてのこのようにして説明されたフィードバック・プロシージャをさらに反復することにより、結果として生じるモデルは、さらに微調整されることになる。画像モデルについての、後でアップデートされた推定値が、後続のタイミングの場合において、出力に対して提供されることもある。これは、入力ビデオ・データのために最も役に立ち、ここでは、このようにして、モデルは、入力ビデオの中のモデル化されるべきオブジェクトの動きを追跡することになる。代わりに、集約ステップは、それ自体、さらに実質的に変化しない推定値に向かってモデルが、収束している後だけに、それが、出力に対して提供されることになるように、例えば、収束判断基準をチェックするステップをさらに含むことができる。そのような実施形態は、静止画像の場合により適切であるのに対して、入力ビデオを伴う場合のように、時間とともに画像を変化させる速度は、いくつかの反復が、1つの画像の上で起こらないようにするようなものとすることができることが、明らかである。入力ビデオ・データを処理する他の実施形態においては、いくつかの反復は、モデルの最新のアップデートが、出力に対して提供される可能性がある前に、後で提供された画像またはフレームの上で起こる可能性がある。そのような場合には、また、収束テストが、この場合にも適用される可能性がある。
図1cは、図1aの方法のステップを実行するための装置A1を示すものである。そのような装置は、このようなソフトウェアが、それがプロセッサの上で実行され、または代わりにそれ自体このサーバの上で実行され得るように、キャリアの上の、またはメモリへとプログラマブルな実行可能コードを用いて、あるいはサーバからのダウンロード・オペレーションを用いてのいずれかで提供された、ソフトウェア実装形態を用いて実現される可能性がある。代わりに、そのような装置は、ハードウェア要素を用いて、例えば、単一のプロセッサを用いて、または分散型のやり方で実現されることもある。異なるステップは、異なるモジュールによって表されるが、そのような明確な構造の描写が、いくつかの実装形態においては存在しないこともあること、およびそれらのステップのうちのすべてまたはサブセットが、1つの単一のプロセッサによって実行されることもあることは、明らかである。
図1aの実施形態は、さらに、モデル・オブジェクト学習ステップ500の間に、このモデルに関する、例えば、本方法の以前の使用中に取得され、また外部に記憶された以前に生成されたモデルに関する外部データもまた、次に外部入力として提供され得ることを示している。これは、オプションのステップであり、このオプションのステップは、それにもかかわらず収束速度を高めることができる。
図2aは、本方法の別の実施形態を示すものであり、この方法は、今や、様々な入力源からの画像情報を使用している。図2aの実施形態においては、IV1、IV2からIVnで示される、n個の異なる画像入力が、示されている。これらは、画像データを、例えば、2D、3Dおよび2D+zにおける画像情報を含んでおり、またカメラからの実生活のストリーミング・データを含むことができ、あるいはメモリによって、または遠く離れたコンピュータ、カメラ、もしくはモバイル・デバイスなどからの電気通信チャネルを経由して提供されるデータを含むことができる。
図2aの実施形態は、図1aの実施形態に類似しており、各画像入力データの上で、状態が、そのモデルが出力Mとして表されるべきオブジェクトに関連して決定されるという違いを有している。それゆえに、n個の状態抽出ステップは、n個の画像入力源の上で並列に実行されることもあり、同じオブジェクトのn個のオブジェクト状態を生成している。良好なオペレーションでは、これらの状態抽出モジュールは、この場合にも、同じオブジェクトのパラメータを抽出するなどのように同期化され、また動作可能である必要があり、これらのオブジェクトについては、いくつかの基本的な詳細が、場合によっては前もって知られていることは、明らかである。代わりに、計算のリソースに応じて、n個の状態抽出101、102から10nは、例えば、同じモジュールによってシリアルなやり方で実行されることもある。この場合にはまた、実行されるべきこれらのステップと次のステップとの間の良好なタイミングの同期化が、重要であり、また、当業者なら、同期化の態様に対処するための実装形態を実現するように順応させられる。これは、主題の本発明の実施形態に直接に関連していないので、本発明者等は、この文書の中でこの態様をさらに詳細に論じることはない。
目的が、例えば、人間の頭の良好なモデルを生成することである場合、すべての状態抽出モジュール101、102から10nは、「人間の頭のような」オブジェクトについて検索するように、また例えば、万一、これが、時としてこれらの画像の上に現れる場合に、自動車については検索しないように、適合される。PS1、PS2からPSnで示されるこのオブジェクトの結果として生じる抽出された状態パラメータは、ターゲット状態合成モジュール200に対して提供され、このターゲット状態合成モジュールは、今や、ターゲット状態TSPを決定するように適合される。一般に、このオブジェクトのモデルを生成するために使用される、同じオブジェクトに関連した画像入力源が、多くなればなるほど、より良好に、このモデルが構築される可能性がある。しかしながら、万一、オブジェクトが、例えば、時として入力画像の上に存在しなかった場合に、得られるこれらの値を除外する配慮が行われ、あるいは少なくともあまり注意を払わない必要がある。ターゲット状態合成ステップ200は、図1aの実施形態において使用されるステップに類似していることもあるが、次には、より多くの入力を考慮に入れている。これらの状態についての第1のチェックは、それらのすべてを考慮するか否かを決定する助けとなることもあり、これは、それらのすべてが、ある種の所定の限界の内部に位置する値を含むかどうかをチェックすることにより、またはそれらを互いに比較することにより実行されることもある。万一、いくつかの値が、実際に、これらの限界の外部に位置しているが、他の大多数がそうでない場合には、例えば、万一、2つの状態が、n−2個の他の状態に比べて非常に外れた値を有する場合に、これらを切り捨てることが適切とすることができる。
次いで、公表されない状態が、補間を経由して、例えば、それらの値の重み付けされた平均化によって、ターゲット状態を決定するために使用されることもある。代わりに、信頼度レベルのチェックは、図1aに関して以前の段落において説明されているように、最高の信頼度を有する状態を選択することだけを示すことができる。
このようにして決定されたターゲット状態TSPに基づいて、入力画像は、それぞれ、図1aに関して説明されるものと類似したやり方で、ステップ301、302および30nによって示されるように、変換を受ける。いくつかの実施形態においては、図3a〜bと、図4a〜bとを参照して説明されるように、これらの変換のうちのいくつかは、モデルそれ自体が、画像データ入力からひどく逸脱しているか否かに応じて、他の変換と比較して、大したことのないものになる。次に、変換された画像データIV1T、IV2TからIVnTは、ステップ400において集約される。図1aの実施形態に類似して、中間の学習モデルMIFの初期のデフォルト値が、初期のフェーズにおけるこの集約ステップにおいて使用されることもあり、またはこの値は、ただ無視される可能性もある。n個の変換された画像の、また場合によっては反復プロセスの第1の期間におけるMIFの入力デフォルト値の集約中に、モデルのより現実的な推定値が、場合によっては、変換のために使用される状態に整合したデータTSPの組合せによってもたらされることになる。さらに、あるメトリクス(metric)を使用して、特にある種の入力画像の信頼性を集約ステップ中のメトリクスとして考慮に入れるときに、モデルの結果として生じる推定値をさらに洗練し、また改善する可能性さえある。例えば、人間の頭のモデルの顔の特徴の構築のために、正面のショット画像の信頼性は、一般に、側面のショット画像の信頼性よりも大きいが、必ずしも大きいとは限らない。集約ステップ中に、側面のショットの情報に比べて、このようにして、相対的に正面のショット画像についてのより多くの情報を使用することにより、よりよい推定モデルが、取得される可能性がある。状態抽出中に決定される信頼性はまた、どの画像が、集約ステップ中により多くの重みを与えるかを判断するときに、使用される可能性がある。
この場合にも、結果として生ずるモデルMは、モデル・オブジェクト学習モジュール500に対してフィードバックされ、このモデル・オブジェクト学習モジュールは、例えば、時間とともに、逐次的に決定された推定されたモデルを追跡することができ、またこのモデル・オブジェクト学習モジュールは、それらから、または最新の生成されたモデルから、あるいはその重み付けされた組合せなどから、改善された中間の学習モデルMIFを作り出すことができる。もちろん、中間の学習モデルを生成するためのより多くの実装形態のうちの多くのものが可能である。
中間の学習モデルMIFは、状態抽出ステップ100を受けることになり、この抽出された状態PSMFは、さらに、ターゲット状態合成200中に使用される。このように取得されたターゲット状態パラメータTSPは、さらに、入力画像IV1からIVnの変換中に使用され、また場合によっては、図2bの実施形態の中に示されるように、中間の学習モデルについてのモデル変換ステップ300中に使用される。後者のステップは、中間の変換されモデルMITを提供することになる。変換された画像データにこの中間の変換されたモデルを追加することにより、望ましい出力モデルMに向かう、より正確な、またより高速な収束が、得られることになる。
図1a〜bに関して説明される考察と類似した考察が、入力画像データのタイプに応じて、また使用可能な計算のリソースに応じて、出力モデルの提供に関して適用することができる。類似した見解が、入力画像データそれら自体の状態決定と変換とに関して、この反復ステップ中に、また場合によっては、次の反復ステップ中に、特にビデオの場合の変化する入力画像データを考慮して、行われることもある。この場合にもまた、すべてのステップの同期化が、スムーズなオペレーションを保証するために重要であることが述べられていることもある。この場合にも、当業者なら、同期化のこの態様を実現することができる。
図2cは、この方法を実行するための装置を示すものである。ここでもまた、類似した考察が、そのような装置の実用化に関して、図1cについて述べられるこれらのものに関するように、適用される。
図1a〜cにおける実施形態と同様に、何らかの外部から供給されたデータ、例えば、本方法の以前の使用中に取得される、以前に外部に記憶されたモデルが、モデル・オブジェクト学習ステップ中に使用されるようにステップ500に対して提供される可能性がある。図1aの実施形態の説明中により詳細に説明されるように、外部情報をターゲット状態合成モジュール200に対して提供することも可能である。
これらの方法と装置との利点は、図3a〜bと4a〜bとの中に示されるさらなる実施形態を用いてより明確になることさえある。
図3aに示される実施形態は、人間の頭、自動車、木、...などのオブジェクトの2D+zの画像のシーケンスを含む第1の画像データ入力IV1と、この同じオブジェクトの静止3D画像を含む第2の画像データ入力IV2とを受信している。画像モデルMは、このオブジェクトの3Dのモデルであり、また「リアル・タイムに」提供される必要があることが好ましく、このようにして、2D+zの画像のシーケンスの中で示されるオブジェクトについての、もしあれば、動きが、表される必要があり、また可能な限り現実的で正確であり、また3Dである必要があることを意味している。
そのような状況は、例えば、ユーザが、ラップトップの前に位置しているが、ステレオ・カメラが、場合によっては、必ずしもそうであるとは限らないが、2つのウェブカメラの安価な組合せを経由して実現されているが、ユーザの顔と上半身とを記録しているときに、起こる可能性がある。
現在では、最良の3Dの再構築アルゴリズムと組み合わせて最良のステレオ・マッチング・アルゴリズムを提供された最良の最も高価なステレオ・カメラを使用するときでさえ、十分に高い品質で3Dにおいて全部の頭を構築することは、可能ではない。これが、安価なカメラによって取得される2D+zの画像データについての場合に確実になることは、疑う余地がない。
第2の画像入力が、次に、場合によっては、オフラインで取られ、またこのようにしてこのオブジェクトまたは人の2D+zのビデオ・シーケンスに先立つ3Dのピクチャであるこの場合において、使用される。万一、その正確な、また「実生活の」モデルが生成されるべきオブジェクトが自動車に関する場合に、この自動車の3Dのピクチャが、使用されるなどである。
2D+zの監視された人の頭と顔との、3Dにおける正確な、「実生活の」表現が、提供されることになる場合の実施形態では、状態は、位置パラメータ、例えば、頭の方向、3Dにおけるスケール、3Dにおけるロケーションと、モーフィング・パラメータ、例えば、顔の表情に関連したこれらのパラメータとの組合せとして決定される。後者は、例えば、それら自体、口、鼻、目、あごのライン、まゆ毛などの特定の相対位置または絶対位置に関連した、例えば、68個の属性の値によって表現される可能性がある。これらは、3Dにおけるそれらの絶対座標または相対座標として表現されることもある。モデル化されるべき自動車の場合では、状態は、3Dにおける位置パラメータと、モーフィング・パラメータとを表す値の組合せを含んでおり、位置パラメータは、この場合にも、この自動車の3Dにおけるロケーションと、スケールと、方向とに関連しており、またモーフィング・パラメータは、例えば、ホイールなどの部分オブジェクトについてのカラー、テクスチャ、方向を識別している。
3Dのピクチャの状態は、2D+zのビデオのそれぞれの後続の画像の状態と一緒に決定される可能性があるが、3Dのピクチャは、オフラインの静止画像に関するので、これはまた、前もって行われていることもある。その場合には、これらの状態パラメータは、早期に決定され、また記憶されていることもある。しかしながら、オンラインの2D+zの入力画像データでは、画像は、例えば、人が折にふれて必然的に動くことになるので、変化することになり、またできるだけ現実的な人の頭と動きとのモデルを表現する、正確なオンラインの3Dの出力をレンダリングするために、できるだけ忠実にこれらの画像を追跡することが、目的である。同様な考察は、移動することになる動いている自動車が、外観において変化することもあり、またホイールのビュー、位置および方向が、変化することもあるなど、他の例の場合にも有効である。
人間の頭の後続の2D+zの画像の各々、またはサブセットについての望ましい状態は、頭のポーズ推定と、顔の特徴抽出とのための最新式の画像処理技法を用いて決定される可能性がある。以上で説明されたAAM方法などの技法は、顔の特徴を決定するために使用されることもあるが、頭のポーズ・パラメータ値は、例えば、グリュナート・アルゴリズム(Grunert algorithm)を使用した顔の特徴三角形マッチングを経由して決定される可能性がある。
3Dの画像の状態は、この人間の頭の3Dの画像についてのいくつかの投影されたバージョンについての1組の顔の特徴のマニュアル表示を経由して、より早期にユーザによって決定されていることもある。代わりに、これはまた、例えば、認識技法を経由して、より自動的なやり方で実行されることもある。両方の状態PS1とPS2とは、ターゲット状態TSPを決定するための入力として提供される。この場合には、動きの追跡は、後続の2D+zの画像の上で決定される状態が、3Dの画像の変わらない状態に比べてより多くの重みが与えられることになるように、最も重要である。一実施形態においては、TSPは、PS1の値をただ引き継ぐ可能性さえあり、2D+zの画像の状態であり、このようにしてPS2値を切り捨てている。次の反復期間においては、生成された中間のモデルから抽出される状態が、ターゲット状態の決定のために使用されることにもなるが、これは、さらに、さらなる段落で説明されるであろう。
ターゲット状態TSPに基づいて、画像は、変換される。できるだけ忠実に2D+zのビデオ画像の動きと表現に従うことが目的であるので、個々の画像を含む後続のビデオ・フレームは、それゆえにあまり変換されないことになり、何らかのフィルタリングだけが、行われることになる。他方、3Dの画像は、後続の2D+zの画像の上に存在するような、顔の変化する表情/動きに向かってそれをより多く適応させるようになど、変換されることになる。これは、例えば、入力画像において検出されたオブジェクトのどのピクセル/ボクセルが、TSP入力として提供されたある種の顔の特徴に適応させようと試みるときに、変化させられるべきかを示す、「操作された3Dのモデル」法を使用して、顔の特徴の適応に沿って、オブジェクトの回転と、変換と、スケーリングとの組合せによって行われる可能性がある。
これらの画像入力データに加えて、後続の反復ループにおいて連続的にフィードバックされる、人間の頭それ自体の3DのモデルMのフィードバック情報もまた、存在している。モデル・オブジェクト学習ステップ500は、3DのモデルMについての異なる反復または推定値のロギングを意味しており、この3DのモデルMは、このようにして、変化する表情および動きに応じて時間とともに変化する可能性がある。さらに、中間の学習モデルMIFそれ自体はまた、好ましくは、空間的に依存するやり方で、いくつかのフィードバック・ループの上で適応され、中間の学習モデルMIFが、スパース適応サンプリングのために一般に使用されるように、3Dの空間におけるあらゆる考慮されたポイントについて、距離メトリクスのせいにされることになることを意味している。あらゆる学習モデル・オペレーション中に、これらの距離メトリクスは、指数関数的に下降する時間モデルに基づいて、さらにアップデートされる。
中間の学習モデルMIFは、さらに、状態抽出のために使用されることもあり、この情報はまた、さらに、このようにして、補間が適しているか否かを最初に決定することにより、上記の段落において説明されるようなやり方でターゲット状態TSPを決定するために使用されることもある。この補間は、万一、PS1データの信頼度が、それほど高くなく、例えば、50%である場合に、適していることがある。代わりに、低い信頼度の、例えば、PS1の20%よりも低い場合に、PSMFを使用するだけのことが、より適切とすることさえできる。例えば、50%よりも大きな、PS1データの比較的高い信頼度の場合には、PS1データだけが、使用される可能性がある。もちろん他の判断基準が、使用される可能性もあり、また補間の場合には、IV1入力ビデオの状態は、依然として、ターゲット状態の決定のために、PSMFに関してより多くの重みを与えられる可能性がある。
このターゲット状態TSPは、入力画像データを変換するために使用されることもある。図3aの実施形態においては、中間の学習モデルについてのさらなる変換は存在しておらず、この場合に、中間の学習モデルMIFが、「状態依存」であることを意味している。図3bに示される代替的な実施形態においては、中間のモデルMIFは、さらに、TSPを、そのようにして変化する入力の状態もまた間接的に考慮したさらなるチューニングを用いて、TSPに従って変換される。これは、「状態に独立したモデル」で示される。図3aの実施形態においては、中間の学習モデルは、集約ステップ400において直接に使用されるが、図3bの実施形態においては、変換されたモデル情報MITは、このステップにおいて使用される。両方の実施形態においては、集約ステップ400は、さらに、信頼度マップに基づいたものとすることができ、この信頼度マップは、いくつかの実装形態においては、信頼度が、ステレオ・カメラ画像から2D+zのデータを決定するときのステレオ・マッチング・プロセスの結果とすることができるので、2D+zのデータと一緒に提供されることもある。
信頼度マップは、変換された3DのデータIV2Tのために構築される可能性もある。例えば、3Dのオフラインにスキャンされたデータの最初の高い信頼度が、かなりの変換が、顔のある種の部分に対して適用されるときに、低下することが、可能である。
学習モデルMIFに関する信頼度メトリクスについては、人は、過去から信頼度を推論することができ、すなわち、例えば、モデルの以前の状態が、ある種のピクセルについての新しい測定値と適合していない場合に、人は、その部分の中に動きが存在しており、また信頼度が、同様に劣化することになっていることを仮定することができる。
それらの適切に決定された信頼度を有する適応された画像IV1T、IV2TをMIFまたはMITと組み合わせることにより、3Dの構築アルゴリズム、例えば、「マーチング・キューブ(marching cubes)」アルゴリズムは、2D+zの動きおよび表情に正確に従う整合した3Dのモデルを構築するために使用される可能性がある。
人間の頭の正確な、また「実生活」の3Dの表現を提供するための上記の例は、このようにして、たとえこの人についてのオンラインの追跡のための限られたリソースだけが使用可能であるとしても、例えば、参加するメンバーの完全な3Dの表現が、すべての他の参加者に示され、また送信されるために望ましい場合のビデオ会議の状況において適用されることもある。そのような状況においては、例えば、ラップトップなどのモバイル・デバイスの2つのウェブカメラの組合せ、またはウェブカメラと組み込み式のカメラとの組合せが、すべての参加者の安価な2D+zの画像を生成するために使用される可能性があるのに対して、他方では、各々の人の3Dの表現における現実的で正確なオフラインの表現が、ビデオ会議中に、方法の実施形態を利用することにより、各々の人が、リアル・タイムに、また3Dで表現され得るように、前もって記憶されることもある。
図4aは、異なる透視角からの入力の生活の2Dのビデオを表すために、例えば、「P」で示されるステップ600を用いて図4bにおいて提示されるなど、一般的な投影技法を経由して、後で使用されることもあるが、同時に、場合によっては、いくつかのアーティファクトを含む可能性のある元の実生活の2Dのビデオを補正している3Dのビデオを生成するための実施形態を説明するものである。この補正は、この場合に、正しい3Dモデルだけが、この異なる投影の角度およびプレーンを考慮に入れて、後続の投影のために生成されることになるように、異なる投影ポイントから投影する結果とすることができる。この場合には、図3aに関して説明されるような技法が、使用される可能性があり、投影ステップが、続いている。現実的な3Dのモデルを実現するための情報は、同じオブジェクトの3Dの画像を経由して提供されるが、この3Dの画像は、このアーティファクトを示してはいない。これは、例えば、オンライン・ビデオ通信のドメインにおいて使用することができ、ここでは、ユーザは、例えば、ウェブカメラによって撮影されており、またそれゆえに、カメラをまっすぐに見つめているように期待されるが、その代わりにユーザのキーボードの上でタイプしている。それにもかかわらず、目でカメラをまっすぐに見つめているこの人についてのビューが、この通信の他のパーティに送信されているために望ましい可能性があるので、いくつかの画像処理オペレーションが、ユーザの動きを現実的に追跡しているが、両目が、この望ましい光景を有するようになど補正されている、この人のモデルを生成するために必要とされる可能性がある。「下を」見ている人についての現象は、視線と呼ばれ、また視線補正は、それゆえに望ましい。
そのような視線補正を実行する上記の方法は、画面の周囲の複数のカメラのセットアップと、必要とされるカメラ位置のビューの補間を行うためのアルゴリズムとを必要としていた。他方、図4a〜bの実施形態は、非常に簡単であり、また場合によっては、正しいビューについてオフラインで取られ、このようにして、参加者が、カメラをまっすぐに見つめている3Dの画像を必要とするだけである。
図3aの上記の例に関して説明されるように、状態は、この場合にも、それが、人間の頭、顔の回転、スケール、3Dにおけるロケーション、および顔の表情に関するので、とりわけさらに、位置パラメータと、モーフィング・パラメータとの組合せとして規定される。リアル・タイムの2Dのビデオの状態は、ターゲット状態として使用されることになり、またオフラインでスキャンされた3Dの測定値は、このターゲット状態を考慮に入れて変換される。集約ステップにおいては、オフラインの3Dの画像についての3Dの幾何学は、リアル・タイムに取り込まれた2Dの情報によって提供されるテクスチャ情報と一緒に使用される。
M3Dで示される図4a〜bの中の3Dのモデルが、生成され、また反復ループにおいてフィードバックされる。図4aの実施形態においては、この3Dのモデルは、出力に対して提供されるが、図4bにおいては、追加の投影ステップは、生成されたモデルの2Dの投影が、出力に対して提供されるように、行われる。両方の実施形態においては、モデル変換が、実行されるが、他の実施形態は、図3aに関して説明されるように、このステップ300なしに存在する。
すべてのこれらの実施形態においては、ターゲット状態は、3Dのモデルが、2Dのビデオ画像の動きと顔の表情とを追跡しているように、図3aの実施形態と類似したやり方で決定されることもある。異なる投影プランに対して取得された人間の頭の、このようにして実現された3Dのモデルを単に投影することにより、視線補正は、そのときには、既に取得されている可能性がある。これに関して、余分な投影ステップ600の追加を伴う、図3aの実施形態に類似した実施形態が、2D+zの代わりに2Dのビデオをただ受信しながら、既に十分である可能性がある。
代替的なやり方においては、3Dのモデルは、単に入力の2Dのビデオの表情および動きに従わないことになるにすぎないが、また3Dの画像によって提供されるように、改善された見る位置を考慮に入れることにもなる。このようにして、TSPは、TSPを算出するための異なるやり方が、図3a〜bの実施形態と比べて、使用されることになるように、PS2からこの入力を獲得する必要がある。TSPは、IV1が、この場合には、補正されている、人の異なる顔つきである、望ましい特徴を有するように既に試みるために変換されているのに対して、IV2もまた、IV1の変化する表情に追随するが、依然として補正された特徴を保存するようになど、TSPに基づいて変換されるように、IV1の画像変換ステップ301中に考慮に入れられることになる。これを実施するための可能な方法は、上記で説明されるような、「操作された」3Dのモデルを使用することによるものであり、それゆえに、TSP入力として提供されたある種の顔の特徴に適応させるように試みるときに、入力画像において検出されたオブジェクトのどのピクセル/ボクセルが、変更されるべきかを示している。
学習モデルそれ自体はまた、IV1データからの変化する情報が、中間の学習モデルを適応させるために使用されるように、この「操作されたモデル」に基づいて、モデル変換ステップ300において変換されることもある。
すべての実施形態においては、それぞれの変換された画像は、最新の生成されたモデル、または最新の変換されたモデルのいずれかと集約される。一実施形態においては、IV1Tのテクスチャ情報は、IV2Tと、MIFまたはMITとのテクスチャ情報と統合される。これは、いわゆる「アルファ・ブレンディング」技法を用いて実現される可能性があり、ここで、IV1Tのピクセルは、IV2TおよびMITのボクセルのこれらと比べてより多い重みのせいにされることになる。幾何学に関しては、よく知られているポアソン表面構築技法が、メッシュを生成するために使用されてもよい。
図4bの実施形態はまた、モデル・オブジェクト学習ステップ500に対する外部モデル情報MEのオプションの入力を示している。この外部情報は、この場合に、MIFの初期値が、既に状態抽出ステップに対して提供されており、またモデル変換のために使用される可能性があるように、例えば、図3aの実施形態としての実施形態から提供されることもあり、また本方法の第1の初期ステップ中に開始値として使用される可能性がある。このモデル変換オペレーション300が存在していない場合の、さらに他の実施形態においては、この初期情報MEは、集約ステップ400中に直接に提供され、また使用されているためのMIFとして使用される可能性がある。
本発明の原理は、特定の装置に関連して上記で説明されているが、この説明は、単に例として行われているにすぎず、また添付の特許請求の範囲において規定されるような、本発明の範囲に対する限定として行われているものではないことを明確に理解すべきである。その特許請求の範囲においては、指定された機能を実行するための手段として表現されるどのような要素も、その機能を実行するどのようなやり方も包含することを意図している。これは、例えば、それゆえに、機能を実行するそのソフトウェアを実行するための適切な回路、ならびに少しでもあるとしたら、ソフトウェア制御された回路に結合された機械的要素と組み合わされた、ファームウェア、マイクロコードなどを含めて、任意の形態のその機能またはソフトウェアを実行する電気的要素または機械的要素の組合せを含むことができる。本発明は、かかる特許請求の範囲によって規定されるように、様々な列挙された手段によって提供される機能が、特許請求の範囲が要求するようにして結合され、また一緒にされることにあり、具体的にそうであると規定されていない限り、どのような物理的構造も、特許請求される本発明の新規性にとってほとんど重要でなく、または重要ではない。それゆえに、出願人は、これらの機能を提供することができる任意の手段を、本明細書に示した手段と均等であると考える。

Claims (15)

  1. 少なくとも1つの画像データ入力(IV1;IV1〜IVn)から画像モデル(M1; M)を構築するための方法であって
    記少なくとも1つの画像データ入力(IV1;IV1〜IVn)の少なくとも1つの状態(PS1;PS1〜PSn)および中間の学習モデル(MF;MIF)の状態(PSMF)を抽出するステップと、
    前記少なくとも1つの画像データ入力の前記少なくとも1つの状態(PS1; PS1〜PSn)および前記中間の学習モデル(MF;MIF)の前記状態(PSMF)の重み付けされた組合せを行うことによって、または、前記少なくとも1つの画像データ入力の前記少なくとも1つの状態および前記中間の学習モデルの前記状態のうちの1つを選択することによって、ターゲット状態(TSP)を決定するステップであって、前記重みは前記状態の信頼度を反映し、前記信頼度は前記状態の抽出の間に決定される、ステップと、
    前記少なくとも1つの画像データ入力(IV1;IV1〜IVn)についての前記決定されたターゲット状態(TSP)に従って少なくとも1つの変換を実行し、それによって少なくとも1つの変換された画像(IV1T;IV1T〜IVnT)を生成するステップと、
    中間の学習モデル(MF;MIF; MIT;MFT)情報と前記少なくとも1つの変換された画像(IV1T;IV1T〜IVnT)1つの画像に集約し、それによって前記画像モデル(M1;M)のアップデートされた推定値を生成するステップと、
    前記画像モデル(M1;M)として前記画像モデル(M1;M)の前記アップデートされた推定値を出力として提供するステップと、
    前記中間の学習モデル(MF;MIF)のアップデートを導き出すモデル・オブジェクト学習モジュール(500)に対して、フィードバック・ループにおいて、前記画像モデル(M1;M)の前記アップデートされた推定値を提供するステップと
    反復的な処理において前記全てのステップを繰り返すステップと、
    を含む方法。
  2. 前記集約ステップ中に、中間の変換されたモデル(MFT;MIT)が、前記画像モデル(M1;M)の前記アップデートされた推定値を生成するために前記少なくとも1つの変換された画像(IV1T;IV1T〜IVnT)と集約されるように、前記決定されたターゲット状態(TSP)に従って前記中間の学習モデル(MF,MIF)の上で変換を実行し、それによって前記中間の変換されたモデル(MFT;MIT)を生成するステップをさらに含む、請求項1に記載の方法。
  3. 前記少なくとも1つの画像データ入力は、2Dのフォーマットまたは2D+zのフォーマットにおけるオブジェクトのビデオ・シーケンスを含む第1の画像データ入力(IV1)と、前記オブジェクトの完全な3Dの画像を含む第2の画像データ入力(IV2)とを含み、前記状態は、3Dにおける前記画像モデルの逐次的にアップデートされた推定値が、前記画像モデル(M3D)として提供されるように、3Dにおける前記オブジェクトの位置パラメータおよびモーフィング・パラメータを表す値の組合せを含む、請求項1または2に記載の方法。
  4. 前記オブジェクトの前記完全な3Dの画像は、前記オブジェクトの前記ビデオ・シーケンス画像に関して少なくとも1つの異なる特徴を有する前記オブジェクトを示しており、また前記オブジェクトの3Dにおける前記画像モデル(M3D)は、前記少なくとも1つの異なる特徴を示している、請求項3に記載の方法。
  5. 前記3Dの画像モデルの前記アップデートされた推定値(M3D)を2Dのプレーンに対して投影するステップと、前記画像モデルとして前記アップデートされた推定値の2D(M2D)における前記投影を提供するステップとをさらに含む、請求項3または4に記載の方法。
  6. 前記ターゲット状態は、さらに、前記画像モデルが生成されるべきオブジェクトに関連した追加の情報(PSE)に基づいて決定される、請求項1乃至5のいずれか1項に記載の方法。
  7. 前記中間の学習モデルは、さらに、外部から提供されるモデル情報(ME)から導き出される、請求項1乃至6のいずれか1項に記載の方法。
  8. 少なくとも1つの画像データ入力(IV1;IV1〜IVn)から画像モデル(M1; M)を構築するための装置(A1)であって、
    前記装置の少なくとも1つの入力に対して提供される前記少なくとも1つの画像データ入力(IV1;IV1〜IVn)、および中間の学習モデル(MF;MIF)の状態(PS1;PS1〜PSn)のそれぞれの値を抽出するように、
    前記少なくとも1つの画像データ入力の前記状態(PS1;PS1〜PSn)の前記それぞれの値のうちの少なくとも1つ、および前記中間の学習モデル(MF;MIF)の前記状態の少なくとも1つの値の重み付けされた組合せを行うことによって、または、前記少なくとも1つの画像データ入力の前記少なくとも1つの状態および前記中間の学習モデルの前記状態のうちの1つを選択することによって、ターゲット状態(TSP)の少なくとも1つの値を決定するように適合されている装置であって、前記重みは前記状態の信頼度を反映し、前記信頼度は前記状態の抽出の間に決定され、前記装置は、さらに
    前記少なくとも1つの画像データ入力(IV1;IV1〜IVn)について少なくとも1つの変換を実行し、それによって少なくとも1つの変換された画像(IV1T;IV1T〜IVnT)を生成するように、
    中間の学習モデル(MF;MIF; MIT;MFT)情報と前記少なくとも1つの変換された画像(IV1T;IV1T〜IVnT)1つの画像に集約し、それによって前記画像モデル(M1; M)のアップデートされた推定値を生成するように、
    前記中間の学習モデル(MF;MIF)のアップデートをそこから導き出すために、フィードバック・ループにおいて、前記画像モデル(M1;M)の前記アップデートされた推定値を提供するように、
    前記画像モデル(M1;M)として前記画像モデル(M1;M)の前記アップデートされた推定値を前記装置の出力に対して提供するように、
    適合されている装置(A1)。
  9. 前記中間の変換されたモデル(MFT;MIT)が、前記画像モデル(M1;M)の前記アップデートされた推定値を生成するために前記少なくとも1つの変換された画像(IV1T;IV1T〜IVnT)と集約されるように、前記決定されたターゲット状態(TSP)に従って前記中間の学習モデル(MF,MIF)の上で変換を実行し、それによって中間の変換されたモデル(MFT;MIT)を生成するようにさらに適合されている、請求項8に記載の装置(An)。
  10. 前記少なくとも1つの画像データ入力は、2Dのフォーマットまたは2D+zのフォーマットにおけるオブジェクトのビデオ・シーケンスを含む第1の画像データ入力(IV1)、および前記オブジェクトの完全な3Dの画像を含む第2の画像データ入力(IV2)を含み、前記状態は、3Dにおける前記オブジェクトの位置パラメータおよびモーフィング・パラメータを表す値の組合せを含み、前記装置は、3Dにおける前記画像モデルの逐次的にアップデートされた推定値を前記画像モデル(M3D)として生成するように適合されている、請求項8または9に記載の装置。
  11. 前記3Dの画像モデルの前記アップデートされた推定値(M3D)を2Dのプレーンに対して投影し、また前記画像モデルとして前記アップデートされた推定値の2D(M2D)における前記投影を前記出力に対して提供するようにさらに適合されている、請求項10に記載の装置。
  12. 前記画像モデルが、生成され、また前記装置の別の入力に対して提供されるべきオブジェクトに関連した追加の情報(PSE)に基づいて、前記ターゲット状態(TSP)を決定するようにさらに適合されている、請求項8乃至11のいずれか1項に記載の装置。
  13. 前記装置の別の入力に対して提供される外部から提供されたモデル情報(ME)から前記中間の学習モデル(MF;MIF)を導き出すようにさらに適合されている、請求項8乃至12のいずれか1項に記載の装置。
  14. 請求項8乃至13のいずれか1項に記載の装置を備える画像処理装置。
  15. データ処理装置の上で実行されるときに、請求項1乃至7のいずれか1項に記載の方法ステップを実行するように適合されたソフトウェアを含むコンピュータ・プログラム。
JP2014516259A 2011-06-20 2012-06-04 画像モデルの構築のための方法および装置 Expired - Fee Related JP5784226B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP11305768.1A EP2538388B1 (en) 2011-06-20 2011-06-20 Method and arrangement for image model construction
EP11305768.1 2011-06-20
PCT/EP2012/060507 WO2012175320A1 (en) 2011-06-20 2012-06-04 Method and arrangement for image model construction

Publications (2)

Publication Number Publication Date
JP2014520332A JP2014520332A (ja) 2014-08-21
JP5784226B2 true JP5784226B2 (ja) 2015-09-24

Family

ID=44674671

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2014516260A Expired - Fee Related JP5806399B2 (ja) 2011-06-20 2012-06-04 3次元画像モデル適応のための方法および装置
JP2014516259A Expired - Fee Related JP5784226B2 (ja) 2011-06-20 2012-06-04 画像モデルの構築のための方法および装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2014516260A Expired - Fee Related JP5806399B2 (ja) 2011-06-20 2012-06-04 3次元画像モデル適応のための方法および装置

Country Status (6)

Country Link
US (2) US9324191B2 (ja)
EP (2) EP2538388B1 (ja)
JP (2) JP5806399B2 (ja)
KR (2) KR101547780B1 (ja)
CN (2) CN103608846B (ja)
WO (2) WO2012175320A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2013110494A (ru) * 2013-03-11 2014-09-20 ЭлЭсАй Корпорейшн Устройство обработки изображений с уровнем оценки, реализующим программный и аппаратный алгоритмы разной точности
CN103258346A (zh) * 2013-04-24 2013-08-21 苏州华漫信息服务有限公司 一种3d照相打印系统
CN103279987B (zh) * 2013-06-18 2016-05-18 厦门理工学院 基于Kinect的物体快速三维建模方法
US9325936B2 (en) * 2013-08-09 2016-04-26 Samsung Electronics Co., Ltd. Hybrid visual communication
JP6304999B2 (ja) * 2013-10-09 2018-04-04 アイシン精機株式会社 顔検出装置、方法およびプログラム
CN104866860A (zh) * 2015-03-20 2015-08-26 武汉工程大学 一种室内人体行为识别方法
US9818232B2 (en) * 2015-08-26 2017-11-14 Adobe Systems Incorporated Color-based depth smoothing of scanned 3D model to enhance geometry in 3D printing
JP6944441B2 (ja) 2015-09-25 2021-10-06 マジック リープ, インコーポレイテッドMagic Leap,Inc. 3次元再構成において構造特徴を検出し、組み合わせるための方法およびシステム
US10445565B2 (en) * 2016-12-06 2019-10-15 General Electric Company Crowd analytics via one shot learning
JP6987508B2 (ja) 2017-02-20 2022-01-05 オムロン株式会社 形状推定装置及び方法
CN107492107B (zh) * 2017-08-10 2020-09-22 昆山伟宇慧创智能科技有限公司 基于平面与空间信息融合的物体识别与重建方法
JP7000766B2 (ja) * 2017-09-19 2022-01-19 富士通株式会社 学習データ選択プログラム、学習データ選択方法、および、学習データ選択装置
US10706577B2 (en) * 2018-03-06 2020-07-07 Fotonation Limited Facial features tracker with advanced training for natural rendering of human faces in real-time
JP7203954B2 (ja) 2018-08-27 2023-01-13 アリババ・グループ・ホールディング・リミテッド 顔姿勢推定/3次元顔再構築方法、装置、及び電子デバイス
US10924721B2 (en) * 2018-12-20 2021-02-16 Intel Corporation Volumetric video color assignment
CN111275813B (zh) * 2020-01-20 2021-09-17 北京字节跳动网络技术有限公司 数据处理方法、装置和电子设备
EP4351968A1 (en) 2021-06-11 2024-04-17 Netdrones, Inc. Systems and methods for 3d model based drone flight planning and control

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69232166T2 (de) 1991-09-05 2002-06-06 Motorola Inc., Schaumburg Fehlerschutz für vielfachmodensprachkodierer
JP3512992B2 (ja) * 1997-01-07 2004-03-31 株式会社東芝 画像処理装置および画像処理方法
JP3639476B2 (ja) * 1999-10-06 2005-04-20 シャープ株式会社 画像処理装置および画像処理方法ならびに画像処理プログラムを記録した記録媒体
JP2001268594A (ja) * 2000-03-15 2001-09-28 Infiniteface.Com Inc 三次元ビューティーシミュレーション用クライアントサーバシステム
US6806898B1 (en) * 2000-03-20 2004-10-19 Microsoft Corp. System and method for automatically adjusting gaze and head orientation for video conferencing
JP2002015310A (ja) 2000-06-30 2002-01-18 Minolta Co Ltd 点群に面をフィッティングする方法およびモデリング装置
US6757571B1 (en) * 2000-06-13 2004-06-29 Microsoft Corporation System and process for bootstrap initialization of vision-based tracking systems
JP2002216114A (ja) * 2001-01-17 2002-08-02 Ricoh Co Ltd 3次元モデル生成方法
JP2003044873A (ja) * 2001-08-01 2003-02-14 Univ Waseda 顔の3次元モデルの作成方法及びその変形方法
JP2003346185A (ja) * 2002-05-24 2003-12-05 Olympus Optical Co Ltd 情報表示システム及び携帯情報端末
US7184071B2 (en) * 2002-08-23 2007-02-27 University Of Maryland Method of three-dimensional object reconstruction from a video sequence using a generic model
WO2005073914A1 (en) * 2004-01-30 2005-08-11 Cedara Software Corporation System and method for applying active appearance models to image analysis
JP4449723B2 (ja) * 2004-12-08 2010-04-14 ソニー株式会社 画像処理装置、画像処理方法、およびプログラム
US20110102553A1 (en) * 2007-02-28 2011-05-05 Tessera Technologies Ireland Limited Enhanced real-time face models from stereo imaging
JP4216824B2 (ja) * 2005-03-07 2009-01-28 株式会社東芝 3次元モデル生成装置、3次元モデル生成方法および3次元モデル生成プログラム
CA2884702C (en) 2006-06-23 2018-06-05 Samuel Zhou Methods and systems for converting 2d motion pictures for stereoscopic 3d exhibition
DE102006048578B4 (de) * 2006-10-13 2010-06-17 Gerhard Witte Verfahren und Vorrichtung zum Bestimmen der Veränderung der Form eines dreidimensionalen Objektes
US8243118B2 (en) * 2007-01-23 2012-08-14 Euclid Discoveries, Llc Systems and methods for providing personal video services
EP2115662B1 (en) * 2007-02-28 2010-06-23 Fotonation Vision Limited Separating directional lighting variability in statistical face modelling based on texture space decomposition
WO2008147355A1 (en) 2007-05-29 2008-12-04 Cognex Technology And Investment Corporation 3d assembly verification from 2d images
US8699787B2 (en) * 2007-06-29 2014-04-15 Three Pixels Wide Pty Ltd. Method and system for generating a 3D model from images
US8170280B2 (en) * 2007-12-03 2012-05-01 Digital Smiths, Inc. Integrated systems and methods for video-based object modeling, recognition, and tracking
JP2010072700A (ja) 2008-09-16 2010-04-02 Univ Of Electro-Communications 画像処理装置、画像処理方法、及び、撮像システム
US8204301B2 (en) * 2009-02-25 2012-06-19 Seiko Epson Corporation Iterative data reweighting for balanced model learning
EP2236980B1 (en) * 2009-03-31 2018-05-02 Alcatel Lucent A method for determining the relative position of a first and a second imaging device and devices therefore
US8493384B1 (en) * 2009-04-01 2013-07-23 Perceptive Pixel Inc. 3D manipulation using applied pressure
JP2011097447A (ja) * 2009-10-30 2011-05-12 Sharp Corp コミュニケーションシステム
EP2333692A1 (en) * 2009-12-11 2011-06-15 Alcatel Lucent Method and arrangement for improved image matching
TWM403161U (en) 2010-10-25 2011-05-01 Univ Far East With 3-dimensionally image of the mobile device

Also Published As

Publication number Publication date
US9324191B2 (en) 2016-04-26
WO2012175320A1 (en) 2012-12-27
EP2538389B1 (en) 2015-04-01
EP2538388B1 (en) 2015-04-01
CN103608846B (zh) 2017-06-20
KR20140037936A (ko) 2014-03-27
KR20140024058A (ko) 2014-02-27
US20140212030A1 (en) 2014-07-31
KR101560508B1 (ko) 2015-10-14
JP5806399B2 (ja) 2015-11-10
US9269194B2 (en) 2016-02-23
KR101547780B1 (ko) 2015-08-26
WO2012175321A1 (en) 2012-12-27
US20140212031A1 (en) 2014-07-31
CN103608846A (zh) 2014-02-26
CN103608847B (zh) 2016-12-28
EP2538388A1 (en) 2012-12-26
CN103608847A (zh) 2014-02-26
JP2014520332A (ja) 2014-08-21
EP2538389A1 (en) 2012-12-26
JP2014520333A (ja) 2014-08-21

Similar Documents

Publication Publication Date Title
JP5784226B2 (ja) 画像モデルの構築のための方法および装置
US11818506B2 (en) Circumstances based 3D representations of participants of virtual 3D communications
Thies et al. Facevr: Real-time facial reenactment and eye gaze control in virtual reality
US11856328B2 (en) Virtual 3D video conference environment generation
US11805157B2 (en) Sharing content during a virtual 3D video conference
US11765332B2 (en) Virtual 3D communications with participant viewpoint adjustment
US20220051412A1 (en) Foreground and background segmentation related to a virtual three-dimensional (3d) video conference
US11870939B2 (en) Audio quality improvement related to a participant of a virtual three dimensional (3D) video conference
TW202301277A (zh) 來自雙眼視訊的即時3d面部動畫
US11734889B2 (en) Method of gaze estimation with 3D face reconstructing
TW201305962A (zh) 用於影像模型建立之方法及配置
WO2023211735A1 (en) Rendering videos with novel views from near-duplicate photos
WO2022238908A2 (en) Method and system for virtual 3d communications
CN117808860A (zh) 图像处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150120

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150623

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150721

R150 Certificate of patent or registration of utility model

Ref document number: 5784226

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees