JP6806160B2 - 3次元運動評価装置、3次元運動評価方法、及びプログラム - Google Patents

3次元運動評価装置、3次元運動評価方法、及びプログラム Download PDF

Info

Publication number
JP6806160B2
JP6806160B2 JP2018548017A JP2018548017A JP6806160B2 JP 6806160 B2 JP6806160 B2 JP 6806160B2 JP 2018548017 A JP2018548017 A JP 2018548017A JP 2018548017 A JP2018548017 A JP 2018548017A JP 6806160 B2 JP6806160 B2 JP 6806160B2
Authority
JP
Japan
Prior art keywords
motion
dimensional
pixel
error
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018548017A
Other languages
English (en)
Other versions
JP2019507934A (ja
Inventor
シュボジト チャウダリー
シュボジト チャウダリー
中野 学
学 中野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2019507934A publication Critical patent/JP2019507934A/ja
Application granted granted Critical
Publication of JP6806160B2 publication Critical patent/JP6806160B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Description

本発明は、3次元運動評価装置、3次元運動評価方法、及びこれらを実現するためのプログラムに関し、更には、ビデオによる3次元再構築の分野、より詳しくは、単眼画像シーケンスからの非剛性3次元運動評価に関する。
単眼画像シーケンスからの3次元再構築の分野は、略20年にわたり、コンピュータビジョン共同体において、アクティブな研究の分野である。画像からの3次元の再構築は、アニメーション、3次元印刷、ビデオおよび画像編集などの様々な分野において、種々の用途を見出している。この分野におけるほとんどの従来のシステムは、カメラが様々な視点から所望の物体の画像を撮影する、カメラベースの方式で動作する。また、このとき、画像は、物体の構造及びカメラの動きを同時に計算するために使用される。物体の構造は、カメラの動きに基づいて、この分野で広く普及している3次元再構築手法においては、クラスとされる。また、画像シーケンスが取得され、画像データ上のランク制約を用いて、構造とカメラの動きとが算出される。このステージの後には、通常、カメラのポーズと物体構造とを同時に最適化するバンドル調整ステージが続く。
この分野における挑戦は、効率的、且つ正確に、2次元における対応点のみから、非剛体物の構造を計算することである。高密度の非剛体の構造は、モーション手法に基づいて、アフィンカメラモデル(非特許文献1)を想定し、ランク制約を適用し、分解法を用いて解かれる。しかし、アファインカメラモデルは、画像形成がカメラの光学中心からの点の深さとは無関係であると仮定しているので、光軸に沿って、変換を回復できない。
この奥行のあいまいさの問題を解決するため、透視投影として、3次元から2次元への運動マッピングをモデル化する必要がある。Triggs等(非特許文献2)によって行われた研究は、透視投影下での剛体構造とカメラ姿勢推定とのための、因子分解による定式化を提供する。近年、動きによる剛体構造における密度は、Ondruska等(非特許文献3)によって、携帯電話、タブレットといったポータブルプラットフォーム上で、これらで利用可能な一般的なストックカメラを用いて、実装に成功している。
上記の研究は、動きによる剛体構造の例を扱うが、構造と姿勢の最終的な解は非常に複雑な多様体上にあり、解は初期の種に大きく依存しているため、透視投影法での動きからの非剛体構造の密度の問題は、非常に困難な問題である。このような最適化の問題は、しばしば厄介であり、リアルタイムで解くことが困難である。多くの場合、解決策が存在する空間を制約するために、事前知識が解決策に適用される。Vidal等(非特許文献4)による透視投影ベースの非剛性体の再構成の分野では、以前から研究がなされているが、これらの方法は、主に、まばらな点の再構築に基づくものであり、高密度の再構成に対してはうまく拡張できない。
Newcombe等(非特許文献5)による研究は、RGB-Dベースの入力データにおいて、対象物の標準的な剛体モデルの計算を試み、フレーム間の3次元運動を計算して、標準的な剛体モデルをアニメーション化し、更に、実際の非剛体の変形を生成する。この研究は、提案された発明に最も近いものであるが、固定されたパースペクティブカメラの下で3次元フローを計算するためにRGB情報のみを使用し、問題をはるかに難しくしている。
Garg, R.; Roussos, A.; Agapito, L., "Dense Variational Reconstruction of Non-rigid Surfaces from Monocular Video," in Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on , vol., no., pp.1272-1279, 23-28 June 2013 Triggs, B.,"Factorizationmethods for projective structure and motion," in Computer Vision and Pattern Recognition, 1996. Proceedings CVPR '96, 1996 IEEE Computer Society Conference on , vol., no., pp.845-851, 18-20 Jun 1996 Ondruska, P.; Kohli, P.; Izadi, S., "MobileFusion: Real-Time Volumetric Surface Reconstruction and Dense Tracking on Mobile Phones," in Visualization and Computer Graphics, IEEE Transactions on , vol.21, no.11, pp.1251-1258, Nov. 15 2015 Ren´e Vidal and Daniel Abretske , "Nonrigid Shape and Motion from Multiple Perspective Views", ECCV 2006-European Conference on Computer Vision, 2014 Newcombe, R.A.; Fox, D.; Seitz,S.M., "DynamicFusion: Reconstruction and tracking of non-rigid scenes inreal-time," in Computer Vision and Pattern Recognition (CVPR), 2015 IEEE Conference on , vol., no., pp.343-352, 7-12 June 2015
上述した進歩にもかかわらず、高密度非剛体の3次元再構築は、以前として困難な問題である。従って、本発明は、上述した問題を解決するためになされたものである。
本発明の目的の一例は、2次元の対応点から3次元の運動を解くことができ、非剛体の3次元再構築のために、初期モデルの3次元の動きをワープする、3次元運動評価装置、3次元運動評価方法、及びプログラムを提供することにある。
上記目的を達成するため、本発明の一側面における3次元運動評価装置は、単眼画像から対象物の高密度非剛体3次元運動を算出するための3次元運動評価装置であって、
後続のフレーム間の密な2次元の対応点を探索し、フレーム画像間の画素単位での2次元の動きを出力する、2次元画像対応点探索部と、
正確な実世界の3次元の動きを取得するために、単一のフレームで観察された単一点の深さを用いて、画素単位での2次元の動きの誤差を最適化し、この画素単位での2次元の動きの誤差の最適化によって、対象物の3次元の実世界の動きを算出する、3次元運動最適化部と、
を備えている、ことを特徴とする。
また、上記目的を達成するため、本発明の一側面における3次元運動評価方法は、単眼画像から対象物の高密度非剛体3次元運動を算出するための3次元運動評価方法であって、
(a)後続のフレーム間の密な2次元の対応点を探索し、フレーム画像間の画素単位での2次元の動きを出力する、ステップと、
(b)正確な実世界の3次元の動きを取得するために、単一のフレームで観察された単一点の深さを用いて、画素単位での2次元の動きの誤差を最適化し、この画素単位での2次元の動きの誤差の最適化によって、対象物の3次元の実世界の動きを算出する、ステップと、
を有する、ことを特徴とする。
更に、上記目的を達成するため、本発明の一側面におけるプログラムは、コンピュータによって、単眼画像から対象物の高密度非剛体3次元運動を算出するためのプログラムであって、
前記コンピュータに、
(a)後続のフレーム間の密な2次元の対応点を探索し、フレーム画像間の画素単位での2次元の動きを出力する、ステップと、
(b)正確な実世界の3次元の動きを取得するために、単一のフレームで観察された単一点の深さを用いて、画素単位での2次元の動きの誤差を最適化し、この画素単位での2次元の動きの誤差の最適化によって、対象物の3次元の実世界の動きを算出する、ステップと、
を実行させることを特徴とする。
以上のように本発明によれば、2次元の対応点から3次元の運動を解くことができ、非剛体の3次元再構築のために、初期モデルの3次元の動きをワープすることができる。
詳細な説明と共に図面は、本発明の3次元運動評価方法の原理を説明するのに役立つ。図面は、図示のためのものであり、技術の適用を制限するものではない。
図1は、本発明の3次元運動評価装置の構成を示す概略ブロック図である。 図2は、本発明の実施の形態における3次元運動評価装置の具体的な構成を示すブロック図である。 図3は、2次元の対応点から高密度3次元運動野を算出する際の詳細なステップを示すワークフローである。 図4は、パースペクティブカメラモデルの下での2次元から3次元への運動のマッピングプロセスを示す図である。 図5は、本発明を用いた物体の推定形状と実際の物体の3次元形状との比較を示す図である。 図6は、3次元運動評価装置が実装されるコンピュータプラットフォームの一例を示すブロック図である。
(発明の概要)
[技術的な問題点]
2次元画像シーケンスからの非剛体表面の3次元再構成のプロセスは、非常に難しい問題であり、信頼できる3次元ポーズ及び構造の推定のための、カメラ及びオブジェクトの構造の様々な条件に依存する。運動のモデリングは、対象物及びカメラの構成が回復可能であるかを決定するために重要な役割を果たす。例えば、運動の問題(例えば、非特許文献4のような)に由来する多くの高密度構造において、アフィンカメラモデルは、光軸に沿った変換を回復することができない。従って、カメラが固定され、対象物が光軸に沿って移動している場合、アフィンモデルのみを使用して正確な解を得ることは不可能となる。この問題を解決するためには、本質的に深さにおいて曖昧さを持つ射影カメラモデルを想定しなければならず、この結果、故意の問題が生じ、高密度再構成のための計算上のスケールアップが困難となる。
この問題を解決しようとする既存のアプローチがあるが、これらには、以下のような欠点もある。射影非剛体構造を運動から処理する方法のほとんどは、低ランク制約を仮定し、分解法を用いて構造と形状との解法を試みる。このような方法は、疎な再構成には適しているが、オブジェクトの高密度再構成においては、構造及び姿勢の時間に伴う進展に対
してうまく調整できない。
上述したエンティティに加えて、本発明が克服することができる他の明白且つ明らかな欠点は、詳細な明細書および図面から明らかになるであろう。これらの問題を解決するための概要は、次の通りである。
[問題の解説策]
上述した技術的問題を解決するため、全体のアプローチを以下に概略的に説明する。3次元非剛体の再構成のプロセスは、増分プロセスとして扱われ、現在のフレームにおける形状は、以前のフレームの形状と現在のフレームにおける3次元の動きとの組合せで構成されている。3次元再構成プロセスのこのような処理は、上述の問題を下位の2つの問題に下げ、(i)対象物の信頼できる初期の剛体モデルを特定し、(ii)剛体モデルをアニメーション化するためにフレーム毎に3次元の動きを計算し、この結果、シーンにおける非剛体の3次元の再構成を実行する。対象物の信頼性のある初期のモデルの生成に利用可能な、多くの技術が、文献(例えば、非特許文献3)に存在している。
本発明の技術的な利点は、この方法によれば、時間的及び空間的にコヒーレントであり、且つ、画像及び動きのノイズにロバストな、パースペクティブカメラ投影モデルを仮定して、2次元の対応点から高密度な3次元の運動野を生成できる、ことである。提案された発明のフレームワークは、本質的にインクレメンタルである。即ち、3次元の運動野の解明は、フレーム毎に、以前のフレームに基づいて行われている。また、提案されたモデルは、既知の絶対深度を少なくとも1点で利用するため、カメラに対する任意の運動方向の絶対的なスケールで3次元の運動を計算することができる。
従って、本発明は、いくつかのステップと、これらのステップのうちの1つ以上の他のステップとの関係と、構成の特徴を具現化する装置と、要素の組合せと、このようなステップに影響を与えるように最適化されたパーツの配置と構成され、これら全ては、以下の詳細な開示、即ち、図面の説明及び詳細な説明において例示される。本発明の範囲は、特許請求の範囲に示される。
(実施の形態)
以下、本発明の実施の形態における、ネットワークシステム、3次元運動評価装置、3次元運動評価方法、及びプログラムについて、図1〜図5を参照しながら説明する。
以下に、本発明の実施の形態の一例を詳細に説明する。本発明の実装が、完全に詳細に述べられる。例示的な図面に沿って、ここで提供される説明は、本発明を実施する当業者に確かなガイドを提供する。
本発明は、パースペクティブカメラモデルを使用して、高密度の2次元画像の対応点から、高密度の3次元の非線形の運動を計算することに関する。本発明は、高密度の2次元対応点の計算と、これらの2次元の対応点からの3次元の運動の計算とに大別される。また、後者の計算は、時間的及び空間的に一貫する制約によって解決を制約する、透視投影モデルを用いて行われる。この3次元の運動は、以前の3次元形状と共にワープされて、現在の3次元形状を取得する。
[装置構成]
最初に、本発明の3次元運動評価装置の構成について図1を用いて説明する。図1は、本発明の3次元運動評価装置の構成を示す概略ブロック図である。
図1に示すように、3次元運動評価装置100は、上述したタスクを実行する。3次元
運動評価装置は、更に、種々のユニットに分けることができる。ここで、各ユニットの機能を、図1を用いて説明する。
図1に示すように、3次元運動評価装置100は、2次元画像対応点探索部101と、3次元運動最適化部102とを備えている。2次元画像対応点探索部101は、後続のフレーム間の密な2次元の対応点を探索し、フレーム画像間の画素単位での2次元の動きを出力する。3次元運動最適化部102は、正確な実世界の3次元の動きを取得するために、単一のフレームで観察された単一点の深さを用いて、画素単位での2次元の動きの誤差を最適化し、この画素単位での2次元の動きの誤差の最適化によって、対象物の3次元の実世界の動きを算出する。
このように、本実施の形態では、画素単位での2次元の動きの誤差が、単一点の深さを用いて最適化される。よって、2次元の対応点から3次元の運動を解くことが可能になり、非剛体の3次元再構築のために、初期モデルの3次元の運動がワープされる。
続いて、図2を用いて、本実施の形態における3次元運動評価装置100について、より詳細に説明する。図2は、本発明の実施の形態における3次元運動評価装置の具体的な構成を示すブロック図である。
図2に示すように、3次元運動評価装置100は、2次元画像対応点探索部101と、3次元運動最適化部102とに加えて、3次元運動ワーピング部103を備えている。
提案されている3次元運動評価装置100において、第1のユニットは、2次元画像対応点探索部101である。3次元運動評価のプロセスは、まず、画像フレーム間の2次元対応点を評価することによって始められる。図1から分かるように、画像シーケンス200が、2次元画像対応点探索部101に入力され、2次元画像対応点探索部101は、後続のフレーム間での画素単位で2次元運動を算出する。2次元画像対応点探索部101は、画像ペア毎に、画像強度が一致する連続フレームにおける画像パッチを比較することによって、高密度2次元対応点を算出する。画像間の2次元対応点を見つけるための方法の1つは、オプティカルフローである。オプティカルフローは、参照フレーム内の画素毎に、輝度定数仮定を使用して求められ、動きベクトルは局所最適化または大域最適化を使用して密に計算される。2次元画像対応点を見つけるもう1つの方法は、特徴追跡技術によるものである。特徴追跡技術では、ターゲットフレームにマッチする基準フレーム内の各画素の周りで特徴記述子が計算され、2次元運動ベクトルが算出される。2つの方法のうちの1つ、即ち、オプティカルフロー方法、及び特徴追跡ベース方法のうちの1つ、又は類似の方法が、2次元の動きの探索に用いられる。
次のユニットは、2次元の対応点から対応する3次元の動きを見つける、3次元最適化部102である。2次元画像探索点探索部101から得られた高密度2次元対応点は、パースペクティブカメラモデルを仮定することによって、3次元の運動の計算に用いられる。対象物における単一点での絶対深度201が利用できると、3次元運動最適化部102は、透視投影モデルを使用して、3次元の運動の現在の定値を画像平面に投影する。
単一点での絶対深度は、市販のレーザデプスセンサを用いて得ることができる。対象物上の既知のパターンを三角測量するといった、画像ベースの方法も、絶対深度を得るために使用することができる。この投影された2次元の運動は、観察された2次元の運動と比較され、最適化アルゴリズムによって、両者の間の誤差が最小化される。各ステップにおける運動の更新を解決するために、変分最適化技術が用いられる。これにより、投影された2次元の運動と観察された2次元の運動との間の誤差が最小化される。また、変分最適化で用いられるエネルギー関数は、3次元運動ソリューションにおいて、空間的及び時間
的な整合性が維持されることを保証する。これにより、異常値に対する、最終的なソリューションの堅牢性が保証される。最適化が収束すると、3次元運動最適化部102は、現在のフレームにおける最適な3次元の運動として、出力を提供する。
3次元運動ワーピング部103は、カメラと対象物との間の相対的な変換のみを想定する透視投影モデルを使用して、3次元の運動を2次元の運動に投影する。3次元運動ワーピング部103は、現フレームにおける画素単位での2次元の動きと、モデル化された絶対的な3次元から2次元への動きとの間の誤差を、カメラの固有パラメータと単一フレームにおける単一点の深さ値とを用いて、計算する。3次元運動ワーピング部103は、上述の誤差を最小化する。また、3次元運動ワーピング103は、最適な3次元運動のために、フレーム毎の空間平滑度とフレーム間の時間平滑度とを保存し、上述の誤差を最小化する3次元の実世界の運動を算出する。加えて、3次元運動ワーピング部103は、以前の非剛体3次元形状を入力として受け取り、計算された現フレームの3次元の運動を追加して、現在の非剛体3次元モデルを更新することができる。そして、3次元運動ワーピング部103は、現フレーム203における3次元形状を出力する。
次のステップでは、前のステップで得られた対象物の前の形状202と共に、3次元運動ワーピング部103によって現3次元運動がワープされ、現フレーム107における最終形状が得られる。このことは、3次元形状を2次元のメッシュとして表現することによって達成され、この場合、3次元の位置の各頂点には、幾つかのエッジの接続情報が含まれている。各フレームで最適な動きが見つかると、メッシュ内の各頂点の3次元の位置は、計算された現在の3次元運動と、前のフレームにおけるメッシュの頂点の位置とを使用して更新され、その際、頂点間のエッジの接続は変更されず、そのまま維持される。
これにより、対応する画像シーケンスから、対象物における、最終的な非剛体形状の再構成が達成される。
[装置動作]
次に、高密度の2次元の対応点からの高密度3次元運動の算出プロセスの全体と、その結果による3次元構造の検索と、について説明する。
図3を用いて、本発明の実施の形態における3次元運動評価装置100の動作について説明する。図3は、本発明の実施の形態における3次元運動評価装置の動作を示すフロー図である。以下の説明においては、図1及び図2が適宜参照される。本実施の形態において、3次元運動評価方法は、3次元運動評価装置100を動作させることによって実行される。従って、以下の3次元運動評価装置100の動作の説明は、本実施の形態における3次元運動評価方法の説明に代える。
システムの2次元画像対応点探索部101は、前の画像フレームと現在の画像フレームとを入力として取得する(ステップ301)。次に、2次元画像対応点探索部101は、これらの画像から、2次元密度対応点を算出する(ステップ302)。
次に、2次元画像対応探索部101は、現在の入力である2次元運動フレームが、シークエンスにおける最初のフレームであるかどうかを判定する(ステップ303)。最初のフレームである場合は、2次元画像対応点探索部101は、対象物が、ブロック単位で剛体であると仮定して、3次元運動のための初期値を算出し、そして、ブロック毎の動きを計算する(ステップ304)。
最初のフレームでない場合は、2次元画像対応点探索部101は、前回の3次元運動野を用いて等速度モデルを仮定して、現フレームにおける3次元運動のための初期値を算出する(ステップ305)。
次に、反復プロセスがスタートする。2次元画像対応点探索部101は、既知の絶対深度を用いて、画像平面上に3次元の運動を投影する(ステップ306)。次に、2次元画像対応点探索部101は、投影された2次元の運動と観察された2次元の運動との間の誤差を計算する(ステップ307)。
次に、3次元運動最適化部102は、誤差が特定の閾値未満かどうかを判定する(ステップ308)。誤差が特定の閾値未満でない場合は、3次元運動最適化部102は、最適化ステップを実行し、これにより、投影された動きと観察された動きとの間の2次元の運動の誤差が小さくなるように、3次元の運動が更新される(ステップ309)。
誤差が特定の閾値未満である場合は、3次元運動ワーピング部103は、3次元運動最適化部102から得られた最適な3次元運動と共に、前のフレーム310における対象物の形状をワープする。その結果、アルゴリズムの最終的な出力は、現フレームにおける3次元の形状となる(ステップ311)。
ここで、図4を用いて、本発明の数学的詳細について説明する。パースペクティブカメラのモーションマッピングについては、図4を参照して説明する。
図4においては、非剛体の対象物は、タイムフレームt(401)と、タイムフレームt+1(402)とに示されている。図4に示すように、対象物の形状は変形している。特定点Xt(403)は、点間の3次元運動であるT=(Tx,Ty,Tz)T (408)と共に、点Xt+1(404)に移動する。これらの点は、画像平面405上において、点mt(406)と点mt+1(407)とに配置される。3次元運動は、画像平面上では、2次元運動、ot = mt+1 - mt、として登録される。本発明の目的は、図4に示すように、それに示された透視投影モデルを用いて、対応する2次元の運動(ot)から、3次元の運動(T)を探索することにある。カメラは空間内に固定されていると想定される。また、フレーム間の3次元運動は、並進運動によってのみ正確にモデル化できるということも想定される。
上述の議論から、2つの成分をot=(mxt,myt)Tとし、画像における2次元の運動をot=mt+1-mtとして表すと、3次元運動T=(Tx,Ty,Tz)Tと任意の所与の画素における2次元の運動(mxt,myt)Tとは、数1として与えられる。
ここで、u、vはゼロ中心の画像座標系であり、fは焦点距離であり、Zはカメラ光学中心からの絶対距離である。ある点における絶対深度は、市販のレーザ深度センサを用いて得ることができる。対象物上の既知のパターンを三角測量するといった画像ベースの方法も、絶対深度を得るために使用することができる。本発明は、画素毎に、2次元運動から、3次元運動Tの算出を試みる。
カメラが固定され、物体が自由空間内で非線形の並進運動をしていると仮定して、密な2d動き対応からの後続のフレーム間の密な3d動作を見つけることを目指す。画像シーケンスが集合{It,t=1,2,...N}によって与えられていると想定すると、Nはシーケンス内の画像の枚数である。画像Itと画像It-1との間で、2次元運動野はmtで表される。画像Itと画像
It-1との間の3次元運動野をMtとし、現フレームMtにおける3次元運動の計算中に、以前の各フレームの3次元運動、Mt-1がバッファに格納されていると想定する。次に、現フレームにおける3次元運動を計算するため、数2がエネルギー関数としてフレーム化される。数2により、最適な3次元運動Mt*の値が最小化される。
上記の数2は、縮小すべきグローバルエネルギー関数を与える。データ項Edは、観察された2次元運動と3次元運動の推定値とに依存する。データ項は、観察された2次元を用いて、画像平面上に投影された2次元運動の誤差を測定し、誤差が大きい場合には解に不利益を与える。データ項は、一般に、数3によって与えられる。
Ψ(.)は、従来のL2ノルムよりも重大ではない異常値の誤差にペナルティを課すロバストな重み関数である。注目画素毎の誤差の総和が、画像全体にわたって得られる。
エネルギー関数の第2項は、解の空間的及び時間的な滑らかさを維持する役割を担う平滑項である。空間的な滑らかさとは、最終的な3次元運動ソリューションが、画像のXY軸に沿って滑らかであり、急な不連続性を伴っていないことを指している。つまり、隣接する画素の3次元運動の間には強い相関があるはずである。これは、画像座標におけるX-Y軸における3次元の運動の空間勾配として表される。時間的コヒーレンスとは、与えられた画像毎に、速度は時間とともに急激に変化すべきではく、画素の3次元速度における時間的変化は滑らかであるべき、という事実を指している。このことは、時間軸に沿った勾配としてエネルギー項に現れる。従って、平滑項Es は、数4のように与えられる。
ここで、∇=(δ/δx, δ/δy, δ/δt)は、画像のX,Y軸に沿った3次元運動ベクトルを示している。重み関数φ(.)は、Ψ(.)に類似したロバストなカーネルである。画素毎の滑らかさの総和が、画像全体に渡って得られている。前フレームでの3次元運動は、時間の動きの勾配を計算するために必要であり、現フレームの3次元運動の計算の間にバッファに格納する必要がある。
上述の式から適切な3次元運動を得るため、全体的な最適化解を探索する様々な技術が採用される。エネルギー関数は、全ての項の誤差の合計であるため、得られた解は、異常
値と誤差とにロバストな、全体的な最適解である。最適化が全体的に収束することを保証する凸関数として、重み関数φ(.)及びΨ(.)が選択される。最適化は、3次元運動の初期化に依存し、全体的な最適化に近い初期化は、より速い収束をもたらすことができる。運動フレームがシーケンス内の最初のフレームである場合、運動に関する過去の情報はありません。この場合、運動がブロック単位の剛体であり、3次元運動が各ブロックであると仮定されて、初期化が行われ、計算される。他のフレームについては、連続するフレーム間の動きが非常にゆっくりと時間と共に変化すると仮定する、等速モデルを考える。この仮定により、3次元運動は、前のフレームにおける3次元運動として初期化される。
処理対象となっている対象物の3次元構造を表現するために、時間的に発展するグラフGt=(Vt,E)として表される2次元メッシュ構造が使用される。ここで、Vtは、時間的に発展する全頂点の集合であり、Eは、頂点がどのように接続されているかの情報を含む、変化しないエッジの集合である。頂点集合における各頂点は、各点の3次元の位置を含む。頂点だけでポイントクラウドデータが得られ、エッジ情報により3次元の面の構築が可能となる。変分最適化ステップからの3次元運動の出力は、以前の形状にワープされ、そして、対象物の現3次元形状を生成する。このことは、グラフのエッジ接続性を変更することなく、頂点の3次元の位置をVt+1=Vt + mtとして更新することによって達成される。このように、時間に伴って進展するメッシュが得られる。メッシュは、時間と共に発展する対象物の3次元構造を表現するために使用される。最初のフレームでは、対象物の形状の推定が必要となる。この目的のために使用できる文献には多くの方法が記載されている。対象物の初期形状を推定するために、最初の数フレームを使用して、運動から剛体構造を作成することが可能である。シェーディングからシェイプのような測光的アプローチを使用して、初期の対象物の形状を得ることもできる。
本発明の有効性を検証するために、実験が行われた。x軸に沿った正弦運動下での表面曲げの画像シーケンスがシミュレートされた。本発明は、上述の単眼画像シーケンスを使用して、運動下での表面の時間に伴う進展を推定するために使用された。実験結果は図5に示す通りである。図5には、対象物の推定された3次元運動602と対象物の実際の3次元運動601とが示されている。このプロットは、画像シーケンス内のすべてのフレームの中の特定のフレームを示す。この比較から分かるように、本発明は、地面の実データとよく一致する3次元形状の再構成を実行する。このように、提案された方式が検証される。
図5は、本発明の方法論の実施形態が実装される、コンピュータ及びネットワークシステムの実施の形態を示すブロック図を示している。システムは、入力装置及びネットワーク接続を伴うコンピュータ示している。コンピュータプラットフォーム502は、データ及び命令を格納するためのEEPROM(Electrically Erasable and Programmable Read Only
Memory)及びRAM(Random Access Memory)と、情報の処理及び命令の実行を行うためのCPU(Central Processing Unit)及びデータバスと、ローカルネットワーク又はインターネット504を用いて、ホスト又はクライアントシステムに接続するためのネットワークカードとを備えている。また、コンピュータプラットフォームは、ベーシック・入出力装置501に接続されていても良い。また、コンピュータプラットフォームは、例えば、キーボード、マウス、ディスプレイ、及び外部記憶装置を含んでいても良い。
最後の点として、本明細書で説明及び図示された、プロセス、技術、及び方法論は、特定の装置に限定されず、又は関連しておらず、このことは明白である。本発明の実装は、コンポーネントの組み合わせによって可能である。また、本明細書の指示に従って、様々な種類の汎用装置を使用することができる。更に、本発明は、特定のセットの例を用いて記載されている。しかし、これらは単なる例示であり、限定的なものではない。例えば、説明されたソフトウェアは、C ++、Java(登録商標)、Python、Perlなどの多種多様な言
語で実装されてもよい。更には、本発明の技術の他の実装形態は、当業者には明らかになるであろう。
100 3次元運動評価装置
101 2次元対応点探索部
102 3次元運動最適化部
103 3次元運動ワーピング部
200 画像シーケンス
201 単一点深度
202 前の形状
203 現フレームでの3次元形状
401 タイムフレームt
402 タイムフレームt+1
403 特定点Xt
404 点Xt+1
405 画像面
406 点mt
407 点mt+1
408 T=(Tx,Ty,Tz)T
501 対象物の実際の3次元形状
502 対象物の推定された3次元形状
601 ベーシック入出力装置
602 コンピュータプラットフォーム
603 クライアントシステム
604 ローカルネットワーク又はインターネット
605 ホストシステム

Claims (9)

  1. 単眼画像から対象物の高密度非剛体3次元運動を算出するための3次元運動評価装置であって、
    後続のフレーム間の密な2次元の対応点を探索し、フレーム画像間の画素単位での2次元の動きを出力する、2次元画像対応点探索部と、
    正確な実世界の3次元の動きを取得するために、単一のフレームにおいて測定機器によって物理的に測定された単一点の深さを用いて、画素単位での2次元の動きの誤差を最適化し、この画素単位での2次元の動きの誤差の最適化によって、対象物の3次元の実世界の動きを算出する、3次元運動最適化部と、
    を備えている、ことを特徴とする、3次元運動評価装置。
  2. 前記3次元運動最適化部は、
    カメラと前記対象物との間の相対的な変換のみを想定する透視投影モデルを用いて、3次元の運動を2次元に投影し、
    現フレームにおける画素単位での2次元の動きと、モデル化された絶対的な3次元から2次元への動きと、の間の誤差を、前記カメラの固有パラメータと単一フレームにおける単一点の深さ値とを用いて、計算し、
    前記誤差を最小化し、最適な3次元運動のために、フレーム毎の空間平滑度とフレーム間の時間平滑度とを保存し、前記誤差を最小化する3次元の実世界の運動を算出する、
    請求項1に記載の3次元運動評価装置。
  3. 入力として、以前の非剛体3次元形状を受け取り、計算された現フレームの3次元運動を追加して、現在の非剛体3次元モデルを更新する、3次元運動ワーピング部を更に備えている、
    請求項1または2に記載の3次元運動評価装置。
  4. 単眼画像から対象物の高密度非剛体3次元運動を算出するための3次元運動評価方法であって、
    (a)後続のフレーム間の密な2次元の対応点を探索し、フレーム画像間の画素単位での2次元の動きを出力する、ステップと、
    (b)正確な実世界の3次元の動きを取得するために、単一のフレームにおいて測定機器によって物理的に測定された単一点の深さを用いて、画素単位での2次元の動きの誤差を最適化し、この画素単位での2次元の動きの誤差の最適化によって、対象物の3次元の実世界の動きを算出する、ステップと、
    を有する、ことを特徴とする3次元運動評価方法。
  5. 前記ステップ(b)において、
    カメラと前記対象物との間の相対的な変換のみを想定する透視投影モデルを用いて、3次元の運動を2次元に投影し、
    現フレームにおける画素単位での2次元の動きと、モデル化された絶対的な3次元から2次元への動きと、の間の誤差を、前記カメラの固有パラメータと単一フレームにおける単一点の深さ値とを用いて、計算し、
    前記誤差を最小化し、最適な3次元運動のために、フレーム毎の空間平滑度とフレーム間の時間平滑度とを保存し、前記誤差を最小化する3次元の実世界の運動を算出する、
    請求項4に記載の3次元運動評価方法。
  6. (c)入力として、以前の非剛体3次元形状を受け取り、計算された現フレームの3次元運動を追加して、現在の非剛体3次元モデルを更新する、ステップを、
    更に有する、
    請求項4または5に記載の3次元運動評価方法
  7. コンピュータによって、単眼画像から対象物の高密度非剛体3次元運動を算出するためのプログラムであって、
    前記コンピュータに、
    (a)後続のフレーム間の密な2次元の対応点を探索し、フレーム画像間の画素単位での2次元の動きを出力する、ステップと、
    (b)正確な実世界の3次元の動きを取得するために、単一のフレームにおいて測定機器によって物理的に測定された単一点の深さを用いて、画素単位での2次元の動きの誤差を最適化し、この画素単位での2次元の動きの誤差の最適化によって、対象物の3次元の実世界の動きを算出する、ステップと、
    を実行させることを特徴とするプログラム。
  8. 前記ステップ(b)において、
    カメラと前記対象物との間の相対的な変換のみを想定する透視投影モデルを用いて、3次元の運動を2次元に投影し、
    現フレームにおける画素単位での2次元の動きと、モデル化された絶対的な3次元から2次元への動きと、の間の誤差を、前記カメラの固有パラメータと単一フレームにおける単一点の深さ値とを用いて、計算し、
    前記誤差を最小化し、最適な3次元運動のために、フレーム毎の空間平滑度とフレーム間の時間平滑度とを保存し、前記誤差を最小化する3次元の実世界の運動を算出する、
    請求項に記載のプログラム。
  9. 前記コンピュータに、
    (c)入力として、以前の非剛体3次元形状を受け取り、計算された現フレームの3次元運動を追加して、現在の非剛体3次元モデルを更新する、ステップを更に実行させる、
    請求項7または8に記載のプログラム。
JP2018548017A 2016-03-11 2016-03-11 3次元運動評価装置、3次元運動評価方法、及びプログラム Active JP6806160B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/001406 WO2017154045A1 (en) 2016-03-11 2016-03-11 3d motion estimation device, 3d motion estimation method, and program

Publications (2)

Publication Number Publication Date
JP2019507934A JP2019507934A (ja) 2019-03-22
JP6806160B2 true JP6806160B2 (ja) 2021-01-06

Family

ID=59789048

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018548017A Active JP6806160B2 (ja) 2016-03-11 2016-03-11 3次元運動評価装置、3次元運動評価方法、及びプログラム

Country Status (2)

Country Link
JP (1) JP6806160B2 (ja)
WO (1) WO2017154045A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11501507B2 (en) 2018-06-26 2022-11-15 Sony Group Corporation Motion compensation of geometry information
CN110232705B (zh) * 2019-05-17 2023-05-12 沈阳大学 一种融合分数阶变分调整的反向低秩稀疏学习目标跟踪方法
US11321859B2 (en) 2020-06-22 2022-05-03 Toyota Research Institute, Inc. Pixel-wise residual pose estimation for monocular depth estimation

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3349632B2 (ja) * 1996-06-04 2002-11-25 富士通株式会社 3次元計測方法及び装置

Also Published As

Publication number Publication date
WO2017154045A1 (en) 2017-09-14
JP2019507934A (ja) 2019-03-22

Similar Documents

Publication Publication Date Title
US11379688B2 (en) Systems and methods for keypoint detection with convolutional neural networks
US10217234B2 (en) Modeling method and apparatus using three-dimensional (3D) point cloud
US10553026B2 (en) Dense visual SLAM with probabilistic surfel map
CN110998659B (zh) 图像处理系统、图像处理方法、及程序
Wu et al. Real-time shading-based refinement for consumer depth cameras
US9830715B2 (en) Method for determining a parameter set designed for determining the pose of a camera and/or for determining a three-dimensional structure of the at least one real object
US7623731B2 (en) Direct method for modeling non-rigid motion with thin plate spline transformation
US9619704B2 (en) Fast articulated motion tracking
JP5099965B2 (ja) Helmholtz相互画像ペアを用いた表面再構成及びレジストレーション
US20170330375A1 (en) Data Processing Method and Apparatus
US8824801B2 (en) Video processing
EP3326156B1 (en) Consistent tessellation via topology-aware surface tracking
US20140168204A1 (en) Model based video projection
JP6806160B2 (ja) 3次元運動評価装置、3次元運動評価方法、及びプログラム
Xu et al. Optical flow-based video completion in spherical image sequences
Afzal et al. Full 3D reconstruction of non-rigidly deforming objects
Figueroa et al. A combined approach toward consistent reconstructions of indoor spaces based on 6D RGB-D odometry and KinectFusion
Rouhani et al. Non-rigid registration meets surface reconstruction
Souza et al. Multi-frame adaptive non-rigid registration for markerless augmented reality
Tumurbaatar et al. Development of real-time object motion estimation from single camera
Zinßer et al. High-speed feature point tracking
WO2022087932A1 (en) Non-rigid 3d object modeling using scene flow estimation
Qian Efficient poisson-based surface reconstruction of 3D model from a non-homogenous sparse point cloud
Wöhler et al. Three-dimensional pose estimation and segmentation methods
Wuest et al. Acquisition of high quality planar patch features

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200618

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201117

R150 Certificate of patent or registration of utility model

Ref document number: 6806160

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150