JP2012532382A - 3次元モデルを使用した物体認識 - Google Patents

3次元モデルを使用した物体認識 Download PDF

Info

Publication number
JP2012532382A
JP2012532382A JP2012518603A JP2012518603A JP2012532382A JP 2012532382 A JP2012532382 A JP 2012532382A JP 2012518603 A JP2012518603 A JP 2012518603A JP 2012518603 A JP2012518603 A JP 2012518603A JP 2012532382 A JP2012532382 A JP 2012532382A
Authority
JP
Japan
Prior art keywords
classifier
images
training set
image
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012518603A
Other languages
English (en)
Other versions
JP5352738B2 (ja
JP2012532382A5 (ja
Inventor
ハイゼレ,ベルント
ガンヒ キム,
アンドリュー, ジェイ メイアー,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2012532382A publication Critical patent/JP2012532382A/ja
Publication of JP2012532382A5 publication Critical patent/JP2012532382A5/ja
Application granted granted Critical
Publication of JP5352738B2 publication Critical patent/JP5352738B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

能動学習方法により、小型分類器をトレーニングする。より具体的には、反復トレーニングプロセスの中で、合成トレーニング画像の生成が制御される。重要で有益な物体の画像が低次元レンダリング空間において発見され、その画像が反復的にトレーニングセットに追加される。(画像数の)少ないトレーニングセットが、レンダリングパラメータの低次元空間における分類器の出力のローカルミニマを探すことにより、反復的に生成される。初期トレーニングセットを使用して、分類器はトレーニングされる。低次元のレンダリング空間における分類器の出力のローカルミニマが発見される。画像はそれらのローカルミニマにおいてレンダリングされる。新しくレンダリングされた画像が、トレーニングセットに追加される。修正されたトレーニングセットを使用して分類器が再度トレーニングされるように、この処理が繰り返される。
【選択図】なし

Description

関連出願
本願は、「3Dモデルを使用した物体認識」という発明の名称の米国特許仮出願番号61/222,245(出願日2009年7月1日)の優先権を主張するものであり、その記載の全てを本明細書に引用する。
本発明は、物体認識を含むマシンビジョンに関するものであり、より詳しくは、ビュー・ベースの物体認識を実行できるように分類器をトレーニングする技術に関するものである。
ここ数年、物体認識の分野では、各クラスごと数個の例から、何百もの物体のクラスを認識するように学習するシステムを構築するという課題に取り組んでいる。これらのシステムを評価するために使われる標準的なデータのセットは(物体検出における初期の取り組みで使われた、細かく分類された何千もの物体の画像のセットに対して)、平均で各クラスごとに二百個未満の画像を有するだけである。そのような数の少ないデータのセットに基づいて評価を行うことは、本質的に問題がある。そのテストの結果は、一般化できないし、誤った解釈を招く可能性もあるからである。
手入力で注釈付けられた自然画像を記憶した、データ量の多いデータベースを作る取組もされてきた。しかしながら、画像が幾分恣意的に選択されることと、グランドトルースがないことから、姿勢、スケール、位置、照明に対する不変性などの、物体認識システムの特定の性質を体系的に分析するのが困難であった。これらの問題を解決した、形状を基にした物体認識用のデータベースが、ニューヨーク大学クーラント研究所で開発されたNORBである。(NORBにおいては)、物体の画像は、視点と照明を考慮して撮像される。物体の回転、背景、「ディストラクタ」などを変更した、画像のバリエーションを増やすために、その画像は合成的に修正される。
画像生成制御の考え方をもう一歩進めると、現実的な三次元(3D)コンピュータグラフィックモデルからレンダリングされた完全合成画像に至る。いくつかのビュー・ベースの物体認識システムは、合成画像によってトレーニングされ、評価されてきた。少なくとも1つの顔認識システムと1つの物体認識システムは、3Dモデルの画像でトレーニングされ、実際の画像でテストされてきた。3Dモデルはまた、物体認識への生成的アプローチにおいても使用されてきた。その生成的アプローチにおいては、合成画像が所与の写真画像に最も合うように、レンダリングパラメータの値が最適化される。(しかし)、この合成解析のアプローチにおいては、ローカルミニマに陥ることを避けるために、レンダリングパラメータの値の初期の推定値の精度が高くなくてはならないため、多くの物体認識、検出タスクにとって不適当である。
(本発明の)ビュー・ベースの物体認識システムは、物体の外見のモデルを使用して、所与の画像にその物体があるかどうかを判定する。ビュー・ベースの物体認識システムは、トレーニングデータのセットを使用してシステムをトレーニングするとき、そのモデルを生成(学習)する。トレーニングデータのセットは、肯定例の画像(つまり、ターゲットとなる物体が存在している画像例)と否定例の画像(つまり、ターゲットとなる物体が存在していない画像例)を含んでいる。それぞれのトレーニング画像は、その画像が肯定例の画像か否定例の画像かについて、正しくラベル付けされている。
他のあらゆる画像と同じように、トレーニング画像は、自然画像か合成画像のどちらかである。自然画像は現実世界の物体の外見を忠実に表わすものであり、例えば、カメラや他の画像センサを使用してその物体の写真を撮ることにより生成される。合成画像は、自然画像以外のあらゆる画像である。例えば、合成画像は、コンピュータ支援設計(CAD)モデルをレンダリングすることにより生成される。合成画像を使用して、ビュー・ベースの物体認識システムをトレーニングすることは(自然画像を使用してトレーニングすることに対して)、いくつかの利点がある。
本明細書では、反復トレーニングプロセスの中で、合成トレーニング画像の生成が制御される、「能動学習」という方法を提示する(「能動学習」という用語は、本明細書では、自身のトレーニングデータを能動的に生成する学習方法という意味で使用されている)。能動学習の第一義的な考え方は、低次元レンダリング空間において、重要で有益な物体の画像を見つけ、その物体の画像をトレーニングセットに反復的に加えることである。それぞれの反復処理においては、(所与の画像のデータベースからある特定のサンプル画像を加えることにより)分類器を「ブートストラップ」する代わりに、新しい画像が生成される。(画像数の)少ないトレーニングセットが、レンダリングパラメータの低次元空間における、分類器の出力のローカルミニマを探すことにより、反復的に生成される。
一実施形態においては、能動学習方法は、ビュー・ベースの物体認識のための小型 分類器をトレーニングする。初期トレーニングセットが生成され、そのトレーニングセットを使用して、分類器をトレーニングする。低次元レンダリング空間における分類器の出力のローカルミニマが発見され、画像はそのローカルミニマでレンダリングされる。新しくレンダリングされた画像は、トレーニングセットに付け加えられる。修正されたトレーニングセットを使用して、分類器が再度トレーニングされるように、この処理が繰り返される。
本明細書で記載された特徴及び利点は、包括的なものではない。特に、当業者は、図面、明細書、請求の範囲を参照することにより、多くの付加的な特徴と利点を理解するだろう。
図1は、本発明の一実施形態による、ビュー・ベースの物体認識のための小型分類器をトレーニングする能動学習方法のフローチャートを示す図である。 図2は、本発明の一実施形態による5つのコンピュータグラフィックのモデルを示す図である。 図3は、図2に示された本発明の一実施形態による5つのモデルのプリントアウトの写真を示す図である。 図4は、図1に示した本発明の一実施形態による能動学習方法を実行するためのシステムのブロック図である。 図5は、本発明の一実施形態による、スケーリングとスムージングが行われた後のレンダリングされた画像の例を示す図である。 図6は、本発明の一実施形態による、初期に選択された画像と近傍のローカルミニマにおける画像を示す図である。
図面は、説明を目的として、本発明の様々な実施形態を示している。当業者は、以降の説明から、本明細書に記載された本発明の精神から逸脱することなく、本明細書に記載された構造及び方法に代わる実施形態を用いることができることを容易に理解するであろう。
以下に、添付の図面を参照して様々な実施形態を説明する。図面中、同じ参照番号を付したものはまったく同一もしくは機能的に類似した構成要素を表している。また、各参照番号の最左端の数字は、その参照番号が初めて使われた図面に対応している。
明細書中の「一実施形態」もしくは「実施形態」という言葉は、実施形態と関連して説明されるある特定の機能、構造、特徴が本発明の実施形態の少なくとも一つに含まれる、という意味であり、常に同一の実施形態を表すものではない。
以下の詳細な説明には、コンピュータ・メモリ内のデータビット操作のアルゴリズム及び記号表現によって表された部分がある。このようなアルゴリズム記述及び表現は、データ処理技術分野において、当業者が研究内容を他の当業者に最も効率的に伝えるために用いる手段である。あるアルゴリズムがあり、それが概して期待した結果に至る筋の通ったステップの系列だと理解されるとする。それらのステップは、物理量の物理的処理を要するステップである。必ずという訳ではないが、これらの物理量は記憶、転送、結合、比較、その他処理が可能な電気的または磁気的信号の形をとるのが普通である。これらの信号をビット、値、要素、記号、文字、術語、番号などで表わすのが、主に慣用上の理由から便利な場合があることが分かっている。さらに、一般性を損なうわけではないが、物理量もしくは物理量を表したものの、物理的処理や変換を要するステップのある特定の配列を、モジュールもしくはコードデバイスなどと表すのが便利な場合があることが分かっている。
しかしながら、このような術語や同様の用語はすべて適切な物理量に関連付けられるべきであり、また、それら物理量に付けた便宜上のラベルに過ぎないということに留意すべきである。以下の説明より明らかなように、特に断わらない限り、”処理”、”演算”、”計算”、”判定”、”表示”などの術語によって論じられることは、コンピュータシステムのレジスタ及びメモリの内部の物理的(電子的)な量として表現されたデータを処理して、コンピュータシステムのメモリやレジスタ、その他同様の情報記憶装置、情報伝送装置又は表示装置の内部の同様に物理量として表現された他のデータへ変換する、コンピュータシステムや(特定の計算機などの)同様の電子的演算装置の作用及びプロセスを意味する。
本発明のある側面は、アルゴリズムの形で記述されたプロセス・ステップ及び命令を含んでいる。本発明におけるそれらのプロセス・ステップ及び命令は、ソフトウェア、ファームウェア、もしくはハードウェアのいずれでも実現することが可能であり、ソフトウェアによって実現する場合、ダウンロードして様々なオペレーティングシステム上の各種プラットフォームに駐在させて動作させることも出来る。本発明は、コンピュータシステムで実行可能なコンピュータプログラム内にあってもよい。
本発明は、本明細書に述べた処理を実行するための装置にも関係するものである。このような装置は、所要目的(たとえば、特定のコンピュータ)のために専用に作られてもよいし、汎用コンピュータを内蔵のコンピュータ・プログラムによって選択駆動もしくは再構成したものでもよい。そのようなコンピュータ・プログラムは、コンピュータが読み取り可能な記憶媒体、限定するわけではないが例えば、フロッピー(登録商標)ディスク、光ディスク、CD−ROM、光磁気ディスクなどの任意の種類のディスク、リードオンリーメモリ(ROM)やランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気カード又は光カードなど、コンピュータのシステムバスに接続された電子的命令の記憶に適した任意種類の媒体に格納することができる。メモリは、情報、データまたはプログラムを記憶可能な、上述した機器もしくはその他の機器でありうる。さらに、明細書中でコンピュータと呼ばれるものは、1つのプロセッサのみを含むものでもよいし、演算能力の向上のために設計されたマルチプロセッサ構成を実装したものでもよい。
本明細書で提示したアルゴリズム及び表示は、本質的に、いかなる特定のコンピュータ、その他の装置とも関わりがない。様々な汎用マシンを、本明細書に述べる内容に従ったプログラムで使用し得るが、所要の手順のステップの実行のために、より特化した装置を作るほうが好都合であるかもしれない。そのような多様なシステムに必要とされる構造は以下の説明から明らかになろう。さらに、どのような特定のプログラミング言語とも関連付けることなく本発明を説明する。本明細書に述べる本発明の内容を実現するために様々なプログラミング言語を使用し得ることを理解されよう。本明細書における、特定のプログラミング言語に関する言及は、本発明の実施可能性及び最良の実施形態を開示するためである。
さらに、本明細書における用語は原則的に可読性及び説明の便宜上選択されたものであり、発明の主題を特定、制限するために選択されたものではない。したがって、本発明の開示は説明のためのものであり、請求の範囲に記載された発明の範囲を制限するものではない。
本明細書では、本発明の特定の実施形態と適用例を説明するが、本発明は、明細書に記載される構成や構成要素と正確に一致するものに限定されるわけではなく、添付の請求の範囲に定義される、本発明の精神と範囲から逸脱することなく、本発明の方法及び装置の配置、動作および詳細部について様々な修正や変更を行うことができることを理解されたい。
ビュー・ベースの物体認識システムは、所与の画像の中に物体があるかどうかを判定するために、物体の外観のモデルを使用する。そのモデルは、画像中のその物体の、様々な条件下(例えば、様々な姿勢や照明)における外観を表すものである。ビュー・ベースの物体認識システムは、トレーニングデータセットを使用してトレーニングされるときに、そのモデルを生成(学習)する。そのトレーニングデータのセットは、肯定例である画像(つまり、対象物体がある)と否定例である(つまり、対象物体がない)画像とを含んでいる。それぞれのトレーニング画像は、自身が肯定例か否定例かということについて、正しくラベル付けされている。
他の画像と同様に、トレーニング画像は、自然画像であってもよいし合成画像であってもよい。自然画像は、現実世界の物体の外観を忠実に表現したものであり、例えば、カメラや画像センサを使用して物体の写真をとることにより生成されるものである。合成画像は、自然画像以外のあらゆる画像である。合成画像の一つのタイプは、自然画像に基づいて生成される。例えば、何らかの方法で自然画像を歪めたり、変形させたりして、合成画像を生成することが出来る。他のタイプの合成画像は、自然画像とは無関係に生成されるものである。例えば、コンピュータ支援設計(CAD)モデルをレンダリングして、合成画像を生成することができる。これらの2つのタイプの合成画像を区別するために、第1のタイプの合成画像は、(自然画像に基づいて生成されているため)、部分合成画像と称し、第2のタイプの合成画像は(自然画像とは無関係に生成されているため)、完全合成画像と称する.
合成画像を使用してビュー・ベースの物体認識システムをトレーニングすることは(自然画像を使用することに比べて)、いくつかの利点がある。まず始めに、多数のトレーニング画像を自動で生成することが可能であるということである。次に、内部または外部カメラのパラメータ、照明、景色の構成、景色の変化などを含む、画像生成パラメータを完全に制御できるということが挙げられる。最後に、それぞれの物体の位置、スケール、方向に関して、グラウンドトルースが既知であるということである。映像のシーケンスにおいては、フレームレート、カメラの動き、物体の動きが既知である。
ビュー・ベースの物体認識の課題を解決するために、統計的分類器などの、教師付き機械学習方法が使用されてきた。完全合成トレーニング画像(例えば、三次元(3D)モデルに基づいて生成された画像)を使用して、ビュー・ベースの分類器をトレーニングする場合を考えてみる。そのトレーニングは、2つの課題に遭遇する可能性がある。まず第一に、トレーニングセットが大きくなってしまい、それにより、学習アルゴリズムが中断されてしまう可能性があることが挙げられる。第二に、解が少なくないため、ランタイムに分類器が遅くなるということが挙げられる。現代の機械学習アルゴリズムの最も大きなグループの一つは、カーネルベースの機械学習アルゴリズムのグループであり、カーネルベースの機械学習アルゴリズムは、サポートベクターマシーンなどを含んでいる。N×Nのサイズの二次行列(Nは、カーネルベースの機械学習アルゴリズムを「中断」する可能性のあるサンプルの数である)を算出することが出来る(O. Chapelle著、「Training a Support Vector Machine in the Primal」、Neural Computation、第19巻5号、1155-1178ページ、2007三月発行参照)。カーネルアルゴリズムにおける計算時間は、サンプルの数の多項式であるため、多大な数のサンプルは、トレーニングを遅くしてしまう。ランタイムにおける計算時間は、サポートベクターマシーン(及び他のカーネルベースのアルゴリズム)によってもまた影響を受ける。分類結果を算出する際に使用するトレーニングデータポイントの数は、トレーニングセットの数に対して線形的に増加する。基本的に、分類時におけるランタイムの計算時間は、トレーニングサンプルのサイズに対して線形的である。必要とされているのは、わずかなデータのセットから、小型分類器をトレーニング(例えば、構築または算出)することが可能な技術である。
ここで、「能動学習」方法について説明する。「能動学習」においては、反復的なトレーニングプロセスにおいて、合成トレーニング画像の生成が制御される(機械学習の分野において、「能動学習」という言葉は隠されたラベルのついたデータからの学習という意味で使用されることに注意されたい。本明細書では、「能動学習」という用語は、それとは違う意味で使われており、自身のトレーニングデータを自発的に生成する学習方法という意味で使われている)。能動学習の第一義的な考え方は、低次元レンダリング空間における重要で有益な物体の画像を発見し、それらの物体の画像を反復的にトレーニングセットに加えることである。それぞれの反復処理においては(所与の画像のデータベースから、特定のサンプル画像を加えることによって)、分類器を「ブートストラップ」する代わりに、新しい画像が生成される。(画像の数が)少ないトレーニングセットは、レンダリングパラメータの低次元空間における分類器の出力のローカルミニマを探すことにより反復的に生成される。
図1は、本発明の一実施形態による、ビュー・ベースの物体認識のための小型分類器をトレーニングする能動学習方法のフローチャートを示している。ステップ110では、初期トレーニングセットが生成される。ステップ120では、トレーニングセットを使用して、分類器がトレーニングされる。ステップ130では、低次元レンダリング空間における、分類器の出力のローカルミニマが発見される。ステップ140では、画像がローカルミニマでレンダリングされる。ステップ150では、新しくレンダリングされた画像が、そのトレーニングセットに加えられる。ステップ160では、修正されたトレーニングセットを使用して分類器を再度トレーニングするように、ステップ120から上記の処理が繰り返される。
分類タスクと図1に示した能動学習方法を実行するためのシステムの一例を使用して、ステップ110から160について以下に詳述する。この例においては、物体認識は5つのクラスの物体に対して実行される。それぞれの物体は、30,000の表面三角形を有する質感のない3Dモデルによって表されている。図2は、本発明の一実施形態による5つのコンピュータグラフィックモデルを示している。図2において、この例示されたモデルは、(左から右へ)女神アフロディーテの胸部、横たわっている熊、立位の象、立位の馬、靴のソールを表している。この5つのモデルは、自然画像で物体認識システムをテストすることができるように、それぞれ3Dプリンタでプリントアウトされる。図3は、本発明の一実施形態による、5つのプリントアウトされたモデルの写真を示している。
この例において、(合成画像、自然画像ともに)画像を生成するために、(仮想であろうが、実際であろうが)カメラの視点をそのモデルの中心に向かわせながら、カメラの視点をそのモデルの周りの球面上で移動させる。そのモデルは、(そのモデルの球面上に位置させることができる)点光源と周辺光によって照らされる。この画像生成の設定により、低次元のレンダリング空間(具体的には、六次元レンダリング空間)が生成される。6つのレンダリングパラメータは、1)方位角における視点の位置、2)高度における視点の高さ位置、3)光学軸回りの視点の回転、4)方位角における点光源の位置、5)高度における点光源の高さ位置、6)周辺光と点光源の光強度の比である。
図4は、図1に示す能動学習方法を実行するための、本発明の一実施形態によるシステムのブロック図である。システム400は、ビュー・ベースの物体認識のための小型分類器をトレーニングすることが出来る。図示されたシステム400は、能動学習モジュール405、レンダラー410、分類器トレーナー415、分類器テスター420、記憶部425及びオペレーティングシステムツール430を備える。
一実施形態においては、能動学習モジュール405 (およびそのコンポーネントモジュール)、レンダラー410、分類器トレーナー415、分類器テスター420、オペレーティングシステムツール430は、一つ以上のコンピュータが読み取り可能な記憶媒体に記憶され、一つ以上のプロセッサで実行される、一つ以上のコンピュータプログラムモジュールである。記憶部425(及びその内容)は、一つ以上のコンピュータが読み取り可能な記憶媒体に格納されている。加えて、能動学習モジュール405(及びそのコンポーネントモジュール)、レンダラー410、分類器トレーナー415、分類器テスター420、オペレーティングシステムツール430及び記憶部425は、少なくともデータを互いに送受可能な程度に、互いに通信可能に接続されている。一実施形態においては、オペレーティングシステムツール430は、パーソナルコンピュータ上のオペレーティングシステムの一つ以上のパーツとして実行され、能動学習モジュール405、レンダラー410、分類器トレーナー415、分類器テスター420は、同じパーソナルコンピュータで実行される。
図示された記憶部425は、分類器445、トレーニングセット450、一つ以上の3Dモデル460を記憶している。分類器445は、サポートベクターマシーン(SVM)などの、統計的分類器または最近近傍分類器である。一実施形態においては、分類器445は、ガウスカーネルを有するサポートベクターマシンである。サポートベクターマシンパラメータの値は、初期実験により最適化され、その後固定したまま維持される(例えば、s = 2:0、C = IO、ただし、sはカーネル幅を表し、Cは、エラーコストを表している)。サポートベクターマシについては、V. Vapnik著、「Statistical Learning Theory」、Wiley-Interscience、1998年発刊に説明がある。サポートベクターマシンの実装には、例えば、LIBサポートベクターマシンライブラリなどがある(C-C. Chang et al著、「LIB Support Vector Machine: a Library for Support Vector Machines」、2001発刊参照)。
分類器445は、画像特徴値のベクトル「特徴ベクトル」を使用して、動作する。濃淡値、正規化濃淡値、もしくは光の諧調度のヒストグラムなどの任意の画像特徴を使用することが出来る。一実施形態においては、特徴ベクトルとして、方向ヒストグラムや、光諧調度のヒストグラムが使用される。それらのヒストグラムは、23x23画像の中の5つの固定位置で算出され、ユニット長さに正規化された640次元特徴ベクトルとなる。128次元ヒストグラムは、(9/9)、(15/9)、(12/12)、(9/15)、(15/15)の (x/y) 位置にて算出される。
分類器445は、分類器トレーナー415を使用して、トレーニングされ、分類器テスター420を使用して、テストされる。
トレーニングセット450は、分類器トレーナー415を使用して分類器445をトレーニングするのに使う画像の集合である。トレーニングセット450における画像は、レンダラー410を使用して3Dモデル460をレンダリングすることによって生成された合成画像である。
3Dモデル460は、三次元物体のモデルであり、レンダラー410を使用してレンダリングして、合成画像を生成することが出来る。
オペレーティングシステムツール430は、 乱数生成器455を備えている。乱数生成器455は乱数(もしくは擬似乱数)を生成することが可能である。
レンダラー410は、3Dモデル460をレンダリングすることが出来る、Blender (3Dモデリングおよびレンダリングのためのオープンソース・ソフトウェアパッケージ)などの、従来のソフトウェアアプリケーションである。レンダラー410は、レンダリングパラメータの値のセットに基づいて、モデル460をレンダリングする。上述した例においては、6つのレンダリングパラメータ(方位角及び高度における視点の位置、光軸回りの視点の回転、方位角及び高度における点光源の位置、周辺光と点光源の間の光強度の比)がある。
一実施形態においては、レンダラー410は、100×100ピクセルの解像度で3Dモデル460をレンダリングする。レンダラー410は、また、レンダリングされた(合成)画像をスケーリングおよびスムージングすることにより、23×23ピクセル濃淡(合成)画像を生成する。図5は、本発明の一実施形態による、スケーリングとスムージングが施された後のレンダリングされた(合成)画像の例を示している。
分類器トレーナー415は、トレーニングセット450(例えば、トレーニング画像のセット)が与えられれば、分類器445をトレーニングすることが出来る、従来からあるソフトウェアアプリケーションである。
分類器テスター420は、分類器445をテストして、分類器の分類精度を判定することが出来る、従来のソフトウェアアプリケーションである。一実施形態において、分類器445は、各クラスごとに、レンダリングパラメータの低次元空間からランダムに描かれた40,000の画像を使用してテストされる。分類器の出力は、サポートベクターマシンの実数値の出力を使用することにより算出される(ネガティブクラス(ラベル「ー1」)のサンプルに関しては、出力値は−1を乗算される)。(そして)、各クラスにおける最も難しい画像(例えば、最低精度を有する100個の画像)が判定される。
能動学習モジュール405は、コントロールモジュール435及びローカルミニマファインダ440を備えている。コントロールモジュール435は、能動学習モジュール405の動作をコントロールして、能動学習モジュール405にビュー・ベースの物体認識のための小型分類器445をトレーニングさせる。図1を参照して、コントロールモジュール435について詳述する。
ローカルミニマファインダ440は、低次元レンダリング空間における分類器の出力のローカルミニマ(及びそれらに対応するレンダリングパラメータの値)を発見する。1つのセットの画像(例、各クラスから最も難しい100個の画像)が、最適化アルゴリズム(例、ネルダメッドシンプレックスアルゴリズム)の初期点として使われる。6つのレンダリングパラメータの値は、全ての画像に関して既知であることに注意されたい。レンダリング空間における分類器の出力のローカルミニマ(及びそれらに対応するレンダリングパラメータの値)を発見するために、アルゴリズムが幾度も(例えば、10回)反復して実行される。分類器の出力は、サポートベクターマシンの実数値の出力(ネガティブクラス(ラベル「-1」)のサンプルについては、出力は-1が乗算される)を使用して算出される。図6は、本発明の一実施形態による、初期に選択された(つまり、初期点の)画像と近傍ローカルミニマにおける画像を示している。図6においては、初期画像が上側に、近傍ローカルミニマにおける画像が下側になるように、各ペアの例を垂直に配置している。
一般的に、能動学習は、対象の画像をランダムに選択してトレーニングする場合に比べて、大幅に少ないトレーニングセットとサポートベクトルしか使わないにも関わらずに、エラー率は、対象の画像をランダムに選択してトレーニングする場合と同じになる(例、同一エラー率)。言い換えると、能動学習は、「小型」分類器をトレーニングすると言える。
図1に戻り、ステップ110では初期トレーニングセット450が生成される。初期トレーニングセット450は、一つ以上の合成画像を有している。レンダラー410は、3Dモデル460とレンダリングパラメータの値のセットに基づいて、それぞれの合成画像を生成する。一実施形態において、初期トレーニングセット450は、レンダリングパラメータの低次元空間からランダムに選ばれたサンプルによって構成されている。
一実施形態においては、コントロールモジュール435がステップ110を実行する。例えば、コントロールモジュール435は、乱数生成器455を使用して、レンダリングパラメータのそれぞれについて、ランダムに選ばれた値を得る(上述した例においては、6つのレンダリングパラメータがあるため、ランダムに選ばれたサンプルの一つ一つは、これらの6つのパラメータについて、それぞれ一つづつランダムに選択された値を有する)。コントロールモジュール435は、次に、レンダリングパラメータの値に基づいて、レンダラー410を使用して、3Dモデル460の合成画像を生成する。そして、その合成画像が、初期トレーニングセット450に加えられる。一実施形態において、初期トレーニングセット450は、各クラスについて200個のサンプル(例えば、各3Dモデル460について、200個の合成画像)を有している。
ステップ120において、トレーニングセット450を使用して、分類器445をトレーニングする。一実施形態においては、コントロールモジュール435は、ステップ120を実行する。例えば、コントロールモジュール435は、分類器トレーナー415を使って、トレーニングセット450を使用して分類器445をトレーニングする。ステップ120が最初に実行される時、トレーニングセット450は初期トレーニングセットである。ステップ120が二回目以降に実行される時は、ステップ150と合わせて以下に説明するように、トレーニングセット450は修正されているはずである。
ステップ130では、低次元レンダリング空間における分類器の出力のローカルミニマが発見される。一実施形態においては、コントロールモジュール435は、ステップ130を実行する。例えば、コントロールモジュール435は、まず、分類器テスター420を使用して、分類器445をテストし、分類器の分類精度を決定する。分類器テスター420は、各クラスから最も難しい画像(例えば、最低精度を有する100個の画像)を決定する。コントロールモジュール435は、その次に、ローカルミニマファインダ440を使用して、その最も難しい画像を初期点として、分類器の出力のローカルミニマ(及びそれらに対応するレンダリングパラメータの値)を見つける。
ステップ140において、画像が、ローカルミニマにおいて(それらに対応するレンダリングパラメータの値を使用して)描画される。一実施形態において、コントロールモジュール435は、ステップ140を実行する。例えば、コントロールモジュール435は、レンダラー410を使用して、ステップ130で発見されたローカルミニマで、物体の画像(合成画像)をレンダリングする。一実施形態においては、200個の物体の画像がレンダリングされる。コントロールモジュール435はまた、レンダリングされた画像の方向ヒストグラムを算出する。方向ヒストグラムは、物体の特徴(つまり、分類の基礎)として使われる。
ステップ150では、新しくレンダリングされた画像が、トレーニングセットに加えられる。一実施形態においては、コントロールモジュール435は、ステップ150を実行する。例えば、コントロールモジュール435は、(ステップ140にて生成された)新しくレンダリングされた画像を適切に記憶することによって、新しくレンダリングされた画像をトレーニングセット450に追加する。これにより、ステップ140でレンダリングされた画像と、ステップ120で分類器をトレーニングする際に使われた画像の両方を含む修正トレーニングセット450が生成される。
ステップ160では、ステップ120から処理が繰り返され、修正されたトレーニングセット450を使用して分類器445がトレーニングされる。
本発明は、ある実施形態を参照して、詳細に説明してきたが、当業者が理解するように、他の実施形態も可能である。例えば、他の実施形態が、「Object recognition with 3Dmodels」 B. Heisele, G. Kim、A. Meyer著、Proceedings of the 2009 British Machine Vision Conference (BMVC), London, England, September7-10に記載されており、その記載を本明細書に引用する。

Claims (20)

  1. コンピュータにより実行する、ビュー・ベースの物体認識分類器をトレーニングするための方法であって、前記方法は、
    三次元モデルと一つ以上のレンダリングパラメータの値に基づいて生成される画像を複数個含んだ、画像の初期トレーニングセットを生成するステップと、
    前記初期トレーニングセットを使用して、分類器をトレーニングするステップと、
    前記分類器の精度を判定するステップと、
    前記分類器の出力の一つ以上のローカルミニマのセットを判定するステップと、
    前記ローカルミニマのセットのそれぞれのローカルミニマムについて、
    前記ローカルミニマムに関連付けられた、一つ以上の前記レンダリングパラメータの値のセットを決定するステップと、
    前記三次元モデルと前記決定された一つ以上のレンダリングパラメータの値のセットに基づいて、追加の画像を生成するステップと、
    前記初期トレーニングセットと前記追加で生成された画像を使用して、前記分類器をトレーニングするステップとを含むことを特徴とする方法。
  2. 前記分類器は、統計的分類器を含むことを特徴とする請求項1に記載の方法。
  3. 前記分類器は、サポートベクターマシーンを含むことを特徴とする請求項1に記載の方法。
  4. 前記分類器は、画像の光諧調度のヒストグラムの特徴ベクトルに基づいて、前記画像を分類することを特徴とする請求項1に記載の方法。
  5. レンダリングパラメータは、視点の方位角位置、視点の高度位置、光学軸回りの視点の回転、点光源の方位角位置、点光源の高度位置、周辺光と点光源間の光強度比を含むグループのうちの一つの要素であることを特徴とする請求項1に記載の方法。
  6. 前記初期トレーニングセット内の画像のためのレンダリングパラメータの値は、ランダム又は疑似ランダムに決定されることを特徴とする請求項1に記載の方法。
  7. 前記初期トレーニングセット内の画像は、前記画像が肯定例か否定例かを示すラベルに関連付けられていることを特徴とする請求項1に記載の方法。
  8. 前記分類器の出力の前記一つ以上のローカルミニマのセットを決定するステップは、最適化アルゴリズムを実行するステップを含むことを特徴とする請求項1に記載の方法。
  9. プロセッサによって実行された時、プロセッサにビュー・ベースの物体認識分類器をトレーニングするための方法を実行させる命令がコード化された、機械が読み取り可能な記憶媒体であって、前記方法は、
    三次元モデルと一つ以上のレンダリングパラメータの値に基づいて生成される画像を複数個含んだ、画像の初期トレーニングセットを生成するステップと、
    前記初期トレーニングセットを使用して、分類器をトレーニングするステップと、
    前記分類器の精度を判定するステップと、
    前記分類器の出力の一つ以上のローカルミニマのセットを判定するステップと、
    前記ローカルミニマのセットのそれぞれのローカルミニマムについて、
    前記ローカルミニマムに対応する、一つ以上のレンダリングパラメータの値のセットを決定するステップと、
    前記三次元モデルと前記決定された一つ以上のレンダリングパラメータの値のセットに基づいて、追加の画像を生成するステップと、
    前記初期トレーニングセットと前記追加で生成された画像を使用して、前記分類器をトレーニングするステップとを含むことを特徴とする機械が読み取り可能な記憶媒体。
  10. 前記分類器は、統計的分類器を含むことを特徴とする請求項9に記載の記憶媒体。
  11. 前記分類器は、サポートベクターマシーンを含むことを特徴とする請求項9に記載の記憶媒体。
  12. 前記分類器は、画像の光諧調度のヒストグラムの特徴ベクトルに基づいて、前記画像を分類することを特徴とする請求項9に記載の記憶媒体。
  13. レンダリングパラメータは、視点の方位角位置、視点の高度位置、光学軸回りの視点の回転、点光源の方位角位置、点光源の高度位置、周辺光と点光源間の光強度比を含むグループのうちの一つの要素であることを特徴とする請求項9に記載の記憶媒体。
  14. 前記初期トレーニングセット内の画像のためのレンダリングパラメータの値は、ランダム又は疑似ランダムに決定されることを特徴とする請求項9に記載の記憶媒体。
  15. 前記初期トレーニングセット内の画像は、前記画像が肯定例か否定例かを示すラベルと関連付けられていることを特徴とする請求項9に記載の記憶媒体。
  16. 前記分類器の出力の前記一つ以上のローカルミニマのセットを決定するステップは、最適化アルゴリズムを実行するステップを含むことを特徴とする請求項9に記載の記憶媒体。
  17. 三次元モデルと一つ以上のレンダリングパラメータの値に基づいて生成される画像を複数個含んだ、画像の初期トレーニングセットを生成するステップと、
    前記初期トレーニングセットを使用して、分類器をトレーニングするステップと、
    前記分類器の精度を判定するステップと、
    前記分類器の出力の一つ以上のローカルミニマのセットを判定するステップと、
    前記ローカルミニマのセットのそれぞれのローカルミニマムについて、
    前記ローカルミニマムに対応する、一つ以上のレンダリングパラメータの値のセットを決定するステップと、
    前記三次元モデルと前記決定された一つ以上のレンダリングパラメータの値のセットに基づいて、追加の画像を生成するステップと、
    前記初期トレーニングセットと前記追加で生成された画像を使用して、分類器をトレーニングするステップとを含む方法を実行する、機械が読み取り可能な命令がコード化された、機械が読み取り可能な記憶媒体と、
    前記機械が読み取り可能な記憶媒体にコード化された、機械が読み取り可能な命令を実行するようになされたプロセッサとを含むことを特徴とする、ビュー・ベースの物体認識分類器をトレーニングするためのシステム。
  18. レンダリングパラメータは、視点の方位角位置、視点の高度位置、光学軸回りの視点の回転、点光源の方位角位置、点光源の高度位置、周辺光と点光源間の光強度比を含むグループのうちの一つの要素であることを特徴とする請求項17に記載のシステム。
  19. 前記初期トレーニングセット内の画像のためのレンダリングパラメータの値は、ランダム又は疑似ランダムに決定されることを特徴とする請求項17に記載のシステム。
  20. 前記初期トレーニングセット内の画像は、前記画像が肯定例か否定例かを示すラベルに関連付けられていることを特徴とする請求項17に記載のシステム。







JP2012518603A 2009-07-01 2010-06-30 3次元モデルを使用した物体認識 Expired - Fee Related JP5352738B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US22224509P 2009-07-01 2009-07-01
US61/222,245 2009-07-01
PCT/US2010/040678 WO2011002938A1 (en) 2009-07-01 2010-06-30 Object recognition with 3d models

Publications (3)

Publication Number Publication Date
JP2012532382A true JP2012532382A (ja) 2012-12-13
JP2012532382A5 JP2012532382A5 (ja) 2013-08-15
JP5352738B2 JP5352738B2 (ja) 2013-11-27

Family

ID=43411441

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012518603A Expired - Fee Related JP5352738B2 (ja) 2009-07-01 2010-06-30 3次元モデルを使用した物体認識

Country Status (3)

Country Link
US (1) US8422797B2 (ja)
JP (1) JP5352738B2 (ja)
WO (1) WO2011002938A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019032820A (ja) * 2017-06-16 2019-02-28 ダッソー システムズDassault Systemes 画像を入力とする関数を学習するためのデータセット
JP2020037475A (ja) * 2018-09-05 2020-03-12 前田建設工業株式会社 建設機械制御システム、建設機械制御方法、及びプログラム

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8903167B2 (en) 2011-05-12 2014-12-02 Microsoft Corporation Synthesizing training samples for object recognition
TW201317905A (zh) * 2011-10-25 2013-05-01 Inventec Corp 生物動態模擬方法及應用其之電子裝置
US9665800B1 (en) * 2012-10-21 2017-05-30 Google Inc. Rendering virtual views of three-dimensional (3D) objects
US9508120B2 (en) * 2013-07-08 2016-11-29 Augmented Reality Lab LLC System and method for computer vision item recognition and target tracking
EP3028838A1 (en) * 2013-07-29 2016-06-08 NEC Solution Innovators, Ltd. 3d printer device, 3d printing method and method for manufacturing stereolithography product
US9912001B2 (en) 2013-08-07 2018-03-06 Massachusetts Institute Of Technology Extruder feed system
US9855698B2 (en) 2013-08-07 2018-01-02 Massachusetts Institute Of Technology Automatic process control of additive manufacturing device
US9727821B2 (en) 2013-08-16 2017-08-08 International Business Machines Corporation Sequential anomaly detection
US10307961B2 (en) * 2013-11-21 2019-06-04 Siemens Product Lifecycle Management Software Inc. Intelligent 3D printer and method
US9443169B2 (en) * 2014-02-21 2016-09-13 Xerox Corporation Object classification with constrained multiple instance support vector machine
EP3023909A1 (en) * 2014-11-18 2016-05-25 Thomson Licensing Method and apparatus for ranking 2D candidate images
US9652838B1 (en) * 2014-12-23 2017-05-16 A9.Com, Inc. Object retrieval
US9916540B2 (en) 2015-01-22 2018-03-13 Microsoft Technology Licensing, Llc Scalable-effort classifiers for energy-efficient machine learning
US20160238635A1 (en) * 2015-02-18 2016-08-18 Infineon Technologies Ag Offset voltage compensation
EP3156942A1 (en) * 2015-10-16 2017-04-19 Thomson Licensing Scene labeling of rgb-d data with interactive option
EP3179407B1 (en) * 2015-12-07 2022-07-13 Dassault Systèmes Recognition of a 3d modeled object from a 2d image
US10068385B2 (en) 2015-12-15 2018-09-04 Intel Corporation Generation of synthetic 3-dimensional object images for recognition systems
JP6607261B2 (ja) * 2015-12-24 2019-11-20 富士通株式会社 画像処理装置、画像処理方法および画像処理プログラム
US9996771B2 (en) * 2016-02-15 2018-06-12 Nvidia Corporation System and method for procedurally synthesizing datasets of objects of interest for training machine-learning models
JP2017187882A (ja) 2016-04-04 2017-10-12 セイコーエプソン株式会社 画像処理に用いられるコンピュータープログラム
US10055667B2 (en) 2016-08-03 2018-08-21 X Development Llc Generating a model for an object encountered by a robot
CN106778856A (zh) * 2016-12-08 2017-05-31 深圳大学 一种物体识别方法及装置
US10474906B2 (en) * 2017-03-24 2019-11-12 Echelon Corporation High dynamic range video of fast moving objects without blur
US10599959B2 (en) * 2017-04-05 2020-03-24 International Business Machines Corporation Automatic pest monitoring by cognitive image recognition with two cameras on autonomous vehicles
US10235601B1 (en) 2017-09-07 2019-03-19 7D Labs, Inc. Method for image analysis
US11334762B1 (en) 2017-09-07 2022-05-17 Aurora Operations, Inc. Method for image analysis
CA3115898C (en) * 2017-10-11 2023-09-26 Aquifi, Inc. Systems and methods for object identification
EP3495771A1 (en) * 2017-12-11 2019-06-12 Hexagon Technology Center GmbH Automated surveying of real world objects
US10552665B2 (en) 2017-12-12 2020-02-04 Seiko Epson Corporation Methods and systems for training an object detection algorithm using synthetic images
US10410089B2 (en) * 2018-01-19 2019-09-10 Seiko Epson Corporation Training assistance using synthetic images
US10769437B2 (en) 2018-04-10 2020-09-08 Seiko Epson Corporation Adaptive sampling of training views
US10878285B2 (en) 2018-04-12 2020-12-29 Seiko Epson Corporation Methods and systems for shape based training for an object detection algorithm
EP4254349A3 (en) * 2018-07-02 2023-12-06 MasterCard International Incorporated Methods for generating a dataset of corresponding images for machine vision learning
US10634918B2 (en) 2018-09-06 2020-04-28 Seiko Epson Corporation Internal edge verification
JP2020042503A (ja) * 2018-09-10 2020-03-19 株式会社MinD in a Device 三次元表象生成システム
US11132845B2 (en) * 2019-05-22 2021-09-28 Microsoft Technology Licensing, Llc Real-world object recognition for computing device
GB201907193D0 (en) * 2019-06-05 2019-07-03 Secr Defence Obtaining patterns for surfaces of objects
US11113588B2 (en) 2019-10-02 2021-09-07 United States Of America As Represented By The Secretry Of The Navy Randomization-based hierarchical and associatively assisted vector learning for machine vision
EP3839793A1 (en) * 2019-12-16 2021-06-23 Dassault Systèmes Interactive object selection
FR3111460B1 (fr) * 2020-06-16 2023-03-31 Continental Automotive Procédé de génération d’images d’une caméra intérieure de véhicule
WO2023066790A1 (fr) * 2021-10-21 2023-04-27 Continental Automotive Gmbh Procédé d'optimisation de la détection d'un élément dans une image
FR3128562A1 (fr) * 2021-10-21 2023-04-28 Continental Automotive Gmbh Procédé d’optimisation de la détection d’un élément dans une image

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009093611A (ja) * 2007-10-11 2009-04-30 Mwtec Software Gmbh 三次元オブジェクト認識のためのシステムおよび方法
JP2010522469A (ja) * 2007-03-23 2010-07-01 トムソン ライセンシング 2d−to−3d変換のための2d画像の領域分類のシステム及び方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5675711A (en) * 1994-05-13 1997-10-07 International Business Machines Corporation Adaptive statistical regression and classification of data strings, with application to the generic detection of computer viruses
US6421463B1 (en) 1998-04-01 2002-07-16 Massachusetts Institute Of Technology Trainable system to search for objects in images
US6807286B1 (en) * 2000-04-13 2004-10-19 Microsoft Corporation Object recognition using binary image quantization and hough kernels
US7711155B1 (en) * 2003-04-14 2010-05-04 Videomining Corporation Method and system for enhancing three dimensional face modeling using demographic classification
US7418128B2 (en) 2003-07-31 2008-08-26 Microsoft Corporation Elastic distortions for automatic generation of labeled data
US7711174B2 (en) * 2004-05-13 2010-05-04 The Charles Stark Draper Laboratory, Inc. Methods and systems for imaging cells
US20060050953A1 (en) * 2004-06-18 2006-03-09 Farmer Michael E Pattern recognition method and apparatus for feature selection and object classification
US20050286772A1 (en) * 2004-06-24 2005-12-29 Lockheed Martin Corporation Multiple classifier system with voting arbitration
US7480414B2 (en) 2004-10-14 2009-01-20 International Business Machines Corporation Method and apparatus for object normalization using object classification
US7415152B2 (en) * 2005-04-29 2008-08-19 Microsoft Corporation Method and system for constructing a 3D representation of a face from a 2D representation
US7756325B2 (en) * 2005-06-20 2010-07-13 University Of Basel Estimating 3D shape and texture of a 3D object based on a 2D image of the 3D object
US7804990B2 (en) * 2006-01-25 2010-09-28 Siemens Medical Solutions Usa, Inc. System and method for labeling and identifying lymph nodes in medical images
US20070276776A1 (en) * 2006-05-24 2007-11-29 Vigilant Technology Ltd. User trainable detection apparatus and method
US7853072B2 (en) * 2006-07-20 2010-12-14 Sarnoff Corporation System and method for detecting still objects in images
US8510252B1 (en) * 2007-12-07 2013-08-13 Google, Inc. Classification of inappropriate video content using multi-scale features

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010522469A (ja) * 2007-03-23 2010-07-01 トムソン ライセンシング 2d−to−3d変換のための2d画像の領域分類のシステム及び方法
JP2009093611A (ja) * 2007-10-11 2009-04-30 Mwtec Software Gmbh 三次元オブジェクト認識のためのシステムおよび方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6013037076; B.Weyrauch 外3名: 'Component-based Face Recognition with 3D Morphable Models' Computer Vision and Pattern Recognition Workshop,2004. CVPRW'04. Conference on , 2004 *
JPN6013037077; Heinrich H. Bulthoff 外2名: 'View-based dynamic object recognition based on human perception' Pattern Recognition,2002.Proceedings.16th International Conference on , 2002, p.768-776 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019032820A (ja) * 2017-06-16 2019-02-28 ダッソー システムズDassault Systemes 画像を入力とする関数を学習するためのデータセット
JP2020037475A (ja) * 2018-09-05 2020-03-12 前田建設工業株式会社 建設機械制御システム、建設機械制御方法、及びプログラム
JP7126251B2 (ja) 2018-09-05 2022-08-26 前田建設工業株式会社 建設機械制御システム、建設機械制御方法、及びプログラム

Also Published As

Publication number Publication date
JP5352738B2 (ja) 2013-11-27
US8422797B2 (en) 2013-04-16
US20110002531A1 (en) 2011-01-06
WO2011002938A1 (en) 2011-01-06

Similar Documents

Publication Publication Date Title
JP5352738B2 (ja) 3次元モデルを使用した物体認識
US11074717B2 (en) Detecting and estimating the pose of an object using a neural network model
US11373332B2 (en) Point-based object localization from images
US11488418B2 (en) Three-dimensional (3D) pose estimation from a monocular camera
US11842517B2 (en) Using iterative 3D-model fitting for domain adaptation of a hand-pose-estimation neural network
US11631239B2 (en) Iterative spatio-temporal action detection in video
US10380413B2 (en) System and method for pose-invariant face alignment
US11704857B2 (en) Three-dimensional object reconstruction from a video
JP4677046B2 (ja) 多次元ブースト回帰を経た外観及び動作を使用する高速人間姿勢推定
Yuan et al. Iterative transformer network for 3d point cloud
US20200160593A1 (en) Inverse rendering of a scene from a single image
US11816404B2 (en) Neural network control variates
US11960570B2 (en) Learning contrastive representation for semantic correspondence
US20220222832A1 (en) Machine learning framework applied in a semi-supervised setting to perform instance tracking in a sequence of image frames
EP3905103A1 (en) Illumination detection method and apparatus for facial image, and device and storage medium
Putro et al. Lightweight convolutional neural network for real-time face detector on cpu supporting interaction of service robot
Hsieh et al. Expression-invariant face recognition with constrained optical flow warping
US20230070514A1 (en) Performing occlusion-aware global 3d pose and shape estimation of articulated objects
JP2022078377A (ja) 学習方法、判定方法、プログラム、学習システム、学習用データセットの生成方法、及び、学習用データセット
JP7464188B2 (ja) 画像処理装置および画像処理方法
Budge 1.1 Computer Vision in Robotics
US20230274168A1 (en) Quantifying the human-likeness of artificially intelligent agents using statistical methods and techniques
Figundio Pose estimation and semantic meaning extraction for robotics using neural networks
Kai et al. SuperEdge: Towards a Generalization Model for Self-Supervised Edge Detection
Sharma Object detection and sim-to-real 6D pose estimation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130628

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130628

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20130628

TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20130723

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130826

R150 Certificate of patent or registration of utility model

Ref document number: 5352738

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees