JP2022508434A - 回転仮説を決定することによって画像を処理する方法及びシステム - Google Patents

回転仮説を決定することによって画像を処理する方法及びシステム Download PDF

Info

Publication number
JP2022508434A
JP2022508434A JP2021537476A JP2021537476A JP2022508434A JP 2022508434 A JP2022508434 A JP 2022508434A JP 2021537476 A JP2021537476 A JP 2021537476A JP 2021537476 A JP2021537476 A JP 2021537476A JP 2022508434 A JP2022508434 A JP 2022508434A
Authority
JP
Japan
Prior art keywords
image
rotation
neural network
feature map
hypotheses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021537476A
Other languages
English (en)
Other versions
JP7234378B2 (ja
Inventor
マイアー スベン
訓成 小堀
マンハルト ファビアン
マルティン アロヨ ディエゴ
トンバリ フェデリコ
ルプレヒト クリスティアン
Original Assignee
トヨタ モーター ヨーロッパ
テクニカル ユニバーシティ オブ ミュンヘン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by トヨタ モーター ヨーロッパ, テクニカル ユニバーシティ オブ ミュンヘン filed Critical トヨタ モーター ヨーロッパ
Publication of JP2022508434A publication Critical patent/JP2022508434A/ja
Application granted granted Critical
Publication of JP7234378B2 publication Critical patent/JP7234378B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

画像を処理するシステム及び方法であって、(2)複数の特徴マップを取得し、各特徴マップは、それぞれの解像度及びそれぞれの深さを有し、(3)各特徴マップについて、画像に見られる少なくとも一つのオブジェクトのタイプと、少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、少なくとも一つのオブジェクトの複数の回転仮説と、を提供するために各特徴マップで分類を行うように構成されたニューラルネットワークに画像を入力することを備える、システム及び方法。

Description

本開示は、画像処理の分野に関し、更に正確には、画像の3次元オブジェクトの検出に関する。
カメラによって取得した画像の三次元オブジェクトを検出することが提案されてきた。
通常、画像に表示されるオブジェクトの6Dポーズを取得することも望ましい。「6Dポーズ」は、オブジェクトの三次元の位置と三次元の向きとの組合せを示す当業者によく知られている表現である。
6Dポーズの取得は、オブジェクトが検出及び操作されるロボット工学の分野で特に有益である。
6Dポーズ又はオブジェクトの向きを検出する際の困難の一つは、対称的なオブジェクト又は閉塞(occlusion)を処理することの困難である。例えば、ハンドルを有するカップのポーズは、ハンドルが閉塞されているときを判断するのが非常に困難であるが、ハンドルが見えるときには十分に検出可能である。
オブジェクトのポーズを検出するためにニューラルネットワークを用いることが提案されてきた。これらのニューラルネットワークを、所定の入力画像に対して検出されたポーズを出力するように構成することができる。この結果を得るために、既知の画像がニューラルネットワークに入力されるニューラルネットワークでトレーニングステップが実行され、ニューラルネットワークの出力が予測される出力に近いか否かが判断される。この判断は、通常、損失関数の使用を伴い、この損失関数の結果は、改善された損失がトレーニングの次の反復で取得されるようにニューラルネットワークを更新するためによく用いられる。
既知の方法は、これらの曖昧さを処理することができず、これは満足のいくものではない。
本開示は、画像を処理する方法であって、
(2)複数の特徴マップを取得し、各特徴マップは、それぞれの解像度及びそれぞれの深さを有し、
(3)各特徴マップについて、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するために各特徴マップで分類を行うように構成されたニューラルネットワークに画像を入力することを備える、方法を提案することによって、従来技術の一つ以上の不備を解消する。
本出願の発明者は、単一の回転仮説又はポーズのみを予測する既知の方法が対称性を有する物体を取り扱うことができないことを確認した。複数の回転仮説を取得することによって、トレーニング段階でオブジェクトの対称性を更に適切に学習でき、曖昧さが軽減される。
例として、画像は、当業者に知られているRGB(赤-緑-青)画像のようなカラー画像となることがある。
特徴マップは、通常、ニューラルネットワーク又はニューラルネットワークの一部によって出力されるベクトルの行列であり、表現解像度(expression resolution)は、行列の解像度に向けられ、深さは、行列のベクトルの深さに関連する。
本願で用いられる「ニューラルネットワーク」は、複数の既知のネットワークの組合せをカバーすることができる。例えば、複数の特徴マップを取得するステップを、第1のサブネットワークを用いて実行することができる。当業者は、それぞれの解像度及びそれぞれの深さを有する特徴マップを取得するためにどのサブネットワークを用いるかを知っている。
また、当業者は、複数の仮説を取得することにつながる複数の出力を用いて、分類を行うためにサブニューラルネットワークを用いることができる。
当業者は、各特徴マップについて、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するためにどのサブネットワークを用いるかを知っている。
境界ボックスがオブジェクトを包囲する座標を有する仮想的な矩形であることが当業者に知られていることに留意されたい。複数のオブジェクトが決定された場合、各オブジェクトは、少なくとも一つの境界ボックスに関連付けられる。境界ボックスを、複数の所定の境界ボックスの中から選択することができる。分類ステップは、最適な境界ボックス(すなわち、オブジェクトに最も近い境界ボックス)を決定するように構成される。
オブジェクトのタイプは、検出可能なオブジェクトの所定のセットの中から選択される。
回転は、所定の基準位置から表されるオブジェクトの三次元回転であってもよい。
複数のオブジェクトが画像に見える場合、ニューラルネットワークは、上記で定義されているように少なくとも二つのグループの情報を出力してもよい。
また、ニューラルネットワークは、例えば、境界ボックスに関連する二つのグループの間の違いを有する同一のオブジェクトの二つ以上のグループの情報を出力してもよい。
上記のニューラルネットワークを用いることによって超並列シングルパスネットワークを用いることができ、計算速度が大幅に向上し(上記方法は約10Hzすなわち10画像/秒で動作することを確認した。)、良好な精度が得られることに留意されたい。
特定の実施の形態によれば、方法は、推定した回転を取得するために複数の回転仮説の分類を行うことを更に備える。
特定の実施の形態によれば、複数の回転仮説の分類は、外れ値の拒絶又はクラスタリングを備える。
例えば、クラスタリングを、平均シフトアルゴリズムを用いて行ってもよい。
複数の回転仮説の分類によって回転のフィルタリング又は回転中央値の決定を引き起こしてもよい。
特定の実施の形態によれば、オブジェクトと画像を取得した画像取得モジュールの間の距離を、少なくとも一つの境界ボックスの対角線の長さを用いて決定する。
特定の実施の形態によれば、方法は、少なくとも一つのオブジェクトの6Dポーズを推定するために推定した回転及び距離を用いることを備える。
この距離及び回転から少なくとも一つのオブジェクトの6Dポーズを取得できることを確認した。
特定の実施の形態によれば、回転をそれぞれ四元数として表す。
本発明者は、四元数を用いて空間回転又は三次元回転をモデル化できることを確認した。四元数は四つの値によって定義され、分類は、各仮説にそれぞれ複数の四元数を出力してもよい。
特定の実施の形態によれば、方法は、回転が曖昧さを示すか否かを判断するために回転仮説の主成分分析を実行することを更に備える。
例えば、優勢な特異値が曖昧さを示すしきい値を超えているか否かを判断するためにしきい値を用いてもよい。
特定の実施の形態によれば、方法は、ニューラルネットワークの予備トレーニングを備え、予備トレーニングは、少なくとも一つの3次元テンプレートオブジェクトがニューラルネットワークにレンダリングされたテンプレート画像を入力することを備える。
3次元テンプレートオブジェクトをレンダリングすることは、このテンプレートオブジェクトの投影が選択された角度で目に見える(したがって回転が既知である)画像を作成することを意味する。
好適には、方法を、テンプレートオブジェクトとして用いられたオブジェクトを備える画像に用いる。
特定の実施の形態によれば、予備トレーニングは、
ニューラルネットワークを用いて、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、
を取得することと、

Figure 2022508434000002

のLを最小にし、この場合、
Figure 2022508434000003
であり、
Iは、テンプレート画像であり、
Posは、テンプレートオブジェクトの領域の予め決定された部分を包囲する領域を有する境界ボックスを表し、
Negは、テンプレートオブジェクトの領域の予め決定された部分を包囲しない領域を有する境界ボックスを表し、
bは、Pos又はNegのいずれかに属する境界ボックスであり、
classは、分類の特性の誤差に関連する損失であり、
fitは、境界ボックスの角の位置の誤差に関連する損失であり、
viewは、視点の特性の誤差に関連する損失であり、
inpianeは、面内回転の特性の誤差に関連する損失であり、
α、β及びεは、所定の係数であり、
Mは、回転仮説の数であり、
Iは、テンプレート画像であり、
pは、少なくとも一つのオブジェクトの真の回転であり、
θ (j)(I)は、回転仮説jを提供する関数であり、
θ(I)は、回転仮説fθ (j)(I)を提供する関数であり、
L(fθ (j)(I),p)は、既知の回転pに対するfθ(I)の損失関数である。
上記式において、M(fθ(I)p)及び
Figure 2022508434000004
は、メタ損失値(meta-loss value)を表す。更に正確には、
Figure 2022508434000005
は、画像I及びポーズpの最小限の損失である。
トレーニング中に、ニューラルネットワークが、
Figure 2022508434000006
として決定される回転仮説θ*を用いて更新され、piは、少なくとも一つのオブジェクトに対して同様の画像を有する画像Iiに関連するN回転である。
これは、更新の基礎として前のトレーニングステップの最良の出力のみを使用することによってニューラルネットワークの更新を容易にする(トレーニングは反復的である。)。
本発明は、画像を処理するシステムであって、画像を入力することができるニューラルネットワークを備え、ニューラルネットワークは、
複数の特徴マップを取得し、各特徴マップは、それぞれの解像度及びそれぞれの深さを有し、
各特徴マップについて、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するために各特徴マップで分類を行うように構成された、システムも提供する。
システムを、上述したように画像を処理する方法の全ての実施の形態を実施するように構成することができる。
一つの特定の実施の形態において、画像を処理する方法のステップは、コンピュータプログラム命令によって決定される。
したがって、本発明は、コンピュータによって実行されるときに、上述した方法のステップを実行する命令を有するコンピュータプログラムも対象とする。
プログラムは、任意のプログラミング言語を用いることができ、ソースコード、オブジェクトコード、又は、部分的にコンパイルされた形式若しくは他の望ましい形式のようなソースコードとオブジェクトコードの中間のコードの形式をとることができる。
本発明は、コンピュータによって読取り可能であり、上述した方法のステップを実行する命令を有するコンピュータプログラムを記録した記録媒体も対象とする。
情報媒体を、プログラムを格納できる任意のエンティティ又はデバイスとすることができる。例えば、媒体は、ROMのような記憶手段、例えば、CD ROM又はマイクロ電子回路ROM又は磁気記憶手段、例えば、ディスケット(フロッピーディスク(登録商標))又はハードディスクを含むことができる。
代替的に、情報媒体を、プログラムが組み込まれた集積回路とすることができ、回路は、当該方法を実行するように又はその実行に用いられるように適合される。
本開示をどのように実施することができるかを、添付の図面を参照して例として説明する。
一例による例示的な画像を処理する方法のブロック図である。 一例による例示的な画像を処理するシステムのブロック図である。 対称性を有するオブジェクトの処理の困難性を示す。
例示的な画像を処理する方法及びシステムを以下に説明する。
画像を処理する方法を図1に示す。以下に説明するように、この方法は、画像に見えるオブジェクトの6Dポーズを決定することもできる。しかしながら、本発明は、画像に見えるオブジェクトの6Dポーズの決定に限定されない。
処理される画像は、図1の基準IMG(referenced IMG)である。この例では、画像は、299画素の幅及び299画素の高さの解像度を有する。画像IMGはRGB画像であり、画像の各画素は、三つの値に関連付けられる。
画像IMGを処理するために、この画像は、図1に示すニューラルネットワーク1に入力される。画像IMGが深さ情報を更に備える場合(例えば、画像IMGがRGB-D画像である場合)、RGB値のみをニューラルネットワーク1に入力してもよいが、深さ情報を、その後のリファインステップ(refining step)で用いてもよい。
ニューラルネットワーク1は、複数の特徴マップを取得するように構成され、各特徴マップは、それぞれの解像度及びそれぞれの深さを有する。このために、ニューラルネットワーク1は、五つの特徴マップを作成することができるサブネットワーク2を備える。五つの特徴マップはそれぞれ、互いに異なる解像度を有する。
例えば、第1の特徴マップ4aは、35×35の解像度及び384の深さを有する。第2の特徴マップ4bは、17×17の解像度及び1024の深さを有する。第3の特徴マップ4cは、9×9の解像度及び1536の深さを有する。第4の特徴マップ4dは、5×5の解像度及び1024の深さを有する。第5の特徴マップ4eは、3×3の解像度及び1024の深さを有する。
当業者は、用いるべき特徴マップの数並びにそれらの解像度及び深さを選択することができる。例えば、特徴マップの数並びにそれらの解像度及びそれらの深さをアプリケーションの関数として決定するために較正ステップを実行することができる。様々な解像度を用いることによって、様々なスケールのオブジェクトを検出することができる。
好適には、サブネットワーク2は、当業者によってInceptionV4として知られているとともにC.Szegedy、S.Ioffe及びV.Vanhouckeによる“Inception-ResNet and the Impact of Residual Connections”に記載されたネットワークである。
好適には、サブネットワーク2は、前のステップでトレーニングされる。
ニューラルネットワーク1は、各特徴マップについて、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するために各特徴マップで分類を行うように更に構成される。
このために、ニューラルネットワーク1は、サブネットワーク3を備える。好適には、サブネットワーク3は、回帰ニューラルネットワークである。
サブネットワーク3は、5つの特徴マップ4a~4eを入力として受け取り、この例では、上記出力を提供するための適切な数のニューロンを有する。
特に、サブネットワーク3は、ポーズについて複数の仮説を出力することができ、これは、これらの仮説を提供するために選択された複数のニューロンにつながる。
回転仮説が四元数を用いて表される場合、各回転仮説に四つのニューロンを用いてもよい。
特徴マップを受け取ったサブネットワーク3の出力は、特徴マップの解像度及び
Figure 2022508434000007
の深さを有してもよい。この場合、Kは、候補境界ボックスの数であり、Cは、あり得るオブジェクトタイプの数であり、Mは、仮説の数である。
図では、画像IMGに存在するオブジェクトについて、四つの回転仮説5a、5b、5c及び5dを表す。
ニューラルネットワークのトレーニングを説明する。
事前に、四元数を用いて空間回転(本願では、表現される回転は3次元回転又は空間回転に向けられる。)をモデル化できることが確認されていることに留意されたい。
四元数は、
Figure 2022508434000008
によって与えられる。この場合、
Figure 2022508434000009
である。
南半球を省略するとともにq1=0超平面のより上の回転のみを用いることができ、これによって、単一の四元数を用いてあり得る3次元回転を表すことができる。
また、トレーニング中に、既知のデータセットのN個の画像Iiがそれぞれ(オブジェクトの同一の画像との対称性を示すオブジェクトの
Figure 2022508434000010
の)所定の回転piに関連付けられる場合、回転数のセットは、
Figure 2022508434000011
である。
この式は、離散対称性に適合される。非離散対称性の場合、当業者はSの合計を積分に適合させる。
現在のニューラルネットワークでは、複数の回転仮説を取得する。ニューラルネットワークの関数は、
Figure 2022508434000012
として記載される。
したがって、所定のオブジェクト及び境界ボックスについてM個の仮説がある。
優先的には、トレーニングの各ステップでニューラルネットワークを更に適切に更新するために、予測される結果(既知の回転)に最も近い損失のみがニューラルネットワークのパラメータを更新するために用いられる。ニューラルネットワークのパラメータの更新は、ニューラルネットワークの重みの更新と呼ばれることが多く、この更新は、計算された損失に基づく。
使用される損失の決定は、
Figure 2022508434000013
によって与えられる。
トレーニング中に、レンダリングされたオブジェクト(例えば、既知の回転を有するレンダリングされた3次元オブジェクト)を備えるテンプレート画像(既知の画像)がニューラルネットワークに入力され、出力は、分類ステップの後に、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、なる。
したがって、損失は、
Figure 2022508434000014
のLを最小にすることによって計算してもよく、この場合、
Figure 2022508434000015
であり、
Iは、テンプレート画像であり、
Posは、テンプレートオブジェクトの領域の予め決定された部分を包囲する領域を有する境界ボックスを表し、
Negは、テンプレートオブジェクトの領域の予め決定された部分を包囲しない領域を有する境界ボックスを表し、
bは、Pos又はNegのいずれかに属する境界ボックスであり、
classは、分類の特性の誤差に関連する損失であり、
fitは、境界ボックスの角の位置の誤差に関連する損失であり、
viewは、視点の特性の誤差に関連する損失であり、
inpianeは、面内回転の特性の誤差に関連する損失であり、
α、β及びεは、所定の係数であり、
Mは、回転仮説の数であり、
Iは、テンプレート画像であり、
pは、少なくとも一つのオブジェクトの真の回転であり、
θ (j)(I)は、回転仮説jを提供する関数であり、
θ(I)は、回転仮説fθ (j)(I)を提供する関数であり、
L(fθ (j)(I),p)は、既知の回転pに対するfθ(I)の損失関数である。
所定の係数を当業者によって決定してもよいことに留意されたい。
重みεは、全ての仮説の平均誤差に重みを付けるために用いられる。
また、正規化定数
Figure 2022508434000016
及び
Figure 2022508434000017
は、損失
Figure 2022508434000018
に対する(1-ε)の重み及び他の全ての仮説に分布するεの勾配降下を与えるように設計される。
Figure 2022508434000019
のとき
Figure 2022508434000020
である。
画像がニューラルネットワークに入力されるとき、検出されたオブジェクトについて、推定された回転を得るために更なる分類を行ってもよいことに留意されたい。
例えば、分類は、当業者に知られている任意の適切な方法又はクラスタリング方法を用いる外れ値の拒絶を備えてもよい。
例えば、四元数ベクトルの角距離をそれらの類似性を測定するために用いながら平均シフトアルゴリズムを四元数空間で仮説をクラスタリングするために用いてもよい。これによって、曖昧であるが接続された回転又は複数のI非接続回転(I unconnected rotation)で一つのクラスターが生成される。また、各クラスターについて、回転の中央値を計算してもよい。
検出されたオブジェクトと画像を取得した画像取得モジュールとの間の距離を少なくとも一つの境界ボックスの対角線の長さを用いて推定できることに留意されたい。
次に、このオブジェクトの6Dポーズを回転及び上記距離を用いて推定することができる。これは、所定の距離(例えば、0.5メートル)でのオブジェクトの基準6Dポーズを用いてもよく、6Dポーズを推測してもよい。
追加的に、二つの四元数の間の類似性を比較するために、角度
Figure 2022508434000021
の距離について三角法を用いない測定(trigonometric-free measure)を行うことができ、この場合、q及びq’は、二つの四元数である。
距離は、
Figure 2022508434000022
である。
曖昧さがあるか否かを判断するために四元数空間での仮説の分布を調べることもできる。このために、主成分分析(PCA)を四元数仮説で実行することができる。データ行列(仮説)の特異値分解は、曖昧さの情報を提供する。
例えば、優勢な特異値
Figure 2022508434000023
について分散
Figure 2022508434000024
(しきい値を定義してもよい)である場合、オブジェクトの対称性に起因する回転の予測に曖昧さがある。小さい特異値は、単一の解への収束という結論をもたらす。
図1を参照して説明した方法のステップは、コンピュータの命令によって決定することができる。これらの命令を、図2に示すように、システムのプロセッサで実行することができる。
この図において、システム10を表す。このシステムは、プロセッサ11と、画像を取得するように構成された取得モジュール12と、メモリ13と、を備える。
メモリ13を、不揮発性メモリでとすることができ、それは、図1を参照して説明した方法を実行するためにプロセッサ11によって実行することができる命令(又はコンピュータプログラム)INSTのセットを備える。命令INSTのセットは、
複数の特徴マップを取得し、各特徴マップは、それぞれの解像度及びそれぞれの深さを有する命令14と、
各特徴マップについて、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するために各特徴マップで分類を行う命令15と、
を備える。
命令INSTは、図1を参照して説明したニューラルネットワークを形成してもよい。
図3は、ハンドルを有するカップを示す。カップの様々な投影を示す。ハンドルが閉塞されているとき、実線から撮影された画像は、カップの同一の画像を提供する。
点線から撮影された画像は、回転又は6Dポーズの決定に曖昧さがないカップの様々な画像を提供する。本発明は、そのような曖昧さがあるときを決定することができる。

Claims (13)

  1. 画像を処理する方法であって、
    (2)複数の特徴マップを取得し、各特徴マップは、それぞれの解像度及びそれぞれの深さを有し、
    (3)各特徴マップについて、
    前記画像に見られる少なくとも一つのオブジェクトのタイプと、
    前記少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
    前記少なくとも一つのオブジェクトの複数の回転仮説と、
    を提供するために各特徴マップで分類を行うように構成されたニューラルネットワークに画像を入力することを備える、方法。
  2. 推定した回転を取得するために複数の回転仮説の分類を行うことを更に備える、請求項1に記載の方法。
  3. 前記複数の回転仮説の分類は、外れ値の拒絶又はクラスタリングを備える、請求項2に記載の方法。
  4. 前記オブジェクトと前記画像を取得した画像取得モジュールの間の距離を、少なくとも一つの境界ボックスの対角線の長さを用いて決定する、請求項1から3のいずれか一項に記載の方法。
  5. 前記少なくとも一つのオブジェクトの6Dポーズを推定するために前記推定した回転及び前記距離を用いることを備える、請求項2又は3及び4に記載の方法。
  6. 回転をそれぞれ四元数として表す、請求項1から5のいずれか一項に記載の方法。
  7. 回転が曖昧さを示すか否かを判断するために前記回転仮説の主成分分析を実行することを更に備える、請求項1から6のいずれか一項に記載の方法。
  8. ニューラルネットワークの予備トレーニングを備え、前記予備トレーニングは、少なくとも一つの3次元テンプレートオブジェクトが前記ニューラルネットワークにレンダリングされたテンプレート画像を入力することを備える、請求項1から7のいずれか一項に記載の方法。
  9. 前記予備トレーニングは、
    前記ニューラルネットワークを用いて、
    前記画像に見られる少なくとも一つのオブジェクトのタイプと、
    前記少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
    前記少なくとも一つのオブジェクトの複数の回転仮説と、
    を取得することと、

    Figure 2022508434000025

    のLを最小にし、この場合、
    Figure 2022508434000026
    であり、
    Iは、前記テンプレート画像であり、
    Posは、テンプレートオブジェクトの領域の予め決定された部分を包囲する領域を有する境界ボックスを表し、
    Negは、前記テンプレートオブジェクトの領域の予め決定された部分を包囲しない領域を有する境界ボックスを表し、
    bは、Pos又はNegのいずれかに属する境界ボックスであり、
    classは、分類の特性の誤差に関連する損失であり、
    fitは、境界ボックスの角の位置の誤差に関連する損失であり、
    viewは、視点の特性の誤差に関連する損失であり、
    inpianeは、面内回転の特性の誤差に関連する損失であり、
    α、β及びεは、所定の係数であり、
    Mは、回転仮説の数であり、
    Iは、前記テンプレート画像であり、
    pは、少なくとも一つのオブジェクトの真の回転であり、
    θ (j)(I)は、回転仮説jを提供する関数であり、
    θ(I)は、回転仮説fθ (j)(I)を提供する関数であり、
    L(fθ (j)(I),p)は、既知の回転pに対するfθ(I)の損失関数である、請求項8に記載の方法。
  10. トレーニング中に、ニューラルネットワークが、
    Figure 2022508434000027
    として決定される回転仮説θ*を用いて更新され、piは、前記少なくとも一つのオブジェクトに対して同様の画像を有する画像Iiに関連するN回転である、請求項9に記載の方法。
  11. 画像を処理するシステムであって、画像を入力することができるニューラルネットワーク(INST、14、15)を備え、前記ニューラルネットワークは、
    複数の特徴マップを取得し、各特徴マップは、それぞれの解像度及びそれぞれの深さを有し、
    各特徴マップについて、
    前記画像に見られる少なくとも一つのオブジェクトのタイプと、
    前記少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
    前記少なくとも一つのオブジェクトの複数の回転仮説と、
    を提供するために各特徴マップで分類を行うように構成された、システム。
  12. コンピュータによって実行されるときに、請求項1から10のいずれか一項に記載の方法のステップを実行する命令を有するコンピュータプログラム。
  13. コンピュータによって読取り可能であり、請求項1から10のいずれか一項に記載の方法のステップを実行する命令を有するコンピュータプログラムを記録した記録媒体。
JP2021537476A 2018-09-07 2018-09-07 回転仮説を決定することによって画像を処理する方法及びシステム Active JP7234378B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2018/074215 WO2020048620A1 (en) 2018-09-07 2018-09-07 Method and system for processing an image by determining rotation hypotheses

Publications (2)

Publication Number Publication Date
JP2022508434A true JP2022508434A (ja) 2022-01-19
JP7234378B2 JP7234378B2 (ja) 2023-03-07

Family

ID=63557459

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021537476A Active JP7234378B2 (ja) 2018-09-07 2018-09-07 回転仮説を決定することによって画像を処理する方法及びシステム

Country Status (3)

Country Link
US (1) US12056942B2 (ja)
JP (1) JP7234378B2 (ja)
WO (1) WO2020048620A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020190781A1 (en) * 2019-03-16 2020-09-24 Nvidia Corporation Leveraging multidimensional sensor data for computationally efficient object detection

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212329A (ja) * 1995-02-06 1996-08-20 Fujitsu Ltd 適応的認識システム
US20080298672A1 (en) * 2007-05-29 2008-12-04 Cognex Corporation System and method for locating a three-dimensional object using machine vision
WO2018065073A1 (en) * 2016-10-07 2018-04-12 Toyota Motor Europe Electronic device, system and method for recognizing and locating an object
JP2020537790A (ja) * 2017-10-20 2020-12-24 トヨタ モーター ヨーロッパ 画像処理およびオブジェクトの視点決定の方法ならびにシステム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7680300B2 (en) * 2004-06-01 2010-03-16 Energid Technologies Visual object recognition and tracking
US9730643B2 (en) * 2013-10-17 2017-08-15 Siemens Healthcare Gmbh Method and system for anatomical object detection using marginal space deep neural networks
US10346723B2 (en) * 2016-11-01 2019-07-09 Snap Inc. Neural network for object detection in images
KR102696652B1 (ko) * 2017-01-26 2024-08-21 삼성전자주식회사 스테레오 매칭 방법 및 영상 처리 장치
WO2018165753A1 (en) * 2017-03-14 2018-09-20 University Of Manitoba Structure defect detection using machine learning algorithms
US10360732B2 (en) * 2017-03-23 2019-07-23 Intel Corporation Method and system of determining object positions for image processing using wireless network angle of transmission
US10380413B2 (en) * 2017-07-13 2019-08-13 Robert Bosch Gmbh System and method for pose-invariant face alignment
US10445402B1 (en) * 2017-09-29 2019-10-15 Ambarella, Inc. Fast and energy-efficient region of interest pooling for object detection with convolutional neural network
US10223610B1 (en) * 2017-10-15 2019-03-05 International Business Machines Corporation System and method for detection and classification of findings in images
US11004209B2 (en) * 2017-10-26 2021-05-11 Qualcomm Incorporated Methods and systems for applying complex object detection in a video analytics system
US10769411B2 (en) * 2017-11-15 2020-09-08 Qualcomm Technologies, Inc. Pose estimation and model retrieval for objects in images
US11030442B1 (en) * 2017-12-13 2021-06-08 Amazon Technologies, Inc. Associating events with actors based on digital imagery
US11087130B2 (en) * 2017-12-29 2021-08-10 RetailNext, Inc. Simultaneous object localization and attribute classification using multitask deep neural networks
US10977827B2 (en) * 2018-03-27 2021-04-13 J. William Mauchly Multiview estimation of 6D pose
US11455723B2 (en) * 2018-06-14 2022-09-27 Kheiron Medical Technologies Ltd Second reader suggestion

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212329A (ja) * 1995-02-06 1996-08-20 Fujitsu Ltd 適応的認識システム
US20080298672A1 (en) * 2007-05-29 2008-12-04 Cognex Corporation System and method for locating a three-dimensional object using machine vision
WO2018065073A1 (en) * 2016-10-07 2018-04-12 Toyota Motor Europe Electronic device, system and method for recognizing and locating an object
JP2020537790A (ja) * 2017-10-20 2020-12-24 トヨタ モーター ヨーロッパ 画像処理およびオブジェクトの視点決定の方法ならびにシステム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FABIAN MANHARDT ET AL.: "Explaining the Ambiguity of ObjectDetection and 6D Pose From Visual Data", [ONLINE], JPN6022042763, 2019, ISSN: 0004893857 *
PATRICK POIRSON ET AL.: "Fast Single Shot Detection and PoseEstimation", [ONLINE], JPN6022042764, 2016, ISSN: 0004893858 *
WADIM KEHL ET AL.: "SSD-6D:Making RGB-Based 3D Detection and 6D Pose Estimation Great Again", [ONLINE], JPN6022042762, 2017, ISSN: 0004893856 *

Also Published As

Publication number Publication date
WO2020048620A1 (en) 2020-03-12
US20220050997A1 (en) 2022-02-17
US12056942B2 (en) 2024-08-06
JP7234378B2 (ja) 2023-03-07

Similar Documents

Publication Publication Date Title
Park et al. Pix2pose: Pixel-wise coordinate regression of objects for 6d pose estimation
JP6681729B2 (ja) オブジェクトの3d姿勢およびオブジェクトのランドマーク点の3dロケーションを求める方法、およびオブジェクトの3d姿勢およびオブジェクトのランドマークの3dロケーションを求めるシステム
JP7040278B2 (ja) 顔認識のための画像処理装置の訓練方法及び訓練装置
JP3735344B2 (ja) キャリブレーション装置、キャリブレーション方法、及びキャリブレーション用プログラム
JP6415066B2 (ja) 情報処理装置、情報処理方法、位置姿勢推定装置、ロボットシステム
JP5430456B2 (ja) 幾何特徴抽出装置、幾何特徴抽出方法、及びプログラム、三次元計測装置、物体認識装置
CN112991413A (zh) 自监督深度估测方法和系统
US20210312655A1 (en) 3d pose estimation by a 2d camera
JP2016091108A (ja) 人体部位検出システムおよび人体部位検出方法
CN108447094B (zh) 一种单目彩色相机的姿态估算方法及系统
US11554496B2 (en) Feature detection by deep learning and vector field estimation
JP6817742B2 (ja) 情報処理装置およびその制御方法
JP2022047508A (ja) 複数の透明対象物の三次元検出
Winkelbauer et al. Learning to localize in new environments from synthetic training data
JP5976089B2 (ja) 位置姿勢計測装置、位置姿勢計測方法、およびプログラム
US11189053B2 (en) Information processing apparatus, method of controlling information processing apparatus, and non-transitory computer-readable storage medium
JP7060686B2 (ja) 画像処理およびオブジェクトの視点決定の方法ならびにシステム
US20160282875A1 (en) Moving object controller, landmark, and moving object control method
JP2021163502A (ja) 複数の2次元カメラによる3次元の姿勢推定
JP7234378B2 (ja) 回転仮説を決定することによって画像を処理する方法及びシステム
Liu et al. Robust 3-d object recognition via view-specific constraint
CN111915632A (zh) 一种基于机器学习的贫纹理目标物体真值数据库构建方法
JP2019105588A (ja) 情報処理装置、システム、情報処理方法及びプログラム
CN117953059B (zh) 一种基于rgb-d图像的方形吊装物姿态估计方法
Wietrzykowski et al. A probabilistic framework for global localization with segmented planes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210906

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230222

R150 Certificate of patent or registration of utility model

Ref document number: 7234378

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150