JP7060686B2 - 画像処理およびオブジェクトの視点決定の方法ならびにシステム - Google Patents

画像処理およびオブジェクトの視点決定の方法ならびにシステム Download PDF

Info

Publication number
JP7060686B2
JP7060686B2 JP2020521926A JP2020521926A JP7060686B2 JP 7060686 B2 JP7060686 B2 JP 7060686B2 JP 2020521926 A JP2020521926 A JP 2020521926A JP 2020521926 A JP2020521926 A JP 2020521926A JP 7060686 B2 JP7060686 B2 JP 7060686B2
Authority
JP
Japan
Prior art keywords
image
template
bounding box
neural network
viewpoint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020521926A
Other languages
English (en)
Other versions
JP2020537790A (ja
Inventor
マイアー スベン
訓成 小堀
ケール バディム
マンハルト ファビアン
トンバリ フェデリコ
Original Assignee
トヨタ モーター ヨーロッパ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by トヨタ モーター ヨーロッパ filed Critical トヨタ モーター ヨーロッパ
Publication of JP2020537790A publication Critical patent/JP2020537790A/ja
Application granted granted Critical
Publication of JP7060686B2 publication Critical patent/JP7060686B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/536Depth or shape recovery from perspective effects, e.g. by using vanishing points
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Description

本開示は画像処理の分野に関し、より正確には、画像上の3次元オブジェクトの検出に関する。
カメラで取得した画像上の三次元オブジェクトを検出することが提案されている。
典型的には、画像上で見えるオブジェクトの6Dポーズを得ることも望ましい。「6Dポーズ」は、オブジェクトの3次元位置と3次元方向との組み合わせを指定する、当業者に周知の表現である。
オブジェクトを検出するための既知の方法は、満足のいくものではない。例えば、既知の方法は、深度情報を使用する(例えば、「RGB-D」または「RGB-深度」として当業者に知られている画像を使用する)ことを必要とし得る。
既知の方法では、ジオメトリやテクスチャが難しいオブジェクトや小さなオブジェクトなど、特定のオブジェクトの検出に失敗することもある。
いくつかの方法は、視点(オブジェクトが画像上で見られる角度)または6Dポーズに関する非常に粗い情報を提供する。たとえば、一部のメソッドは、オブジェクトが側面または下から見えることのみを示している。
したがって、画像を処理し、特にオブジェクトおよびその視点を検出するための改善された方法が必要とされている。従来技術から、以下の文献が知られている。
・ A.Mousavian、D.Anguelov、J.Flynn、および、J.Kosecka、「ディープ・ラーニングと幾何学を用いた3Dバウンディング・ボックス推定(3D Bounding Box Estimation Using Deep Learning and Geometry)」arXiv:1612.00496、2016、
・ P.Poirson、P.Ammirato,C.-Y.Fu、W.Liu、J.Kosecka、およびA.C.Berg、「高速シングルショット検出と姿勢推定(Fast Single Shot Detection and Pose Estimation)」、3DV、2016、
・ W.Liu、D.Anguelov、D.Erhan、C.Szegedy、S.Reed、C.-y.Fu、および、A.C.Berg、「SSD:シングルショット・マルチボックス検出器(SSD:Single Shot MultiBox Detector)」、ECCV、2016。
本開示は、画像を処理するための方法を提案することによって、従来技術の1つ以上の欠点を克服する。この方法は、以下のように構成されたニューラル・ネットワークに画像を入力することを含む。各特徴マップがそれぞれの解像度およびそれぞれの深度を有する複数の特徴マップを取得し、各特徴マップに対して配信するために各特徴マップに対して以下の分類を実行する。
・ 画像上で見える少なくとも1つのオブジェクト(1つ以上のオブジェクト)のタイプ、
・ 少なくとも1つのオブジェクトを囲む少なくとも1つの2次元バウンディング・ボックスの画像内の位置および形状、
・ 少なくとも1つのオブジェクトの少なくとも1つの可能な視点、
・ 少なくとも1つのオブジェクトの少なくとも1つの可能な面内回転。
一例として、画像は、当業者に知られているRGB(赤-緑-青)画像などのカラー画像とすることができる。
特徴マップはベクトルの行列であり、表現解像度は行列の解像度に向けられ、深度は行列のベクトルの深度に関係する。
本願で使用される「ニューラル・ネットワーク」という表現は、複数の既知のネットワークの組み合わせを包含することができる。例えば、複数の特徴マップを取得するステップは、第1のサブネットワークを使用して実行することができる。当業者は、それぞれの解像度およびそれぞれの深度を有する特徴マップを得るために、どのサブネットワークを使用すべきかを知っている。
分類を実行するステップは、また、第2のサブネットワークによって実行することができる。当業者は、各特徴マップ、
・ 画像上で見える少なくとも1つのオブジェクトのタイプ、
・ 少なくとも1つのオブジェクトを囲む少なくとも1つの2次元バウンディング・ボックスの画像内の位置および形状、
・ 少なくとも1つのオブジェクトの少なくとも1つの可能な視点、
・ 少なくとも1つのオブジェクトの少なくとも1つの可能な面内回転
について、どのサブネットワークを使用して配信するかを知っている。
当業者は、バウンディング・ボックスがオブジェクトを囲む座標を有する仮想矩形であることを知っていることに留意する。複数のオブジェクトが決定された場合、各オブジェクトは少なくとも1つのバウンディング・ボックスに関連付けられる。バウンディング・ボックスは複数の所定のバウンディング・ボックスの中から選択することができ、分類ステップは最良のバウンディング・ボックス(すなわち、オブジェクトに最も近いバウンディング・ボックス)を決定するように構成される。
オブジェクトのタイプは、検出され得るオブジェクトの所定のセットの中から選択される。
視点は画像上でオブジェクトが見える角度であり、例えば、基準角度(reference angle)から測定される。
面内回転は、画像を取得するために使用される画像取得モジュールまたはカメラの光軸の周りの回転である。
例として、ニューラル・ネットワークは、画像上で見えるオブジェクトにそれぞれ関連付けられた情報の1つ以上の群を出力することができ、各群は、オブジェクトのタイプ、オブジェクトを囲むバウンディング・ボックスの位置および形状、視点、および面内回転を含む。
いくつかのオブジェクトが画像上で見える場合、ニューラル・ネットワークは、上記で定義したような情報の少なくとも2つのグループを出力することができる。
また、ニューラル・ネットワークは、例えば、視点に関連する2つの群の間の差を用いて、同じオブジェクトについて2つ以上の群の情報を出力してもよい。
前記ニューラル・ネットワークを使用することにより、超並列シングルパスネットワークを使用することが可能になり、計算速度が大幅に向上し(前記方法は、約10Hz、すなわち毎秒10画像で動作することが観察されている)、良好な精度を得ることが可能になることに留意する。
さらに、可能な視点を提供する分類を実行することによって、所定の視点のセットにおける視点を選択することが可能である。これにより、ネットワークが視野角を予測する精度を向上させることができる。例えば、視野角は、5度以下のオーダーの精度で決定することができる。
実施形態によれば、画像はカラー画像(例えば、RGB画像)、または色と深度画像(例えば、RGB-D画像)である。
深度の使用は、本方法の精度を改善することに留意する。
一実施形態によれば、分類は、核パーセプトロンの手段によって実行される。
一実施形態によれば、3つ以上の特徴マップが取得されるか、または6つの特徴マップが取得され、特徴マップはそれぞれ異なる解像度を有する。
本発明の発明者らは、6つの特徴マップで良好な結果が得られることを観察した。様々な解像度(および特徴マップの少なくともいくつかの深度)を使用することにより、画像上で見えるオブジェクトの異なるスケールに対処することが可能になる。
一実施形態によれば、本方法は、少なくとも1つのオブジェクトについての少なくとも1つの可能な視点と、少なくとも1つのオブジェクトについての少なくとも1つの可能な面内回転とを使用して、少なくとも1つのオブジェクトの6Dポーズを取得することをさらに含む。
ニューラル・ネットワークの出力を解析して、少なくとも1つのオブジェクトの6Dポーズを得ることが可能であることが観察されている。最も注目すべきは、視点および面内回転を得ることにより、6Dポーズを得ることができることである。
例として、平行移動行列(translation matrix)と回転行列(rotation matrix)の形で6Dポーズを得るように、視点上と面内回転上で分類を行うことができる。
一実施形態によれば、6Dポーズを取得することは、色ベースのアプローチ、輪郭ベースのアプローチ、または深度ベースのアプローチを使用して6Dポーズを精緻化することをさらに含む。
例えば、深度ベースのアプローチは、ICP(Iterative Closest Point)法を使用することができる。
RGB画像が使用される場合、オブジェクトをレンダリングして、画像上に最初に存在するオブジェクトとの位置合わせを検証することができる。
一実施形態によれば、本方法はニューラル・ネットワークの予備訓練をさらに含み、前記予備訓練は、少なくとも1つの3次元テンプレート・オブジェクトがニューラル・ネットワークにレンダリングされたテンプレート画像を入力することを含む。
3次元テンプレート・オブジェクト手段をレンダリングし、このテンプレート・オブジェクトの投射が選択された角度で見える画像を作成する。
好適には、この方法が、テンプレート・オブジェクトとして使用されたオブジェクトを含む画像に使用される。
前記レンダリングを使用することによって、対称オブジェクトにより良く対処することができ、対称性から生じる視点の混乱を排除することができる。
一実施形態によれば、前記予備訓練は、前記ニューラル・ネットワークを使用して、
・ テンプレート画像上で見える少なくとも1つのテンプレート・オブジェクトのタイプ、
・ 少なくとも1つのオブジェクトを囲む少なくとも1つの2次元バウンディング・ボックスのテンプレート画像内の位置および形状、
・ 少なくとも1つのテンプレート・オブジェクトの少なくとも1つの可能な視点、
・ 少なくとも1つのテンプレート・オブジェクトの少なくとも1つの可能な面内回転、および、式
Figure 0007060686000001
におけるLを最小化することを取得するステップをさらに含む。ここで、
osは、テンプレート・オブジェクトの領域の予め定義された部分を囲む領域を有するバウンディング・ボックスを表し、
egテンプレート・オブジェクトの領域の予め定義された部分を囲まない領域を有するバウンディング・ボックスを表し、
bは、PosまたはNegのいずれかに属するバウンディング・ボックスであり、
classは、クラスの属性におけるエラーに関連する損失であり、
fitは、バウンディング・ボックスのコーナーの位置のエラーに関連する損失であり、
viewは、視点の属性におけるエラーに関連する損失であり、
inplaneは、面内回転の属性におけるエラーに関連する損失であり、
α、β、およびγは、所定の係数である。
例として、Lclass、Lview、および、Linplaneは、当業者に知られている方法でソフトマック・スクロスエントロピー損失(softmax cross-entropy loss)によって得ることができる。
また、例として、Lfitは、当業者に公知の方法で、滑らかなL1回帰によって得ることができる。
L(Pos,Neg)は、ニューラル・ネットワークの訓練中に最小化されるべきエネルギーを表すために、当業者によって考慮される損失関数である。あるいは、L(Pos,Neg)は、ニューラル・ネットワークの訓練中に最小化されるべき目的関数であると考えられる。
α、β、およびγは、ニューラル・ネットワークの訓練中の各損失に起因する重要性に応じて選択することができる。
一実施形態によれば、可能な視点は、視点の所定のセットの中から選択され、テンプレート・オブジェクトが対称である場合、所定の視点の組の視点は、すべて、テンプレート・オブジェクトを中心とする球の円弧上に配置され、テンプレート・オブジェクトが半対称である場合、所定の視点の組の視点は、すべて、テンプレート・オブジェクトを中心とする球の1つの半球上に配置される。
これにより、対称または半対称のオブジェクトを検出するニューラル・ネットワークの能力を向上させることができる。
対称オブジェクトは、本出願では、ボトルのような軸対称性を呈するオブジェクト、または円筒形オブジェクト(これらのオブジェクトの場合、対称軸はオブジェクトの中心を通る)であることに留意する。
また、本願において、半対称オブジェクトとは左右対称と呼ばれることがある平面対称性を示すオブジェクトである(バグやスプーンはこの範畴に入るが、これらのオブジェクトについてはオブジェクトの中心軸を通る対称面が存在する)。
一実施形態によれば、ニューラル・ネットワークは、画像上で見えるオブジェクトにそれぞれ関連付けられた情報の1つ以上の群を出力し、各群は、オブジェクトのタイプ、オブジェクトを囲むバウンディング・ボックスの位置および形状、視点、ならびに面内回転を含む。そして、この方法は、ニューラル・ネットワークによって出力された各グループのスコア(例えば、スカラー値)を精緻化するステップと、各スコアの所定の閾値を比較するステップと、前記閾値を超えるスコアを有するグループのみを保持するステップとをさらに含む。
このスコアは、情報のグループの正確さを示すように取得することができる。スコアを計算するために使用される式は、較正ステップ中に当業者によって選択され得る。
さらに、前記所定の閾値は、較正ステップ中に設定され得る。
一実施形態によれば、本方法は、ニューラル・ネットワークによって出力された2つの情報グループの2つのバウンディング・ボックスがエリア閾値を超えてオーバラップする場合に、最も高いスコアを有する情報グループが保持される非最大抑制を含む。
この面積閾値は、2つのバウンディング・ボックスの各々の面積のパーセンテージとして決定することができる。パーセンテージは50%であり得る。例えば、バウンディング・ボックスが他のバウンディング・ボックスの面積の50%に重なっている場合、条件が検証される。
この実施形態は、最良の精度を有する情報のグループを維持することを可能にする。
一実施形態によれば、オブジェクトと画像を取得した画像取得モジュールとの間の距離は、少なくとも1つのバウンディング・ボックスの対角長を使用して決定される。
第2の態様によれば、本発明はまた、画像を処理するためのシステムを提案し、このシステムは画像を入力することができるニューラル・ネットワークを備え、ニューラル・ネットワークは複数の特徴マップを取得するように構成され、各特徴マップはそれぞれの解像度およびそれぞれの深度を有し、各特徴マップに対して分類を実行して、各特徴マップ、すなわち、
・ 画像上で見える少なくとも1つのオブジェクトのタイプ、
・ 少なくとも1つのオブジェクトを囲む少なくとも1つの2次元バウンディング・ボックスの画像内の位置および形状、
・ 少なくとも1つのオブジェクトの少なくとも1つの可能な視点、
・ 少なくとも1つのオブジェクトの少なくとも1つの可能な面内回転
について配信する。
このシステムは、上述した画像処理方法の全ての実施形態を実行するように構成することができる。
特定の一実施形態では、画像を処理する方法のステップが、コンピュータプログラム命令によって決定される。
したがって、本発明は、このプログラムがコンピュータによって実行されるとき、上述の方法のステップを実行するためのコンピュータプログラムにも向けられる。
このプログラムは任意のプログラミング言語を使用することができ、ソースコード、オブジェクトコード、またはソースコードとオブジェクトコードとの間の中間のコード、例えば部分的にコンパイルされた形式、または他の任意の望ましい形式をとることができる。
本発明は、上述したコンピュータプログラムの命令を含むコンピュータ可読情報媒体にも向けられる。
情報媒体は、プログラムを格納することが可能な任意のエンティティまたは装置とすることができる。例えば、媒体は、ROM、例えばCD ROMまたはマイクロエレクトロニックサーキットROMのような格納手段、または磁気格納装置、例えばディスケット(フロッピー(登録商標)ディスク)またはハードディスクを含むことができる。
あるいは、この情報媒体は、プログラムが組み込まれた集積回路であり得、回路は当該方法を実行するように、またはその実行に使用されるように適合される。
以下、添付の図面を参照して、本開示をどのように実施することができるかを例として説明する。
図1は、一例による、画像を処理するための例示的な方法のブロック図である。 図2は、一例による、画像を処理するための例示的なシステムのブロック図である。 図3は、オブジェクトの可能なビューポイントのセットを示している。 図4は、ニューラル・ネットワークの訓練に使用される種々の画像を示している。
画像を処理するための例示的な方法およびシステムを以下に説明する。
画像を処理する方法は図1に示されており、以下に説明するように、この方法は、画像上で見えるオブジェクトの6Dポーズを決定することもできる。しかしながら、本発明は、画像上で見えるオブジェクトの6Dポーズの決定に限定されない。
図1では処理対象の画像をIMGとしたが、この例では画像の解像度が幅299画素、高さ299画素である。画像IMGはRGB画像であり、したがって、画像の各画素は、3つの値に関連付けられる。
画像IMGを処理するために、図1に示すニューラル・ネットワーク1にこの画像を入力し、さらにその画像IMGが深度情報を含む場合(例えば、RGB-D画像である場合)、ニューラル・ネットワーク1にはRGB値のみを入力することができ、その後の精緻化ステップ(refining step)ステップで深度情報を使用することができる。
ニューラル・ネットワーク1は複数の特徴マップを取得するように構成され、各特徴マップはそれぞれの解像度およびそれぞれの深度を有する。この目的のために、ニューラル・ネットワーク1は、6つの特徴マップを作成することができるサブネットワーク2を備える。6つの特徴マップはそれぞれ異なる解像度を持つ。
例えば、第1の特徴マップ4aは、71×71の解像度と384の深度を有する。第2の特徴マップ4bは、35×35の解像度と384の深度を有する。第3の特徴マップ4cは、17×17の解像度と1024の深度を有する。第4の特徴マップ4dは、9×9の解像度および1536の深度を有する。第5の特徴マップ4eは、解像度5×5、深度1024である。第6の特徴マップ4fは、解像度3×3であり、深度が1024である。
当業者は、いくつの特徴マップを使用すべきか、ならびにそれらの解像度および深度を選択することができる。例えば、較正ステップを実行して、アプリケーションの関数として、特徴マップの数、それらの解像度、およびそれらの深度を決定することができる。異なる解像度を使用することにより、様々なスケールを有するオブジェクトを検出することができる。
サブネットワーク2は、当業者には、インセプションV4(InceptionV4)として知られ、CSzegedy、SIoffe、およびVVanhoucke、「Inception-ResNet and Impact of Residual Connections」に記載されているネットワークであることが好ましい。
好適には、サブネットワーク2が前のステップで訓練される。
ニューラル・ネットワーク1は、各特徴マップに対して、配信する各特徴マップ、すなわち、
・ 画像上で見える少なくとも1つのオブジェクトのタイプ、
・ 少なくとも1つのオブジェクトを囲む少なくとも1つの2次元バウンディング・ボックスの画像内の位置および形状、
・ 少なくとも1つのオブジェクトの少なくとも1つの可能な視点、
・ 少なくとも1つのオブジェクトの少なくとも1つの可能な面内回転、
上で分類を実行するようにさらに構成される。
この目的のために、ニューラル・ネットワーク1はサブネットワーク2を含む。好適には、サブネットワーク2が分類器、例えば、カーネル・パーセプトロンである。
サブネットワーク2は、入力として6つの特徴マップ4a-4fを受信する。例えば、ws、hs、およびcsがそれぞれ、スケールsにおける幅、高さ、およびチャネル深度に対応する場合(sは、特徴マップ4sのしるしを示す)、各特徴マップ4sに対して、解像度として3倍、深度としてcsを有するカーネル・パーセプトロンを使用することができる。このカーネル・パーセプトロンは、特に、オブジェクトのタイプ、視点、および面内回転についてのスコアを提供する。
可能なバウンディング・ボックスの数Bは、また、異なる位置(好適には所定のアスペクト比および所定の位置)で異なるアスペクト比を提供することができる。
入力として4sを受け取ったカーネル・パーセプトロンの出力は、ws×hsの解像度と、B×(C+V+R+4)の深度とを有する特徴マップとすることができる。ここで、Cは可能なオブジェクトクラスの数であり、Vは可能な視点の数であり、Rは可能な面内回転の数である。
例として、21222個の可能なバウンディング・ボックスが、異なる形状およびサイズを有して使用されてもよい。
このようにして、6つの特徴マップ5a、5b、5c、5d、5e、および5fが、カーネル・パーセプトロンの出力として得られる。これらの特徴マップは、
・ 画像上、例えば各特徴マップ4s上で、で見える少なくとも1つのオブジェクトの種類、
・ この特徴マップ4s上の少なくとも1つのオブジェクトを囲む少なくとも1つの2次元バウンディング・ボックスの画像内の位置および形状、
・ この特徴マップ4s上の少なくとも1つのオブジェクトの少なくとも1つの可能な視点、
・ この特徴マップ4s上の少なくとも1つのオブジェクトの少なくとも1つの可能な面内回転、
を示すものとして解釈できる。
次に、非最大抑圧ステップ6が実行される。
次に、6つの注釈付き画像7a、7b、7c、7d、7e、7fが得られる。これらの画像から、バウンディング・ボックスが検出されたオブジェクトを囲み、オブジェクトのタイプ、オブジェクトの視点、および面内回転に関する情報が提供される。
これらの結果から、これらのオブジェクトのそれぞれの6Dポーズを推定することが可能である。
図1を参照して説明した方法のステップは、コンピュータ命令によって決定することができる。これらの命令は図2に示すように、システムのプロセッサで実行できる。
この図では、システム10が示されている。このシステムは、プロセッサ11と、画像を取得するように構成された取得モジュール12と、メモリ13とを備える。
メモリ13は、不揮発性メモリであり得、プロセッサ11によって実行され、図1を参照して説明した方法を実行することができる命令(またはコンピュータプログラム)INSTのセットを含む。INSTのセットは、各特徴マップがそれぞれの解像度およびそれぞれの深度を有する複数の特徴マップを取得するための命令14、各特徴マップ、すなわち、
・ 画像上で見える少なくとも1つのオブジェクトのタイプ、
・ 少なくとも1つのオブジェクトを囲む少なくとも1つの2次元バウンディング・ボックスの画像内の位置および形状、
・ 少なくとも1つのオブジェクトの少なくとも1つの可能な視点、
・ 少なくとも1つのオブジェクトの少なくとも1つの可能な面内回転、
に対して配信するために各特徴マップにおいて分類を実行するための命令15、を含む。
図3は、レンダリングされた3次元テンプレート・オブジェクトOBJを示す。このオブジェクトは、図1の方法のニューラル・ネットワークの訓練中に画像上にレンダリングすることができる。
可能な視点のセットも図3に示されている。
より正確には、可能な視点20がテンプレート・オブジェクトOBJを中心とする球の円弧上に配置される。これらの視点は、対称オブジェクトには十分である。
テンプレート・オブジェクトOBJを中心とする球体の半球上には、さらに視点22、21が配置されている。半対称オブジェクトの場合、視点20と21、または、20と22のどちらかのみを使用することが可能である。対称性のないオブジェクトについては、全ての視点20、21、22を使用することができる。
これは、従来技術の方法が使用されるときに視点の決定に混乱がある対称または半対称であるオブジェクトの視点の決定を容易にする。
実際、ニューラル・ネットワークの訓練中、ニューラル・ネットワークをより良く訓練するために、(半)対称オブジェクトに対しては、限られた一組の視点のみが使用される。
訓練後にニューラル・ネットワークを用いて画像を処理する場合、オブジェクトが検出されると、視点を決定するために、限られた視点の組のみが分類される。
図4は、図1を参照して開示された方法のニューラル・ネットワークを訓練するために使用される様々な画像を示し、これは、典型的には、本願方法のステップを実行する前に実行される(そして、予備訓練と称されてもよい)。
好適には、この訓練は、少なくとも1つの3次元テンプレート・オブジェクトがニューラル・ネットワークにレンダリングされたテンプレート画像を入力することを含む。例えば、図3を参照して説明したテンプレート・オブジェクトOBJは、画像でレンダリングすることができ、その画像は次に、得られたテンプレート画像の背景となる。
図4では4つのテンプレート画像が表現されており、各テンプレート画像ではいくつかのテンプレート・オブジェクトがレンダリングされている。
この例では、写真が背景として使用され、テンプレート・オブジェクトがこの背景上にレンダリングされてテンプレート画像が形成される。
背景として写真を使用することは、完全に合成された画像(例えば、コンピュータによって生成された画像)を使用するよりも良好な訓練結果をもたらすことが、本発明者らによって観察された。
本発明のニューラル・ネットワークによって検出されたオブジェクトは図上のバウンディング・ボックスによって囲まれ、例えば、これらは、ニューラル・ネットワークによって出力され、1組のバウンディング・ボックス内で選択されたすべてのバウンディング・ボックスである。より正確には、図に表されたバウンディング・ボックスは、テンプレート・オブジェクトの領域の所定の部分を囲む領域を有する。
レンダリングされたテンプレート・オブジェクトに関連するバウンディング・ボックスは、テンプレート・オブジェクトの領域の事前定義された一部を囲む領域を持つバウンディング・ボックスと、条件を検証しない残りのバウンディング・ボックスとの間でソートすることができる。
上記の条件は、当業者によって「合併に対する交差(intersection over union)」と呼ばれ、条件を検証するための閾値は、バウンディング・ボックスの面積の50%に設定することができる。
次に、訓練は、前記ニューラル・ネットワーク、テンプレート画像上で見える少なくとも1つのテンプレート・オブジェクトのタイプ、
・ 少なくとも1つのオブジェクトを囲む少なくとも1つの2次元バウンディング・ボックスのテンプレート画像内の位置および形状、
・ 少なくとも1つのテンプレート・オブジェクトの少なくとも1つの可能な視点、
・ 少なくとも1つのテンプレート・オブジェクトの少なくとも1つの可能な面内回転、および以下の式
Figure 0007060686000002
における最小化、
を用いて取得することをさらに含む。ここで、
osは、テンプレート・オブジェクトの領域の予め定義された部分を囲む領域を有するバウンディング・ボックスを表し、
egテンプレート・オブジェクトの領域の予め定義された部分を囲まない領域を有するバウンディング・ボックスを表し、
bは、PosまたはNegのいずれかに属するバウンディング・ボックスであり、
classは、クラスの属性におけるエラーに関連する損失であり、
fitは、バウンディング・ボックスのコーナーの位置のエラーに関連する損失であり、
viewは、視点の属性におけるエラーに関連する損失であり、
inplaneは面内回転の属性におけるエラーに関連する損失であり、
α、β、およびγは、所定の係数である。

Claims (13)

  1. 画像を処理する方法であって、
    該画像を、各特徴マップがそれぞれの解像度およびそれぞれの深度を有する複数の特徴マップ(4a,...,4f)を取得し(2)、
    各特徴マップについて配信するために、各特徴マップ、すなわち、画像上で見える少なくとも1つのオブジェクトのタイプ、前記少なくとも1つのオブジェクトを囲む少なくとも1つの2次元バウンディング・ボックスの画像内の位置および形状、前記少なくとも1つのオブジェクトの少なくとも1つの可能な視点、前記少なくとも1つのオブジェクトの少なくとも1つの可能な面内回転について分類を実行する(3)
    ように構成されたニューラル・ネットワークに入力する(1)ステップを含む方法であり、
    前記ニューラル・ネットワークの予備訓練をさらに含み、前記予備訓練は、少なくとも1つの3次元テンプレート・オブジェクトが前記ニューラル・ネットワークにレンダリングされたテンプレート画像を入力するステップを含み、
    前記予備訓練がさらに、
    前記ニューラル・ネットワークを用いて、前記テンプレート画像の上で見える少なくとも1つのテンプレート・オブジェクトのタイプ、前記少なくとも1つのオブジェクトを取り囲む少なくとも1つの2次元バウンディング・ボックスの前記テンプレート画像内の位置および形状、前記少なくとも1つのテンプレート・オブジェクトの少なくとも1つの可能な視点、前記少なくとも1つのテンプレート・オブジェクトの少なくとも1つの可能な面内回転、を取得するステップと、
    Figure 0007060686000003
    の式において最小化するステップであって、P os は、テンプレート・オブジェクトの領域の予め定義された部分を囲む領域を有するバウンディング・ボックスを表し、N eg テンプレート・オブジェクトの領域の予め定義された部分を囲まない領域を有するバウンディング・ボックスを表し、bは、P os またはN eg のいずれかに属するバウンディング・ボックスであり、L class は、クラスの属性におけるエラーに関連する損失であり、L fit は、バウンディング・ボックスのコーナーの位置のエラーに関連する損失であり、L view は、視点の属性におけるエラーに関連する損失であり、L inplane は、面内回転の属性におけるエラーに関連する損失であり、α、β、およびγは、所定の係数である、ステップと
    を含む、方法。
  2. 前記画像は、カラー画像、または、カラーおよび深度画像である、請求項1に記載の方法。
  3. 前記分類は、核パーセプトロン(3)の手段によって実行される、請求項1または2に記載の方法。
  4. 3つ以上の特徴マップが得られるか、または6つの特徴マップ(4a,...,4f)が得られ、該特徴マップの各々が異なる解像度を有する、請求項1ないし3のいずれか1項に記載の方法。
  5. 前記少なくとも1つのオブジェクトの前記少なくとも1つの可能な視点と、前記少なくとも1つのオブジェクトの前記少なくとも1つの可能な面内回転とを使用して、少なくとも1つのオブジェクの6Dポーズを取得するステップをさらに含む、請求項1ないし4のいずれか1項に記載の方法。
  6. 前記6Dポーズを取得するステップは、色ベースのアプローチ、輪郭ベースのアプローチ、または、深度ベースのアプローチを使用して、前記6Dポーズを精緻化するステップをさらに含む、請求項5に記載の方法。
  7. 前記可能な視点は、所定の視点の組の中から選択され、
    テンプレート・オブジェクトが対称の場合、所定の視点のセットの視点が、テンプレート・オブジェクトを中心とする球の弧にすべて配置され、
    テンプレート・オブジェクトが半対称の場合、所定の視点のセットの視点は、前記テンプレート・オブジェクトを中心とする球の1つの半球にすべて配置される、
    請求項1に記載の方法。
  8. 前記ニューラル・ネットワークは、前記画像上で見えるオブジェクトにそれぞれ関連付けられた情報の1つ以上の群を出力し、
    各群は、前記オブジェクトのタイプ、前記オブジェクトを囲むバウンディング・ボックスの位置および形状、前記視点、および前記面内回転を含み、
    前記方法は、
    前記ニューラル・ネットワークによって出力された各グループのスコア(例えば、スカラー値)を精緻化するステップと、
    各スコアの所定の閾値を比較するステップと、前記閾値を超えるスコアを有するグループのみを保持するステップと
    をさらに含む、請求項1ないしのいずれか1項に記載の方法。
  9. 前記ニューラル・ネットワークによって出力される情報の2つのグループの2つのバウンディング・ボックスΜ、エリア閾値を超えてオーバラップする場合、最も高いスコアを有する情報のグループが保持される非最大抑制を含む、請求項に記載の方法。
  10. 前記オブジェクトと前記画像を取得した画像取得モジュールとの間の距離は、前記少なくとも1つのバウンディング・ボックスの対角長を使用して決定される、請求項1ないしのいずれか1項に記載の方法。
  11. 画像を処理するためのシステムであって、
    該システムは、該画像が入力され得るニューラル・ネットワークを備え、
    該ニューラル・ネットワークは、複数の特徴マップを取得し、
    各特徴マップはそれぞれの解像度およびそれぞれの深度を有し、
    各特徴マップについて配信するために、各特徴マップ、すなわち、前記画像の上で見える少なくとも1つのオブジェクトのタイプ、前記少なくとも1つのオブジェクトを囲む少なくとも1つの2次元バウンディング・ボックスの画像内の位置および形状、前記少なくとも1つのオブジェクトの少なくとも1つの可能な視点、前記少なくとも1つのオブジェクトの少なくとも1つの可能な面内回転に対して分類を実行するように構成される、システムであり、
    該システムは、前記ニューラル・ネットワークの予備訓練を実行するようにさらに構成され、前記予備訓練は、少なくとも1つの3次元テンプレート・オブジェクトが前記ニューラル・ネットワークにレンダリングされたテンプレート画像を入力するステップを含み

    前記予備訓練がさらに、
    前記ニューラル・ネットワークを用いて、前記テンプレート画像の上で見える少なくとも1つのテンプレート・オブジェクトのタイプ、前記少なくとも1つのオブジェクトを取り囲む少なくとも1つの2次元バウンディング・ボックスの前記テンプレート画像内の位置および形状、前記少なくとも1つのテンプレート・オブジェクトの少なくとも1つの可能な視点、前記少なくとも1つのテンプレート・オブジェクトの少なくとも1つの可能な面内回転、を取得するステップと、
    Figure 0007060686000004
    の式において最小化するステップであって、P os は、テンプレート・オブジェクトの領域の予め定義された部分を囲む領域を有するバウンディング・ボックスを表し、N eg テンプレート・オブジェクトの領域の予め定義された部分を囲まない領域を有するバウンディング・ボックスを表し、bは、P os またはN eg のいずれかに属するバウンディング・ボックスであり、L class は、クラスの属性におけるエラーに関連する損失であり、L fit は、バウンディング・ボックスのコーナーの位置のエラーに関連する損失であり、L view は、視点の属性におけるエラーに関連する損失であり、L inplane は、面内回転の属性におけるエラーに関連する損失であり、α、β、およびγは、所定の係数である、ステップと
    を含む、
    システム。
  12. コンピュータプログラムがコンピュータによって実行されるときに、請求項1ないし10のいずれか1項に記載の方法のステップを実行するための命令を含むプログラム。
  13. 請求項1ないし10のいずれか1項に記載の方法のステップを実行するための命令を含むコンピュータプログラムを記録した、コンピュータによって読み取り可能な記録媒体。
JP2020521926A 2017-10-20 2017-10-20 画像処理およびオブジェクトの視点決定の方法ならびにシステム Active JP7060686B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2017/076883 WO2019076467A1 (en) 2017-10-20 2017-10-20 METHOD AND SYSTEM FOR PROCESSING IMAGE AND DETERMINING POINTS OF VIEW OF OBJECTS

Publications (2)

Publication Number Publication Date
JP2020537790A JP2020537790A (ja) 2020-12-24
JP7060686B2 true JP7060686B2 (ja) 2022-04-26

Family

ID=60320825

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020521926A Active JP7060686B2 (ja) 2017-10-20 2017-10-20 画像処理およびオブジェクトの視点決定の方法ならびにシステム

Country Status (5)

Country Link
US (1) US11335024B2 (ja)
EP (1) EP3698324B1 (ja)
JP (1) JP7060686B2 (ja)
CN (1) CN111247559B (ja)
WO (1) WO2019076467A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020048620A1 (en) * 2018-09-07 2020-03-12 Toyota Motor Europe Method and system for processing an image by determining rotation hypotheses
JP2021196951A (ja) * 2020-06-16 2021-12-27 キヤノン株式会社 画像処理装置、画像処理方法、プログラム、学習済みモデルの製造方法、および画像処理システム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005530278A (ja) 2002-06-20 2005-10-06 アイデンティクス・インコーポレーテッド ポーズ角度を推定するためのシステムおよび方法
JP2012141962A (ja) 2010-12-14 2012-07-26 Canon Inc 位置姿勢計測装置及び位置姿勢計測方法
JP2013134599A (ja) 2011-12-26 2013-07-08 Toshiba Corp 位置座標検出装置、位置座標検出方法および電子機器
JP2015072581A (ja) 2013-10-02 2015-04-16 キヤノン株式会社 情報処理方法、情報処理装置、およびコンピュータプログラム
JP2016066187A (ja) 2014-09-24 2016-04-28 Kddi株式会社 画像処理装置
JP2017142780A (ja) 2015-12-07 2017-08-17 ダッソー システムズDassault Systemes 二次元画像からの三次元モデル化オブジェクトの認識

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140092281A1 (en) * 2012-09-28 2014-04-03 Pelican Imaging Corporation Generating Images from Light Fields Utilizing Virtual Viewpoints
EP2933779A1 (en) * 2014-04-15 2015-10-21 Alcatel Lucent Capturing an environment with objects
US10574974B2 (en) * 2014-06-27 2020-02-25 A9.Com, Inc. 3-D model generation using multiple cameras
CN106688011B (zh) * 2014-09-10 2018-12-28 北京市商汤科技开发有限公司 用于多类别物体检测的方法和系统
GB201501510D0 (en) * 2015-01-29 2015-03-18 Apical Ltd System
KR102592076B1 (ko) * 2015-12-14 2023-10-19 삼성전자주식회사 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
US20180012411A1 (en) * 2016-07-11 2018-01-11 Gravity Jack, Inc. Augmented Reality Methods and Devices
CN106254854B (zh) * 2016-08-19 2018-12-25 深圳奥比中光科技有限公司 三维图像的获得方法、装置及系统
GB201616095D0 (en) * 2016-09-21 2016-11-02 Univ Oxford Innovation Ltd A neural network and method of using a neural network to detect objects in an environment
US10235771B2 (en) * 2016-11-11 2019-03-19 Qualcomm Incorporated Methods and systems of performing object pose estimation
US10360494B2 (en) * 2016-11-30 2019-07-23 Altumview Systems Inc. Convolutional neural network (CNN) system based on resolution-limited small-scale CNN modules
US10878583B2 (en) * 2016-12-02 2020-12-29 Google Llc Determining structure and motion in images using neural networks
US10198655B2 (en) * 2017-01-24 2019-02-05 Ford Global Technologies, Llc Object detection using recurrent neural network and concatenated feature map
US10373369B2 (en) * 2017-03-16 2019-08-06 Qualcomm Technologies, Inc. Three-dimensional pose estimation of symmetrical objects
US20180295375A1 (en) * 2017-04-05 2018-10-11 Lyrical Labs Video Compression Technology, LLC Video processing and encoding
US10803616B1 (en) * 2017-04-13 2020-10-13 Facebook Technologies, Llc Hand calibration using single depth camera
US20180349746A1 (en) * 2017-05-31 2018-12-06 Uber Technologies, Inc. Top-View Lidar-Based Object Detection
WO2019041360A1 (zh) * 2017-09-04 2019-03-07 华为技术有限公司 行人属性识别与定位方法以及卷积神经网络系统
US10445402B1 (en) * 2017-09-29 2019-10-15 Ambarella, Inc. Fast and energy-efficient region of interest pooling for object detection with convolutional neural network
EP3695347A4 (en) * 2017-10-10 2022-04-20 Nokia Technologies Oy METHOD, SYSTEM AND DEVICE FOR PATTERN RECOGNITION
US10223610B1 (en) * 2017-10-15 2019-03-05 International Business Machines Corporation System and method for detection and classification of findings in images

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005530278A (ja) 2002-06-20 2005-10-06 アイデンティクス・インコーポレーテッド ポーズ角度を推定するためのシステムおよび方法
JP2012141962A (ja) 2010-12-14 2012-07-26 Canon Inc 位置姿勢計測装置及び位置姿勢計測方法
JP2013134599A (ja) 2011-12-26 2013-07-08 Toshiba Corp 位置座標検出装置、位置座標検出方法および電子機器
JP2015072581A (ja) 2013-10-02 2015-04-16 キヤノン株式会社 情報処理方法、情報処理装置、およびコンピュータプログラム
JP2016066187A (ja) 2014-09-24 2016-04-28 Kddi株式会社 画像処理装置
JP2017142780A (ja) 2015-12-07 2017-08-17 ダッソー システムズDassault Systemes 二次元画像からの三次元モデル化オブジェクトの認識

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Patrick Poirson, et al,Fast Single Shot Detection and Pose Estimation,2016 Fourth Unternational Conference on 3D Vision,米国,IEEE,2016年,676-684
Yu Xiang, et al,ObjectNet3D: A Large Scale Database for 3D Object Recognition,Network and Paralllel Computing,米国,Springer International Publishing,2016年

Also Published As

Publication number Publication date
EP3698324A1 (en) 2020-08-26
US11335024B2 (en) 2022-05-17
WO2019076467A1 (en) 2019-04-25
CN111247559A (zh) 2020-06-05
CN111247559B (zh) 2023-10-31
JP2020537790A (ja) 2020-12-24
EP3698324B1 (en) 2022-09-21
US20210374988A1 (en) 2021-12-02

Similar Documents

Publication Publication Date Title
Park et al. Pix2pose: Pixel-wise coordinate regression of objects for 6d pose estimation
US20190019014A1 (en) System and method for pose-invariant face alignment
EP3340185B1 (en) Fast rendering of quadrics and marking of silhouettes thereof
EP3340184A1 (en) Fast rendering of quadrics
CN110832542B (zh) 识别处理设备、识别处理方法和程序
CN109426835A (zh) 信息处理装置、信息处理装置的控制方法和存储介质
JP6911123B2 (ja) 学習装置、認識装置、学習方法、認識方法及びプログラム
KR101992044B1 (ko) 정보 처리 장치, 방법, 및 컴퓨터 프로그램
CN114511778A (zh) 图像处理方法及装置
EP3300025A1 (en) Image processing device and image processing method
JP2018152055A (ja) ビジョンシステムにおいてカラー画像と対照してカラーの候補ポーズをスコアリングするためのシステム及び方法
JP4207883B2 (ja) 視線誘導度算出システム
JP2020119127A (ja) 学習用データ生成方法、プログラム、学習用データ生成装置、および、推論処理方法
JP7060686B2 (ja) 画像処理およびオブジェクトの視点決定の方法ならびにシステム
CN114627173A (zh) 通过差分神经渲染进行对象检测的数据增强
US11189053B2 (en) Information processing apparatus, method of controlling information processing apparatus, and non-transitory computer-readable storage medium
EP3881287A1 (en) Methods and systems for evaluating the size of a garment
Deepu et al. 3D Reconstruction from Single 2D Image
KR102587298B1 (ko) 멀티뷰 어안 렌즈들을 이용한 실시간 전방위 스테레오 매칭 방법 및 그 시스템
JP6822086B2 (ja) シミュレーション装置、シミュレーション方法およびシミュレーションプログラム
JP7234378B2 (ja) 回転仮説を決定することによって画像を処理する方法及びシステム
US9563816B2 (en) Information processing apparatus, method for controlling information processing apparatus, and storage medium
JP5719277B2 (ja) 物体座標系変換行列推定成否判定装置および物体座標系変換行列推定成否判定方法ならびにそのプログラム
Guo et al. Probabilistic Inference for Camera Calibration in Light Microscopy under Circular Motion

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200617

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200617

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210907

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20211206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220414

R150 Certificate of patent or registration of utility model

Ref document number: 7060686

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350