JP2022508434A

JP2022508434A - 回転仮説を決定することによって画像を処理する方法及びシステム

Info

Publication number: JP2022508434A
Application number: JP2021537476A
Authority: JP
Inventors: マイアースベン; 訓成小堀; マンハルトファビアン; マルティンアロヨディエゴ; トンバリフェデリコ; ルプレヒトクリスティアン
Original assignee: トヨタモーターヨーロッパ; テクニカルユニバーシティオブミュンヘン
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2022-01-19
Anticipated expiration: 2038-09-07
Also published as: WO2020048620A1; US20220050997A1; US12056942B2; JP7234378B2

Abstract

画像を処理するシステム及び方法であって、（２）複数の特徴マップを取得し、各特徴マップは、それぞれの解像度及びそれぞれの深さを有し、（３）各特徴マップについて、画像に見られる少なくとも一つのオブジェクトのタイプと、少なくとも一つのオブジェクトを包囲する少なくとも一つの２次元境界ボックスの画像の位置及び形状と、少なくとも一つのオブジェクトの複数の回転仮説と、を提供するために各特徴マップで分類を行うように構成されたニューラルネットワークに画像を入力することを備える、システム及び方法。

Description

本開示は、画像処理の分野に関し、更に正確には、画像の３次元オブジェクトの検出に関する。

カメラによって取得した画像の三次元オブジェクトを検出することが提案されてきた。

通常、画像に表示されるオブジェクトの６Ｄポーズを取得することも望ましい。「６Ｄポーズ」は、オブジェクトの三次元の位置と三次元の向きとの組合せを示す当業者によく知られている表現である。

６Ｄポーズの取得は、オブジェクトが検出及び操作されるロボット工学の分野で特に有益である。

６Ｄポーズ又はオブジェクトの向きを検出する際の困難の一つは、対称的なオブジェクト又は閉塞（ｏｃｃｌｕｓｉｏｎ）を処理することの困難である。例えば、ハンドルを有するカップのポーズは、ハンドルが閉塞されているときを判断するのが非常に困難であるが、ハンドルが見えるときには十分に検出可能である。

オブジェクトのポーズを検出するためにニューラルネットワークを用いることが提案されてきた。これらのニューラルネットワークを、所定の入力画像に対して検出されたポーズを出力するように構成することができる。この結果を得るために、既知の画像がニューラルネットワークに入力されるニューラルネットワークでトレーニングステップが実行され、ニューラルネットワークの出力が予測される出力に近いか否かが判断される。この判断は、通常、損失関数の使用を伴い、この損失関数の結果は、改善された損失がトレーニングの次の反復で取得されるようにニューラルネットワークを更新するためによく用いられる。

既知の方法は、これらの曖昧さを処理することができず、これは満足のいくものではない。

本開示は、画像を処理する方法であって、
（２）複数の特徴マップを取得し、各特徴マップは、それぞれの解像度及びそれぞれの深さを有し、
（３）各特徴マップについて、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの２次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するために各特徴マップで分類を行うように構成されたニューラルネットワークに画像を入力することを備える、方法を提案することによって、従来技術の一つ以上の不備を解消する。

本出願の発明者は、単一の回転仮説又はポーズのみを予測する既知の方法が対称性を有する物体を取り扱うことができないことを確認した。複数の回転仮説を取得することによって、トレーニング段階でオブジェクトの対称性を更に適切に学習でき、曖昧さが軽減される。

例として、画像は、当業者に知られているＲＧＢ（赤－緑－青）画像のようなカラー画像となることがある。

特徴マップは、通常、ニューラルネットワーク又はニューラルネットワークの一部によって出力されるベクトルの行列であり、表現解像度（ｅｘｐｒｅｓｓｉｏｎｒｅｓｏｌｕｔｉｏｎ）は、行列の解像度に向けられ、深さは、行列のベクトルの深さに関連する。

本願で用いられる「ニューラルネットワーク」は、複数の既知のネットワークの組合せをカバーすることができる。例えば、複数の特徴マップを取得するステップを、第１のサブネットワークを用いて実行することができる。当業者は、それぞれの解像度及びそれぞれの深さを有する特徴マップを取得するためにどのサブネットワークを用いるかを知っている。

また、当業者は、複数の仮説を取得することにつながる複数の出力を用いて、分類を行うためにサブニューラルネットワークを用いることができる。

当業者は、各特徴マップについて、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの２次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するためにどのサブネットワークを用いるかを知っている。

境界ボックスがオブジェクトを包囲する座標を有する仮想的な矩形であることが当業者に知られていることに留意されたい。複数のオブジェクトが決定された場合、各オブジェクトは、少なくとも一つの境界ボックスに関連付けられる。境界ボックスを、複数の所定の境界ボックスの中から選択することができる。分類ステップは、最適な境界ボックス（すなわち、オブジェクトに最も近い境界ボックス）を決定するように構成される。

オブジェクトのタイプは、検出可能なオブジェクトの所定のセットの中から選択される。

回転は、所定の基準位置から表されるオブジェクトの三次元回転であってもよい。

複数のオブジェクトが画像に見える場合、ニューラルネットワークは、上記で定義されているように少なくとも二つのグループの情報を出力してもよい。

また、ニューラルネットワークは、例えば、境界ボックスに関連する二つのグループの間の違いを有する同一のオブジェクトの二つ以上のグループの情報を出力してもよい。

上記のニューラルネットワークを用いることによって超並列シングルパスネットワークを用いることができ、計算速度が大幅に向上し（上記方法は約１０Ｈｚすなわち１０画像／秒で動作することを確認した。）、良好な精度が得られることに留意されたい。

特定の実施の形態によれば、方法は、推定した回転を取得するために複数の回転仮説の分類を行うことを更に備える。

特定の実施の形態によれば、複数の回転仮説の分類は、外れ値の拒絶又はクラスタリングを備える。

例えば、クラスタリングを、平均シフトアルゴリズムを用いて行ってもよい。

複数の回転仮説の分類によって回転のフィルタリング又は回転中央値の決定を引き起こしてもよい。

特定の実施の形態によれば、オブジェクトと画像を取得した画像取得モジュールの間の距離を、少なくとも一つの境界ボックスの対角線の長さを用いて決定する。

特定の実施の形態によれば、方法は、少なくとも一つのオブジェクトの６Ｄポーズを推定するために推定した回転及び距離を用いることを備える。

この距離及び回転から少なくとも一つのオブジェクトの６Ｄポーズを取得できることを確認した。

特定の実施の形態によれば、回転をそれぞれ四元数として表す。

本発明者は、四元数を用いて空間回転又は三次元回転をモデル化できることを確認した。四元数は四つの値によって定義され、分類は、各仮説にそれぞれ複数の四元数を出力してもよい。

特定の実施の形態によれば、方法は、回転が曖昧さを示すか否かを判断するために回転仮説の主成分分析を実行することを更に備える。

例えば、優勢な特異値が曖昧さを示すしきい値を超えているか否かを判断するためにしきい値を用いてもよい。

特定の実施の形態によれば、方法は、ニューラルネットワークの予備トレーニングを備え、予備トレーニングは、少なくとも一つの３次元テンプレートオブジェクトがニューラルネットワークにレンダリングされたテンプレート画像を入力することを備える。

３次元テンプレートオブジェクトをレンダリングすることは、このテンプレートオブジェクトの投影が選択された角度で目に見える（したがって回転が既知である）画像を作成することを意味する。

好適には、方法を、テンプレートオブジェクトとして用いられたオブジェクトを備える画像に用いる。

特定の実施の形態によれば、予備トレーニングは、
ニューラルネットワークを用いて、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの２次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、
を取得することと、
式

のＬを最小にし、この場合、

であり、
Ｉは、テンプレート画像であり、
Ｐｏｓは、テンプレートオブジェクトの領域の予め決定された部分を包囲する領域を有する境界ボックスを表し、
Ｎｅｇは、テンプレートオブジェクトの領域の予め決定された部分を包囲しない領域を有する境界ボックスを表し、
ｂは、Ｐｏｓ又はＮｅｇのいずれかに属する境界ボックスであり、
Ｌ_classは、分類の特性の誤差に関連する損失であり、
Ｌ_fitは、境界ボックスの角の位置の誤差に関連する損失であり、
Ｌ_viewは、視点の特性の誤差に関連する損失であり、
Ｌ_inpianeは、面内回転の特性の誤差に関連する損失であり、
α、β及びεは、所定の係数であり、
Ｍは、回転仮説の数であり、
Ｉは、テンプレート画像であり、
ｐは、少なくとも一つのオブジェクトの真の回転であり、
ｆ_θ ^(j)（Ｉ）は、回転仮説ｊを提供する関数であり、
ｆ_θ（Ｉ）は、回転仮説ｆ_θ ^(j)（Ｉ）を提供する関数であり、
Ｌ（ｆ_θ ^(j)（Ｉ），ｐ）は、既知の回転pに対するｆ_θ（Ｉ）の損失関数である。

上記式において、Ｍ（ｆ_θ（Ｉ）ｐ）及び

は、メタ損失値（ｍｅｔａ－ｌｏｓｓｖａｌｕｅ）を表す。更に正確には、

は、画像Ｉ及びポーズｐの最小限の損失である。

トレーニング中に、ニューラルネットワークが、

として決定される回転仮説θ^*を用いて更新され、ｐ_iは、少なくとも一つのオブジェクトに対して同様の画像を有する画像Ｉ_iに関連するＮ回転である。

これは、更新の基礎として前のトレーニングステップの最良の出力のみを使用することによってニューラルネットワークの更新を容易にする（トレーニングは反復的である。）。

本発明は、画像を処理するシステムであって、画像を入力することができるニューラルネットワークを備え、ニューラルネットワークは、
複数の特徴マップを取得し、各特徴マップは、それぞれの解像度及びそれぞれの深さを有し、
各特徴マップについて、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの２次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するために各特徴マップで分類を行うように構成された、システムも提供する。

システムを、上述したように画像を処理する方法の全ての実施の形態を実施するように構成することができる。

一つの特定の実施の形態において、画像を処理する方法のステップは、コンピュータプログラム命令によって決定される。

したがって、本発明は、コンピュータによって実行されるときに、上述した方法のステップを実行する命令を有するコンピュータプログラムも対象とする。

プログラムは、任意のプログラミング言語を用いることができ、ソースコード、オブジェクトコード、又は、部分的にコンパイルされた形式若しくは他の望ましい形式のようなソースコードとオブジェクトコードの中間のコードの形式をとることができる。

本発明は、コンピュータによって読取り可能であり、上述した方法のステップを実行する命令を有するコンピュータプログラムを記録した記録媒体も対象とする。

情報媒体を、プログラムを格納できる任意のエンティティ又はデバイスとすることができる。例えば、媒体は、ＲＯＭのような記憶手段、例えば、ＣＤＲＯＭ又はマイクロ電子回路ＲＯＭ又は磁気記憶手段、例えば、ディスケット（フロッピーディスク（登録商標））又はハードディスクを含むことができる。

代替的に、情報媒体を、プログラムが組み込まれた集積回路とすることができ、回路は、当該方法を実行するように又はその実行に用いられるように適合される。

本開示をどのように実施することができるかを、添付の図面を参照して例として説明する。

一例による例示的な画像を処理する方法のブロック図である。一例による例示的な画像を処理するシステムのブロック図である。対称性を有するオブジェクトの処理の困難性を示す。

例示的な画像を処理する方法及びシステムを以下に説明する。

画像を処理する方法を図１に示す。以下に説明するように、この方法は、画像に見えるオブジェクトの６Ｄポーズを決定することもできる。しかしながら、本発明は、画像に見えるオブジェクトの６Ｄポーズの決定に限定されない。

処理される画像は、図１の基準ＩＭＧ（ｒｅｆｅｒｅｎｃｅｄＩＭＧ）である。この例では、画像は、２９９画素の幅及び２９９画素の高さの解像度を有する。画像ＩＭＧはＲＧＢ画像であり、画像の各画素は、三つの値に関連付けられる。

画像ＩＭＧを処理するために、この画像は、図１に示すニューラルネットワーク１に入力される。画像ＩＭＧが深さ情報を更に備える場合（例えば、画像ＩＭＧがＲＧＢ－Ｄ画像である場合）、ＲＧＢ値のみをニューラルネットワーク１に入力してもよいが、深さ情報を、その後のリファインステップ（ｒｅｆｉｎｉｎｇｓｔｅｐ）で用いてもよい。

ニューラルネットワーク１は、複数の特徴マップを取得するように構成され、各特徴マップは、それぞれの解像度及びそれぞれの深さを有する。このために、ニューラルネットワーク１は、五つの特徴マップを作成することができるサブネットワーク２を備える。五つの特徴マップはそれぞれ、互いに異なる解像度を有する。

例えば、第１の特徴マップ４ａは、３５×３５の解像度及び３８４の深さを有する。第２の特徴マップ４ｂは、１７×１７の解像度及び１０２４の深さを有する。第３の特徴マップ４ｃは、９×９の解像度及び１５３６の深さを有する。第４の特徴マップ４ｄは、５×５の解像度及び１０２４の深さを有する。第５の特徴マップ４ｅは、３×３の解像度及び１０２４の深さを有する。

当業者は、用いるべき特徴マップの数並びにそれらの解像度及び深さを選択することができる。例えば、特徴マップの数並びにそれらの解像度及びそれらの深さをアプリケーションの関数として決定するために較正ステップを実行することができる。様々な解像度を用いることによって、様々なスケールのオブジェクトを検出することができる。

好適には、サブネットワーク２は、当業者によってＩｎｃｅｐｔｉｏｎＶ４として知られているとともにＣ.Ｓｚｅｇｅｄｙ、Ｓ.Ｉｏｆｆｅ及びＶ.Ｖａｎｈｏｕｃｋｅによる“Ｉｎｃｅｐｔｉｏｎ－ＲｅｓＮｅｔａｎｄｔｈｅＩｍｐａｃｔｏｆＲｅｓｉｄｕａｌＣｏｎｎｅｃｔｉｏｎｓ”に記載されたネットワークである。

好適には、サブネットワーク２は、前のステップでトレーニングされる。

ニューラルネットワーク１は、各特徴マップについて、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの２次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するために各特徴マップで分類を行うように更に構成される。

このために、ニューラルネットワーク１は、サブネットワーク３を備える。好適には、サブネットワーク３は、回帰ニューラルネットワークである。

サブネットワーク３は、５つの特徴マップ４ａ～４ｅを入力として受け取り、この例では、上記出力を提供するための適切な数のニューロンを有する。

特に、サブネットワーク３は、ポーズについて複数の仮説を出力することができ、これは、これらの仮説を提供するために選択された複数のニューロンにつながる。

回転仮説が四元数を用いて表される場合、各回転仮説に四つのニューロンを用いてもよい。

特徴マップを受け取ったサブネットワーク３の出力は、特徴マップの解像度及び

の深さを有してもよい。この場合、Ｋは、候補境界ボックスの数であり、Ｃは、あり得るオブジェクトタイプの数であり、Ｍは、仮説の数である。

図では、画像ＩＭＧに存在するオブジェクトについて、四つの回転仮説５ａ、５ｂ、５ｃ及び５ｄを表す。

ニューラルネットワークのトレーニングを説明する。

事前に、四元数を用いて空間回転（本願では、表現される回転は３次元回転又は空間回転に向けられる。）をモデル化できることが確認されていることに留意されたい。

四元数は、

によって与えられる。この場合、

である。

南半球を省略するとともにｑ₁＝０超平面のより上の回転のみを用いることができ、これによって、単一の四元数を用いてあり得る３次元回転を表すことができる。

また、トレーニング中に、既知のデータセットのＮ個の画像Ｉｉがそれぞれ（オブジェクトの同一の画像との対称性を示すオブジェクトの

の）所定の回転ｐ_iに関連付けられる場合、回転数のセットは、

である。

この式は、離散対称性に適合される。非離散対称性の場合、当業者はＳの合計を積分に適合させる。

現在のニューラルネットワークでは、複数の回転仮説を取得する。ニューラルネットワークの関数は、

として記載される。

したがって、所定のオブジェクト及び境界ボックスについてＭ個の仮説がある。

優先的には、トレーニングの各ステップでニューラルネットワークを更に適切に更新するために、予測される結果（既知の回転）に最も近い損失のみがニューラルネットワークのパラメータを更新するために用いられる。ニューラルネットワークのパラメータの更新は、ニューラルネットワークの重みの更新と呼ばれることが多く、この更新は、計算された損失に基づく。

使用される損失の決定は、

によって与えられる。

トレーニング中に、レンダリングされたオブジェクト（例えば、既知の回転を有するレンダリングされた３次元オブジェクト）を備えるテンプレート画像（既知の画像）がニューラルネットワークに入力され、出力は、分類ステップの後に、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの２次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、なる。

したがって、損失は、

のＬを最小にすることによって計算してもよく、この場合、

所定の係数を当業者によって決定してもよいことに留意されたい。

重みεは、全ての仮説の平均誤差に重みを付けるために用いられる。

また、正規化定数

及び

は、損失

に対する（１－ε）の重み及び他の全ての仮説に分布するεの勾配降下を与えるように設計される。

のとき

である。

画像がニューラルネットワークに入力されるとき、検出されたオブジェクトについて、推定された回転を得るために更なる分類を行ってもよいことに留意されたい。

例えば、分類は、当業者に知られている任意の適切な方法又はクラスタリング方法を用いる外れ値の拒絶を備えてもよい。

例えば、四元数ベクトルの角距離をそれらの類似性を測定するために用いながら平均シフトアルゴリズムを四元数空間で仮説をクラスタリングするために用いてもよい。これによって、曖昧であるが接続された回転又は複数のＩ非接続回転（Ｉｕｎｃｏｎｎｅｃｔｅｄｒｏｔａｔｉｏｎ）で一つのクラスターが生成される。また、各クラスターについて、回転の中央値を計算してもよい。

検出されたオブジェクトと画像を取得した画像取得モジュールとの間の距離を少なくとも一つの境界ボックスの対角線の長さを用いて推定できることに留意されたい。

次に、このオブジェクトの６Ｄポーズを回転及び上記距離を用いて推定することができる。これは、所定の距離（例えば、０．５メートル）でのオブジェクトの基準６Ｄポーズを用いてもよく、６Ｄポーズを推測してもよい。

追加的に、二つの四元数の間の類似性を比較するために、角度

の距離について三角法を用いない測定（ｔｒｉｇｏｎｏｍｅｔｒｉｃ－ｆｒｅｅｍｅａｓｕｒｅ）を行うことができ、この場合、ｑ及びｑ’は、二つの四元数である。

距離は、

である。

曖昧さがあるか否かを判断するために四元数空間での仮説の分布を調べることもできる。このために、主成分分析（ＰＣＡ）を四元数仮説で実行することができる。データ行列（仮説）の特異値分解は、曖昧さの情報を提供する。

例えば、優勢な特異値

について分散

（しきい値を定義してもよい）である場合、オブジェクトの対称性に起因する回転の予測に曖昧さがある。小さい特異値は、単一の解への収束という結論をもたらす。

図１を参照して説明した方法のステップは、コンピュータの命令によって決定することができる。これらの命令を、図２に示すように、システムのプロセッサで実行することができる。

この図において、システム１０を表す。このシステムは、プロセッサ１１と、画像を取得するように構成された取得モジュール１２と、メモリ１３と、を備える。

メモリ１３を、不揮発性メモリでとすることができ、それは、図１を参照して説明した方法を実行するためにプロセッサ１１によって実行することができる命令（又はコンピュータプログラム）ＩＮＳＴのセットを備える。命令ＩＮＳＴのセットは、
複数の特徴マップを取得し、各特徴マップは、それぞれの解像度及びそれぞれの深さを有する命令１４と、
各特徴マップについて、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの２次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するために各特徴マップで分類を行う命令１５と、
を備える。

命令ＩＮＳＴは、図１を参照して説明したニューラルネットワークを形成してもよい。

図３は、ハンドルを有するカップを示す。カップの様々な投影を示す。ハンドルが閉塞されているとき、実線から撮影された画像は、カップの同一の画像を提供する。

点線から撮影された画像は、回転又は６Ｄポーズの決定に曖昧さがないカップの様々な画像を提供する。本発明は、そのような曖昧さがあるときを決定することができる。

Claims

画像を処理する方法であって、
（２）複数の特徴マップを取得し、各特徴マップは、それぞれの解像度及びそれぞれの深さを有し、
（３）各特徴マップについて、
前記画像に見られる少なくとも一つのオブジェクトのタイプと、
前記少なくとも一つのオブジェクトを包囲する少なくとも一つの２次元境界ボックスの画像の位置及び形状と、
前記少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するために各特徴マップで分類を行うように構成されたニューラルネットワークに画像を入力することを備える、方法。
推定した回転を取得するために複数の回転仮説の分類を行うことを更に備える、請求項１に記載の方法。
前記複数の回転仮説の分類は、外れ値の拒絶又はクラスタリングを備える、請求項２に記載の方法。
前記オブジェクトと前記画像を取得した画像取得モジュールの間の距離を、少なくとも一つの境界ボックスの対角線の長さを用いて決定する、請求項１から３のいずれか一項に記載の方法。
前記少なくとも一つのオブジェクトの６Ｄポーズを推定するために前記推定した回転及び前記距離を用いることを備える、請求項２又は３及び４に記載の方法。
回転をそれぞれ四元数として表す、請求項１から５のいずれか一項に記載の方法。
回転が曖昧さを示すか否かを判断するために前記回転仮説の主成分分析を実行することを更に備える、請求項１から６のいずれか一項に記載の方法。
ニューラルネットワークの予備トレーニングを備え、前記予備トレーニングは、少なくとも一つの３次元テンプレートオブジェクトが前記ニューラルネットワークにレンダリングされたテンプレート画像を入力することを備える、請求項１から７のいずれか一項に記載の方法。
前記予備トレーニングは、
前記ニューラルネットワークを用いて、
前記画像に見られる少なくとも一つのオブジェクトのタイプと、
前記少なくとも一つのオブジェクトを包囲する少なくとも一つの２次元境界ボックスの画像の位置及び形状と、
前記少なくとも一つのオブジェクトの複数の回転仮説と、
を取得することと、
式

のＬを最小にし、この場合、

であり、
Ｉは、前記テンプレート画像であり、
Ｐｏｓは、テンプレートオブジェクトの領域の予め決定された部分を包囲する領域を有する境界ボックスを表し、
Ｎｅｇは、前記テンプレートオブジェクトの領域の予め決定された部分を包囲しない領域を有する境界ボックスを表し、
ｂは、Ｐｏｓ又はＮｅｇのいずれかに属する境界ボックスであり、
Ｌ_classは、分類の特性の誤差に関連する損失であり、
Ｌ_fitは、境界ボックスの角の位置の誤差に関連する損失であり、
Ｌ_viewは、視点の特性の誤差に関連する損失であり、
Ｌ_inpianeは、面内回転の特性の誤差に関連する損失であり、
α、β及びεは、所定の係数であり、
Ｍは、回転仮説の数であり、
Ｉは、前記テンプレート画像であり、
ｐは、少なくとも一つのオブジェクトの真の回転であり、
ｆ_θ ^(j)（Ｉ）は、回転仮説ｊを提供する関数であり、
ｆ_θ（Ｉ）は、回転仮説ｆ_θ ^(j)（Ｉ）を提供する関数であり、
Ｌ（ｆ_θ ^(j)（Ｉ），ｐ）は、既知の回転pに対するｆ_θ（Ｉ）の損失関数である、請求項８に記載の方法。
トレーニング中に、ニューラルネットワークが、

として決定される回転仮説θ^*を用いて更新され、ｐ_iは、前記少なくとも一つのオブジェクトに対して同様の画像を有する画像Ｉ_iに関連するＮ回転である、請求項９に記載の方法。
画像を処理するシステムであって、画像を入力することができるニューラルネットワーク（ＩＮＳＴ、１４、１５）を備え、前記ニューラルネットワークは、
複数の特徴マップを取得し、各特徴マップは、それぞれの解像度及びそれぞれの深さを有し、
各特徴マップについて、
前記画像に見られる少なくとも一つのオブジェクトのタイプと、
前記少なくとも一つのオブジェクトを包囲する少なくとも一つの２次元境界ボックスの画像の位置及び形状と、
前記少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するために各特徴マップで分類を行うように構成された、システム。
コンピュータによって実行されるときに、請求項１から１０のいずれか一項に記載の方法のステップを実行する命令を有するコンピュータプログラム。
コンピュータによって読取り可能であり、請求項１から１０のいずれか一項に記載の方法のステップを実行する命令を有するコンピュータプログラムを記録した記録媒体。