JP6871367B2

JP6871367B2 - オブジェクトを認識及び位置特定するための電気デバイス、システム及び方法

Info

Publication number: JP6871367B2
Application number: JP2019518923A
Authority: JP
Inventors: マイアースベン; 訓成小堀; ケールバディム; ミレタリファウスト
Original assignee: トヨタモーターヨーロッパ
Priority date: 2016-10-07
Filing date: 2016-10-07
Publication date: 2021-05-12
Anticipated expiration: 2036-10-07
Also published as: WO2018065073A1; JP2019531554A

Description

本開示は、オブジェクトを認識及び位置特定するための、特に、非静止のオブジェクトの姿勢を認識するための電気デバイス、システム及び方法に関する。

自動化は多くの分野でますます重要になってきており、これはロボット工学に関するニーズの高まりも暗示する。一方、ロボット工学システムは工業分野では一般的になっているが、それらの使用は、例えば日常生活の中で個々のユーザに役立つために、家庭の住居の環境ではいまだにむしろ一般的ではない。しかしながら、この分野ではまた、ロボット工学システムに関して高い需要がある。例えば、ロボット工学システムは、高齢者が特定のオブジェクト、例えば鉛筆を見つけて取り出すことを支援することができる。

家庭の住居におけるロボット工学システムの使用の一つの問題は、工業用途とは対照的に、多くのタスクが、標準化され得ない、すなわち事前に定められ得ず且つしっかりと制御され得ないということである従って、ロボット工学システムは、個々の変化するタスクを実行することができなければならない。さらに、家庭の住居における操作条件は、例えば、照明、オブジェクト配置など、より困難なものになっている。

ロボット工学システムの重要な態様は、それ故、任意の位置及び任意の向きにおいて位置付けられ得る特定のオブジェクトを見つけ出して認識するためのその能力である。この目的のため、ロボット工学システムは、光学センサを備えることができ、例えば走行可能な車輪を有することができるなど、移動可能とすることができる。

米国特許出願公開第2012114251 (A1)号は、３Ｄオブジェクトの２Ｄ表現から３Ｄ形状を復元し、復元された３Ｄ形状と、オブジェクトクラスの少なくとも一つのオブジェクトの既知の３Ｄから２Ｄ表現とを比較するための静的形状モデルを用いる、あるオブジェクトクラスの３Ｄオブジェクトのオブジェクト認識のためのシステムを開示する。

欧州特許出願公開第EP1603071 (A1)号は、立体カメラによって獲得された画像ペアを用いることによって距離画像を生成するための距離画像生成部を有する三次元オブジェクト認識システムを開示する。三次元オブジェクトの区別は、ニューラルネットワークの出力パターンに基づいて実行される。

しかしながら、既知のシステムは、システムに知られるようになるために、各オブジェクトに関してなされなければならない広範囲の訓練を必要とする。従って、ユーザが新しいオブジェクトを既知のオブジェクトのリストに追加したい場合には、システムは、特に複雑なニューラルネットワークの訓練を含む徹底的な訓練を実行しなければならず、高い処理能力を伴って数時間又は数日でさえも費やす場合がある。

現在、減少された訓練の労力でオブジェクトを認識及び位置特定するための電気デバイス、システム及び方法を提供することが望ましいままである。

それ故、本開示の実施形態によると、オブジェクトを認識及び位置特定するための車両の電気デバイスが提供される。電気デバイスは、
− オブジェクトを検知する光学センサの３Ｄ画像データを受信し、
− ３Ｄ画像データをパッチのセットに分解し、
− 事前に訓練された畳み込みニューラルネットワーク（ＣＮＮ）オートエンコーダを用いることにより、各パッチの特徴のセットを抽出し、
− 各パッチに関して、所定のオブジェクト表現と照合するために、パッチの特徴のセットをｋ−近傍アルゴリズムに対する入力として用いることによりオブジェクトの姿勢（pose）を分類し、
− パッチのセットの分類されたオブジェクトの姿勢を組み合わせることにより、オブジェクトの姿勢を決定する、ように構成される。

斯かる電気デバイスを提供することにより、新しいオブジェクトがデバイスによって学習されるときにデバイスの訓練が実質的に低減され得る。ＣＮＮオートエンコーダ及びｋ−ＮＮ分類器としてそれぞれ実装される特徴抽出及び分類の組み合わせは、以下の利点を有する。

畳み込みニューラルネットワーク（ＣＮＮ）オートエンコーダ（すなわち、ＣＮＮオートエンコーダ特徴空間集約（CNN auto-encoder feature space reduction））を一度だけ（事前に）訓練するだけで十分である。この訓練は集中的且つきめ細かいものになる場合があり、必要とされる高い計算労力はこの処理ステップの全てのその後の使用において節約される。

しかしながら、ｋ−近傍アルゴリズム（すなわち、ｋ−ＮＮ分類器）は訓練するのに簡単且つ迅速であり、従って新しいオブジェクトを学習するための計算労力は小さい。

換言すると、ＣＮＮオートエンコーダにおいて実装される特徴空間集約ステップは、ｋ−ＮＮ分類ステップでの計算負荷を低減する。

さらに、（局所的な）パッチ分解は、スケールの不変性を実現する。従って、パッチデータは、オブジェクトの距離及び見かけのサイズとは無関係であり得る。スケールの不変性は、オブジェクトの見かけのサイズが変化してもオブジェクトの外観の記述（description）が一定であるという特性である。

画像データは、可視光画像及び深度画像のペアを備えることができる。これらデータは、デバイスへの入力データとすることができる。

可視光画像は、特に人間の視覚システム（human vision system）によって処理される三つの帯域（ＲＧＢ：赤、緑、青）に分解される、電磁気スペクトルの可視部分を備えることができる。

特徴のセットは、畳み込みニューラルネットワーク（ＣＮＮ）オートエンコーダの符号化段階（encoding stage）を用いることにより抽出され得る。望ましくは、特徴のセットは、符号化段階によって出力され得る。

従って、用いられる畳み込みニューラルネットワーク（ＣＮＮ）オートエンコーダは、符号化段階及び復号段階（decoding stage）を備えることができる。デバイスは、特徴のセットを取得（すなわち、抽出）するために、畳み込みニューラルネットワーク（ＣＮＮ）オートエンコーダの復号段階ではなく、符号化段階のみを用いることが望ましい。換言すると、特徴のセットは、符号化段階の出力とすることができる。

オブジェクトの姿勢は、ｘ、ｙ、ｚの位置情報とθ、φ、Ψの回転情報とを備える６Ｄの姿勢とすることができる。

より一般的には、オブジェクトの姿勢は、座標系におけるオブジェクトの位置及び向きの数学的な記述とすることができる。

特徴は、オブジェクトの外観、特にオブジェクトの色及び／又は輝度の数学的な記述を備えることができる。

オブジェクトの姿勢は、パッチのセットの分類されたオブジェクトの姿勢を票（vote）として用いる票フィルタリング（vote filtering）によって決定され得る。

従って、全てのパッチの提供は、票空間（vote space）を構成することができる。適切な閾値をこの票空間に適用することは、光学センサによって検知されたシーン内のオブジェクトの最も可能性が高いオブジェクトの姿勢をもたらすことができる。

票空間への特徴空間距離を設定する、すなわち最も可能性が高いオブジェクトの姿勢に票を限定する、閾値が定められ得る。

パッチは、特に所定のサイズの、及び／又は互いに重なり合う、３Ｄ画像データの３次元部分とすることができる。

従って、入力画像は、パッチと名付けられるより小さい画像のセットに分解され得る。

畳み込みニューラルネットワーク（ＣＮＮ）オートエンコーダは、パッチの汎用的なセットに基づいて（すなわち用いることによって）、特に一度だけ、事前に訓練され得る。

従って、畳み込みニューラルネットワーク（ＣＮＮ）オートエンコーダの訓練は、汎用的であり得る。一度訓練されると、オートエンコーダは、以前に見たことがないオブジェクト及び画像に適用され得る。従って、再訓練の必要がなく、それ故このアルゴリズムを新しいオブジェクトに適応させる速度が大幅に増大する。

パッチの汎用的なセットは、オブジェクトデータの大きな且つ代表的なデータセットから抽出されたパッチのセットとすることができる。データは、色を入れ替えること及びノイズを加えることによってさらに増加され得る。この大きなデータセットは、畳み込みオートエンコーダのための広範な訓練セットを提供するために用いられ得る。一度訓練されると、オートエンコーダの符号化段階は、入力３Ｄ画像データからの抽出記述的特徴（extracting descriptive features）のために維持され及び用いられ得る。

畳み込みニューラルネットワーク（ＣＮＮ）オートエンコーダは、パッチを、特に１０２４個の特徴の特徴ベクトルｆ（ｘ）に集約（reduce）するように構成され得る。

従って、畳み込みニューラルネットワークオートエンコーダの圧縮特徴層Ｆの活性化値は、パッチを特徴のセットに集約する（すなわち、パッチから特徴のセットを抽出する）ために用いられ得る。

ｋ−近傍（ｋ−ＮＮ）アルゴリズムは、特徴ベクトルｆ（ｘ）によって定められる特徴空間において最も可能性があるオブジェクトの姿勢を見つけるように構成され得る。

ｋ−近傍アルゴリズムは、オブジェクトのデータに基づいて事前に訓練される。

従って、デバイスは、目標のオブジェクトの３Ｄモデルファイルを事前の知識として用いることができる。このモデルは、オブジェクトの形状（３Ｄ）及び外観（色）情報を提供することができる。特定のオブジェクトの特性で訓練されたｋ−ＮＮアルゴリズムは、各パッチの最も一致する姿勢を見つけるために用いられ得る。圧縮特徴層の特徴は、ｋ−ＮＮアルゴリズムのための探索特徴空間として使用可能であるために十分に識別可能である。従って、ｋ−ＮＮアルゴリズムは迅速に訓練され得て、また訓練されたｋ−ＮＮアルゴリズムは特徴のセットに適用されるときに低い処理能力のみを必要とするが、デバイスはオブジェクトを確実に認識及び位置特定することができる。

本開示は、オブジェクトを認識及び位置特定するためのシステムにさらに関し、本システムは、
・電気デバイスであって、特に上述したような電気デバイスと、
・オブジェクトを検知するように構成された光学センサであって、該センサは特に３Ｄカメラ又はステレオカメラである、光学センサと、
を備える。

従って、本システムは、オブジェクトを自律的に認識及び位置特定するように構成され得る。例えばオブジェクトを取り出すための手段を有する、移動可能なロボット工学システムとして実現され得る。

本開示は、オブジェクトを認識及び位置特定する方法にさらに関する。本方法は、
・光学センサの３Ｄ画像データを受信するステップであって、該センサはオブジェクトを検知する、ステップと、
・３Ｄ画像データをパッチのセットに分解するステップと、
・事前に訓練された畳み込みニューラルネットワーク（ＣＮＮ）オートエンコーダを用いることによって各パッチの特徴のセットを抽出するステップと、
・各パッチに関して、所定のオブジェクト表現と照合するために、パッチの特徴のセットをｋ−近傍アルゴリズムに対する入力として用いることによりオブジェクトの姿勢を分類するステップと、
・パッチのセットの分類されたオブジェクトの姿勢を組み合わせることにより、オブジェクトの姿勢を決定するステップと、
を備える。

本方法は、上述したような電気デバイスの機能に対応する更なる方法ステップを備えることができる。更なる望ましい方法ステップは、以下に説明される。

画像データは、可視光画像及び深度画像のペアを備えることができる。

可視光画像は、特にヒューマンビジョンシステムによって処理される三つの帯域（ＲＧＢ）に分解される、電磁気スペクトルの可視部分を備えることができる。

特徴のセットは、畳み込みニューラルネットワーク（ＣＮＮ）オートエンコーダの符号化段階を用いることによって抽出され得る。望ましくは、特徴のセットは、符号化段階によって出力され得る。

オブジェクトの姿勢は、パッチのセットの分類されたオブジェクトの姿勢を票として用いる票フィルタリングによって決定され得る。

畳み込みニューラルネットワーク（ＣＮＮ）オートエンコーダは、パッチの汎用的なセットに基づいて、特に一度だけ、事前に訓練され得る。

畳み込みニューラルネットワーク（ＣＮＮ）オートエンコーダは、パッチを、特に１０２４個の特徴の特徴ベクトルｆ（ｘ）に集約することができる。

ｋ−近傍（ｋ−ＮＮ）アルゴリズムは、特徴ベクトルｆ（ｘ）によって定められる特徴空間において最も可能性があるオブジェクトの姿勢を見つけることができる。

ｋ−近傍アルゴリズムは、オブジェクトのデータに基づいて事前に訓練され得る。

特に矛盾しない限り、上記の要素と本明細書内のこれらとの組み合わせがなされ得ることが意図される。

前述の一般的な説明及び以下の詳細な説明の両方は、例示的及び説明的なものにすぎず、特許請求の範囲に記載のように、本開示を限定するものではないと理解されるべきである。

本明細書に組み込まれ、本明細書の一部を構成する添付の図面は、本開示の実施形態をその説明と共に例示し、それらの原理を説明するのに役立つ。

図１は、本開示の実施形態に係る、電気デバイスを有するシステムのブロック図である。図２は、本開示の実施形態に係る、オブジェクトを認識及び位置特定する例示的な方法を示す概略的なフローチャートである。図３は、特定の例の状況において図２の例示的な方法を示すフローチャートを示す。図４は、本開示の実施形態に係る、畳み込みオートエンコーダの例を示す。図５は、図４のオートエンコーダの描写を示す。図６は、本開示の実施形態に係る、オブジェクトが認識及び位置特定される例示的なシーンを示す。

これから、本開示の例示的な実施形態が詳細に参照されることとなり、それらの例を添付の図面に示す。可能な限り、同じ又は類似の部分を言及するために、同じ参照番号が図面全体を通して用いられることになる。

図１は、本開示の実施形態に係る、電気デバイス１を有するシステム３０のブロック図である。本システムは、様々な機能を有することができるロボット工学システム１０を備えることができる。例えば、それは、例えば走行可能な車輪を有するなど、移動可能とすることができ、それは、例えば少なくとも一つの把持部など、オブジェクトを取り出すための手段を有することができる。

電気デバイス１は、シーンにおけるオブジェクトの存在及び位置を検出するためのコンピュータビジョンアルゴリズムを実行する。ロボット工学システムは、オブジェクトを見つけ、位置特定し、操作することができるようにこの情報を必要とする。電気デバイス１への入力は、可視光（ＲＧＢ）及び深度画像（Ｄ）のペアである。電気デバイス１の出力は、目標のオブジェクトの６Ｄの姿勢（ｘ、ｙ、ｚの位置及びｘ、ｙ、ｚ周りのθ、φ、Ψの回転）である。

電気デバイス１は、データストレージ２に接続されるか、又はデータストレージ２を備える。前記データストレージは、目標のオブジェクトを、シーンの形状（３Ｄ）及び外観（色）情報を提供する３Ｄモデルファイルの形式で記憶するために用いられ得る。さらに、ｋ−ＮＮアルゴリズム及び／又はＣＮＮオートエンコーダは、データストレージ２に記憶される。従って、電気デバイス１は、ｋ−ＮＮアルゴリズム及びＣＮＮオートエンコーダを備え、ｋ−ＮＮアルゴリズム及びＣＮＮオートエンコーダを実行するように構成される。

電気デバイス１は、加えて、システム３０における更なる機能を実行することができる。例えば、電気デバイスは、システムの汎用ＥＣＵ（電子制御ユニット）としても動作することができる。電気デバイス１は、電気回路、プロセッサ（共有、専用、又はグループ）、組み合わせ論理回路、一つ又は複数のソフトウェアプログラムを実行するメモリ、及び／又は説明された機能性を提供する他の適切な構成要素を備えることができる。換言すると、デバイス１は、コンピュータデバイスとすることができる。

デバイス１は、オブジェクトを見つけて取り出すように構成された（移動可能）ロボット工学システム１０の外部にあってもよい。換言すると、ロボット工学システム１０のボード上の計算リソースは制限され得る。例えば、それらは、例えばwifi（登録商標）などを介して３Ｄデータを外部の（及び例えば固定された）電気デバイス１に送信することのみができる。デバイス１によって決定された結果は、ロボットに返送され得る。

電気デバイス１は、特に３Ｄデジタルカメラ３、例えばステレオカメラ又はマイクロソフトキネクト（登録商標）カメラなどの、光学センサにさらに接続される。電気デバイス１及びデジタルカメラは、ロボット工学システム１０によって備えられ得る。デジタルカメラ３は、３次元シーンを記録し、特にシーンの形状（３Ｄ）及び外観（色）情報を提供するデジタルデータを出力することができるように構成される。

デジタルカメラ３の出力は、電気デバイス１に送信される。望ましくは、出力は瞬時に、すなわちリアルタイムで又は見かけ上リアルタイムで送信される。従って、検索されたオブジェクトは、リアルタイムで又は見かけ上リアルタイムで電気デバイスによって認識及び位置特定されることもできる。

システム３０は、追加的にサーバ２０を備えることができる。サーバ２０は、ｋ−ＮＮアルゴリズム及び／又はＣＮＮオートエンコーダを訓練して後に更新するために用いられる。この目的のために、電気デバイス１は、サーバに接続可能とすることができる。例えば、電気デバイス１は、無線通信を介してサーバ２０に接続され得る。或いは又は加えて、電気デバイス１は、固定接続を介して、例えばケーブルなどを介して、サーバ２０に接続可能であってもよい。電気デバイス１とサーバ２０との間のデータの移行は、携帯可能なデータストレージ、例えばＵＳＢスティックを用いることによって達成されることも可能である。

図２は、本開示の実施形態に係る、オブジェクトを認識及び位置特定する例示的な方法及びシステムを示す概略的なフローチャートを示す。特に、本方法は、以下のようなオブジェクト検出及び姿勢推定手順である。

ステップ１１において、局所的なパッチ抽出が実行される。この目的のため、画像（すなわち、３Ｄ画像データ）は、例えば、各々が同じ物理的サイズの小さいパッチに分解される。カメラからの平均距離がパッチデータから減算される。深度及び色画像の値は、−１から１の範囲に正規化される。

より詳細には、画像は、５×５×５ｃｍの同一の物理的サイズのパッチに分解される。サイズ情報は、入力データの深度チャネルによって提供される。パッチ表現を用いることは、システム全体をオクルージョン及びライティングに対してより堅牢（robust）にする。

次の処理ステップのためのデータを正規化するために、深度パッチが５×５×５ｃｍの立方体に切り抜かれ、その後に−１から１の範囲に正規化される。同じことが色チャネルの各々に対して適用される。これは、以下の処理ステップに対する正規化された入力データセットをもたらす。

局所的なパッチは、画像内のオブジェクトの異なる位置から抽出され得る。各位置で、ＲＧＢ画像パッチ及び一致する深度画像パッチが更なる処理のために抽出される。換言すると、検索されたオブジェクトは、画像内のいくつかのパッチで構成され得る。

ステップ１２において、特徴抽出が各パッチに関して実行される。畳み込みニューラルネットワークオートエンコーダは、パッチの汎用的なセットで訓練され、特徴のセットにおけるパッチの簡潔な表現、すなわち例えば１０２４の値の特徴ベクトルを作り出すことができる。このステップは、汎用的であり、一度訓練されると、以前に見たことがないオブジェクトのタイプ及び画像に適用され得る。

ステップ１３において、特徴の各セットに関する姿勢の分類が実行される。畳み込みニューラルネットワークオートエンコーダを通して集約された局所的なパッチからのデータは、既知のオブジェクト表現と照合するために、ｋ−ＮＮ分類器に対する入力として用いられる。この段階（すなわちステップ１３の）は、特定のオブジェクト毎に訓練及び調整される。

ステップ１４では、票フィルタリングが実行される。各パッチは票を提供し、票をフィルタリングした後、最も可能性が高い６Ｄ姿勢が残る。全てのパッチの提供は票空間を構成し、この票空間に対して適切な閾値を適用することはシーンにおいて最も可能性が高いオブジェクトの姿勢をもたらす。

全ての四つのステップの組み合わせの使用は、信頼性のあるオブジェクト検出能力をもたらし、訓練時及び実行時の計算コストが低減され得る。

電気デバイスは、シーンにおいていくつかの検索されたオブジェクトを認識するように構成され得る。例えば、姿勢を分類するとき（ステップ１３を参照）には同じ抽出された特徴のセットであるが（ステップ１２を参照）異なるモデルファイル（すなわちオブジェクト表現）を用いて、各検索されたオブジェクトに関して上述の手順が実行され得る。

図３は、特定の例の状況において、図２の例示的な方法を示すフローチャートを示す。

まず、パッチ分解アルゴリズム１１が実行される（図３の左側を参照）。ＲＧＢ及びＤ画像からスケール不変パッチを抽出するためにサンプリングされた例示的なシーンが示されている。パッチは、色画像（左）及び深度画像（右）のペアを備える。その後、畳み込みニューラルネットワークオートエンコーダ１２が実行され、画像パッチ１１を特徴ベクトルｆ（ｘ）（図３の中央を参照）に集約する。ｋ−ＮＮ分類器アルゴリズム１３（すなわち、コードブック）が実行され、この特徴空間内において最も可能性が高いオブジェクトの姿勢を見つけ出す。最後に、票フィルタリングアルゴリズムが実行される（図３の右側）。各パッチは、シーンにおいて可能性が高いオブジェクトの姿勢及び位置に関して投票を行う（cast）。最大の票は、最も可能性が高いオブジェクトの姿勢を示す。

図４は、本開示の実施形態に係る、畳み込みニューラルネットワークオートエンコーダの例を示す。以前に訓練された畳み込みニューラルネットワークオートエンコーダは、正規化されたＲＧＢ−Ｄ入力パッチを例えば１０２４の特徴のベクトルに集約するために用いられる。これは、畳み込みニューラルネットワークオートエンコーダの圧縮特徴層Ｆの活性化値を用いる。

図４において、ｘは、入力ＲＧＢ−Ｄパッチであり、ｙは出力（再構築）ＲＧＢ−Ｄパッチであり、Ｆは圧縮特徴層である。復号段階（図４における下方のブランチ）は用いられない。有利には、ｘからＦまでをもたらしている処理のみが各パッチの特徴のセットを抽出するために必要とされる。いずれにせよ、圧縮特徴層の特徴のセットは、ｋ−ＮＮ分類器のための探索特徴空間として利用可能なように十分に識別可能である。

図５は、図４のオートエンコーダの描写を示す。図４において、圧縮特徴層はＦでラベル付けされ、入力画像パッチのペアはｘでラベル付けされ、再構築画像パッチのペアはｙでラベル付けされる。有利には、特徴抽出のために用いられるオートエンコーダは、汎用的なデータで一度だけ訓練される。それは、再訓練の必要なしに、以前に見たことがない広範な様々なオブジェクトに適用されることができ、従ってこのアルゴリズムを新しいオブジェクトのタイプに適応させる速度が大幅に増大する。

畳み込みオートエンコーダ、すなわち、多くの畳み込み層を有するオートエンコーダは、オブジェクトデータの大きな且つ代表的なデータセットから抽出されるパッチのセットで訓練される。データは、色を並べ替えてノイズを追加することによってさらに増加される。この大きなデータセットは、畳み込みオートエンコーダのための広範な訓練セットを提供するために用いられる。

一度訓練されると、オートエンコーダの符号化段階は、入力画像からの抽出記述的特徴のために維持及び用いられる。このために、圧縮層Ｆの活性化信号が用いられる。実際のテストは１０２４個のノードを有する圧縮層を用いることが良好に機能することを示したが、本発明はこの数に限定されない。

図６は、本開示の実施形態に係る、オブジェクトが認識及び位置特定される例示的なシーンを示す。本例において、検索された目標のオブジェクトＯは、シーンの中央に実質的に位置特定される。投票は、特徴空間距離閾値（左及び右）を変えるために示される。票の中央に対応するオブジェクトの位置は、画像において示される。どのようにして票が目標のオブジェクトＯの近くに集まるかが分かり得る。従って、本例において、右の画像において適用されるより高い閾値は、より適切である。

特許請求の範囲を含む説明全体を通して、用語「備える（comprising a）」は、特に明記しない限り「少なくとも一つを備える（comprising at least one）」と同義であると理解されるべきである。さらに、特許請求の範囲を含む説明に記載された任意の範囲は、特に明記しない限りその最終値（end value）を含むと理解されるべきである。説明された要素の具体的な値は、当業者に知られている許容された製造又は工業公差内であると理解されるべきであり、そして用語「実質的に（substantially）」及び／又は「およそ（approximately）」及び／又は「概して（generally）」の任意の使用はそのような許容交差内に入ることを意味していると理解されるべきである。

本明細書における本開示が特定の実施形態を参照して説明されてきたが、これらの実施形態は本開示の原理及び用途の単なる例示であると理解されたい。

明細書及び例は例示としてのみ考慮されると意図されており、本開示の真の範囲は以下の特許請求の範囲によって示される。
本明細書は以下の態様を含む。
［態様１］
オブジェクトを認識及び位置特定するための電気デバイス（１）であって、
前記電気デバイスは、
前記オブジェクト（Ｏ）を検知する光学センサ（３）の３Ｄ画像データを受信し、
前記３Ｄ画像データをパッチのセットに分解し、
事前に訓練された畳み込みニューラルネットワーク（ＣＮＮ）オートエンコーダ（１２）を用いることにより、各パッチの特徴のセットを抽出し、
各パッチに関して、所定のオブジェクト表現と照合するために、前記パッチの前記特徴のセットをｋ−近傍アルゴリズム（１３）に対する入力として用いることにより前記オブジェクトの姿勢を分類し、
前記パッチのセットの前記分類されたオブジェクトの姿勢を組み合わせることにより、前記オブジェクト（Ｏ）の前記姿勢を決定する、
ように構成される、電気デバイス。
［態様２］
前記画像データは、可視光画像及び深度画像のペアを備える、態様１に記載の電気デバイス（１）。
［態様３］
前記可視光画像は、特に前記人間の視覚システムによって処理される前記三つの帯域（ＲＧＢ）に分解される、前記電磁気スペクトルの前記可視部分を含む、態様２に記載の電気デバイス（１）。
［態様４］
前記特徴のセットは、前記畳み込みニューラルネットワーク（ＣＮＮ）オートエンコーダの前記符号化段階を用いることによって抽出され、前記特徴のセットは、特に前記符号化段階によって出力される、前述の態様のいずれか一つに記載の電気デバイス（１）。
［態様５］
前記オブジェクトの姿勢は、ｘ、ｙ、ｚの位置情報とθ、φ、Ψの回転情報とを備える６Ｄの姿勢である、前述の態様のいずれか一つに記載の電気デバイス（１）。
［態様６］
前記特徴は、前記オブジェクトの外観、特に前記オブジェクトの色及び／又は輝度の数学的な記述を備える、前述の態様のいずれか一つに記載の電気デバイス（１）。
［態様７］
前記オブジェクトの前記姿勢は、前記パッチのセットの前記分類されたオブジェクトの姿勢を票として用いる票フィルタリングによって決定される、前述の態様のいずれか一つに記載の電気デバイス（１）。
［態様８］
前記パッチは、特に所定のサイズの、及び／又は互いに重なり合う、前記３Ｄ画像データの３次元部分である、前述の態様のいずれか一つに記載の電気デバイス（１）。
［態様９］
前記畳み込みニューラルネットワーク（ＣＮＮ）オートエンコーダは、パッチの汎用的なセットに基づいて、特に一度だけ、事前に訓練される、前述の態様のいずれか一つに記載の電気デバイス（１）。
［態様１０］
前記畳み込みニューラルネットワーク（ＣＮＮ）オートエンコーダは、前記パッチを、特に１０２４個の特徴の特徴ベクトルｆ（ｘ）に集約するように構成される、前述の態様のいずれか一つに記載の電気デバイス（１）。
［態様１１］
前記ｋ−近傍アルゴリズムは、前記特徴ベクトルｆ（ｘ）によって定められる前記特徴空間において前記最も可能性があるオブジェクトの姿勢を見つけるように構成される、前述の態様に記載の電気デバイス（１）。
［態様１２］
前記ｋ−近傍アルゴリズムは、前記オブジェクトのデータに基づいて事前に訓練される、前述の態様のいずれか一つに記載の電気デバイス（１）。
［態様１３］
オブジェクトを認識及び位置特定するためのシステム（３０）であって、前記システムは、
前述の態様のいずれか一つに記載の電気デバイス（１）と、
前記オブジェクトを検知するように構成された光学センサであって、前記センサは特に３Ｄカメラ又はステレオカメラである、光学センサと、
を備える、システム（３０）。
［態様１４］
オブジェクトを認識及び位置特定するための方法であって、前記方法は、
光学センサの３Ｄ画像データを受信するステップであって、前記センサは前記オブジェクト（Ｏ）を検知する、ステップと、
前記３Ｄ画像データをパッチのセットに分解するステップと、
事前に訓練された畳み込みニューラルネットワーク（ＣＮＮ）オートエンコーダ（１２）を用いることにより、各パッチの特徴のセットを抽出するステップと、
各パッチに関して、所定のオブジェクト表現と照合するために、前記パッチの前記特徴のセットをｋ−近傍アルゴリズム（１３）に対する入力として用いることにより前記オブジェクトの姿勢を分類するステップと、
前記パッチのセットの前記分類されたオブジェクトの姿勢を組み合わせることにより、前記オブジェクト（Ｏ）の前記姿勢を決定するステップと、
を備える、方法。
［態様１５］
前記特徴のセットは、前記畳み込みニューラルネットワーク（ＣＮＮ）オートエンコーダの前記符号化段階を用いることによって抽出され、前記特徴のセットは、特に前記符号化段階によって出力される、態様１４に記載の方法。

Claims

オブジェクトを認識及び位置特定するための電気デバイス（１）であって、
前記電気デバイスは、
前記オブジェクト（Ｏ）を検知する光学センサ（３）の３Ｄ画像データを受信し、
前記３Ｄ画像データを同じ物理的サイズの立方体のパッチのセットに分解し、
事前に訓練された畳み込みニューラルネットワーク（ＣＮＮ）オートエンコーダ（１２）を用いることにより、各パッチの特徴のセットを抽出し、
各パッチに関して、所定のオブジェクト表現と照合するために、前記パッチの前記特徴のセットをｋ−近傍アルゴリズム（１３）に対する入力として用いることにより前記オブジェクトの姿勢を分類し、
前記パッチのセットの前記分類されたオブジェクトの姿勢を組み合わせることにより、前記オブジェクト（Ｏ）の前記姿勢を決定する、
ように構成される、電気デバイス。
前記画像データは、可視光画像及び深度画像のペアを備える、請求項１に記載の電気デバイス（１）。
前記可視光画像は、電磁気スペクトルの可視部分を含む、請求項２に記載の電気デバイス（１）。
前記特徴のセットは、前記畳み込みニューラルネットワーク（ＣＮＮ）オートエンコーダの符号化段階を用いることによって抽出される、請求項１〜３のいずれか一項に記載の電気デバイス（１）。
前記オブジェクトの姿勢は、ｘ、ｙ、ｚの位置情報とθ、φ、Ψの回転情報とを備える６Ｄの姿勢である、請求項１〜４のいずれか一項に記載の電気デバイス（１）。
前記特徴は、前記オブジェクトの外観の数学的な記述を備える、請求項１〜５のいずれか一項に記載の電気デバイス（１）。
前記オブジェクトの前記姿勢は、前記パッチのセットの前記分類されたオブジェクトの姿勢を票として用いる票フィルタリングによって決定される、請求項１〜６のいずれか一項に記載の電気デバイス（１）。
前記パッチは、前記３Ｄ画像データの３次元部分である、請求項１〜７のいずれか一項に記載の電気デバイス（１）。
前記畳み込みニューラルネットワーク（ＣＮＮ）オートエンコーダは、パッチの汎用的なセットに基づいて、事前に訓練される、請求項１〜８のいずれか一項に記載の電気デバイス（１）。
前記畳み込みニューラルネットワーク（ＣＮＮ）オートエンコーダは、前記パッチを、特徴ベクトルｆ（ｘ）に集約するように構成される、請求項１〜９のいずれか一項に記載の電気デバイス（１）。
前記ｋ−近傍アルゴリズムは、前記特徴ベクトルｆ（ｘ）によって定められる特徴空間において最も可能性があるオブジェクトの姿勢を見つけるように構成される、請求項１０に記載の電気デバイス（１）。
前記ｋ−近傍アルゴリズムは、前記オブジェクトのデータに基づいて事前に訓練される、請求項１〜１１のいずれか一項に記載の電気デバイス（１）。
オブジェクトを認識及び位置特定するためのシステム（３０）であって、前記システムは、
請求項１〜１２のいずれか一項に記載の電気デバイス（１）と、
前記オブジェクトを検知するように構成された光学センサと、
を備える、システム（３０）。
オブジェクトを認識及び位置特定するための方法であって、前記方法は、
光学センサの３Ｄ画像データを受信するステップであって、前記センサは前記オブジェクト（Ｏ）を検知する、ステップと、
前記３Ｄ画像データを同じ物理的サイズの立方体のパッチのセットに分解するステップと、
事前に訓練された畳み込みニューラルネットワーク（ＣＮＮ）オートエンコーダ（１２）を用いることにより、各パッチの特徴のセットを抽出するステップと、
各パッチに関して、所定のオブジェクト表現と照合するために、前記パッチの前記特徴のセットをｋ−近傍アルゴリズム（１３）に対する入力として用いることにより前記オブジェクトの姿勢を分類するステップと、
前記パッチのセットの前記分類されたオブジェクトの姿勢を組み合わせることにより、前記オブジェクト（Ｏ）の前記姿勢を決定するステップと、
を備える、方法。
前記特徴のセットは、前記畳み込みニューラルネットワーク（ＣＮＮ）オートエンコーダの符号化段階を用いることによって抽出される、請求項１４に記載の方法。