JP6871367B2 - オブジェクトを認識及び位置特定するための電気デバイス、システム及び方法 - Google Patents

オブジェクトを認識及び位置特定するための電気デバイス、システム及び方法 Download PDF

Info

Publication number
JP6871367B2
JP6871367B2 JP2019518923A JP2019518923A JP6871367B2 JP 6871367 B2 JP6871367 B2 JP 6871367B2 JP 2019518923 A JP2019518923 A JP 2019518923A JP 2019518923 A JP2019518923 A JP 2019518923A JP 6871367 B2 JP6871367 B2 JP 6871367B2
Authority
JP
Japan
Prior art keywords
electrical device
patch
autoencoder
patches
motomeko
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019518923A
Other languages
English (en)
Other versions
JP2019531554A (ja
Inventor
マイアー スベン
マイアー スベン
訓成 小堀
訓成 小堀
ケール バディム
ケール バディム
ミレタリ ファウスト
ミレタリ ファウスト
Original Assignee
トヨタ モーター ヨーロッパ
トヨタ モーター ヨーロッパ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by トヨタ モーター ヨーロッパ, トヨタ モーター ヨーロッパ filed Critical トヨタ モーター ヨーロッパ
Publication of JP2019531554A publication Critical patent/JP2019531554A/ja
Application granted granted Critical
Publication of JP6871367B2 publication Critical patent/JP6871367B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/259Fusion by voting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Description

本開示は、オブジェクトを認識及び位置特定するための、特に、非静止のオブジェクトの姿勢を認識するための電気デバイス、システム及び方法に関する。
自動化は多くの分野でますます重要になってきており、これはロボット工学に関するニーズの高まりも暗示する。一方、ロボット工学システムは工業分野では一般的になっているが、それらの使用は、例えば日常生活の中で個々のユーザに役立つために、家庭の住居の環境ではいまだにむしろ一般的ではない。しかしながら、この分野ではまた、ロボット工学システムに関して高い需要がある。例えば、ロボット工学システムは、高齢者が特定のオブジェクト、例えば鉛筆を見つけて取り出すことを支援することができる。
家庭の住居におけるロボット工学システムの使用の一つの問題は、工業用途とは対照的に、多くのタスクが、標準化され得ない、すなわち事前に定められ得ず且つしっかりと制御され得ないということである従って、ロボット工学システムは、個々の変化するタスクを実行することができなければならない。さらに、家庭の住居における操作条件は、例えば、照明、オブジェクト配置など、より困難なものになっている。
ロボット工学システムの重要な態様は、それ故、任意の位置及び任意の向きにおいて位置付けられ得る特定のオブジェクトを見つけ出して認識するためのその能力である。この目的のため、ロボット工学システムは、光学センサを備えることができ、例えば走行可能な車輪を有することができるなど、移動可能とすることができる。
米国特許出願公開第2012114251 (A1)号は、3Dオブジェクトの2D表現から3D形状を復元し、復元された3D形状と、オブジェクトクラスの少なくとも一つのオブジェクトの既知の3Dから2D表現とを比較するための静的形状モデルを用いる、あるオブジェクトクラスの3Dオブジェクトのオブジェクト認識のためのシステムを開示する。
欧州特許出願公開第EP1603071 (A1)号は、立体カメラによって獲得された画像ペアを用いることによって距離画像を生成するための距離画像生成部を有する三次元オブジェクト認識システムを開示する。三次元オブジェクトの区別は、ニューラルネットワークの出力パターンに基づいて実行される。
しかしながら、既知のシステムは、システムに知られるようになるために、各オブジェクトに関してなされなければならない広範囲の訓練を必要とする。従って、ユーザが新しいオブジェクトを既知のオブジェクトのリストに追加したい場合には、システムは、特に複雑なニューラルネットワークの訓練を含む徹底的な訓練を実行しなければならず、高い処理能力を伴って数時間又は数日でさえも費やす場合がある。
現在、減少された訓練の労力でオブジェクトを認識及び位置特定するための電気デバイス、システム及び方法を提供することが望ましいままである。
それ故、本開示の実施形態によると、オブジェクトを認識及び位置特定するための車両の電気デバイスが提供される。電気デバイスは、
− オブジェクトを検知する光学センサの3D画像データを受信し、
− 3D画像データをパッチのセットに分解し、
− 事前に訓練された畳み込みニューラルネットワーク(CNN)オートエンコーダを用いることにより、各パッチの特徴のセットを抽出し、
− 各パッチに関して、所定のオブジェクト表現と照合するために、パッチの特徴のセットをk−近傍アルゴリズムに対する入力として用いることによりオブジェクトの姿勢(pose)を分類し、
− パッチのセットの分類されたオブジェクトの姿勢を組み合わせることにより、オブジェクトの姿勢を決定する、ように構成される。
斯かる電気デバイスを提供することにより、新しいオブジェクトがデバイスによって学習されるときにデバイスの訓練が実質的に低減され得る。CNNオートエンコーダ及びk−NN分類器としてそれぞれ実装される特徴抽出及び分類の組み合わせは、以下の利点を有する。
畳み込みニューラルネットワーク(CNN)オートエンコーダ(すなわち、CNNオートエンコーダ特徴空間集約(CNN auto-encoder feature space reduction))を一度だけ(事前に)訓練するだけで十分である。この訓練は集中的且つきめ細かいものになる場合があり、必要とされる高い計算労力はこの処理ステップの全てのその後の使用において節約される。
しかしながら、k−近傍アルゴリズム(すなわち、k−NN分類器)は訓練するのに簡単且つ迅速であり、従って新しいオブジェクトを学習するための計算労力は小さい。
換言すると、CNNオートエンコーダにおいて実装される特徴空間集約ステップは、k−NN分類ステップでの計算負荷を低減する。
さらに、(局所的な)パッチ分解は、スケールの不変性を実現する。従って、パッチデータは、オブジェクトの距離及び見かけのサイズとは無関係であり得る。スケールの不変性は、オブジェクトの見かけのサイズが変化してもオブジェクトの外観の記述(description)が一定であるという特性である。
画像データは、可視光画像及び深度画像のペアを備えることができる。これらデータは、デバイスへの入力データとすることができる。
可視光画像は、特に人間の視覚システム(human vision system)によって処理される三つの帯域(RGB:赤、緑、青)に分解される、電磁気スペクトルの可視部分を備えることができる。
特徴のセットは、畳み込みニューラルネットワーク(CNN)オートエンコーダの符号化段階(encoding stage)を用いることにより抽出され得る。望ましくは、特徴のセットは、符号化段階によって出力され得る。
従って、用いられる畳み込みニューラルネットワーク(CNN)オートエンコーダは、符号化段階及び復号段階(decoding stage)を備えることができる。デバイスは、特徴のセットを取得(すなわち、抽出)するために、畳み込みニューラルネットワーク(CNN)オートエンコーダの復号段階ではなく、符号化段階のみを用いることが望ましい。換言すると、特徴のセットは、符号化段階の出力とすることができる。
オブジェクトの姿勢は、x、y、zの位置情報とθ、φ、Ψの回転情報とを備える6Dの姿勢とすることができる。
より一般的には、オブジェクトの姿勢は、座標系におけるオブジェクトの位置及び向きの数学的な記述とすることができる。
特徴は、オブジェクトの外観、特にオブジェクトの色及び/又は輝度の数学的な記述を備えることができる。
オブジェクトの姿勢は、パッチのセットの分類されたオブジェクトの姿勢を票(vote)として用いる票フィルタリング(vote filtering)によって決定され得る。
従って、全てのパッチの提供は、票空間(vote space)を構成することができる。適切な閾値をこの票空間に適用することは、光学センサによって検知されたシーン内のオブジェクトの最も可能性が高いオブジェクトの姿勢をもたらすことができる。
票空間への特徴空間距離を設定する、すなわち最も可能性が高いオブジェクトの姿勢に票を限定する、閾値が定められ得る。
パッチは、特に所定のサイズの、及び/又は互いに重なり合う、3D画像データの3次元部分とすることができる。
従って、入力画像は、パッチと名付けられるより小さい画像のセットに分解され得る。
畳み込みニューラルネットワーク(CNN)オートエンコーダは、パッチの汎用的なセットに基づいて(すなわち用いることによって)、特に一度だけ、事前に訓練され得る。
従って、畳み込みニューラルネットワーク(CNN)オートエンコーダの訓練は、汎用的であり得る。一度訓練されると、オートエンコーダは、以前に見たことがないオブジェクト及び画像に適用され得る。従って、再訓練の必要がなく、それ故このアルゴリズムを新しいオブジェクトに適応させる速度が大幅に増大する。
パッチの汎用的なセットは、オブジェクトデータの大きな且つ代表的なデータセットから抽出されたパッチのセットとすることができる。データは、色を入れ替えること及びノイズを加えることによってさらに増加され得る。この大きなデータセットは、畳み込みオートエンコーダのための広範な訓練セットを提供するために用いられ得る。一度訓練されると、オートエンコーダの符号化段階は、入力3D画像データからの抽出記述的特徴(extracting descriptive features)のために維持され及び用いられ得る。
畳み込みニューラルネットワーク(CNN)オートエンコーダは、パッチを、特に1024個の特徴の特徴ベクトルf(x)に集約(reduce)するように構成され得る。
従って、畳み込みニューラルネットワークオートエンコーダの圧縮特徴層Fの活性化値は、パッチを特徴のセットに集約する(すなわち、パッチから特徴のセットを抽出する)ために用いられ得る。
k−近傍(k−NN)アルゴリズムは、特徴ベクトルf(x)によって定められる特徴空間において最も可能性があるオブジェクトの姿勢を見つけるように構成され得る。
k−近傍アルゴリズムは、オブジェクトのデータに基づいて事前に訓練される。
従って、デバイスは、目標のオブジェクトの3Dモデルファイルを事前の知識として用いることができる。このモデルは、オブジェクトの形状(3D)及び外観(色)情報を提供することができる。特定のオブジェクトの特性で訓練されたk−NNアルゴリズムは、各パッチの最も一致する姿勢を見つけるために用いられ得る。圧縮特徴層の特徴は、k−NNアルゴリズムのための探索特徴空間として使用可能であるために十分に識別可能である。従って、k−NNアルゴリズムは迅速に訓練され得て、また訓練されたk−NNアルゴリズムは特徴のセットに適用されるときに低い処理能力のみを必要とするが、デバイスはオブジェクトを確実に認識及び位置特定することができる。
本開示は、オブジェクトを認識及び位置特定するためのシステムにさらに関し、本システムは、
・電気デバイスであって、特に上述したような電気デバイスと、
・オブジェクトを検知するように構成された光学センサであって、該センサは特に3Dカメラ又はステレオカメラである、光学センサと、
を備える。
従って、本システムは、オブジェクトを自律的に認識及び位置特定するように構成され得る。例えばオブジェクトを取り出すための手段を有する、移動可能なロボット工学システムとして実現され得る。
本開示は、オブジェクトを認識及び位置特定する方法にさらに関する。本方法は、
・光学センサの3D画像データを受信するステップであって、該センサはオブジェクトを検知する、ステップと、
・3D画像データをパッチのセットに分解するステップと、
・事前に訓練された畳み込みニューラルネットワーク(CNN)オートエンコーダを用いることによって各パッチの特徴のセットを抽出するステップと、
・各パッチに関して、所定のオブジェクト表現と照合するために、パッチの特徴のセットをk−近傍アルゴリズムに対する入力として用いることによりオブジェクトの姿勢を分類するステップと、
・パッチのセットの分類されたオブジェクトの姿勢を組み合わせることにより、オブジェクトの姿勢を決定するステップと、
を備える。
本方法は、上述したような電気デバイスの機能に対応する更なる方法ステップを備えることができる。更なる望ましい方法ステップは、以下に説明される。
画像データは、可視光画像及び深度画像のペアを備えることができる。
可視光画像は、特にヒューマンビジョンシステムによって処理される三つの帯域(RGB)に分解される、電磁気スペクトルの可視部分を備えることができる。
特徴のセットは、畳み込みニューラルネットワーク(CNN)オートエンコーダの符号化段階を用いることによって抽出され得る。望ましくは、特徴のセットは、符号化段階によって出力され得る。
オブジェクトの姿勢は、x、y、zの位置情報とθ、φ、Ψの回転情報とを備える6Dの姿勢とすることができる。
特徴は、オブジェクトの外観、特にオブジェクトの色及び/又は輝度の数学的な記述を備えることができる。
オブジェクトの姿勢は、パッチのセットの分類されたオブジェクトの姿勢を票として用いる票フィルタリングによって決定され得る。
パッチは、特に所定のサイズの、及び/又は互いに重なり合う、3D画像データの3次元部分とすることができる。
畳み込みニューラルネットワーク(CNN)オートエンコーダは、パッチの汎用的なセットに基づいて、特に一度だけ、事前に訓練され得る。
畳み込みニューラルネットワーク(CNN)オートエンコーダは、パッチを、特に1024個の特徴の特徴ベクトルf(x)に集約することができる。
k−近傍(k−NN)アルゴリズムは、特徴ベクトルf(x)によって定められる特徴空間において最も可能性があるオブジェクトの姿勢を見つけることができる。
k−近傍アルゴリズムは、オブジェクトのデータに基づいて事前に訓練され得る。
特に矛盾しない限り、上記の要素と本明細書内のこれらとの組み合わせがなされ得ることが意図される。
前述の一般的な説明及び以下の詳細な説明の両方は、例示的及び説明的なものにすぎず、特許請求の範囲に記載のように、本開示を限定するものではないと理解されるべきである。
本明細書に組み込まれ、本明細書の一部を構成する添付の図面は、本開示の実施形態をその説明と共に例示し、それらの原理を説明するのに役立つ。
図1は、本開示の実施形態に係る、電気デバイスを有するシステムのブロック図である。 図2は、本開示の実施形態に係る、オブジェクトを認識及び位置特定する例示的な方法を示す概略的なフローチャートである。 図3は、特定の例の状況において図2の例示的な方法を示すフローチャートを示す。 図4は、本開示の実施形態に係る、畳み込みオートエンコーダの例を示す。 図5は、図4のオートエンコーダの描写を示す。 図6は、本開示の実施形態に係る、オブジェクトが認識及び位置特定される例示的なシーンを示す。
これから、本開示の例示的な実施形態が詳細に参照されることとなり、それらの例を添付の図面に示す。可能な限り、同じ又は類似の部分を言及するために、同じ参照番号が図面全体を通して用いられることになる。
図1は、本開示の実施形態に係る、電気デバイス1を有するシステム30のブロック図である。本システムは、様々な機能を有することができるロボット工学システム10を備えることができる。例えば、それは、例えば走行可能な車輪を有するなど、移動可能とすることができ、それは、例えば少なくとも一つの把持部など、オブジェクトを取り出すための手段を有することができる。
電気デバイス1は、シーンにおけるオブジェクトの存在及び位置を検出するためのコンピュータビジョンアルゴリズムを実行する。ロボット工学システムは、オブジェクトを見つけ、位置特定し、操作することができるようにこの情報を必要とする。電気デバイス1への入力は、可視光(RGB)及び深度画像(D)のペアである。 電気デバイス1の出力は、目標のオブジェクトの6Dの姿勢(x、y、zの位置及びx、y、z周りのθ、φ、Ψの回転)である。
電気デバイス1は、データストレージ2に接続されるか、又はデータストレージ2を備える。前記データストレージは、目標のオブジェクトを、シーンの形状(3D)及び外観(色)情報を提供する3Dモデルファイルの形式で記憶するために用いられ得る。さらに、k−NNアルゴリズム及び/又はCNNオートエンコーダは、データストレージ2に記憶される。従って、電気デバイス1は、k−NNアルゴリズム及びCNNオートエンコーダを備え、k−NNアルゴリズム及びCNNオートエンコーダを実行するように構成される。
電気デバイス1は、加えて、システム30における更なる機能を実行することができる。例えば、電気デバイスは、システムの汎用ECU(電子制御ユニット)としても動作することができる。電気デバイス1は、電気回路、プロセッサ(共有、専用、又はグループ)、組み合わせ論理回路、一つ又は複数のソフトウェアプログラムを実行するメモリ、及び/又は説明された機能性を提供する他の適切な構成要素を備えることができる。換言すると、デバイス1は、コンピュータデバイスとすることができる。
デバイス1は、オブジェクトを見つけて取り出すように構成された(移動可能)ロボット工学システム10の外部にあってもよい。換言すると、ロボット工学システム10のボード上の計算リソースは制限され得る。例えば、それらは、例えばwifi(登録商標)などを介して3Dデータを外部の(及び例えば固定された)電気デバイス1に送信することのみができる。デバイス1によって決定された結果は、ロボットに返送され得る。
電気デバイス1は、特に3Dデジタルカメラ3、例えばステレオカメラ又はマイクロソフトキネクト(登録商標)カメラなどの、光学センサにさらに接続される。電気デバイス1及びデジタルカメラは、ロボット工学システム10によって備えられ得る。デジタルカメラ3は、3次元シーンを記録し、特にシーンの形状(3D)及び外観(色)情報を提供するデジタルデータを出力することができるように構成される。
デジタルカメラ3の出力は、電気デバイス1に送信される。望ましくは、出力は瞬時に、すなわちリアルタイムで又は見かけ上リアルタイムで送信される。従って、検索されたオブジェクトは、リアルタイムで又は見かけ上リアルタイムで電気デバイスによって認識及び位置特定されることもできる。
システム30は、追加的にサーバ20を備えることができる。サーバ20は、k−NNアルゴリズム及び/又はCNNオートエンコーダを訓練して後に更新するために用いられる。この目的のために、電気デバイス1は、サーバに接続可能とすることができる。例えば、電気デバイス1は、無線通信を介してサーバ20に接続され得る。或いは又は加えて、電気デバイス1は、固定接続を介して、例えばケーブルなどを介して、サーバ20に接続可能であってもよい。電気デバイス1とサーバ20との間のデータの移行は、携帯可能なデータストレージ、例えばUSBスティックを用いることによって達成されることも可能である。
図2は、本開示の実施形態に係る、オブジェクトを認識及び位置特定する例示的な方法及びシステムを示す概略的なフローチャートを示す。特に、本方法は、以下のようなオブジェクト検出及び姿勢推定手順である。
ステップ11において、局所的なパッチ抽出が実行される。この目的のため、画像(すなわち、3D画像データ)は、例えば、各々が同じ物理的サイズの小さいパッチに分解される。カメラからの平均距離がパッチデータから減算される。深度及び色画像の値は、−1から1の範囲に正規化される。
より詳細には、画像は、5×5×5cmの同一の物理的サイズのパッチに分解される。サイズ情報は、入力データの深度チャネルによって提供される。パッチ表現を用いることは、システム全体をオクルージョン及びライティングに対してより堅牢(robust)にする。
次の処理ステップのためのデータを正規化するために、深度パッチが5×5×5cmの立方体に切り抜かれ、その後に−1から1の範囲に正規化される。同じことが色チャネルの各々に対して適用される。これは、以下の処理ステップに対する正規化された入力データセットをもたらす。
局所的なパッチは、画像内のオブジェクトの異なる位置から抽出され得る。各位置で、RGB画像パッチ及び一致する深度画像パッチが更なる処理のために抽出される。換言すると、検索されたオブジェクトは、画像内のいくつかのパッチで構成され得る。
ステップ12において、特徴抽出が各パッチに関して実行される。畳み込みニューラルネットワークオートエンコーダは、パッチの汎用的なセットで訓練され、特徴のセットにおけるパッチの簡潔な表現、すなわち例えば1024の値の特徴ベクトルを作り出すことができる。このステップは、汎用的であり、一度訓練されると、以前に見たことがないオブジェクトのタイプ及び画像に適用され得る。
ステップ13において、特徴の各セットに関する姿勢の分類が実行される。畳み込みニューラルネットワークオートエンコーダを通して集約された局所的なパッチからのデータは、既知のオブジェクト表現と照合するために、k−NN分類器に対する入力として用いられる。この段階(すなわちステップ13の)は、特定のオブジェクト毎に訓練及び調整される。
ステップ14では、票フィルタリングが実行される。各パッチは票を提供し、票をフィルタリングした後、最も可能性が高い6D姿勢が残る。全てのパッチの提供は票空間を構成し、この票空間に対して適切な閾値を適用することはシーンにおいて最も可能性が高いオブジェクトの姿勢をもたらす。
全ての四つのステップの組み合わせの使用は、信頼性のあるオブジェクト検出能力をもたらし、訓練時及び実行時の計算コストが低減され得る。
電気デバイスは、シーンにおいていくつかの検索されたオブジェクトを認識するように構成され得る。例えば、姿勢を分類するとき(ステップ13を参照)には同じ抽出された特徴のセットであるが(ステップ12を参照)異なるモデルファイル(すなわちオブジェクト表現)を用いて、各検索されたオブジェクトに関して上述の手順が実行され得る。
図3は、特定の例の状況において、図2の例示的な方法を示すフローチャートを示す。
まず、パッチ分解アルゴリズム11が実行される(図3の左側を参照)。RGB及びD画像からスケール不変パッチを抽出するためにサンプリングされた例示的なシーンが示されている。パッチは、色画像(左)及び深度画像(右)のペアを備える。その後、畳み込みニューラルネットワークオートエンコーダ12が実行され、画像パッチ11を特徴ベクトルf(x)(図3の中央を参照)に集約する。k−NN分類器アルゴリズム13(すなわち、コードブック)が実行され、この特徴空間内において最も可能性が高いオブジェクトの姿勢を見つけ出す。最後に、票フィルタリングアルゴリズムが実行される(図3の右側)。各パッチは、シーンにおいて可能性が高いオブジェクトの姿勢及び位置に関して投票を行う(cast)。最大の票は、最も可能性が高いオブジェクトの姿勢を示す。
図4は、本開示の実施形態に係る、畳み込みニューラルネットワークオートエンコーダの例を示す。以前に訓練された畳み込みニューラルネットワークオートエンコーダは、正規化されたRGB−D入力パッチを例えば1024の特徴のベクトルに集約するために用いられる。これは、畳み込みニューラルネットワークオートエンコーダの圧縮特徴層Fの活性化値を用いる。
図4において、xは、入力RGB−Dパッチであり、yは出力(再構築)RGB−Dパッチであり、Fは圧縮特徴層である。復号段階(図4における下方のブランチ)は用いられない。有利には、xからFまでをもたらしている処理のみが各パッチの特徴のセットを抽出するために必要とされる。いずれにせよ、圧縮特徴層の特徴のセットは、k−NN分類器のための探索特徴空間として利用可能なように十分に識別可能である。
図5は、図4のオートエンコーダの描写を示す。図4において、圧縮特徴層はFでラベル付けされ、入力画像パッチのペアはxでラベル付けされ、再構築画像パッチのペアはyでラベル付けされる。有利には、特徴抽出のために用いられるオートエンコーダは、汎用的なデータで一度だけ訓練される。それは、再訓練の必要なしに、以前に見たことがない広範な様々なオブジェクトに適用されることができ、従ってこのアルゴリズムを新しいオブジェクトのタイプに適応させる速度が大幅に増大する。
畳み込みオートエンコーダ、すなわち、多くの畳み込み層を有するオートエンコーダは、オブジェクトデータの大きな且つ代表的なデータセットから抽出されるパッチのセットで訓練される。データは、色を並べ替えてノイズを追加することによってさらに増加される。この大きなデータセットは、畳み込みオートエンコーダのための広範な訓練セットを提供するために用いられる。
一度訓練されると、オートエンコーダの符号化段階は、入力画像からの抽出記述的特徴のために維持及び用いられる。このために、圧縮層Fの活性化信号が用いられる。実際のテストは1024個のノードを有する圧縮層を用いることが良好に機能することを示したが、本発明はこの数に限定されない。
図6は、本開示の実施形態に係る、オブジェクトが認識及び位置特定される例示的なシーンを示す。本例において、検索された目標のオブジェクトOは、シーンの中央に実質的に位置特定される。投票は、特徴空間距離閾値(左及び右)を変えるために示される。票の中央に対応するオブジェクトの位置は、画像において示される。どのようにして票が目標のオブジェクトOの近くに集まるかが分かり得る。従って、本例において、右の画像において適用されるより高い閾値は、より適切である。
特許請求の範囲を含む説明全体を通して、用語「備える(comprising a)」は、特に明記しない限り「少なくとも一つを備える(comprising at least one)」と同義であると理解されるべきである。さらに、特許請求の範囲を含む説明に記載された任意の範囲は、特に明記しない限りその最終値(end value)を含むと理解されるべきである。説明された要素の具体的な値は、当業者に知られている許容された製造又は工業公差内であると理解されるべきであり、そして用語「実質的に(substantially)」及び/又は「およそ(approximately)」及び/又は「概して(generally)」の任意の使用はそのような許容交差内に入ることを意味していると理解されるべきである。
本明細書における本開示が特定の実施形態を参照して説明されてきたが、これらの実施形態は本開示の原理及び用途の単なる例示であると理解されたい。
明細書及び例は例示としてのみ考慮されると意図されており、本開示の真の範囲は以下の特許請求の範囲によって示される。
本明細書は以下の態様を含む。
[態様1]
オブジェクトを認識及び位置特定するための電気デバイス(1)であって、
前記電気デバイスは、
前記オブジェクト(O)を検知する光学センサ(3)の3D画像データを受信し、
前記3D画像データをパッチのセットに分解し、
事前に訓練された畳み込みニューラルネットワーク(CNN)オートエンコーダ(12)を用いることにより、各パッチの特徴のセットを抽出し、
各パッチに関して、所定のオブジェクト表現と照合するために、前記パッチの前記特徴のセットをk−近傍アルゴリズム(13)に対する入力として用いることにより前記オブジェクトの姿勢を分類し、
前記パッチのセットの前記分類されたオブジェクトの姿勢を組み合わせることにより、前記オブジェクト(O)の前記姿勢を決定する、
ように構成される、電気デバイス。
[態様2]
前記画像データは、可視光画像及び深度画像のペアを備える、態様1に記載の電気デバイス(1)。
[態様3]
前記可視光画像は、特に前記人間の視覚システムによって処理される前記三つの帯域(RGB)に分解される、前記電磁気スペクトルの前記可視部分を含む、態様2に記載の電気デバイス(1)。
[態様4]
前記特徴のセットは、前記畳み込みニューラルネットワーク(CNN)オートエンコーダの前記符号化段階を用いることによって抽出され、前記特徴のセットは、特に前記符号化段階によって出力される、前述の態様のいずれか一つに記載の電気デバイス(1)。
[態様5]
前記オブジェクトの姿勢は、x、y、zの位置情報とθ、φ、Ψの回転情報とを備える6Dの姿勢である、前述の態様のいずれか一つに記載の電気デバイス(1)。
[態様6]
前記特徴は、前記オブジェクトの外観、特に前記オブジェクトの色及び/又は輝度の数学的な記述を備える、前述の態様のいずれか一つに記載の電気デバイス(1)。
[態様7]
前記オブジェクトの前記姿勢は、前記パッチのセットの前記分類されたオブジェクトの姿勢を票として用いる票フィルタリングによって決定される、前述の態様のいずれか一つに記載の電気デバイス(1)。
[態様8]
前記パッチは、特に所定のサイズの、及び/又は互いに重なり合う、前記3D画像データの3次元部分である、前述の態様のいずれか一つに記載の電気デバイス(1)。
[態様9]
前記畳み込みニューラルネットワーク(CNN)オートエンコーダは、パッチの汎用的なセットに基づいて、特に一度だけ、事前に訓練される、前述の態様のいずれか一つに記載の電気デバイス(1)。
[態様10]
前記畳み込みニューラルネットワーク(CNN)オートエンコーダは、前記パッチを、特に1024個の特徴の特徴ベクトルf(x)に集約するように構成される、前述の態様のいずれか一つに記載の電気デバイス(1)。
[態様11]
前記k−近傍アルゴリズムは、前記特徴ベクトルf(x)によって定められる前記特徴空間において前記最も可能性があるオブジェクトの姿勢を見つけるように構成される、前述の態様に記載の電気デバイス(1)。
[態様12]
前記k−近傍アルゴリズムは、前記オブジェクトのデータに基づいて事前に訓練される、前述の態様のいずれか一つに記載の電気デバイス(1)。
[態様13]
オブジェクトを認識及び位置特定するためのシステム(30)であって、前記システムは、
前述の態様のいずれか一つに記載の電気デバイス(1)と、
前記オブジェクトを検知するように構成された光学センサであって、前記センサは特に3Dカメラ又はステレオカメラである、光学センサと、
を備える、システム(30)。
[態様14]
オブジェクトを認識及び位置特定するための方法であって、前記方法は、
光学センサの3D画像データを受信するステップであって、前記センサは前記オブジェクト(O)を検知する、ステップと、
前記3D画像データをパッチのセットに分解するステップと、
事前に訓練された畳み込みニューラルネットワーク(CNN)オートエンコーダ(12)を用いることにより、各パッチの特徴のセットを抽出するステップと、
各パッチに関して、所定のオブジェクト表現と照合するために、前記パッチの前記特徴のセットをk−近傍アルゴリズム(13)に対する入力として用いることにより前記オブジェクトの姿勢を分類するステップと、
前記パッチのセットの前記分類されたオブジェクトの姿勢を組み合わせることにより、前記オブジェクト(O)の前記姿勢を決定するステップと、
を備える、方法。
[態様15]
前記特徴のセットは、前記畳み込みニューラルネットワーク(CNN)オートエンコーダの前記符号化段階を用いることによって抽出され、前記特徴のセットは、特に前記符号化段階によって出力される、態様14に記載の方法。

Claims (15)

  1. オブジェクトを認識及び位置特定するための電気デバイス(1)であって、
    前記電気デバイスは、
    前記オブジェクト(O)を検知する光学センサ(3)の3D画像データを受信し、
    前記3D画像データを同じ物理的サイズの立方体のパッチのセットに分解し、
    事前に訓練された畳み込みニューラルネットワーク(CNN)オートエンコーダ(12)を用いることにより、各パッチの特徴のセットを抽出し、
    各パッチに関して、所定のオブジェクト表現と照合するために、前記パッチの前記特徴のセットをk−近傍アルゴリズム(13)に対する入力として用いることにより前記オブジェクトの姿勢を分類し、
    前記パッチのセットの前記分類されたオブジェクトの姿勢を組み合わせることにより、前記オブジェクト(O)の前記姿勢を決定する、
    ように構成される、電気デバイス。
  2. 前記画像データは、可視光画像及び深度画像のペアを備える、請求項1に記載の電気デバイス(1)。
  3. 前記可視光画像は、電磁気スペクトルの可視部分を含む、請求項2に記載の電気デバイス(1)。
  4. 前記特徴のセットは、前記畳み込みニューラルネットワーク(CNN)オートエンコーダの符号化段階を用いることによって抽出される、請求項1〜3のいずれか一項に記載の電気デバイス(1)。
  5. 前記オブジェクトの姿勢は、x、y、zの位置情報とθ、φ、Ψの回転情報とを備える6Dの姿勢である、請求項1〜4のいずれか一項に記載の電気デバイス(1)。
  6. 前記特徴は、前記オブジェクトの外観の数学的な記述を備える、請求項1〜5のいずれか一項に記載の電気デバイス(1)。
  7. 前記オブジェクトの前記姿勢は、前記パッチのセットの前記分類されたオブジェクトの姿勢を票として用いる票フィルタリングによって決定される、請求項1〜6のいずれか一項に記載の電気デバイス(1)。
  8. 前記パッチは、前記3D画像データの3次元部分である、請求項1〜7のいずれか一項に記載の電気デバイス(1)。
  9. 前記畳み込みニューラルネットワーク(CNN)オートエンコーダは、パッチの汎用的なセットに基づいて、事前に訓練される、請求項1〜8のいずれか一項に記載の電気デバイス(1)。
  10. 前記畳み込みニューラルネットワーク(CNN)オートエンコーダは、前記パッチを、特徴ベクトルf(x)に集約するように構成される、請求項1〜9のいずれか一項に記載の電気デバイス(1)。
  11. 前記k−近傍アルゴリズムは、前記特徴ベクトルf(x)によって定められる特徴空間において最も可能性があるオブジェクトの姿勢を見つけるように構成される、請求項10に記載の電気デバイス(1)。
  12. 前記k−近傍アルゴリズムは、前記オブジェクトのデータに基づいて事前に訓練される、請求項1〜11のいずれか一項に記載の電気デバイス(1)。
  13. オブジェクトを認識及び位置特定するためのシステム(30)であって、前記システムは
    求項1〜12のいずれか一項に記載の電気デバイス(1)と、
    前記オブジェクトを検知するように構成された光学センサと
    を備える、システム(30)。
  14. オブジェクトを認識及び位置特定するための方法であって、前記方法は、
    光学センサの3D画像データを受信するステップであって、前記センサは前記オブジェクト(O)を検知する、ステップと、
    前記3D画像データを同じ物理的サイズの立方体のパッチのセットに分解するステップと、
    事前に訓練された畳み込みニューラルネットワーク(CNN)オートエンコーダ(12)を用いることにより、各パッチの特徴のセットを抽出するステップと、
    各パッチに関して、所定のオブジェクト表現と照合するために、前記パッチの前記特徴のセットをk−近傍アルゴリズム(13)に対する入力として用いることにより前記オブジェクトの姿勢を分類するステップと、
    前記パッチのセットの前記分類されたオブジェクトの姿勢を組み合わせることにより、前記オブジェクト(O)の前記姿勢を決定するステップと、
    を備える、方法。
  15. 前記特徴のセットは、前記畳み込みニューラルネットワーク(CNN)オートエンコーダの符号化段階を用いることによって抽出される、請求項14に記載の方法。
JP2019518923A 2016-10-07 2016-10-07 オブジェクトを認識及び位置特定するための電気デバイス、システム及び方法 Active JP6871367B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2016/074088 WO2018065073A1 (en) 2016-10-07 2016-10-07 Electronic device, system and method for recognizing and locating an object

Publications (2)

Publication Number Publication Date
JP2019531554A JP2019531554A (ja) 2019-10-31
JP6871367B2 true JP6871367B2 (ja) 2021-05-12

Family

ID=57124001

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019518923A Active JP6871367B2 (ja) 2016-10-07 2016-10-07 オブジェクトを認識及び位置特定するための電気デバイス、システム及び方法

Country Status (2)

Country Link
JP (1) JP6871367B2 (ja)
WO (1) WO2018065073A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717568B (zh) * 2018-05-16 2019-10-22 陕西师范大学 一种基于三维卷积神经网络的图像特征提取与训练方法
WO2020048620A1 (en) * 2018-09-07 2020-03-12 Toyota Motor Europe Method and system for processing an image by determining rotation hypotheses
US11818982B2 (en) * 2018-09-18 2023-11-21 Deere & Company Grain quality control system and method
KR102080145B1 (ko) * 2019-10-30 2020-02-24 주식회사 뉴로메카 오토 엔코더의 잠재 변수 사전을 이용한 물체 자세 추정 방법 장치
KR102177445B1 (ko) * 2020-02-17 2020-11-11 주식회사 뉴로메카 오토 엔코더의 잠재 변수 사전을 이용한 물체 자세 추정 방법 장치
CN111738306B (zh) * 2020-06-01 2022-05-13 山东省人工智能研究院 基于块卷积神经网络的多视图三维模型检索方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3979136B2 (ja) * 2002-03-20 2007-09-19 富士ゼロックス株式会社 認識装置および方法
JP4532171B2 (ja) 2004-06-01 2010-08-25 富士重工業株式会社 立体物認識装置
SE528068C2 (sv) 2004-08-19 2006-08-22 Jan Erik Solem Med Jsolutions Igenkänning av 3D föremål
US8406470B2 (en) * 2011-04-19 2013-03-26 Mitsubishi Electric Research Laboratories, Inc. Object detection in depth images
JP6372282B2 (ja) * 2014-09-26 2018-08-15 富士通株式会社 画像処理装置、画像処理方法及びプログラム
US10515259B2 (en) * 2015-02-26 2019-12-24 Mitsubishi Electric Research Laboratories, Inc. Method and system for determining 3D object poses and landmark points using surface patches

Also Published As

Publication number Publication date
WO2018065073A1 (en) 2018-04-12
JP2019531554A (ja) 2019-10-31

Similar Documents

Publication Publication Date Title
JP6871367B2 (ja) オブジェクトを認識及び位置特定するための電気デバイス、システム及び方法
EP3501002B1 (en) Fine-grained object recognition in robotic systems
US11074466B2 (en) Anti-counterfeiting processing method and related products
US10726307B2 (en) Real-time identification of moving objects in video images
CN205721777U (zh) 视觉搜索设备和系统
JP6074272B2 (ja) 画像処理装置および画像処理方法
Naikal et al. Towards an efficient distributed object recognition system in wireless smart camera networks
KR102223478B1 (ko) 눈 상태 검출에 딥러닝 모델을 이용하는 눈 상태 검출 시스템 및 그 작동 방법
KR101491461B1 (ko) 공분산 기술자를 이용하는 물체 인식 방법 및 장치
US20170061253A1 (en) Method and device for determining the shape of an object represented in an image, corresponding computer program product and computer-readable medium
JP2017062778A (ja) 画像のオブジェクトを分類するための方法およびデバイスならびに対応するコンピュータプログラム製品およびコンピュータ可読媒体
CN110392893A (zh) 用于内容检测的图像处理方法
KR20190054702A (ko) 영상에서 객체의 행동을 인식하는 방법 및 그 장치
KR102557561B1 (ko) 이미지의 깊이 정보를 결정하는 방법 및 시스템
CN110674677A (zh) 一种多模态多层融合的用于人脸反欺骗的深度神经网络
CN106991364B (zh) 人脸识别处理方法、装置以及移动终端
CN112668410B (zh) 分拣行为检测方法、系统、电子装置和存储介质
CN113723185B (zh) 动作行为识别方法、装置、存储介质及终端设备
Komagal et al. Real time background subtraction techniques for detection of moving objects in video surveillance system
Elmoogy et al. Surfcnn: A descriptor accelerated convolutional neural network for image-based indoor localization
CN113395583A (zh) 水印检测方法、装置、计算机设备及存储介质
JP6955081B2 (ja) オブジェクト姿勢を決定するための電子デバイス、システムおよび方法
WO2021214540A1 (en) Robust camera localization based on a single color component image and multi-modal learning
Wang et al. GA-STIP: Action recognition in multi-channel videos with geometric algebra based spatio-temporal interest points
Baroffio et al. A survey on compact features for visual content analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190408

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200804

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210316

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210415

R150 Certificate of patent or registration of utility model

Ref document number: 6871367

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350