JP6871367B2 - オブジェクトを認識及び位置特定するための電気デバイス、システム及び方法 - Google Patents
オブジェクトを認識及び位置特定するための電気デバイス、システム及び方法 Download PDFInfo
- Publication number
- JP6871367B2 JP6871367B2 JP2019518923A JP2019518923A JP6871367B2 JP 6871367 B2 JP6871367 B2 JP 6871367B2 JP 2019518923 A JP2019518923 A JP 2019518923A JP 2019518923 A JP2019518923 A JP 2019518923A JP 6871367 B2 JP6871367 B2 JP 6871367B2
- Authority
- JP
- Japan
- Prior art keywords
- electrical device
- patch
- autoencoder
- patches
- motomeko
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 20
- 238000013527 convolutional neural network Methods 0.000 claims description 58
- 230000036544 posture Effects 0.000 claims description 30
- 230000003287 optical effect Effects 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/259—Fusion by voting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Description
− オブジェクトを検知する光学センサの3D画像データを受信し、
− 3D画像データをパッチのセットに分解し、
− 事前に訓練された畳み込みニューラルネットワーク(CNN)オートエンコーダを用いることにより、各パッチの特徴のセットを抽出し、
− 各パッチに関して、所定のオブジェクト表現と照合するために、パッチの特徴のセットをk−近傍アルゴリズムに対する入力として用いることによりオブジェクトの姿勢(pose)を分類し、
− パッチのセットの分類されたオブジェクトの姿勢を組み合わせることにより、オブジェクトの姿勢を決定する、ように構成される。
・電気デバイスであって、特に上述したような電気デバイスと、
・オブジェクトを検知するように構成された光学センサであって、該センサは特に3Dカメラ又はステレオカメラである、光学センサと、
を備える。
・光学センサの3D画像データを受信するステップであって、該センサはオブジェクトを検知する、ステップと、
・3D画像データをパッチのセットに分解するステップと、
・事前に訓練された畳み込みニューラルネットワーク(CNN)オートエンコーダを用いることによって各パッチの特徴のセットを抽出するステップと、
・各パッチに関して、所定のオブジェクト表現と照合するために、パッチの特徴のセットをk−近傍アルゴリズムに対する入力として用いることによりオブジェクトの姿勢を分類するステップと、
・パッチのセットの分類されたオブジェクトの姿勢を組み合わせることにより、オブジェクトの姿勢を決定するステップと、
を備える。
本明細書は以下の態様を含む。
[態様1]
オブジェクトを認識及び位置特定するための電気デバイス(1)であって、
前記電気デバイスは、
前記オブジェクト(O)を検知する光学センサ(3)の3D画像データを受信し、
前記3D画像データをパッチのセットに分解し、
事前に訓練された畳み込みニューラルネットワーク(CNN)オートエンコーダ(12)を用いることにより、各パッチの特徴のセットを抽出し、
各パッチに関して、所定のオブジェクト表現と照合するために、前記パッチの前記特徴のセットをk−近傍アルゴリズム(13)に対する入力として用いることにより前記オブジェクトの姿勢を分類し、
前記パッチのセットの前記分類されたオブジェクトの姿勢を組み合わせることにより、前記オブジェクト(O)の前記姿勢を決定する、
ように構成される、電気デバイス。
[態様2]
前記画像データは、可視光画像及び深度画像のペアを備える、態様1に記載の電気デバイス(1)。
[態様3]
前記可視光画像は、特に前記人間の視覚システムによって処理される前記三つの帯域(RGB)に分解される、前記電磁気スペクトルの前記可視部分を含む、態様2に記載の電気デバイス(1)。
[態様4]
前記特徴のセットは、前記畳み込みニューラルネットワーク(CNN)オートエンコーダの前記符号化段階を用いることによって抽出され、前記特徴のセットは、特に前記符号化段階によって出力される、前述の態様のいずれか一つに記載の電気デバイス(1)。
[態様5]
前記オブジェクトの姿勢は、x、y、zの位置情報とθ、φ、Ψの回転情報とを備える6Dの姿勢である、前述の態様のいずれか一つに記載の電気デバイス(1)。
[態様6]
前記特徴は、前記オブジェクトの外観、特に前記オブジェクトの色及び/又は輝度の数学的な記述を備える、前述の態様のいずれか一つに記載の電気デバイス(1)。
[態様7]
前記オブジェクトの前記姿勢は、前記パッチのセットの前記分類されたオブジェクトの姿勢を票として用いる票フィルタリングによって決定される、前述の態様のいずれか一つに記載の電気デバイス(1)。
[態様8]
前記パッチは、特に所定のサイズの、及び/又は互いに重なり合う、前記3D画像データの3次元部分である、前述の態様のいずれか一つに記載の電気デバイス(1)。
[態様9]
前記畳み込みニューラルネットワーク(CNN)オートエンコーダは、パッチの汎用的なセットに基づいて、特に一度だけ、事前に訓練される、前述の態様のいずれか一つに記載の電気デバイス(1)。
[態様10]
前記畳み込みニューラルネットワーク(CNN)オートエンコーダは、前記パッチを、特に1024個の特徴の特徴ベクトルf(x)に集約するように構成される、前述の態様のいずれか一つに記載の電気デバイス(1)。
[態様11]
前記k−近傍アルゴリズムは、前記特徴ベクトルf(x)によって定められる前記特徴空間において前記最も可能性があるオブジェクトの姿勢を見つけるように構成される、前述の態様に記載の電気デバイス(1)。
[態様12]
前記k−近傍アルゴリズムは、前記オブジェクトのデータに基づいて事前に訓練される、前述の態様のいずれか一つに記載の電気デバイス(1)。
[態様13]
オブジェクトを認識及び位置特定するためのシステム(30)であって、前記システムは、
前述の態様のいずれか一つに記載の電気デバイス(1)と、
前記オブジェクトを検知するように構成された光学センサであって、前記センサは特に3Dカメラ又はステレオカメラである、光学センサと、
を備える、システム(30)。
[態様14]
オブジェクトを認識及び位置特定するための方法であって、前記方法は、
光学センサの3D画像データを受信するステップであって、前記センサは前記オブジェクト(O)を検知する、ステップと、
前記3D画像データをパッチのセットに分解するステップと、
事前に訓練された畳み込みニューラルネットワーク(CNN)オートエンコーダ(12)を用いることにより、各パッチの特徴のセットを抽出するステップと、
各パッチに関して、所定のオブジェクト表現と照合するために、前記パッチの前記特徴のセットをk−近傍アルゴリズム(13)に対する入力として用いることにより前記オブジェクトの姿勢を分類するステップと、
前記パッチのセットの前記分類されたオブジェクトの姿勢を組み合わせることにより、前記オブジェクト(O)の前記姿勢を決定するステップと、
を備える、方法。
[態様15]
前記特徴のセットは、前記畳み込みニューラルネットワーク(CNN)オートエンコーダの前記符号化段階を用いることによって抽出され、前記特徴のセットは、特に前記符号化段階によって出力される、態様14に記載の方法。
Claims (15)
- オブジェクトを認識及び位置特定するための電気デバイス(1)であって、
前記電気デバイスは、
前記オブジェクト(O)を検知する光学センサ(3)の3D画像データを受信し、
前記3D画像データを同じ物理的サイズの立方体のパッチのセットに分解し、
事前に訓練された畳み込みニューラルネットワーク(CNN)オートエンコーダ(12)を用いることにより、各パッチの特徴のセットを抽出し、
各パッチに関して、所定のオブジェクト表現と照合するために、前記パッチの前記特徴のセットをk−近傍アルゴリズム(13)に対する入力として用いることにより前記オブジェクトの姿勢を分類し、
前記パッチのセットの前記分類されたオブジェクトの姿勢を組み合わせることにより、前記オブジェクト(O)の前記姿勢を決定する、
ように構成される、電気デバイス。 - 前記画像データは、可視光画像及び深度画像のペアを備える、請求項1に記載の電気デバイス(1)。
- 前記可視光画像は、電磁気スペクトルの可視部分を含む、請求項2に記載の電気デバイス(1)。
- 前記特徴のセットは、前記畳み込みニューラルネットワーク(CNN)オートエンコーダの符号化段階を用いることによって抽出される、請求項1〜3のいずれか一項に記載の電気デバイス(1)。
- 前記オブジェクトの姿勢は、x、y、zの位置情報とθ、φ、Ψの回転情報とを備える6Dの姿勢である、請求項1〜4のいずれか一項に記載の電気デバイス(1)。
- 前記特徴は、前記オブジェクトの外観の数学的な記述を備える、請求項1〜5のいずれか一項に記載の電気デバイス(1)。
- 前記オブジェクトの前記姿勢は、前記パッチのセットの前記分類されたオブジェクトの姿勢を票として用いる票フィルタリングによって決定される、請求項1〜6のいずれか一項に記載の電気デバイス(1)。
- 前記パッチは、前記3D画像データの3次元部分である、請求項1〜7のいずれか一項に記載の電気デバイス(1)。
- 前記畳み込みニューラルネットワーク(CNN)オートエンコーダは、パッチの汎用的なセットに基づいて、事前に訓練される、請求項1〜8のいずれか一項に記載の電気デバイス(1)。
- 前記畳み込みニューラルネットワーク(CNN)オートエンコーダは、前記パッチを、特徴ベクトルf(x)に集約するように構成される、請求項1〜9のいずれか一項に記載の電気デバイス(1)。
- 前記k−近傍アルゴリズムは、前記特徴ベクトルf(x)によって定められる特徴空間において最も可能性があるオブジェクトの姿勢を見つけるように構成される、請求項10に記載の電気デバイス(1)。
- 前記k−近傍アルゴリズムは、前記オブジェクトのデータに基づいて事前に訓練される、請求項1〜11のいずれか一項に記載の電気デバイス(1)。
- オブジェクトを認識及び位置特定するためのシステム(30)であって、前記システムは、
請求項1〜12のいずれか一項に記載の電気デバイス(1)と、
前記オブジェクトを検知するように構成された光学センサと、
を備える、システム(30)。 - オブジェクトを認識及び位置特定するための方法であって、前記方法は、
光学センサの3D画像データを受信するステップであって、前記センサは前記オブジェクト(O)を検知する、ステップと、
前記3D画像データを同じ物理的サイズの立方体のパッチのセットに分解するステップと、
事前に訓練された畳み込みニューラルネットワーク(CNN)オートエンコーダ(12)を用いることにより、各パッチの特徴のセットを抽出するステップと、
各パッチに関して、所定のオブジェクト表現と照合するために、前記パッチの前記特徴のセットをk−近傍アルゴリズム(13)に対する入力として用いることにより前記オブジェクトの姿勢を分類するステップと、
前記パッチのセットの前記分類されたオブジェクトの姿勢を組み合わせることにより、前記オブジェクト(O)の前記姿勢を決定するステップと、
を備える、方法。 - 前記特徴のセットは、前記畳み込みニューラルネットワーク(CNN)オートエンコーダの符号化段階を用いることによって抽出される、請求項14に記載の方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2016/074088 WO2018065073A1 (en) | 2016-10-07 | 2016-10-07 | Electronic device, system and method for recognizing and locating an object |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019531554A JP2019531554A (ja) | 2019-10-31 |
JP6871367B2 true JP6871367B2 (ja) | 2021-05-12 |
Family
ID=57124001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019518923A Active JP6871367B2 (ja) | 2016-10-07 | 2016-10-07 | オブジェクトを認識及び位置特定するための電気デバイス、システム及び方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6871367B2 (ja) |
WO (1) | WO2018065073A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717568B (zh) * | 2018-05-16 | 2019-10-22 | 陕西师范大学 | 一种基于三维卷积神经网络的图像特征提取与训练方法 |
WO2020048620A1 (en) * | 2018-09-07 | 2020-03-12 | Toyota Motor Europe | Method and system for processing an image by determining rotation hypotheses |
US11818982B2 (en) * | 2018-09-18 | 2023-11-21 | Deere & Company | Grain quality control system and method |
KR102080145B1 (ko) * | 2019-10-30 | 2020-02-24 | 주식회사 뉴로메카 | 오토 엔코더의 잠재 변수 사전을 이용한 물체 자세 추정 방법 장치 |
KR102177445B1 (ko) * | 2020-02-17 | 2020-11-11 | 주식회사 뉴로메카 | 오토 엔코더의 잠재 변수 사전을 이용한 물체 자세 추정 방법 장치 |
CN111738306B (zh) * | 2020-06-01 | 2022-05-13 | 山东省人工智能研究院 | 基于块卷积神经网络的多视图三维模型检索方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3979136B2 (ja) * | 2002-03-20 | 2007-09-19 | 富士ゼロックス株式会社 | 認識装置および方法 |
JP4532171B2 (ja) | 2004-06-01 | 2010-08-25 | 富士重工業株式会社 | 立体物認識装置 |
SE528068C2 (sv) | 2004-08-19 | 2006-08-22 | Jan Erik Solem Med Jsolutions | Igenkänning av 3D föremål |
US8406470B2 (en) * | 2011-04-19 | 2013-03-26 | Mitsubishi Electric Research Laboratories, Inc. | Object detection in depth images |
JP6372282B2 (ja) * | 2014-09-26 | 2018-08-15 | 富士通株式会社 | 画像処理装置、画像処理方法及びプログラム |
US10515259B2 (en) * | 2015-02-26 | 2019-12-24 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for determining 3D object poses and landmark points using surface patches |
-
2016
- 2016-10-07 JP JP2019518923A patent/JP6871367B2/ja active Active
- 2016-10-07 WO PCT/EP2016/074088 patent/WO2018065073A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2018065073A1 (en) | 2018-04-12 |
JP2019531554A (ja) | 2019-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6871367B2 (ja) | オブジェクトを認識及び位置特定するための電気デバイス、システム及び方法 | |
EP3501002B1 (en) | Fine-grained object recognition in robotic systems | |
US11074466B2 (en) | Anti-counterfeiting processing method and related products | |
US10726307B2 (en) | Real-time identification of moving objects in video images | |
CN205721777U (zh) | 视觉搜索设备和系统 | |
JP6074272B2 (ja) | 画像処理装置および画像処理方法 | |
Naikal et al. | Towards an efficient distributed object recognition system in wireless smart camera networks | |
KR102223478B1 (ko) | 눈 상태 검출에 딥러닝 모델을 이용하는 눈 상태 검출 시스템 및 그 작동 방법 | |
KR101491461B1 (ko) | 공분산 기술자를 이용하는 물체 인식 방법 및 장치 | |
US20170061253A1 (en) | Method and device for determining the shape of an object represented in an image, corresponding computer program product and computer-readable medium | |
JP2017062778A (ja) | 画像のオブジェクトを分類するための方法およびデバイスならびに対応するコンピュータプログラム製品およびコンピュータ可読媒体 | |
CN110392893A (zh) | 用于内容检测的图像处理方法 | |
KR20190054702A (ko) | 영상에서 객체의 행동을 인식하는 방법 및 그 장치 | |
KR102557561B1 (ko) | 이미지의 깊이 정보를 결정하는 방법 및 시스템 | |
CN110674677A (zh) | 一种多模态多层融合的用于人脸反欺骗的深度神经网络 | |
CN106991364B (zh) | 人脸识别处理方法、装置以及移动终端 | |
CN112668410B (zh) | 分拣行为检测方法、系统、电子装置和存储介质 | |
CN113723185B (zh) | 动作行为识别方法、装置、存储介质及终端设备 | |
Komagal et al. | Real time background subtraction techniques for detection of moving objects in video surveillance system | |
Elmoogy et al. | Surfcnn: A descriptor accelerated convolutional neural network for image-based indoor localization | |
CN113395583A (zh) | 水印检测方法、装置、计算机设备及存储介质 | |
JP6955081B2 (ja) | オブジェクト姿勢を決定するための電子デバイス、システムおよび方法 | |
WO2021214540A1 (en) | Robust camera localization based on a single color component image and multi-modal learning | |
Wang et al. | GA-STIP: Action recognition in multi-channel videos with geometric algebra based spatio-temporal interest points | |
Baroffio et al. | A survey on compact features for visual content analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190408 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200608 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200804 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20201102 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210316 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210415 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6871367 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |