JP2022508434A - 回転仮説を決定することによって画像を処理する方法及びシステム - Google Patents
回転仮説を決定することによって画像を処理する方法及びシステム Download PDFInfo
- Publication number
- JP2022508434A JP2022508434A JP2021537476A JP2021537476A JP2022508434A JP 2022508434 A JP2022508434 A JP 2022508434A JP 2021537476 A JP2021537476 A JP 2021537476A JP 2021537476 A JP2021537476 A JP 2021537476A JP 2022508434 A JP2022508434 A JP 2022508434A
- Authority
- JP
- Japan
- Prior art keywords
- image
- rotation
- neural network
- feature map
- hypotheses
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
Description
(2)複数の特徴マップを取得し、各特徴マップは、それぞれの解像度及びそれぞれの深さを有し、
(3)各特徴マップについて、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するために各特徴マップで分類を行うように構成されたニューラルネットワークに画像を入力することを備える、方法を提案することによって、従来技術の一つ以上の不備を解消する。
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するためにどのサブネットワークを用いるかを知っている。
ニューラルネットワークを用いて、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、
を取得することと、
式
のLを最小にし、この場合、
Iは、テンプレート画像であり、
Posは、テンプレートオブジェクトの領域の予め決定された部分を包囲する領域を有する境界ボックスを表し、
Negは、テンプレートオブジェクトの領域の予め決定された部分を包囲しない領域を有する境界ボックスを表し、
bは、Pos又はNegのいずれかに属する境界ボックスであり、
Lclassは、分類の特性の誤差に関連する損失であり、
Lfitは、境界ボックスの角の位置の誤差に関連する損失であり、
Lviewは、視点の特性の誤差に関連する損失であり、
Linpianeは、面内回転の特性の誤差に関連する損失であり、
α、β及びεは、所定の係数であり、
Mは、回転仮説の数であり、
Iは、テンプレート画像であり、
pは、少なくとも一つのオブジェクトの真の回転であり、
fθ (j)(I)は、回転仮説jを提供する関数であり、
fθ(I)は、回転仮説fθ (j)(I)を提供する関数であり、
L(fθ (j)(I),p)は、既知の回転pに対するfθ(I)の損失関数である。
複数の特徴マップを取得し、各特徴マップは、それぞれの解像度及びそれぞれの深さを有し、
各特徴マップについて、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するために各特徴マップで分類を行うように構成された、システムも提供する。
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するために各特徴マップで分類を行うように更に構成される。
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、なる。
Iは、テンプレート画像であり、
Posは、テンプレートオブジェクトの領域の予め決定された部分を包囲する領域を有する境界ボックスを表し、
Negは、テンプレートオブジェクトの領域の予め決定された部分を包囲しない領域を有する境界ボックスを表し、
bは、Pos又はNegのいずれかに属する境界ボックスであり、
Lclassは、分類の特性の誤差に関連する損失であり、
Lfitは、境界ボックスの角の位置の誤差に関連する損失であり、
Lviewは、視点の特性の誤差に関連する損失であり、
Linpianeは、面内回転の特性の誤差に関連する損失であり、
α、β及びεは、所定の係数であり、
Mは、回転仮説の数であり、
Iは、テンプレート画像であり、
pは、少なくとも一つのオブジェクトの真の回転であり、
fθ (j)(I)は、回転仮説jを提供する関数であり、
fθ(I)は、回転仮説fθ (j)(I)を提供する関数であり、
L(fθ (j)(I),p)は、既知の回転pに対するfθ(I)の損失関数である。
複数の特徴マップを取得し、各特徴マップは、それぞれの解像度及びそれぞれの深さを有する命令14と、
各特徴マップについて、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するために各特徴マップで分類を行う命令15と、
を備える。
Claims (13)
- 画像を処理する方法であって、
(2)複数の特徴マップを取得し、各特徴マップは、それぞれの解像度及びそれぞれの深さを有し、
(3)各特徴マップについて、
前記画像に見られる少なくとも一つのオブジェクトのタイプと、
前記少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
前記少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するために各特徴マップで分類を行うように構成されたニューラルネットワークに画像を入力することを備える、方法。 - 推定した回転を取得するために複数の回転仮説の分類を行うことを更に備える、請求項1に記載の方法。
- 前記複数の回転仮説の分類は、外れ値の拒絶又はクラスタリングを備える、請求項2に記載の方法。
- 前記オブジェクトと前記画像を取得した画像取得モジュールの間の距離を、少なくとも一つの境界ボックスの対角線の長さを用いて決定する、請求項1から3のいずれか一項に記載の方法。
- 前記少なくとも一つのオブジェクトの6Dポーズを推定するために前記推定した回転及び前記距離を用いることを備える、請求項2又は3及び4に記載の方法。
- 回転をそれぞれ四元数として表す、請求項1から5のいずれか一項に記載の方法。
- 回転が曖昧さを示すか否かを判断するために前記回転仮説の主成分分析を実行することを更に備える、請求項1から6のいずれか一項に記載の方法。
- ニューラルネットワークの予備トレーニングを備え、前記予備トレーニングは、少なくとも一つの3次元テンプレートオブジェクトが前記ニューラルネットワークにレンダリングされたテンプレート画像を入力することを備える、請求項1から7のいずれか一項に記載の方法。
- 前記予備トレーニングは、
前記ニューラルネットワークを用いて、
前記画像に見られる少なくとも一つのオブジェクトのタイプと、
前記少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
前記少なくとも一つのオブジェクトの複数の回転仮説と、
を取得することと、
式
のLを最小にし、この場合、
Iは、前記テンプレート画像であり、
Posは、テンプレートオブジェクトの領域の予め決定された部分を包囲する領域を有する境界ボックスを表し、
Negは、前記テンプレートオブジェクトの領域の予め決定された部分を包囲しない領域を有する境界ボックスを表し、
bは、Pos又はNegのいずれかに属する境界ボックスであり、
Lclassは、分類の特性の誤差に関連する損失であり、
Lfitは、境界ボックスの角の位置の誤差に関連する損失であり、
Lviewは、視点の特性の誤差に関連する損失であり、
Linpianeは、面内回転の特性の誤差に関連する損失であり、
α、β及びεは、所定の係数であり、
Mは、回転仮説の数であり、
Iは、前記テンプレート画像であり、
pは、少なくとも一つのオブジェクトの真の回転であり、
fθ (j)(I)は、回転仮説jを提供する関数であり、
fθ(I)は、回転仮説fθ (j)(I)を提供する関数であり、
L(fθ (j)(I),p)は、既知の回転pに対するfθ(I)の損失関数である、請求項8に記載の方法。 - 画像を処理するシステムであって、画像を入力することができるニューラルネットワーク(INST、14、15)を備え、前記ニューラルネットワークは、
複数の特徴マップを取得し、各特徴マップは、それぞれの解像度及びそれぞれの深さを有し、
各特徴マップについて、
前記画像に見られる少なくとも一つのオブジェクトのタイプと、
前記少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
前記少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するために各特徴マップで分類を行うように構成された、システム。 - コンピュータによって実行されるときに、請求項1から10のいずれか一項に記載の方法のステップを実行する命令を有するコンピュータプログラム。
- コンピュータによって読取り可能であり、請求項1から10のいずれか一項に記載の方法のステップを実行する命令を有するコンピュータプログラムを記録した記録媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2018/074215 WO2020048620A1 (en) | 2018-09-07 | 2018-09-07 | Method and system for processing an image by determining rotation hypotheses |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022508434A true JP2022508434A (ja) | 2022-01-19 |
JP7234378B2 JP7234378B2 (ja) | 2023-03-07 |
Family
ID=63557459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021537476A Active JP7234378B2 (ja) | 2018-09-07 | 2018-09-07 | 回転仮説を決定することによって画像を処理する方法及びシステム |
Country Status (3)
Country | Link |
---|---|
US (1) | US12056942B2 (ja) |
JP (1) | JP7234378B2 (ja) |
WO (1) | WO2020048620A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020190781A1 (en) * | 2019-03-16 | 2020-09-24 | Nvidia Corporation | Leveraging multidimensional sensor data for computationally efficient object detection |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08212329A (ja) * | 1995-02-06 | 1996-08-20 | Fujitsu Ltd | 適応的認識システム |
US20080298672A1 (en) * | 2007-05-29 | 2008-12-04 | Cognex Corporation | System and method for locating a three-dimensional object using machine vision |
WO2018065073A1 (en) * | 2016-10-07 | 2018-04-12 | Toyota Motor Europe | Electronic device, system and method for recognizing and locating an object |
JP2020537790A (ja) * | 2017-10-20 | 2020-12-24 | トヨタ モーター ヨーロッパ | 画像処理およびオブジェクトの視点決定の方法ならびにシステム |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7680300B2 (en) * | 2004-06-01 | 2010-03-16 | Energid Technologies | Visual object recognition and tracking |
US9730643B2 (en) * | 2013-10-17 | 2017-08-15 | Siemens Healthcare Gmbh | Method and system for anatomical object detection using marginal space deep neural networks |
US10346723B2 (en) * | 2016-11-01 | 2019-07-09 | Snap Inc. | Neural network for object detection in images |
KR102696652B1 (ko) * | 2017-01-26 | 2024-08-21 | 삼성전자주식회사 | 스테레오 매칭 방법 및 영상 처리 장치 |
WO2018165753A1 (en) * | 2017-03-14 | 2018-09-20 | University Of Manitoba | Structure defect detection using machine learning algorithms |
US10360732B2 (en) * | 2017-03-23 | 2019-07-23 | Intel Corporation | Method and system of determining object positions for image processing using wireless network angle of transmission |
US10380413B2 (en) * | 2017-07-13 | 2019-08-13 | Robert Bosch Gmbh | System and method for pose-invariant face alignment |
US10445402B1 (en) * | 2017-09-29 | 2019-10-15 | Ambarella, Inc. | Fast and energy-efficient region of interest pooling for object detection with convolutional neural network |
US10223610B1 (en) * | 2017-10-15 | 2019-03-05 | International Business Machines Corporation | System and method for detection and classification of findings in images |
US11004209B2 (en) * | 2017-10-26 | 2021-05-11 | Qualcomm Incorporated | Methods and systems for applying complex object detection in a video analytics system |
US10769411B2 (en) * | 2017-11-15 | 2020-09-08 | Qualcomm Technologies, Inc. | Pose estimation and model retrieval for objects in images |
US11030442B1 (en) * | 2017-12-13 | 2021-06-08 | Amazon Technologies, Inc. | Associating events with actors based on digital imagery |
US11087130B2 (en) * | 2017-12-29 | 2021-08-10 | RetailNext, Inc. | Simultaneous object localization and attribute classification using multitask deep neural networks |
US10977827B2 (en) * | 2018-03-27 | 2021-04-13 | J. William Mauchly | Multiview estimation of 6D pose |
US11455723B2 (en) * | 2018-06-14 | 2022-09-27 | Kheiron Medical Technologies Ltd | Second reader suggestion |
-
2018
- 2018-09-07 JP JP2021537476A patent/JP7234378B2/ja active Active
- 2018-09-07 WO PCT/EP2018/074215 patent/WO2020048620A1/en active Application Filing
- 2018-09-07 US US17/274,357 patent/US12056942B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08212329A (ja) * | 1995-02-06 | 1996-08-20 | Fujitsu Ltd | 適応的認識システム |
US20080298672A1 (en) * | 2007-05-29 | 2008-12-04 | Cognex Corporation | System and method for locating a three-dimensional object using machine vision |
WO2018065073A1 (en) * | 2016-10-07 | 2018-04-12 | Toyota Motor Europe | Electronic device, system and method for recognizing and locating an object |
JP2020537790A (ja) * | 2017-10-20 | 2020-12-24 | トヨタ モーター ヨーロッパ | 画像処理およびオブジェクトの視点決定の方法ならびにシステム |
Non-Patent Citations (3)
Title |
---|
FABIAN MANHARDT ET AL.: "Explaining the Ambiguity of ObjectDetection and 6D Pose From Visual Data", [ONLINE], JPN6022042763, 2019, ISSN: 0004893857 * |
PATRICK POIRSON ET AL.: "Fast Single Shot Detection and PoseEstimation", [ONLINE], JPN6022042764, 2016, ISSN: 0004893858 * |
WADIM KEHL ET AL.: "SSD-6D:Making RGB-Based 3D Detection and 6D Pose Estimation Great Again", [ONLINE], JPN6022042762, 2017, ISSN: 0004893856 * |
Also Published As
Publication number | Publication date |
---|---|
WO2020048620A1 (en) | 2020-03-12 |
US20220050997A1 (en) | 2022-02-17 |
US12056942B2 (en) | 2024-08-06 |
JP7234378B2 (ja) | 2023-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Park et al. | Pix2pose: Pixel-wise coordinate regression of objects for 6d pose estimation | |
JP6681729B2 (ja) | オブジェクトの3d姿勢およびオブジェクトのランドマーク点の3dロケーションを求める方法、およびオブジェクトの3d姿勢およびオブジェクトのランドマークの3dロケーションを求めるシステム | |
JP7040278B2 (ja) | 顔認識のための画像処理装置の訓練方法及び訓練装置 | |
JP3735344B2 (ja) | キャリブレーション装置、キャリブレーション方法、及びキャリブレーション用プログラム | |
JP6415066B2 (ja) | 情報処理装置、情報処理方法、位置姿勢推定装置、ロボットシステム | |
JP5430456B2 (ja) | 幾何特徴抽出装置、幾何特徴抽出方法、及びプログラム、三次元計測装置、物体認識装置 | |
CN112991413A (zh) | 自监督深度估测方法和系统 | |
US20210312655A1 (en) | 3d pose estimation by a 2d camera | |
JP2016091108A (ja) | 人体部位検出システムおよび人体部位検出方法 | |
CN108447094B (zh) | 一种单目彩色相机的姿态估算方法及系统 | |
US11554496B2 (en) | Feature detection by deep learning and vector field estimation | |
JP6817742B2 (ja) | 情報処理装置およびその制御方法 | |
JP2022047508A (ja) | 複数の透明対象物の三次元検出 | |
Winkelbauer et al. | Learning to localize in new environments from synthetic training data | |
JP5976089B2 (ja) | 位置姿勢計測装置、位置姿勢計測方法、およびプログラム | |
US11189053B2 (en) | Information processing apparatus, method of controlling information processing apparatus, and non-transitory computer-readable storage medium | |
JP7060686B2 (ja) | 画像処理およびオブジェクトの視点決定の方法ならびにシステム | |
US20160282875A1 (en) | Moving object controller, landmark, and moving object control method | |
JP2021163502A (ja) | 複数の2次元カメラによる3次元の姿勢推定 | |
JP7234378B2 (ja) | 回転仮説を決定することによって画像を処理する方法及びシステム | |
Liu et al. | Robust 3-d object recognition via view-specific constraint | |
CN111915632A (zh) | 一种基于机器学习的贫纹理目标物体真值数据库构建方法 | |
JP2019105588A (ja) | 情報処理装置、システム、情報処理方法及びプログラム | |
CN117953059B (zh) | 一种基于rgb-d图像的方形吊装物姿态估计方法 | |
Wietrzykowski et al. | A probabilistic framework for global localization with segmented planes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210906 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221011 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230222 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7234378 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |