JP7083189B2 - 学習データセット作製方法及び装置 - Google Patents
学習データセット作製方法及び装置 Download PDFInfo
- Publication number
- JP7083189B2 JP7083189B2 JP2020511033A JP2020511033A JP7083189B2 JP 7083189 B2 JP7083189 B2 JP 7083189B2 JP 2020511033 A JP2020511033 A JP 2020511033A JP 2020511033 A JP2020511033 A JP 2020511033A JP 7083189 B2 JP7083189 B2 JP 7083189B2
- Authority
- JP
- Japan
- Prior art keywords
- data set
- information
- learning data
- image
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 60
- 238000012549 training Methods 0.000 title claims description 51
- 239000003550 marker Substances 0.000 claims description 203
- 230000036544 posture Effects 0.000 claims description 87
- 230000000007 visual effect Effects 0.000 claims description 66
- 238000004519 manufacturing process Methods 0.000 claims description 39
- 238000010801 machine learning Methods 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 238000005520 cutting process Methods 0.000 claims description 6
- 238000003384 imaging method Methods 0.000 claims description 6
- 238000002360 preparation method Methods 0.000 claims description 4
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 238000005452 bending Methods 0.000 claims description 2
- 230000005484 gravity Effects 0.000 description 44
- 238000012545 processing Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 19
- 230000007246 mechanism Effects 0.000 description 16
- 238000013135 deep learning Methods 0.000 description 12
- 235000013305 food Nutrition 0.000 description 11
- 230000032258 transport Effects 0.000 description 7
- 230000000052 comparative effect Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- NJPPVKZQTLUDBO-UHFFFAOYSA-N novaluron Chemical compound C1=C(Cl)C(OC(F)(F)C(OC(F)(F)F)F)=CC=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F NJPPVKZQTLUDBO-UHFFFAOYSA-N 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 239000011347 resin Substances 0.000 description 2
- 229920005989 resin Polymers 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J13/00—Controls for manipulators
- B25J13/08—Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/242—Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20172—Image enhancement details
- G06T2207/20204—Removing film grain; Adding simulated film grain
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/245—Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Image Analysis (AREA)
- Manipulator (AREA)
- Image Processing (AREA)
- Length Measuring Devices By Optical Means (AREA)
Description
ロボットによる作業の自動化は、あらゆる業界にニーズが存在するが、中でも、食品業界や物流業界は今後の成長が期待される分野であり、ロボットによる作業の自動化のニーズは高く存在する。
しかしながら、食品業界や物流業界において扱う製品は、柔軟なものが多く、取り扱いの際に複雑に形状が変化してしまうため、ロボットに備えられたロボットハンドでのハンドリングが難しいという問題がある。また、食品業界や物流業界において扱う商品は、かつては種類が少なく、少品種多量生産が中心であったが、今日ではそれだけではなく多品種少量生産や変種変量生産が求められるようになっているところ、多品種の商品の認識を正確かつ迅速に行うことが難しいという問題もある。すなわち、多品種な商品を短時間で認識して、詰め合わせギフトや不良品の除去作業などのような仕分け作業を正確に行うことが求められるのである。
これらの事情から、食品業界や物流業界においては、未だにロボットによる工場の自動化が十分に進んでいないのが現実である。
そこで、物体にマーカを付けて撮影することで、人の手で行われてきた作業を自動化する方法が考えられる。
しかしながら、物体にマーカを付けて撮影する方法では、対象となる物体とマーカの位置関係やマーカの数について十分な検討がなされてこなかったため、対象となる物体やバウンディングボックスの中にマーカが写り込み、或は、対象となる物体によってマーカが隠れてしまうといった問題があった。
すなわち、対象となる物体やバウンディングボックスの中にマーカが写り込むと、質の高い学習データとならないだけではなく、マーカを物体の特徴として学習してしまう恐れもある。また、対象となる物体によってマーカが隠れてしまうと、物体認識の精度が低下するという問題がある。
しかしながら、上記特許文献1に開示されたデータベース構築システムは、複数の種類のセンサを用いて物体認識を行う技術であり、検出可能な学習済みのセンサが必要である。
しかしながら、上記特許文献2に開示された画像生成方法では、実環境とは異なる画像が生成されるため、質の高い学習データセットが作製できないという問題がある。
この点、動画撮影中において、実際に撮影されている風景はそのままで、隠蔽したい動体オブジェクトをリアルタイムに隠消する技法が知られている(特許文献3を参照)。これは、動画中の動体オブジェクトを検知し、移動方向及び速度を算出して、算出された移動方向及び速度で動体オブジェクトが移動した場合の背景画像を投機的に取得するものである。投機的に取得された背景画像は、動体オブジェクトをリアルタイムで隠消するために使用される。
しかしながら、上記特許文献3に開示された動体でなければ隠消できないという問題がある。
視覚マーカが、ベース部の上であり、かつ、エリアの周囲に設けられることにより、対象物が視覚マーカによって隠れてしまうことを防止することができる。視覚マーカは対象物と予め定められた位置関係においてベース部に複数固定されることが好ましい。複数の視覚マーカが設けられることにより、例えば、撮影する角度により、ある視覚マーカが物体に隠れてしまったとしても、その他の視覚マーカを検出することで、物体を認識することが可能である。また、2つ以上の視覚マーカが同時に検出されることで、より精度の高い物体認識が可能となる。
画像群の取得方法としては、対象物を移動等させながら1台のカメラにより撮影し取得したものでもよいし、複数台のカメラを用いて取得したものでもよい。いずれにしても、対象物を異なる角度から撮影した大量の撮像画像を収集することで、機械学習のための学習データとして用いることが可能である。
なお、対象物の物体情報とは、対象物の名称、サイズといった基本情報のことであり、学習データセットの生成に当たって、予めコンピュータにこれらの情報が記憶されている。
また、バウンディングボックスとは、画像等において、対象物が収まるように取り囲まれた表示領域であり、矩形などの領域をいう。取得した画像群に対して対象物のバウンディングボックスを設定する際は、バウンディングボックスが対象物全体を可能な限り確実に囲うようにするために、物体の位置情報として、物体の重心位置を取得して設定する。
1)画像群から、学習データセット生成冶具に該当する領域を検出する(検出ステップ)。
2)検出ステップにより抽出された対象物の写り込みが含まれる領域から物体領域を検出することにより、学習データセット生成冶具に該当する領域のみを抽出する(抽出ステップ)。
3)抽出ステップにより抽出された領域における画像群に対して、背景画像又はノイズ画像として上書き処理を行う(上書きステップ)。
ここで、上記の隠蔽処理における抽出ステップは、事前に近似した形状情報を用いて、物体領域を検出することでもよいし、事前に学習させた学習モデルを用いて、物体領域を検出することでもよい。
上書きステップにおいては、抽出ステップにより抽出された領域における画像群に対して、ノイズ画像として上書き処理を行うことが好ましい。ノイズ画像として上書き処理を行うことにより、幅広い種類の物体に対して認識率を向上させることができる。
エリアに、学習データセット生成治具の識別IDが表示されることにより、学習データセット生成治具の管理が容易となる。識別IDの表示は、取得画像における写り込みを防止するため、対象物を配置した際に隠れやすいエリアの中央部に設けられることが好ましい。
また、本発明の学習データセット作製方法における位置情報が重心位置情報である場合、重心位置情報は、ベース部をガイドとして配置された対象物の重心位置と、基準座標系における基準姿勢の重心位置との差分情報である。
ここで、基準座標系の替わりに、カメラ座標系を用いて、対象物の姿勢情報及び位置情報を表すことも可能である。例えば、1台の固定カメラで撮像する場合、そのカメラのカメラ座標系での3次元座標で、対象物の姿勢情報と位置情報を表す。そして、カメラ座標系の3次元座標から、実空間の3次元座標に変換し、ロボットに実空間の3次元座標を伝達することにより、ロボットに物体を正確に捉えさせることができる。
基準座標系は、例えば、予め学習データセット生成冶具に取り付けた視覚マーカを基準マーカとして利用して、基準としたい位置及び姿勢に配置することにより定義することができる。そのようにすることで、基準マーカの基準位置及び基準姿勢に関するデータをデータベースとして記憶し、学習データセット作製段階に、実空間の基準座標系を用いて、その基準座標系における位置と姿勢の差分を、位置と姿勢の情報として画像に紐づけることができる。
基準座標系を示す基準マーカが撮像画像内に無い場合であっても、撮像画像から基準座標系を認識することは可能である。例えば、カメラが単一で固定されている場合には、ズームする前の撮像画像内で基準マーカにより基準座標系が設定できていれば、ズームを行い見えなくなった場合でもズーム倍率がわかる限り、撮像画像外の基準マーカの位置と姿勢を計算することが可能である。
なお、検出した物体全体を取り囲む認識用バウンディングボックスの位置は、取り囲んだバウンディングボックスの重心位置でもよい。また、検出した物体に関する実空間の3次元座標における位置は、物体の重心位置でもよい。
これにより、検出された各物体に関して、推定した実空間の3次元座標における姿勢及び位置を、工場の自動化システムのロボットに対して伝達できる。また、検出された各物体に関して、実空間の3次元座標における姿勢及び重心位置を推定し算出することにより、ロボットが正確に物体を捉えることができる。
a)画像群に対して対象物のバウンディングボックスを設定するステップ。
b)撮像画像から推定した対象物の姿勢情報と位置情報、物体情報及びバウンディングボックスに関する情報を、撮像画像に関連付けして、学習データセットを生成するステップ。
c)新たに撮像された撮像画像から、画像認識によって物体の名称を検出して認識用バウンディングボックスを作成するステップ。
d)認識用バウンディングボックスを切り出した部分画像を生成し、生成した部分画像に基づき学習済みモデルを用いて、検出した物体の姿勢を推定するステップ。
e)認識用バウンディングボックスの位置、幅及び高さを取得し、学習済みモデルを用いて、検出した物体に関して実空間の3次元座標における位置を推定するステップ。
なお、検出した物体全体を取り囲む認識用バウンディングボックスの位置は、取り囲んだバウンディングボックスの重心位置でもよい。また、検出した物体に関する実空間の3次元座標における位置は、物体の重心位置でもよい。
1)対象物の配置位置のガイドとなるエリアが設けられたベース部と、該ベース部の上に固定され、対象物の物体情報が関連付けされる視覚マーカとから構成される学習データセット生成治具。
2)エリアをガイドとして対象物を配置した状態で、視覚マーカを含む物体全体の画像群を取得する撮像手段。
3)取得した画像群から、視覚マーカに関連付けされた物体情報を取得する手段。
4)画像群から視覚マーカ又は学習データセット生成治具に該当する領域の隠蔽処理を行うことにより再構成された画像群を生成する手段。
5)取得した画像群に対して対象物のバウンディングボックスを設定する手段。
6)撮像画像から推定した対象物の姿勢情報と位置情報、物体情報及びバウンディングボックスに関する情報を、撮像画像に関連付けして、対象物の物体認識及び位置姿勢推定を行うための学習データセットを生成する手段。
また、学習データセット生成治具の写り込みを防止するため、視覚マーカを除き、透明性を有することでも構わない。学習データセット生成治具の視覚マーカ以外の部分が透明性を有することにより、撮像画像において、学習データセット生成治具が対象物を遮ることを防止でき、物体認識の精度を向上させることができる。
なお、上記ステップS06のバウンディングボックスの設定において、可能な限り対象物全体を取り囲めればよく、多少、対象物を囲めていない場合であっても、学習データセットとして使用することができる。仮に対象物が他の物体で隠れていた場合であっても、隠れずに見えている範囲で囲めていれば構わない。
そして、物体認識及び位置姿勢推定段階では、まず撮像画像を取得し(ステップS11)、画像認識により撮像画像中の物体を検出して認識用バウンディングボックスを設定する(ステップS12)。なお、物体の名称は、物体を検出し、物体を認識した時点で取得できる。物体の認識用バウンディングボックスを切り出した部分画像を用いて、予め定義された基準座標系(実空間の3次元座標)における姿勢及び重心位置を推定する(ステップS13)。
基準座標系は、視覚マーカを、基準としたい位置姿勢に配置することにより定義する。
生成された学習済みモデルは、物体認識及び位置姿勢推定装置11において利用される。物体認識及び位置姿勢推定装置11では、撮像手段21により、物体が撮影される。得られた撮像画像は、コンピュータ41が物体認識手段41aとして動作することにより、画像中に含まれる物体が検出され、物体名称などの物体情報が取得される。検出された物体は、コンピュータ41が認識用バウンディングボックス設定手段41bとして動作することにより、認識用バウンディングボックスが設定される。認識用バウンディングボックスが設定されると、かかる認識用バウンディングボックス毎に、コンピュータ41が学習済みモデル41cとして動作することにより、姿勢及び重心位置が推定される。
なお、撮像手段20と撮像手段21、コンピュータ40とコンピュータ41、又は、データベース80の記憶手段とデータベース81の記憶手段は、いずれも、同一の機器を用いた構成であってもよい。
図3は、学習データセット作製の際のシステム構成図を示している。図3に示すように、学習データセット作製の際は、1台のカメラ2、プレート14、基準マーカ33、プレート14とその上の対象物5の位置を動かすベルトコンベア12及びコンピュータ4が用いられる。
プレート14は、ARマーカ3及びベース部17から成り、ARマーカ3は、ベース部17上に固定されている。ベース部17には、ここでは図示しないがエリアが設けられ、エリア上に認識対象となる対象物5が配置されている。対象物5の撮影は上方に設けられたカメラ2によって行う。なお、プレート14は、対象物5の形状に合わせて、個別に作製してもよいし、既定の大きさのプレートを用いてもよい。
基準マーカ33は、ベルトコンベア12の外側に配置され固定された位置に置かれる。基準マーカ33は、台座から支柱を介して接続されているが、これは撮影時に基準マーカ33が対象物5に隠れることを防止するためである。したがって、基準マーカ33の設置方法はこのような方法に限られず、プレート14と同じものを利用してもよい。基準マーカ33を、基準としたい位置及び姿勢に配置することにより、基準座標系を定義する。
コンピュータ4には、データベース8が設けられており、カメラ2において撮像した画像群、ARマーカ3、対象物5に関する位置姿勢の情報が保存される。
対象物5のエリア18への配置は、単に載置するだけではなく、エリア18へ固定して行う。そして、エリア18は対象物5を配置するガイドとなるものであるから、図6(1)に示す対象物5aのように、対象物の底面はエリア18内に収まるように配置されることが好ましいが、必ずしもこの限りではなく、例えば図6(2)に示す対象物5bのように、エリア18から一部はみ出して配置されてもよい。
図6(2)においては、対象物5bが一部はみ出して配置されたことにより、ARマーカ(3b,3h)が隠れてしまっているが、ARマーカ(3a~3l)は、一度の撮影において、全て認識される必要はなく、少なくとも1つのARマーカが読み取れればよいからである。
また、ARマーカ(3a~3l)と対象物5aの間の相対的な位置姿勢関係から、基準座標系における対象物5aの姿勢を推定する。また、ARマーカ(3a~3l)と対象物5aの間の相対的位置の関係と、対象物5aおよびプレート14のサイズから、基準座標系における対象物5の重心位置を推定する。
データベース8に予め登録されている対象物の大きさに関するデータを用いて、上記の推定された位置や姿勢のデータに基づいて、対象物5aを囲むバウンディングボックスを設定する。
図7に示すように、ARマーカ3aについては、ARマーカ3aの中心点P2からベース部17の中心点P1の方向に向けて、すなわち上方向がY軸方向となるように設けられ、右方向がX軸方向、手前の方向がZ軸方向となるように設けられている。
これは、ARマーカ(3d,3g,3j)についても同様である。すなわち、ARマーカ3dについては中心点P3からベース部17の中心点P1の方向が、ARマーカ3gについては中心点P4からベース部17の中心点P1の方向が、ARマーカ3jについては中心点P5からベース部17の中心点P1の方向が、それぞれY軸方向となるように設けられている。
ARマーカ(3a,3d,3g,3j)の位置・姿勢は、例えば、ARマーカ3aの場合は角部(C21~C24)の位置座標を基準に推定される。同様に、ARマーカ3dの場合は角部(C31~C34)の位置座標、ARマーカ3gの場合は角部(C41~C44)の位置座標、ARマーカ3jの場合は角部(C51~C54)の位置座標を基準に推定される。
ARマーカ(3a,3d,3g,3j)が、それぞれの中心点からベース部17の中心点P1の方向がY軸方向となるように設けられることにより、ベース部17の中心点P1を中心にして対象物5を配置し、固定した状態で、多視点画像群を取得した場合に、どの角度から撮影しても、ARマーカ(3a~3l)の向きを基に、容易に対象物5の向きを推定することができる。但し、そのためには、ベース部17の中心に対象物5が配置されるような工夫が必要である。
エリア18に載せる対象物5が小さいものであれば、位置調整用ガイド18a内に収まるように配置し、対象物5がより大きいものであれば、対象物5の中心が位置調整用ガイド18aに当接するように配置することができる。
対象物5aはプレート14a上に配置されており、対象物5bはプレート14b上に、対象物5cはプレート14c上に配置されている。
また、同一の対象物について、あらゆる向きに設置してカメラ2による撮影を行ってもよい。ベルトコンベア12上を一度流される際に、複数回撮影したり、同一の対象物について、あらゆる向きに設置してカメラ2による撮影を行ったりすることで、多様なパターンの画像が得られ、後の深層学習などの機械学習により、より精度の高いモデルの生成が可能となる。
対象物5bについては、プレート14b上に設けられたARマーカ(3a~3l)の内、ARマーカ3gは、画像7aでは撮像されていないが、ARマーカ(3a~3f,3h~3l)が撮像されている。
対象物5cについては、プレート14c上に設けられたARマーカ(3a~3l)の内、ARマーカ(3f~3h)については、画像7aでは撮像されておらず、ARマーカ(3j,3k)についても、それらの一部が撮像されているに過ぎないが、ARマーカ(3a~3e,3i,3l)が撮像されている。
したがって、対象物5bについては、プレート14bに設けられたARマーカ(3a~3f,3h~3l)の検出により、対象物5bの名称等が取得される。同様に、プレート14cに設けられたARマーカ(3a~3e,3i,3l)の検出により、対象物5cの名称等が取得され、プレート14aに設けられたARマーカ(3a~3e,3i~3l)の検出により、対象物5aの名称等が取得される。
プレート(14a~14c)毎にARマーカ(3a~3l)に定義された位置姿勢情報に基づいて、対象物(5a~5c)の位置姿勢情報を推定する。
図9に示すように、対象物5cを長方形として認識し、例えば、下記数1のように、矩形(四角形)の幅(x´)と高さ(y´)にそれぞれマージンとなるオフセットを加算して、バウンディングボックスの幅と高さを決定し、バウンディングボックスを設定する。ここで、hは物体の高さ、φは鉛直方向に対するカメラの設置角度である。
学習データとされる画像中にプレート14中のARマーカ3やベース部17が写り込んでいる状態のデータ群を学習データセットとして機械学習を行うと、例えば、モデル生成コンピュータ9がARマーカ3自体を学習してしまう恐れがある。モデル生成コンピュータ9がARマーカ3自体を学習してしまうと、学習データセットの質が低下するため、ARマーカ等の学習データから削除することが好ましい。
そこで、ARマーカを含むプレートの隠蔽方法について、図10~13を参照しながら説明する。図10は、学習データセット生成治具領域の隠蔽フロー図を示している。また、図11~13は、学習データセット生成治具領域の隠蔽の説明図を示している。
まず、図11(1)は隠蔽前の取得画像を示している。図11(1)に示すように、画像7a中には、対象物(5a~5c)、プレート(14a~14c)及びベルトコンベア12が表示されている。かかる画像7aから、図10に示すように、プレート領域を検出する(ステップS41)。
図11(2)は切抜き後の取得画像を示している。図11(2)に示すように、画像7aは、プレート(14a~14c)の形状の部分だけが切り抜かれ、ベルトコンベア12やプレート(14a~14c)の形状外の対象物(5a~5c)は消去されている。
ここで、事前に近似した形状情報を用いて、検出手段40hにより抽出された領域から、更に、学習データセット生成治具に該当する領域のみを抽出する(ステップS43)。図27は、物体の隠蔽方法の説明図であり、(1)は対象物、(2)は近似した形状を示している。図27(1)に示す対象物5eはペットボトルであるが、かかる対象物5eに近似した形状としては、例えば、図27(2)に示すように、円筒形状39aと円錐台形状39bを合わせた形状を利用することができる。
なお、事前に近似した形状情報を用いるのではなく、事前に学習させた混合ガウス分布(GMM)に基づくモデルで、プレート領域を抽出するというように、事前に学習させた学習モデルを用いて、学習データセット生成治具に該当する領域のみを抽出してもよい。
図12(2)は、プレート領域抽出後の画像を示している。図12(2)に示すように、図12(1)に示す画像から、対象物5a及び対象物5cが写り込んだ箇所が消去され、プレート14cだけが残存している。
図13(1)は、実施例1の隠蔽処理後の画像である。本実施例では、プレート(14a~14c)に該当する領域につき、ノイズ画像で上書きを行っている。これに対して、図13(2)は背景画像で上書きを行ったものである。便宜上、プレート(14a~14c)に該当する領域を破線で表しているが、実際は表示されない。
図13(2)に示すように、背景画像で上書きを行う方が、隠蔽処理としては自然であるようにも思われる。しかしながら、図13(1)に示すようなノイズ画像は一定の確率分布で更新し、毎回異なったノイズ画像が生成されるため、機械学習による学習が行われにくいという利点がある。したがって、プレートやARマーカを学習してしまうという問題を解決するには好適である。
対象物(5a~5c)には、それぞれバウンディングボックス(6a~6c)が設定されているが、前述したように、これらは実際の画像に加工がなされるものではない。
また、図8で示したプレート(14a~14c)については、ノイズ画像による隠蔽処理が施され、隠蔽部(15a~15c)となっている。
ここでは、画像(7a~7f)について図示しているが、実際にはより多数の画像を撮影する。このように、バウンディングボックス(6a~6c)が挿入され、かつ、プレート(14a~14c)が隠蔽された画像7aのような画像が集積することで、学習データセットが作製される。
学習データセットが生成された後、学習データセットを具体的なロボット制御に利用する場合には、先立って学習データセットを使用した深層学習などの機械学習が必要となる。そこで、コンピュータ4は、データベース8に保存された学習データセットを用いて、推定を行う対象物について、深層学習を行い、学習済みモデルを取得する。
図15は、学習済みモデル生成のフロー図を示している。図15に示すように、まず学習データセットを入力する(ステップS21)。入力された学習データセットを基に、深層学習を行う(ステップS22)。本実施例では、Google(登録商標)が開発しオープンソースとして公開した人工知能のソフトウェアライブラリであるTensorFlow(登録商標)を使用して深層学習を行う。深層学習により得られた学習済みモデルを出力する(ステップS23)。
図16は、物体認識及び位置姿勢推定時のロボット制御システムのシステム構成図を示している。図16に示すように、物体認識及び位置姿勢推定時においては、ロボット制御システム1は、カメラ2、コンピュータ4及びロボット13から成る。
ベルトコンベア12上には、認識対象となる対象物5が配置されている。コンピュータ4には、データベース8が設けられており、カメラ2において撮影した画像等が保存される。ロボット13には、ロボットアーム13aが設けられており、ロボットアーム13aによって、対象物を把持できる構造となっている。
学習済みモデルの利用に先立って、学習データセットを用いた深層学習が行われたことにより、対象物を認識し、位置及び姿勢を推定することが可能となっている。
本実施例では、3次元のバウンディングボックス(6d~6f)が設定されているが、これは複数のARマーカ3が設けられることにより可能となったものである。
すなわち、本実施例においても、プレート(14a~14c)を用いて学習データセットの作製を行っているが、図7に示すように、円形のプレート14aの中心点P1を原点とし、図5に示すように、その原点に対象物5を底の中心がくるように、位置調整ガイド18aなどを用いて配置する。
対象物5の高さや形状、幅、奥行きは、物体の属性情報として予め物体情報データとして、図1に示すデータベース8に記憶されている。円形のプレート14aの中心点P1と、カメラ2の位置(カメラの視線角度)から、3次元のバウンディングボックス(直方体)を描くことが可能である。実際には、描かなくとも直方体の8角のカメラ座標が分かることとなる。
このように、実施例1におけるプレート(14a~14c)のように、12個のARマーカ(3a~3l)を必ずしも設けなくてもよく、対象物5の種類・形状、製造コスト等を考慮して、より少ない数のARマーカを設けた構成とすることができる。但し、画像を撮影する際に、2つ以上のARマーカが撮像されることが好ましい。なぜなら、前述したように、2つ以上のARマーカが撮像されることにより、対象物の認識精度を向上させることが可能であり、また、3次元バウンディングボックスの設定も可能となるからである。
図21(1)及び(2)に示すように、実施例1におけるプレート(14a~14c)のように、ベース部の形状は必ずしも円形である必要はなく、対象物5の種類や形状等を考慮して、矩形やその他の形状とすることもできる。対象物5の種類や形状等に合わせて、ベース部の形状やARマーカの種類・数等を設計することにより、より質の高い学習データセットを作製することができる。
なお、図21(1)に示すように、ARマーカ(3c,3e,3i,3k)は、プレート140cの矩形状に対し斜めに傾けて配置されているが、このような配置は必須ではなく、ARマーカがエリアを囲んでおり、全てのARマーカの角部が既知であるという点が充たされておればよい。したがって、例えば、図21(2)に示すように、ARマーカ(3a~3l)を配置してもよい。
例えば、対象物5dのような逆円錐台状の場合には、矢印19fに示すように、側方から撮影して対象物5dの側面を撮影することが有益であるが、側方から撮影すると、今度はプレート140a上に設けられたARマーカ(3a~3h)の撮像が困難となるという問題がある。
図23(1)及び(2)に示すように、矢印19fの方向から対象物5dを撮影した場合には、側面部22bに設けられたARマーカ(3i~3r)を検出することによって、対象物5dを認識することが可能である。また、矢印19eの方向から対象物5dを撮影した場合には、底部22aに設けられたARマーカ(3a~3h)又は側面部22bに設けられたARマーカ(3i~3r)のいずれかを検出することにより、対象物5dを認識することが可能である。
このように、対象物5の形状に応じて柔軟に学習データセット生成治具を設計することが可能である。
コンベアベルト120aの上に、学習データセット生成治具であるプレート14を載せ、ベース部17に設けられたエリア(図示せず)をガイドとして対象物5を配置した状態で、コンベアベルト120aを水平(矢印19gに示す方向)に移動させ、ARマーカ3を含む対象物5全体の多視点画像群を効率よく取得することができる。
なお、矢印19gに示す移動方向や矢印19hに示す回転方向は、逆方向であってもよく、更には、正方向と逆方向に交互に動くものであってもよい。また、矢印19iに示す移動方向は往復移動であるが、片方向のみに移動するものでもよい。
上記1)のステップでは、取得した画像に含まれるARマーカを画像解析により検出し(ステップS102)、ARマーカに関連付けされた物体情報を取得し(ステップS103)、ARマーカの姿勢情報に基づいて、対象物の姿勢を推定し(ステップS104)、対象物の重心位置を算出し(ステップS105)、対象物を取り囲むバウンディングボックスを設定する(ステップS106)。
上記2)のステップでは、物体情報、姿勢、重心位置及び設定したバウンディングボックス情報(画像中の位置、幅、高さ)を画像に関連付けし(ステップS107)、画像内に未だ処理していないARマーカが存在する場合には、未処理のARマーカを同様に処理し、画像内の全てのARマーカが処理済みの場合(ステップS108)には、対象物の物体情報、姿勢・重心位置情報及びバウンディングボックス情報が紐付いた1枚の画像を出力し(ステップS109)、全ての撮像画像につき処理を行う(ステップS110)。
全ての画像についての処理完了後に、撮像画像中からマーカを含むプレートを隠蔽し(ステップS111)、学習データセットを作製する。
まず、取得した画像から、プレート領域を検出する(ステップS41)。次に、切り抜かれたプレートの形状の内、何れかのプレートを選択する(ステップS42)。事前に近似した形状情報を用いて、プレート領域を抽出する(ステップS43)。未処理のプレートがある場合には、未処理のプレートを選択し(ステップS42)、同様の処理を行う。全てのプレートにつき処理を行った後(ステップS44)、抽出した全ての領域に対してノイズ画像又は背景画像で上書きを行う(ステップS45)。
上記a)のステップでは、画像認識により、物体を検出し、画像座標系における位置を検出し(ステップS302)、物体情報(名称など)を取得して、認識用バウンディングボックスを設定する(ステップS303)。
上記b)のステップでは、設定された認識用バウンディングボックスの内、いずれか1つを選択し(ステップS304)、撮像画像から、認識用バウンディングボックス内を切り抜き(ステップS305)、深層学習など機械学習によって得られた学習済みモデルの分類器を用いて、物体の姿勢を推定する(ステップS306)。
上記c)のステップでは、認識用バウンディングボックスの幅、高さを取得し(ステップS307)、学習済みモデルの回帰器により、実空間の3次元座標における物体の重心位置を推定する(ステップS308)。
下記表2は、単一マーカ、複数マーカ及び人手による場合の学習データセット生成時間の測定結果を表している。比較対象とする撮像画像としては、単一マーカの場合、複数マーカの場合及び、人手による場合のそれぞれにつき学習用として500枚撮影した。
図25は、実施例8の比較実験における撮影方法の説明図を示している。図25に示すように、撮影に当たっては、データの偏りが起こらないように、画像中に縦3×横8のポイント38を設定し、それぞれのポイント毎に45°刻みで配置を回転させて、撮影を行った。人手によるアノテーションは2人で実施した。なお、本明細書においてアノテーションとは、撮像画像に対するバウンディングボックスの設定だけではなく、物体情報の関連付けも含めたものを指している。
以上より、単一マーカによる学習データセットの生成は、人手による学習データセットの生成と比較して、88.4%の効率化に成功したといえる。また、複数マーカによる学習データセットの生成は、人手による学習データセットの生成と比較して、54.9%の効率化に成功したといえる。
下記表3~5は、単一マーカの場合、複数マーカの場合及び人手による場合についての物体認識精度に関する測定結果を表している。実験条件としては、ボトルA、ボトルB、パウチA、パウチB、缶A及び缶Bにつき、“F値”、“Precision”及び“Recall”を測定した。なお、ボトルとは、ペットボトルのことである。
ここで、“Recall”は再現率であり、実際に正であるもののうち、正であると予測されたものの割合を意味し、見つけなければいけないものをどれだけ見つけたかを数値化したものであり、最小値が0%で、100%あるいは100%に近いほど優れている。また、“Precision”は判定したものの正確さを表す指標であり、TP/(TP+FP)から算術する(TP:True Positive,FP:False Positive)。Precisionも、最小値が0%で、100%に近いほど優れている。また、“F値”は、機械学習における予測結果の評価尺度の一つであり、精度と再現率の調和平均を示している。具体的には、F値は、Recallの値を“A”、Precisionの値を“B”とすると、2×B×A/(A+B)から算術する。F値も、最小値が0%で、100%に近いほど優れている。
また、単一マーカと複数マーカで比較すると、表3及び4に示すように、F値、PrecisionおよびRecallにおいて、パウチA、パウチB、缶A及び缶Bの4つの対象物体で、複数マーカの場合の方が、認識精度がより高いことを確認できる。
これに対して、ペットボトルについては単一マーカの方が、認識精度が高い。すなわち、ボトルAについては、単一マーカの場合、F値、Precision及びRecallはいずれも100%であり、ボトルBについても、単一マーカの場合、F値は98.5%、Precisionは99%、Recallは98%といずれも複数マーカの場合よりも認識精度は高いことが確認できる。しかしながら、複数マーカの場合も、ボトルAについては、F値は98%、Precisionは99%、Recallは97%、ボトルBについては、F値は93.8%、Precisionは96.8%、Recallは91%と、単一マーカの場合と大差なく高い数値を示している。
そのため、複数マーカによる手法が、より多品種の対象物体を高い精度で認識するための学習データセット生成冶具として有用だと考えられる。
図26は、位置・姿勢推定に関する比較実験結果を表すグラフであり、図26(1)は、単一マーカの場合、複数マーカの場合及び人手による場合についての位置推定誤差を表すグラフである。なお、図26では、ボトルA、ボトルB、パウチA、パウチB、缶A及び缶Bにつき比較しており、グラフの数値は小数第二位を四捨五入して説明する。
これに対して、単一マーカの場合は、ボトルAが28.3mm、ボトルBが28.4mm、パウチAが46.8mm、パウチBが51.1mm、缶Aが27.7mm、缶Bが32.1mmであり、複数マーカの場合は、ボトルAが33.2mm、ボトルBが35.1mm、パウチAが30.7mm、パウチBが39.9mm、缶Aが17.3mm、缶Bが17.7mmであった。
したがって、ボトルA及びボトルBについては、単一マーカの場合、人手による場合と殆ど変わらない誤差であることが判る。また、複数マーカの場合は、ボトルA及びボトルBについては、単一マーカよりもやや大きな誤差が確認されたが、その差は僅かであり、しかも、パウチA、パウチB、缶A及び缶Bについては単一マーカの場合に比べて誤差を小さくできることが判った。
図26(2)に示すように、人手による場合の姿勢推定の正答率は、ボトルAが73.4%、ボトルBが37.4%、パウチAが86.1%、パウチBが89.9%、缶Aが71.9%、缶Bが79.1%であり、単一マーカ又は複数マーカの場合のいずれの場合よりも少なかった。
また、単一マーカの場合の姿勢推定の正答率は、ボトルAが24.0%、ボトルBが14.3%、パウチAが20.5%、パウチBが14.8%、缶Aが15.5%、缶Bが16.2%であった。
これに対して、複数マーカの場合の姿勢推定の正答率は、ボトルAが48.5%、ボトルBが19.8%、パウチAが69.3%、パウチBが77.5%、缶Aが67.4%、缶Bが76.5%であり、ボトルA、ボトルB、パウチA、パウチB、缶A及び缶Bのいずれについても単一マーカの場合よりも高い正答率が得られることが判った。
以上より、単一マーカを用いた場合は、88.4%のデータ収集時間の効率化が図られ、物体認識においては、十分な性能が得られることが判った。これに対して、複数マーカを用いた場合には、54.9%のデータ収集時間の効率化が図られ、物体認識だけではなく、位置・姿勢推定においても、十分な性能が得られることが判った。
本実施例においては、人手による場合、自動収集において単一マーカを背景画像の上書きで隠蔽処理を行った場合及び自動収集において単一マーカをノイズ画像の上書きで隠蔽処理を行った場合について、物体認識精度の比較を行った。対象物体としては、実施例8と同じくボトルA、ボトルB、パウチA、パウチB、缶A及び缶Bにつき比較を行った。
下記表6は、人手による場合、背景とする隠蔽処理を行った場合、及びノイズとする隠蔽処理を行った場合の物体認識精度に関するF値の比較結果を示している。
ボトルBについては、人手による場合のF値は98.5%であるのに対して、背景とする隠蔽処理を行った場合は98%と人手による場合より低く、ノイズとする隠蔽処理を行った場合は98.5%と人手による場合と同等の認識率が得られた。
これに対して、パウチAについては、人手による場合のF値は71.9%であったが、背景とする隠蔽処理を行った場合は81.8%、ノイズとする隠蔽処理を行った場合は78.9%となり、いずれも人手による場合より高い認識率が得られた。
缶Aについては、人手による場合のF値は81.8%であるのに対して、背景とする隠蔽処理を行った場合は51.9%と人手による場合より低く、逆にノイズとする隠蔽処理を行った場合にはF値が82.1%と人手による場合より高い認識率が得られた。
缶Bについては、人手による場合のF値は76.8%であるのに対して、背景とする隠蔽処理を行った場合は55.3%と人手による場合より低く、逆にノイズとする隠蔽処理を行った場合にはF値が81%と人手による場合より高い認識率が得られた。
2 カメラ
3,3a~3r ARマーカ
4,40,41 コンピュータ
5,5a~5e 対象物
6a~6c バウンディングボックス
7a~7f,70 画像
8,80,81 データベース
9 モデル生成コンピュータ
9a 分類器
9b 回帰器
10 学習データセット生成手段
11 物体認識及び位置姿勢推定手段
12 ベルトコンベア
13 ロボット
13a ロボットアーム
14,14a~14c,140a~140d プレート
15a~15c 隠蔽部
16a~16f 認識用バウンディングボックス
17,170,171 ベース部
18,180,181 エリア
18a 位置調整用ガイド
18b 向き調整用ガイド
19a~19i 矢印
20,21 撮像手段
22 L字状プレート
22a 底部
22b 側面部
30 学習データセット生成治具
33 基準マーカ(ARマーカ)
36 台座部
37 支柱
38 ポイント
39a 円筒形状
39b 円錐台形状
40a ARマーカ認識手段
40b 対象物認識手段
40c バウンディングボックス設定手段
40d 姿勢推定手段
40e 重心位置推定手段
40f バウンディングボックス割付手段
40g 学習データセット生成治具領域隠蔽手段
40h 検出手段
40i 抽出手段
40j 隠蔽手段
41a 物体認識手段
41b 認識用バウンディングボックス設定手段
41c 学習済みモデル
120 コンベア
120a コンベアベルト
120b 回転機構
120c 直動機構
C 角部
P 中心点
Claims (28)
- 視覚マーカに対象物の物体情報を関連付けし、
対象物の配置位置のガイドとなるエリアが設けられたベース部と、該ベース部の上に固定された前記視覚マーカとから構成される学習データセット生成治具を用いて、前記エリアをガイドとして対象物を配置した状態で、前記視覚マーカを含む物体全体の画像群を取得し、
取得した前記画像群から、前記視覚マーカに関連付けされた前記物体情報を取得し、
前記画像群から前記視覚マーカ又は前記学習データセット生成治具に該当する領域の隠蔽処理を行うことにより再構成された画像群を生成し、
撮像画像における前記視覚マーカの位置情報及び姿勢情報と、前記視覚マーカと対象物との相対的な位置情報及び姿勢情報とに基づいて推定した撮像画像中における対象物の位置情報及び姿勢情報と、取得した前記物体情報における対象物の大きさを基に、前記再構成された画像群に対して対象物のバウンディングボックスを設定し、
撮像画像から推定した撮像画像中における対象物の姿勢情報と位置情報、前記物体情報及び前記バウンディングボックスに関する情報を、前記撮像画像に関連付けして、対象物の物体認識及び位置姿勢推定を行うための学習データセットを生成することを特徴とする学習データセット作製方法。 - 前記視覚マーカは前記対象物と予め定められた位置関係において前記ベース部に複数固定されることを特徴とする請求項1に記載の学習データセット作製方法。
- 前記隠蔽処理は、
前記画像群から、前記学習データセット生成冶具に該当する領域を検出する検出ステップと、
前記検出ステップにより抽出された対象物の写り込みが含まれる領域から物体領域を検出することにより、前記学習データセット生成冶具に該当する領域のみを抽出する抽出ステップと、
前記抽出ステップにより抽出された領域における前記画像群に対して、背景画像又はノイズ画像として上書き処理を行う上書きステップ、
を備えることを特徴とする請求項1又は2に記載の学習データセット作製方法。 - 前記抽出ステップは、事前に近似した形状情報を用いて、前記物体領域を検出することを特徴とする請求項3に記載の学習データセット作製方法。
- 前記抽出ステップは、事前に学習させた学習モデルを用いて、前記物体領域を検出することを特徴とする請求項3に記載の学習データセット作製方法。
- 前記ベース部は、円形状、楕円形状若しくは矩形状のプレートであることを特徴とする請求項1~5の何れかに記載の学習データセット作製方法。
- 前記ベース部が円形状である場合には、前記視覚マーカは、前記エリアを囲むように、前記エリアの中心方向を基準方向として配置されたことを特徴とする請求項1~6の何れかに記載の学習データセット作製方法。
- 前記ベース部は、前記プレートを、面の挟角が10~90°であるL字状に屈曲させたことを特徴とする請求項6に記載の学習データセット作製方法。
- 前記バウンディングボックスは、前記エリアを基準位置とする3次元バウンディングボックスであることを特徴とする請求項1~8の何れかに記載の学習データセット作製方法。
- 前記視覚マーカは、AR(Augmented Reality)マーカを含む2次元パターンマーカ、又は、3次元マーカであることを特徴とする請求項1~9の何れかに記載の学習データセット作製方法。
- 前記エリアには、前記学習データセット生成治具の識別IDが表示されたことを特徴とする請求項1~10の何れかに記載の学習データセット作製方法。
- 前記エリアには、対象物の向きを調整するための向き調整ガイドが設けられたことを特徴とする請求項1~11の何れかに記載の学習データセット作製方法。
- 前記位置情報は、前記エリアをガイドとして配置された対象物の位置と、予め定義した基準座標系における基準姿勢の位置との差分情報であることを特徴とする請求項1~12の何れかに記載の学習データセット作製方法。
- 前記姿勢情報は、前記視覚マーカの撮像画像と、前記視覚マーカと対象物との相対位置関係を用いて算出した情報であり、前記エリアをガイドとして配置された対象物の姿勢と、予め定義した基準座標系における基準姿勢との差分情報であることを特徴とする請求項1~13の何れかに記載の学習データセット作製方法。
- 前記画像群は、対象物を前記学習データセット生成治具に配置して搬送手段により搬送しながら撮像、対象物を前記学習データセット生成治具に配置して回転手段により回転させながら撮像、及び、対象物を前記学習データセット生成治具に配置して移動手段により移動させながら撮像の少なくとも何れかにより取得されたことを特徴とする請求項1~14の何れかに記載の学習データセット作製方法。
- 請求項1~15の何れかの作製方法に用いる前記学習データセット生成治具。
- 請求項1~15の何れかの作製方法により作製した学習データセットを用いて機械学習を行い、学習済みモデルを取得し、
新たに撮像された撮像画像から、画像認識によって物体の名称を検出して認識用バウンディングボックスを作成し、
前記認識用バウンディングボックスを切り出した部分画像を生成し、前記学習済みモデルを用いて、生成した部分画像に基づき検出した物体の姿勢を推定し、
前記認識用バウンディングボックスの位置、幅及び高さを取得し、前記学習済みモデルを用いて、検出した物体に関する実空間の3次元座標における位置を推定することを特徴とする物体認識及び位置姿勢推定方法。 - 前記認識用バウンディングボックスは、2次元バウンディングボックス又は3次元バウンディングボックスであることを特徴とする請求項17に記載の物体認識及び位置姿勢推定方法。
- 前記学習済みモデルは、物体の姿勢もしくは位置を推定するための分類器又は回帰器の少なくとも何れかが含まれることを特徴とする請求項17又は18に記載の物体認識及び位置姿勢推定方法。
- 前記撮像画像は、複数の物体が撮像された画像であり、
検出した各物体に対して、各々認識用バウンディングボックスを作成し、
検出した全ての物体の名称、並びに、推定した姿勢及び位置を実空間の3次元座標として算出することを特徴とする請求項17~19の何れかに記載の物体認識及び位置姿勢推定方法。 - 前記撮像画像は、前記学習データセットの作製環境と同一又は近似した環境下で撮像された画像であることを特徴とする請求項17~20の何れかに記載の物体認識及び位置姿勢推定方法。
- 視覚マーカに対象物の物体情報を関連付けするステップ、
対象物の配置位置のガイドとなるエリアが設けられたベース部と、該ベース部の上に固定された前記視覚マーカとから構成される学習データセット生成治具を用いて、前記エリアをガイドとして対象物を配置した状態で、前記視覚マーカを含む物体全体の画像群を取得するステップ、
取得した前記画像群から、前記視覚マーカに関連付けされた前記物体情報を取得するステップ、
前記画像群から前記視覚マーカ又は前記学習データセット生成治具に該当する領域の隠蔽処理を行うことにより再構成された画像群を生成するステップ、
撮像画像における前記視覚マーカの位置情報及び姿勢情報と、前記視覚マーカと対象物との相対的な位置情報及び姿勢情報とに基づいて推定した撮像画像中における対象物の位置情報及び姿勢情報と、取得した前記物体情報における対象物の大きさを基に、前記再構成された画像群に対して対象物のバウンディングボックスを設定するステップ、
撮像画像から推定した撮像画像中における対象物の姿勢情報と位置情報、前記物体情報及び前記バウンディングボックスに関する情報を、前記撮像画像に関連付けして、学習データセットを生成するステップ、
をコンピュータに実行させるための学習データセット作製プログラム。 - 新たに撮像された撮像画像から、画像認識によって物体の名称を検出して認識用バウンディングボックスを作成するステップ、
前記認識用バウンディングボックスを切り出した部分画像を生成し、生成した部分画像に基づき、請求項1の学習データセット作製方法により作製した学習データセットを用いて機械学習を行った学習済みモデルを用いて、検出した物体の姿勢を推定するステップ、
前記認識用バウンディングボックスの位置、幅及び高さを取得し、前記学習済みモデルを用いて、検出した物体に関して実空間の3次元座標における位置を推定するステップ、
をコンピュータに実行させるための物体認識及び位置姿勢推定プログラム。 - 対象物の配置位置のガイドとなるエリアが設けられたベース部と、該ベース部の上に固定され、対象物の物体情報が関連付けされる視覚マーカとから構成される学習データセット生成治具、
前記エリアをガイドとして対象物を配置した状態で、前記視覚マーカを含む物体全体の画像群を取得する撮像手段、
取得した前記画像群から、前記視覚マーカに関連付けされた前記物体情報を取得する手段、
前記画像群から前記視覚マーカ又は前記学習データセット生成治具に該当する領域の隠蔽処理を行うことにより再構成された画像群を生成する手段、
撮像画像における前記視覚マーカの位置情報及び姿勢情報と、前記視覚マーカと対象物との相対的な位置情報及び姿勢情報とに基づいて推定した撮像画像中における対象物の位置情報及び姿勢情報と、取得した前記物体情報における対象物の大きさを基に、取得した画像群に対して対象物のバウンディングボックスを設定する手段、
撮像画像から推定した撮像画像中における対象物の姿勢情報と位置情報、前記物体情報及び前記バウンディングボックスに関する情報を、前記撮像画像に関連付けして、学習データセットを生成する手段、
を備えたことを特徴とする学習データセット作製装置。 - 前記視覚マーカは前記対象物と予め定められた位置関係において前記ベース部に複数固定されることを特徴とする請求項24に記載の学習データセット作製装置。
- 請求項1~15の何れかの作製方法により作製した前記学習データセットを用いて機械学習を行った産業用ロボットによる工場の自動化システム。
- 請求項17~21の何れかの物体認識及び位置姿勢推定方法を用いた産業用ロボットによる工場の自動化システム。
- 請求項23に記載の物体認識及び位置姿勢推定プログラムが搭載された産業用ロボットによる工場の自動化システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018066282 | 2018-03-29 | ||
JP2018066282 | 2018-03-29 | ||
PCT/JP2019/013793 WO2019189661A1 (ja) | 2018-03-29 | 2019-03-28 | 学習データセット作製方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019189661A1 JPWO2019189661A1 (ja) | 2021-04-01 |
JP7083189B2 true JP7083189B2 (ja) | 2022-06-10 |
Family
ID=68060223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020511033A Active JP7083189B2 (ja) | 2018-03-29 | 2019-03-28 | 学習データセット作製方法及び装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11276194B2 (ja) |
JP (1) | JP7083189B2 (ja) |
CN (1) | CN111937034A (ja) |
WO (1) | WO2019189661A1 (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11179852B2 (en) * | 2019-03-25 | 2021-11-23 | Dishcraft Robotics, Inc. | Automated manipulation of transparent vessels |
JP7372076B2 (ja) * | 2019-08-07 | 2023-10-31 | ファナック株式会社 | 画像処理システム |
JP7359633B2 (ja) * | 2019-10-17 | 2023-10-11 | ファナック株式会社 | ロボットシステム |
US11584004B2 (en) * | 2019-12-17 | 2023-02-21 | X Development Llc | Autonomous object learning by robots triggered by remote operators |
JP7452016B2 (ja) * | 2020-01-09 | 2024-03-19 | 富士通株式会社 | 学習データ生成プログラム、及び学習データ生成方法 |
JP7379183B2 (ja) * | 2020-01-28 | 2023-11-14 | 株式会社Screenホールディングス | ステージ姿勢推定装置、搬送装置、およびステージ姿勢推定方法 |
CN111652103B (zh) * | 2020-05-27 | 2023-09-19 | 北京百度网讯科技有限公司 | 室内定位方法、装置、设备以及存储介质 |
JP7124852B2 (ja) * | 2020-07-30 | 2022-08-24 | カシオ計算機株式会社 | 教師データの生成方法、教師データの生成装置及びプログラム |
JP7294505B2 (ja) * | 2020-07-30 | 2023-06-20 | カシオ計算機株式会社 | 教師データの生成方法、教師データの生成装置及びプログラム |
WO2022036261A1 (en) * | 2020-08-13 | 2022-02-17 | Opsis Health, Inc. | Object-recognition training |
JP7553754B2 (ja) | 2020-08-25 | 2024-09-19 | 公立大学法人会津大学 | 学習プログラム、学習装置及び学習方法 |
JP7179243B2 (ja) * | 2020-10-26 | 2022-11-28 | 三菱電機株式会社 | 情報処理装置、学習データ作成システム、学習データ作成方法、及び学習データ作成プログラム |
TWI844747B (zh) * | 2020-11-09 | 2024-06-11 | 財團法人工業技術研究院 | 辨識系統及其圖資擴增與訓練方法 |
CN114693586A (zh) * | 2020-12-25 | 2022-07-01 | 富泰华工业(深圳)有限公司 | 物体检测方法、装置、电子设备及存储介质 |
KR102505670B1 (ko) * | 2021-03-02 | 2023-03-06 | 한국자동차연구원 | 학습 데이터 생성 장치 |
KR102573020B1 (ko) * | 2021-03-05 | 2023-08-31 | 한국자동차연구원 | 로봇팔을 이용한 학습 데이터셋 생성 장치 및 방법 |
KR102573019B1 (ko) * | 2021-03-05 | 2023-08-31 | 한국자동차연구원 | 학습 데이터셋 생성 장치 및 방법 |
CN113111844B (zh) * | 2021-04-28 | 2022-02-15 | 中德(珠海)人工智能研究院有限公司 | 一种作业姿态评估方法、装置、本地终端及可读存储介质 |
JP2024523009A (ja) * | 2021-06-08 | 2024-06-25 | 日本電気株式会社 | 教師データ生成装置、教師データ生成システム、教師データ生成方法、およびプログラム |
US20230031377A1 (en) * | 2021-07-30 | 2023-02-02 | Zebra Technologies Corporation | Label application system with a label printer attachable to a robotic arm |
JP2023030681A (ja) * | 2021-08-23 | 2023-03-08 | 国立研究開発法人国立がん研究センター | 内視鏡画像の処置具の先端検出装置、内視鏡画像の処置具の先端検出方法、及び内視鏡画像の処置具の先端検出プログラム |
KR102657338B1 (ko) * | 2021-10-12 | 2024-04-12 | 네이버랩스 주식회사 | 학습 데이터 수집 시스템 및 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014096661A (ja) | 2012-11-08 | 2014-05-22 | International Business Maschines Corporation | 動画撮影中において動画中の動体オブジェクトをリアルタイムに隠消するための方法、並びに、その動画撮影機器及び当該動画撮影機器のためのプログラム |
JP2017102838A (ja) | 2015-12-04 | 2017-06-08 | トヨタ自動車株式会社 | 物体認識アルゴリズムの機械学習のためのデータベース構築システム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010123007A (ja) * | 2008-11-21 | 2010-06-03 | Casio Computer Co Ltd | 画像処理装置 |
US20130343640A1 (en) * | 2012-06-21 | 2013-12-26 | Rethink Robotics, Inc. | Vision-guided robots and methods of training them |
CN104802174B (zh) * | 2013-10-10 | 2016-09-07 | 精工爱普生株式会社 | 机器人控制系统、机器人、程序以及机器人控制方法 |
JP2015182212A (ja) * | 2014-03-26 | 2015-10-22 | セイコーエプソン株式会社 | ロボットシステム、ロボット、制御装置、及び制御方法 |
US9492923B2 (en) * | 2014-12-16 | 2016-11-15 | Amazon Technologies, Inc. | Generating robotic grasping instructions for inventory items |
US9996771B2 (en) * | 2016-02-15 | 2018-06-12 | Nvidia Corporation | System and method for procedurally synthesizing datasets of objects of interest for training machine-learning models |
JP6942488B2 (ja) * | 2017-03-03 | 2021-09-29 | キヤノン株式会社 | 画像処理装置、画像処理システム、画像処理方法、及びプログラム |
US10699165B2 (en) * | 2017-10-30 | 2020-06-30 | Palo Alto Research Center Incorporated | System and method using augmented reality for efficient collection of training data for machine learning |
-
2019
- 2019-03-28 JP JP2020511033A patent/JP7083189B2/ja active Active
- 2019-03-28 WO PCT/JP2019/013793 patent/WO2019189661A1/ja active Application Filing
- 2019-03-28 US US17/042,481 patent/US11276194B2/en active Active
- 2019-03-28 CN CN201980023619.5A patent/CN111937034A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014096661A (ja) | 2012-11-08 | 2014-05-22 | International Business Maschines Corporation | 動画撮影中において動画中の動体オブジェクトをリアルタイムに隠消するための方法、並びに、その動画撮影機器及び当該動画撮影機器のためのプログラム |
JP2017102838A (ja) | 2015-12-04 | 2017-06-08 | トヨタ自動車株式会社 | 物体認識アルゴリズムの機械学習のためのデータベース構築システム |
Also Published As
Publication number | Publication date |
---|---|
CN111937034A (zh) | 2020-11-13 |
US20210012524A1 (en) | 2021-01-14 |
JPWO2019189661A1 (ja) | 2021-04-01 |
WO2019189661A1 (ja) | 2019-10-03 |
US11276194B2 (en) | 2022-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7083189B2 (ja) | 学習データセット作製方法及び装置 | |
JP6474179B2 (ja) | 学習データセット作製方法、並びに、物体認識及び位置姿勢推定方法 | |
US11049280B2 (en) | System and method for tying together machine vision coordinate spaces in a guided assembly environment | |
CN112476434B (zh) | 一种基于协作机器人的视觉3d取放方法及系统 | |
CN101370624B (zh) | 自动化攫握零件的方法和系统 | |
JP5458885B2 (ja) | 物体検出方法と物体検出装置およびロボットシステム | |
CN110560373B (zh) | 一种多机器人协作分拣运输方法及系统 | |
CN112276936B (zh) | 三维数据生成装置以及机器人控制系统 | |
JP2016103230A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
CN109648568B (zh) | 机器人控制方法、系统及存储介质 | |
JP2013217893A (ja) | モデル生成装置、位置姿勢推定装置、情報処理装置、モデル生成方法、位置姿勢推定方法、情報処理方法 | |
JP6758903B2 (ja) | 情報処理装置、情報処理方法、プログラム、システム、および物品製造方法 | |
JP2010256253A (ja) | 三次元計測用画像撮影装置及びその方法 | |
JP7414395B2 (ja) | 情報投影システム、制御装置、及び情報投影制御方法 | |
JP2009175012A (ja) | 計測装置および計測方法 | |
CN113597362B (zh) | 用于确定机器人坐标系与可移动装置坐标系之间的关系的方法和控制装置 | |
JP2009216480A (ja) | 三次元位置姿勢計測方法および装置 | |
TWI788253B (zh) | 適應性移動操作設備及方法 | |
KR102452315B1 (ko) | 딥러닝과 마커를 이용한 비전인식을 통한 로봇 제어장치 및 그 방법 | |
US20220410394A1 (en) | Method and system for programming a robot | |
Zhao et al. | Using 3D matching for picking and placing on UR robot | |
Tyris et al. | Interactive view planning exploiting standard machine vision in structured light scanning of engineering parts | |
JP7452768B2 (ja) | 撮像システム、および撮像方法 | |
JP7467206B2 (ja) | 映像管理支援システムおよび映像管理支援方法 | |
RU2800443C1 (ru) | Способ выполнения манипуляции с объектом |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201007 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20201007 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211027 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20211227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220518 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220524 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7083189 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |