JP2023169481A - 学習データ生成装置、学習システム、および、学習データ生成方法 - Google Patents

学習データ生成装置、学習システム、および、学習データ生成方法 Download PDF

Info

Publication number
JP2023169481A
JP2023169481A JP2022080602A JP2022080602A JP2023169481A JP 2023169481 A JP2023169481 A JP 2023169481A JP 2022080602 A JP2022080602 A JP 2022080602A JP 2022080602 A JP2022080602 A JP 2022080602A JP 2023169481 A JP2023169481 A JP 2023169481A
Authority
JP
Japan
Prior art keywords
learning
image
recognition
marker
view
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022080602A
Other languages
English (en)
Inventor
宣隆 木村
Nobutaka Kimura
亮 坂井
Akira Sakai
誠也 伊藤
Seiya Ito
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2022080602A priority Critical patent/JP2023169481A/ja
Publication of JP2023169481A publication Critical patent/JP2023169481A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】マーカを対象物に貼って撮影した画像データから、多くの学習データを低コストで収集すること。【解決手段】 学習システム10は、認識用画像22に写る対象物11のマーカが写る相対視野から見た相対位置姿勢である認識位置姿勢24を認識する認識部23と、認識用画像22に写る対象物11をマーカ12が写らない別の相対視野から撮影した学習用画像32を取得し、認識用画像22を撮影した相対視野と、学習用画像32を撮影した相対視野との間の相対的な位置関係をもとに、認識位置姿勢24を補正することで、学習用画像32に写る対象物11のマーカが写らない別の相対視野から見た相対位置姿勢である推定位置姿勢34を推定する推定部33と、学習用画像32と推定位置姿勢34または推定位置姿勢に関する情報またはその両方とを対応付けた学習データを、学習モデル42の機械学習のために生成する学習部41とを有する。【選択図】図1

Description

本発明は、学習データ生成装置、学習システム、および、学習データ生成方法に関する。
現場作業の自動化・省人化を行うため、現場の商品を撮影した撮影画像から商品の位置などの作業に役立つ情報を画像認識するシステムが活用されている。画像認識を行うためには、あらかじめ生成した認識モデルが用いられる。
特許文献1には、以下の2種類の認識モデルが記載されている。
・対象物自体にマーカを貼り、その対象物を撮影することで、対象物の位置を把握する認識モデル。
・対象物の周囲にマーカを円環状に貼った状態で、その対象物を撮影することで、対象物の位置を把握する認識モデル。
認識モデルは、大量の画像データと、その画像データに対する認識結果である教師データとを用いて、機械学習されたものである。そのため、認識モデルの質を向上させるためには、良質の学習データを低コストで収集することが重要である。
特許文献2には、カメラおよびLIDAR(Laser Imaging Detection and Ranging)などの複数種類のセンサを併用して対象物を認識する認識モデルについて、各センサの得手不得手となる状況を考慮した学習データの生成方法が記載されている。例えば、カメラは晴天雨天などの天候の変化には影響されないが、周囲が暗い夜が苦手である。一方、LIDARは、周囲の明るさには影響されないが、雨天の水滴には影響される。
そこで、特許文献2には、以下の手順で教師あり学習データを生成する方法が記載されている。
・第一のセンサの出力に基づいて逐次的に得られた物体の認識結果データが機械学習に於ける教師データとして選択される。
・第二のセンサの出力が機械学習に於ける入力データとして選択される。
・教師データと入力データとの対応付けが為され、教師あり学習データとしてデータベースに格納される。
国際公開第2019/189661号 特開2017-102838号公報
認識モデルが適用される作業現場の環境は多種多様であるため、それらの環境に適合した汎用性の高く高精度な認識モデルを作成するためには、良質の学習データを大量に用意する必要がある。しかし、学習データの準備には多大な人手コストが掛かり、とくに、各画像に対して対象物の位置姿勢を人手て教示するアノテーション作業は大きな負担となっている。
特許文献1,2などの従来の技術では、対象物の位置姿勢を認識するための学習データの自動生成には不充分である。現場作業の自動化として、例えばロボットアームが箱を移動させる場合には、移動対象の箱の位置だけでなく、その箱の傾き度合いを示す姿勢も認識する必要がある。
特許文献1は、マーカが写った画像から、対象物の位置を認識するだけである。例えば、六面体の対象物のうちの一面にマーカを貼って撮影することで、その撮影面だけの学習データを得られる。しかし、残りの5面の学習データを得るためには、マーカを貼りなおすなどの負担が発生する。
特許文献2は、得手不得手が異なる複数種類のセンサを相互補完的に併用する場合という、限定的な状況下での学習データの自動生成方法を示したに過ぎない。つまり、カメラという一種類のセンサにより画像処理を行うための認識モデルの作成には、特許文献2の手法は適用できない。
そこで、本発明では、マーカを対象物に貼って撮影した画像データから、多くの学習データを低コストで収集することを主な課題とする。
前記課題を解決するために、本発明の学習データ生成装置は、以下の特徴を有する。
本発明は、対象物に付されたマーカが写る相対視野から撮影された認識用画像を取得し、前記マーカの前記認識用画像上での位置と、前記対象物と前記マーカとの位置関係を示す対象物モデルとをもとに、前記認識用画像に写る前記対象物の前記マーカが写る相対視野から見た相対位置姿勢である認識位置姿勢を認識する認識部と、
前記認識用画像に写る前記対象物を前記マーカが写らない別の相対視野から撮影した学習用画像を取得し、前記認識用画像を撮影した相対視野と、前記学習用画像を撮影した相対視野との間の相対的な位置関係をもとに、前記認識位置姿勢を補正することで、前記学習用画像に写る前記対象物の前記マーカが写らない別の相対視野から見た相対位置姿勢である推定位置姿勢を推定する推定部と、
前記学習用画像と前記推定位置姿勢または前記推定位置姿勢に関する情報またはその両方とを対応付けた学習データを、学習モデルの機械学習のために生成する学習部とを有することを特徴とする。
その他の手段は、後記する。
本発明によれば、マーカを対象物に貼って撮影した画像データから、多くの学習データを低コストで収集することができる。
本実施形態に関する学習システムおよび運用システムの構成図である。 本実施形態に関する学習システムを用いて学習させる工程の概要図である。 本実施形態に関する学習システムを用いて学習させる工程を示すフローチャートである。 本実施形態に関する学習システムおよび運用システムのハードウェア構成図である。 本実施形態に関する同じ種類の対象物に対して異なる位置にマーカを貼る場合の斜視図である。 本実施形態に関する無人搬送車にマーカを貼る場合の斜視図である。 本実施形態に関する認識カメラが撮影する位置かつ学習カメラが撮影しない位置にマーカを貼る場合の斜視図である。 本実施形態に関する図7の対象物dの側面図である。 本実施形態に関する図7のマーカを貼る領域の説明図である。 本実施形態に関する対象物から対象物モデルを作成する工程の概要図である。 本実施形態に関する対象物モデルに含まれる様々な情報を示す斜視図である。 本実施形態に関する撮影環境を用意する工程において、用意される撮影環境の具体例を示す斜視図である。 本実施形態に関する対象物を撮影する工程において、回転台を用いて回転させた対象物を、固定の撮影位置から撮影する場合の斜視図である。 本実施形態に関する対象物を撮影する工程において、ロボットアームを用いて回転させた対象物を、固定の撮影位置から撮影する場合の斜視図である。 本実施形態に関する対象物を撮影する工程において、作業現場のラインであるベルトコンベアを流れる対象物の面を調整した場合の斜視図である。 本実施形態に関する図13の回転台を用いる場合において、ベルトコンベアを流れる対象物を示す斜視図である。 本実施形態に関する図15のベルトコンベアを流れる対象物の変形例を示す斜視図である。 本実施形態に関する複数の対象物を同じ画像に撮影する場合の斜視図である。 本実施形態に関する学習データの作成と保存の工程において、認識用画像の画像加工処理を示す説明図である。
以下、本発明の各実施例について、添付図面を参照して説明する。本明細書及び添付図面において実質的に同一の機能又は構成を有する構成要素については、同一の符号を付して重複する説明を省略する。
図1は、学習システム10および運用システム50の構成図である。
学習システム10は、学習モデル42を生成する。運用システム50は、生成された学習モデル42を作業現場で活用することで現場作業を自動化する。
学習システム10には、画像撮影用の環境として、マーカ12が一部に貼られた対象物11と、その対象物11を照らす照明13と、その対象物11に視野を向けて撮影する認識カメラ21および学習カメラ31とが用意される。なお、図1ではマーカ12としてAR(Augmented Reality)マーカを例示するが、他のマーカを用いてもよい。
なお、同じ対象物11が同じ位置姿勢に置かれていたとしても、カメラの視野によって、マーカ12が貼られた面が撮影される場合もあるし、マーカ12が写らない状態で撮影される場合もある。以下、認識カメラ21は、マーカ12が写る認識用画像22を撮影するカメラとする。一方、学習カメラ31は、マーカ12が写らない学習用画像32を撮影するカメラとする。認識カメラ21と学習カメラ31は異なるものであっても、同一のもので対象物11との相対位置姿勢を変化させた結果であってもよい。
図2は、学習システム10を用いて学習させる工程の概要図である。
学習システム10には、認識用画像22および学習用画像32を処理することで、学習モデル42の生成に用いられる教材データを作成する学習データ生成装置も用意される。認識用画像22と学習用画像32とは、同じ対象物11を異なる相対視野から撮影したものである。つまり、同じ対象物11が同じ位置姿勢に置かれているものを(例えば同時刻の対象物11を)、異なる視野から撮影された画像である。あるいは、認識カメラ21と学習カメラ31を同一のカメラとして、対象物11との相対位置姿勢を変更することで相対的に異なる視野から撮影した画像であってもよい。
学習システム10の学習データ生成装置は、処理部として、認識部23と、推定部33と、学習部41とを有する。
学習システム10の学習データ生成装置の記憶部には、マーカ12が貼られた状態の対象物11を3Dモデル化した対象物モデル11Mと、認識用画像22および認識位置姿勢24と、学習用画像32および推定位置姿勢34と、学習モデル42とが格納される。
認識部23は、認識用画像22に写るマーカ12と、対象物モデル11M内のマーカ12との位置関係をもとに、認識用画像22を撮影した相対的な視野から見た対象物11の位置姿勢である認識位置姿勢24を認識する。つまり、認識部23は、対象物11に付されたマーカ12が写る視野から撮影された認識用画像22を取得し、対象物11とマーカ12との位置関係を示す対象物モデル11Mとをもとに、認識用画像22を撮影した相対的な視野から見た対象物11の位置姿勢である認識位置姿勢24を認識する。
推定部33は、認識カメラ21と学習カメラ31との間の相対的な位置関係をもとに、認識位置姿勢24を補正することで、学習用画像32を撮影した相対的な視野から見た対象物11の位置姿勢である推定位置姿勢34を推定する。つまり、推定部33は、認識用画像22に写る対象物11に対してマーカ12が写らない別の相対的な視野から撮影した学習用画像32を取得し、認識用画像22を撮影した相対的な視野と、学習用画像32を撮影した相対的な視野との間の相対的な位置関係をもとに、認識位置姿勢24を補正することで、学習用画像32を撮影した相対的な視野から見た対象物11の位置姿勢である推定位置姿勢34を推定する。
そのため、推定部33は、認識カメラ21の相対視点aの相対座標系Aで表現されている認識位置姿勢24を、学習カメラ31の相対視点bの相対座標系Bでの表現に変換することで、相対座標系Bの推定位置姿勢34を推定する。
学習部41は、学習用画像32を入力データとし、推定位置姿勢34を教師データとする学習データを、学習モデル42の機械学習のために生成する。さらに、学習部41は、認識用画像22と認識位置姿勢24とを対応付けた学習データを、学習モデル42の機械学習のために生成してもよい。
学習部41は、生成した学習データを用いた機械学習により、学習モデル42を生成する。これにより、同じ位置姿勢の対象物11から、マーカ12が写らない学習用画像32も学習データとして活用できるので、多くの学習データを低コストで収集できる。
また、学習部41は、認識用画像22を入力データとし、認識位置姿勢24を教師データとする学習データも、学習モデル42を生成するために用いてもよい。
運用システム50には、画像撮影用の環境として、マーカ12が貼られていない対象物51を推論用画像53として撮影する運用カメラ52が用意される。
さらに、運用システム50は、推論用画像53を学習モデル42に入力させることで、対応する対象物11の位置姿勢を求める推論部54と、推論部54が求めた位置姿勢に従って、対象物11の自動作業を制御する装置制御部55とを有する。
装置制御部55は、例えば、対象物11をピッキングするピッキングロボットを制御したり、対象物11を載せて運搬する自動運転のフォークリフトなどの無人搬送車(AGV:Automatic Guided Vehicle)を制御したりする。対象物11とは、作業対象の商品そのものでもよいし、その商品を1つ以上梱包したケースや、その商品を1つ以上入れたカゴでもよい。
図3は、学習システム10を用いて学習させる工程を示すフローチャートである。
ユーザは対象物11にマーカ12を付すとともに(S11)、その対象物11の立体形状を示す対象物モデル11Mを作成する(S12)。
ユーザは撮影環境を用意し(S13)、その撮影環境内で対象物11を撮影する(S14)。
認識部23は、認識カメラ21が撮影した認識用画像22から認識位置姿勢24を認識する(S15)。推定部33は、学習カメラ31が撮影した学習用画像32から推定位置姿勢34を推定する(S16)。学習部41は、学習用画像32を入力データとし、推定位置姿勢34を教師データとする学習データを作成して保存する(S17)。
図4は、学習システム10および運用システム50のハードウェア構成図である。
学習システム10および運用システム50は、それぞれCPU901と、RAM902と、ROM903と、HDD904と、通信I/F905と、入出力I/F906と、メディアI/F907とを有するコンピュータ900として構成される。
通信I/F905は、外部の通信装置915と接続される。入出力I/F906は、入出力装置916と接続される。メディアI/F907は、記録媒体917からデータを読み書きする。さらに、CPU901は、RAM902に読み込んだプログラム(アプリケーションや、その略のアプリとも呼ばれる)を実行することにより、各処理部を制御する。そして、このプログラムは、通信回線を介して配布したり、CD-ROM等の記録媒体917に記録して配布したりすることも可能である。
以下、図5~図9を参照して、対象物にマーカを付す工程(S11)の具体例を説明する。
図5は、同じ種類の(同じ立体形状で、同じ模様の)対象物11に対して異なる位置にマーカ12を貼る場合の斜視図である。ここでは、対象物11として「A,B,C,D,E,F」のいずれかの文字が各面に印字された六面体を例示する。ユーザは、対象物11aのA面にマーカ12aを貼り、対象物11bのC面にマーカ12bを貼る。つまり、ユーザは、同一の対象物11を少なくとも2つ以上準備し、対象物11に対するマーカ12を貼付する位置のパターンが少なくとも2つ以上になるように、対象物11にマーカ12を貼付する。
このように互いに異なる箇所にマーカ12を貼った対象物11のペアを用意することで、どの面も最低1回(1枚)の学習用画像32に撮影される。例えば、対象物11aのA面にマーカ12aが貼られていても、対象物11aのC面にはマーカ12が貼られていないので、マーカ12が写らないC面の学習用画像32を撮影可能である。一方で、対象物11aではマーカ12が写らないA面の学習用画像32を取得することはできない。しかし、対象物11bであれば、マーカ12bはC面に貼られているため、マーカ12が写らないA面の学習用画像32を取得することができる。
図6は、無人搬送車11cにマーカ12を貼る場合の斜視図である。
認識カメラ21は、無人搬送車11cの上部を写す視野にして、無人搬送車11cの上部に貼られたマーカ12含めた認識用画像22を撮影する。
学習カメラ31は、無人搬送車11cの下部を写す視野にして、マーカ12を含めない学習用画像32を撮影する。
図7は、認識カメラ21が撮影する位置かつ学習カメラ31が撮影しない位置にマーカ12を貼る場合の斜視図である。
まず、円柱形状の対象物11dが床面に置かれている。その対象物11dの重心を通り床面に垂直な軸11dmに対して線対象の位置姿勢になるように、認識カメラ21および学習カメラ31は配置される。そして、2つのカメラ視野の一方(図面の左方)からはマーカを計測することができ、視点の他方(図面の右方)からはマーカを計測することができないように、ユーザは、対象物11dへマーカ12dを貼付する。
図8は、図7の対象物11dの側面図である。
対象物11dは、トレイ102に置かれて、そのトレイ102はベルトコンベア101によって移動される。ここで、認識カメラ21の視野と、学習カメラ31の視野との間の角度11dkについて、認識カメラ21からすべてのマーカ12を撮影でき、かつ、認識カメラ21からすべてのマーカ12を撮影できないように調整する必要がある。
図9は、図7のマーカ12を貼る領域の説明図である。
以下の説明は、図示した3つの事例111,112,113で共通する。
認識カメラ21の視野を直線L3~直線L4の範囲とし、学習カメラ31の視野を直線L1~直線L2の範囲とする。そして、円形の断面図となる対象物11dの円周上の(表面上の)各点からの垂線V1-V5を定義する。
マーカ12を貼ることができる領域B1,B2,B3は、認識カメラ21の視野の死角になっておらず、学習カメラ31の視野の死角となっている領域である。この死角の領域は、以下の2つの条件を共に満たす位置の集合である。
(条件1)垂線(例えば事例111のV5)と、その端点(円周上の点)から学習カメラ31の位置へと向かう直線(例えば事例111のL5)との成す角が90度を超える(例えば事例111では150度)。
(条件2)垂線(例えば事例111のV5)と、その端点(円周上の点)から認識カメラ21の位置へと向かう直線(図示省略)との成す角が90度未満となる(例えば事例111では90度未満となる)。
図10は、対象物11から対象物モデル11Mを作成する工程(S12)の概要図である。
符号131は、認識カメラ21がマーカ12を含む対象物11を認識用画像22として撮影したときの様子を示す。認識用画像22は、輝度画像132および距離画像133のペアとして、取得される。
ユーザは、輝度画像132が表示されたGUI(Graphical User Interface)から、輝度画像132上で対象物11の表面を指示することで対象物モデル11Mを生成する。具体的には、以下の(手順1)~(手順4)に従って対象物モデル11Mが生成される。
(手順1)輝度画像132にて対象物11の表面の点(×印で図示した頂点などが望ましい)を人手で複数個教示する(マウス指示など)。そして、距離画像133から対象物11の各点の3D位置を取得する。
(手順2)輝度画像132にてマーカを自動認識し、距離画像133からマーカ頂点の3D位置を取得する。つまり、輝度画像132と距離画像133とに基づきマーカの距離画像133内の位置姿勢を認識する。
(手順3)符号134に示すように、対象物11の各点を包含する直方体と、その直方体上のマーカの3D位置とIDとを対象物モデル11Mとする。この対象物モデル11Mは、距離画像133内のマーカ12の位置姿勢と、距離画像133内の対象物11の位置姿勢との関係情報を含む。これにより、対象物11とマーカ12との位置姿勢関係に関する情報を算出できる。
(手順4)距離画像133から変換された3D点群と共に、対象物モデル11Mを3D空間上に出現させ、様々な視点から確認し、適宜、直方体のサイズ・位置・向きを修正する。
図11は、対象物モデル11Mに含まれる様々な情報を示す斜視図である。
まず、図10に示したように、対象物モデル11Mには、対象物11とマーカ12との位置姿勢関係に関する情報が含まれる。図11は、さらに対象物モデル11Mに含まれる付加的な情報を説明する。
符号141は、複雑な形状の対象物11に、3つのマーカ12を貼る場合の対象物モデル11Mを示す。3つのマーカ12の位置関係は、各マーカの位置を頂点とした三角形の面積が所定値以上になるように、つまり、各マーカ12が他のマーカ12からなるべく遠い位置になるように、貼られることが望ましい。
符号142は、対象物11を把持可能なハンドの位置の情報を含む対象物モデル11Mを示す。
符号143は、対象物11を吸着可能な表面のエリアの情報を含む対象物モデル11Mを示す。
これらのハンドの位置の情報や、表面のエリアの情報は、図10の輝度画像132と距離画像133と図11の対象物モデル11Mとのいずれかに付与される。そして、推定部33は、推定位置姿勢に関する情報として、対象物を把持可能な位置情報および対象物を吸着可能な位置情報の少なくとも1つを定義し、学習用画像32と推定位置姿勢34あるいは推定位置姿勢に関する情報あるいはその両方とを対応付けた学習データを生成する。
図12は、撮影環境を用意する工程(S13)において、用意される撮影環境の具体例を示す斜視図である。
環境151は、撮影前のキャリブレーションにより、2台の物理的なカメラ(認識カメラ21、学習カメラ31)をフレーム151Rなどで固定させた場合を示す。
例えば、認識カメラ21と、学習カメラ31との間の相対位置姿勢を(回転行列Rab,並進ベクトルtab)とする。推定部33は、以下の数式に示すように、複数の同一3D点(ボードc上の点)を各視点a,bから撮影した場合に、ボードcと各視点a,bとの座標系の関係Rca,tca,Rcb,tcbを算出する。
環境151は、2台のカメラを移動させないので、推論用画像53と学習用画像32とを同時に撮影できる。よって、ベルトコンベアを流れる対象物11など、大量かつサイズの小さい対象物11の撮影に適する。
Figure 2023169481000002
環境152は、1台の物理的なカメラを移動させることで、視点aでは認識カメラ21として動作させ、視点bでは学習カメラ31として動作させる場合を示す。認識カメラ21は、対象物11を囲むように配置された周囲マーカ(位置関係が既知)と、対象物11のマーカを同時に視点aから撮影する。学習カメラ31は、視点bへと移動し、周囲マーカと共に対象物を撮影する。
推定部33は、以下の数式に示すように、周囲マーカcと視点aとの座標系の関係Rma,tmaを算出し、周囲マーカcと視点bとの座標系の関係Rmb,tmbを算出する。
Figure 2023169481000003
環境153は、環境152と同様に、1台の物理的なカメラを移動させることで、視点aでは認識カメラ21として動作させ、視点bでは学習カメラ31として動作させる場合を示す。環境152および環境153は、1台のカメラ(所定のカメラ)を移動させるので、対象物11のサイズが大きい場合や、さまざまな対象物11のサイズを扱う場合に適する。
認識カメラ21は、対象物11のマーカを含む環境を視点aから撮影する。学習カメラ31は、対象物11を連続的に撮影しながら視点を徐々に移動させ、最終的に視点bへと移動する。環境153では、環境152で用いていた周囲マーカを不要とする代わりに、撮影画像内の特徴点をもとに、カメラの位置関係を算出する。
つまり、推定部33は、以下の数式に示すように、対象物マーカoと視点aとの座標系の関係Roa,toaを算出し、画像間で特徴点を追跡することで、隣り合うカメラ視点間の座標系の関係ΔRp,Δtpを算出する。
Figure 2023169481000004
また、推定部33は、以下の数式に示すように、エピポーラ幾何を算出する。
Figure 2023169481000005
図13は、対象物を撮影する工程(S14)において、回転台を用いて回転させた対象物11を、固定の撮影位置から撮影する場合の斜視図である。
図13の環境では、1台の物理的なカメラを固定させ、回転台の回転前の対象物11を認識カメラ21として撮影させ、回転台の回転後の対象物11を学習カメラ31として撮影させる。
なお、回転台の回転により、対象物11の位置姿勢は変化する。しかし、この位置姿勢の変化量は、回転台の回転角度として回転量を制御するエンコーダにより算出可能である。よって、推定部33は、認識用画像22から得た認識位置姿勢24に対して、回転台の回転角度を反映することで、推定位置姿勢34を算出できる。
図14は、対象物を撮影する工程(S14)において、ロボットアームを用いて回転させた対象物11を、固定の撮影位置から撮影する場合の斜視図である。
図14の環境では、図13と同様に、1台の物理的なカメラを固定させ、回転前の対象物11を認識カメラ21として撮影させ、回転後の対象物11を学習カメラ31として撮影させる。そして、推定部33は、認識用画像22から得た認識位置姿勢24に対して、ロボットアームの関節角から算出した位置姿勢の変更量を反映することで、推定位置姿勢34を算出できる。
以上、図13および図14で示したように、学習システム10は、さらに、対象物11を機械的に回転させる機構を有している。認識カメラ21および学習カメラ31のうちの一方のカメラは回転前の対象物11を撮影し、他方のカメラは回転後の対象物11を撮影することで、互いに異なる視野で対象物11を撮影する。
そして、推定部33は、対象物11の回転量をもとに、推定位置姿勢34を推定する。
図15は、対象物を撮影する工程(S14)において、作業現場のラインであるベルトコンベアを流れる対象物11の面を調整した場合の斜視図である。
対象物11のマーカ面がカメラの視野(撮影方向)に対して垂直(対面)に位置している場合は、その撮影画像からマーカ12を認識しやすくなる。一方、対象物11のマーカ面がカメラの撮影方向に対して平行になってしまうと、その撮影画像にマーカ12が写る面積が小さくなってしまい、マーカ12を認識しづらくなる。
そこで、認識カメラ21や学習カメラ31の撮影方向を考慮して、ロボットアームなどで対象物11を把持してマーカ12を認識しやすい位置姿勢になるように、大まかに事前調整することが望ましい。以下、側面図である環境161における事前調整の一例である。
・マーカ12が貼付された対象物11の表面が、対象物11の底面11Tとならないように対象物11を配置する。
・対象物11を少なくとも2つ以上準備した場合に、それぞれの対象物11のマーカの表面が、他の対象物11と隣り合う面11S以外の方向を向くように対象物を配置する。
また、マーカ12の面とともに、光源・影などの影響も考慮して、マーカ12を認識しやすくなるように調整することが望ましい。
環境161の平面図である環境162では、認識カメラ21を対象物11の周りの四方に配置し、照明13は独立に調光可能にする。より具体的には、4台の認識カメラ21と、1台の学習カメラ31など、カメラを少なくとも5台備える。そして、学習カメラ31の位置が4台の認識カメラ21で形成される四角錐の頂点となる。4台の認識カメラ21の視線方向の水平成分が互いに平行あるいは直交している関係となる。
図16は、図13の回転台を用いる場合において、ベルトコンベアを流れる対象物11を示す斜視図である。
図15の環境と比較すると、側面図である図16の環境161と、その平面図である図16の環境162では、4台の認識カメラ21を、1台に減らすことができる。そして、回転台(または図14のロボットアーム)による回転角度を変化させることで、残り3台の認識カメラ21と同じ視点を再現できる。
図17は、図15のベルトコンベアを流れる対象物11の変形例を示す斜視図である。
認識カメラ21Bは、透明なトレイ165Tを介して対象物11を撮像したり、透明板165Bを介して対象物11を撮像したりする。これにより、対象物11の底面に貼付されたマーカ12を撮影できる。または、トレイ165Tの色や、透明板165Bの色を、ベルトコンベアの色(背景色)と同じ色または類似する色にすることで、対象物11とマーカ12とを他の背景から際立たせて撮影でき、マーカ12の認識率を向上できる。
図18は、複数の対象物11を同じ画像に撮影する場合の斜視図である。
カメラ21aの視野から画像22aが撮影され、カメラ31aの視野から画像32aが撮影される。
画像22aに写る直立した第1対象物11のC面にマーカ12が付されており、傾いている第2対象物11のA面にマーカ12が付されていない。一方、画像32aに写る直立した第1対象物11のA面にマーカ12が付されておらず、傾いている第2対象物11のC面にマーカ12が付されている。
このように、1枚の画像に複数の対象物11が写る場合には、対象物11ごとに個別に学習データを生成すればよい。
・直立した第1対象物11に着目すると、画像22aにマーカ12が写っているので、認識部23は、カメラ21aを認識カメラ21とし、画像22aを認識用画像22として第1対象物11の認識位置姿勢24を認識する。一方、画像32aにマーカ12が写っていないので、推定部33は、カメラ31aを学習カメラ31とし、画像32aを学習用画像32として第1対象物11の推定位置姿勢34を推定する。
・傾いている第2対象物11に着目すると、画像32aにマーカ12が写っているので、認識部23は、カメラ31aを認識カメラ21とし、画像32aを認識用画像22として第2対象物11の認識位置姿勢24を認識する。一方、画像22aにマーカ12が写っていないので、推定部33は、カメラ21aを学習カメラ31とし、画像22aを学習用画像32として第2対象物11の推定位置姿勢34を推定する。
つまり、同じ1枚の画像22aが、直立した第1対象物11にとっては認識用画像22として扱われ、傾いている第2対象物11にとっては学習用画像32として扱われる。
図19は、学習データの作成と保存(S17)の工程において、認識用画像22の画像加工処理を示す説明図である。
まず、学習カメラ31は、A面にマーカ12が付されていない対象物181を撮影し、その一部を画像182とする。
次に、認識カメラ21は、A面にマーカ12が付されている対象物171を撮影し、その一部であるマーカ12周囲を画像172とする。対象物171および対象物181は、互いに同じ対象物11である。そして、画像172および画像182で互いに同じ対象物11内の相対位置である。
認識部23は、対象物171の撮影画像を認識用画像22として、その中に写る対象物11の認識位置姿勢24を認識する。さらに、認識部23は、認識用画像22のうちの画像172の箇所(マーカ12周囲)に対して、画像182を重畳(上書き)した画像173を作成する。
しかし、このままでは、暗い環境で影のある対象物171の撮影画像の一部に、明るい環境で影のない対象物181の画像182が重畳されているので、見た目に違和感がある。よって、認識部23は、画像173の明るい部分(画像182の重畳部分)を明度調整領域とし、その明度調整領域の明度を明度調整領域外の部分(影のある対象物171の部分)の明度と同じになるように調整した画像174を作成する。そして、認識部23は、調整した画像174を認識用画像22として、認識した認識位置姿勢24と対応付けて学習モデル42に反映させる学習データとする。
これにより、認識用画像22にマーカ12が写らない画像を疑似的に生成することで、認識精度を保ちつつ、学習効率が向上する。
以上説明した本実施形態の学習システム10では、対象物モデル11Mの作成の際に1回マーカ12の教示作業を行えば、以降は教示作業を行うことなく、マーカ12が対象物11に写り込んでいない学習データ(学習用画像32および推定位置姿勢34)を取得できる。これにより、マーカ12を対象物11に貼って撮影した画像データから、多くの学習データを低コストで収集できる。
なお、本発明は前記した実施例に限定されるものではなく、さまざまな変形例が含まれる。例えば、前記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。
また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。
また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。また、上記の各構成、機能、処理部、処理手段などは、それらの一部または全部を、例えば集積回路で設計するなどによりハードウェアで実現してもよい。
また、前記の各構成、機能などは、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。
各機能を実現するプログラム、テーブル、ファイルなどの情報は、メモリや、ハードディスク、SSD(Solid State Drive)などの記録装置、または、IC(Integrated Circuit)カード、SDカード、DVD(Digital Versatile Disc)などの記録媒体におくことができる。また、クラウドを活用することもできる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。
さらに、各装置を繋ぐ通信手段は、無線LANに限定せず、有線LANやその他の通信手段に変更してもよい。
10 学習システム(学習データ生成装置)
11 対象物
11M 対象物モデル
12 マーカ
13 照明
21 認識カメラ
22 認識用画像
23 認識部
24 認識位置姿勢
31 学習カメラ
32 学習用画像
33 推定部
34 推定位置姿勢
41 学習部
42 学習モデル
50 運用システム
51 対象物
52 運用カメラ
53 推論用画像
54 推論部
55 装置制御部

Claims (8)

  1. 対象物に付されたマーカが写る相対視野から撮影された認識用画像を取得し、前記マーカの前記認識用画像上での位置と、前記対象物と前記マーカとの位置関係を示す対象物モデルとをもとに、前記認識用画像に写る前記対象物の前記マーカが写る相対視野から見た相対位置姿勢である認識位置姿勢を認識する認識部と、
    前記認識用画像に写る前記対象物を前記マーカが写らない別の相対視野から撮影した学習用画像を取得し、前記認識用画像を撮影した相対視野と、前記学習用画像を撮影した相対視野との間の相対的な位置関係をもとに、前記認識位置姿勢を補正することで、前記学習用画像に写る前記対象物の前記マーカが写らない別の相対視野から見た相対位置姿勢である推定位置姿勢を推定する推定部と、
    前記学習用画像と前記推定位置姿勢または前記推定位置姿勢に関する情報またはその両方とを対応付けた学習データを、学習モデルの機械学習のために生成する学習部とを有することを特徴とする
    学習データ生成装置。
  2. 前記対象物モデルには、さらに、前記対象物を把持可能な位置情報および前記対象物を吸着可能な位置情報の少なくとも1つが含まれており、
    前記学習部は、前記推定位置姿勢に関する情報として前記対象物を把持可能な位置情報および前記対象物を吸着可能な位置情報の少なくとも1つを前記学習データに対応付けることを特徴とする
    請求項1に記載の学習データ生成装置。
  3. 前記学習部は、さらに、前記認識用画像と前記認識位置姿勢または前記認識位置姿勢に関する情報またはその両方とを対応付けた前記学習データを、前記学習モデルの機械学習のために生成することを特徴とする
    請求項1に記載の学習データ生成装置。
  4. 前記認識部は、前記認識用画像内の前記対象物に付された前記マーカが写る部分に、前記マーカが付されていない前記対象物の画像を重畳し、その重畳した部分の明度を他の部分の明度で調整した画像を生成し、その生成した画像を前記学習データに対応付けることを特徴とする
    請求項3に記載の学習データ生成装置。
  5. 請求項1に記載の学習データ生成装置と、前記認識用画像を撮影する認識カメラと、前記学習用画像を撮影する学習カメラとを有する学習システムであって、
    前記認識カメラは、互いに異なる箇所に前記マーカが付された同じ種類で複数の前記対象物を撮影することを特徴とする
    学習システム。
  6. 前記認識カメラは、第1の視野から前記認識用画像を撮影する所定のカメラであり、
    前記学習カメラは、前記第1の視野から第2の視野まで前記所定のカメラを移動させ、前記第2の視野から前記学習用画像を撮影する前記所定のカメラであることを特徴とする
    請求項5に記載の学習システム。
  7. 前記学習システムは、さらに、前記対象物を機械的に回転させる機構を有しており、
    前記認識カメラおよび前記学習カメラのうちの一方のカメラは、回転前の前記対象物を撮影する所定のカメラであり、
    他方のカメラは、回転後の前記対象物を撮影する前記所定のカメラであり、 前記学習システムは、前記対象物を回転させることで、前記所定のカメラの絶対位置姿勢を変更することなく、前記認識用画像と前記学習用画像の両方を取得し、
    前記推定部は、前記対象物の回転量をもとに、前記推定位置姿勢を推定することを特徴とする
    請求項5に記載の学習システム。
  8. 学習データ生成装置は、認識部と、推定部と、学習部とを有しており、
    前記認識部は、対象物に付されたマーカが写る相対視野から撮影された認識用画像を取得し、前記マーカの前記認識用画像上での位置と、前記対象物と前記マーカとの位置関係を示す対象物モデルとをもとに、前記認識用画像に写る前記対象物の前記マーカが写る相対視野から見た相対位置姿勢である認識位置姿勢を認識し、
    前記推定部は、前記認識用画像に写る前記対象物を前記マーカが写らない別の相対視野から撮影した学習用画像を取得し、前記認識用画像を撮影した相対視野と、前記学習用画像を撮影した相対視野との間の相対的な位置関係をもとに、前記認識位置姿勢を補正することで、前記学習用画像に写る前記対象物の前記マーカが写らない別の相対視野から見た相対位置姿勢である推定位置姿勢を推定し、
    前記学習部は、前記学習用画像と前記推定位置姿勢または前記推定位置姿勢に関する情報またはその両方とを対応付けた学習データを、学習モデルの機械学習のために生成することを特徴とする
    学習データ生成方法。
JP2022080602A 2022-05-17 2022-05-17 学習データ生成装置、学習システム、および、学習データ生成方法 Pending JP2023169481A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022080602A JP2023169481A (ja) 2022-05-17 2022-05-17 学習データ生成装置、学習システム、および、学習データ生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022080602A JP2023169481A (ja) 2022-05-17 2022-05-17 学習データ生成装置、学習システム、および、学習データ生成方法

Publications (1)

Publication Number Publication Date
JP2023169481A true JP2023169481A (ja) 2023-11-30

Family

ID=88924222

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022080602A Pending JP2023169481A (ja) 2022-05-17 2022-05-17 学習データ生成装置、学習システム、および、学習データ生成方法

Country Status (1)

Country Link
JP (1) JP2023169481A (ja)

Similar Documents

Publication Publication Date Title
JP6507730B2 (ja) 座標変換パラメータ決定装置、座標変換パラメータ決定方法及び座標変換パラメータ決定用コンピュータプログラム
US9432655B2 (en) Three-dimensional scanner based on contours from shadow images
US9697607B2 (en) Method of estimating imaging device parameters
JP4245963B2 (ja) 較正物体を用いて複数のカメラを較正するための方法およびシステム
WO2019062619A1 (zh) 对图像内目标物体进行自动标注的方法、装置及系统
JP4434890B2 (ja) 画像合成方法及び装置
CN111062873A (zh) 一种基于多对双目相机的视差图像拼接与可视化方法
JP5421624B2 (ja) 三次元計測用画像撮影装置
CN106600627A (zh) 一种基于标志点的刚体运动捕捉方法及系统
JP2008224626A (ja) 情報処理装置、情報処理方法、校正治具
JP2011198349A (ja) 情報処理方法及びその装置
CN115345822A (zh) 一种面向航空复杂零件的面结构光自动化三维检测方法
JP2000516360A (ja) 三次元物体モデル化装置及び方法
Wang et al. Phocal: A multi-modal dataset for category-level object pose estimation with photometrically challenging objects
JP4834424B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2010256253A (ja) 三次元計測用画像撮影装置及びその方法
JP6973444B2 (ja) 制御システム、情報処理装置および制御方法
JP2010256252A (ja) 三次元計測用画像撮影装置及びその方法
US20240070984A1 (en) Displaying a scene to a subject while capturing the subjects acting performance using multiple sensors
JP2002236909A (ja) 画像データ処理方法およびモデリング装置
CN113284192A (zh) 运动捕捉方法、装置、电子设备以及机械臂控制系统
CN114434442A (zh) 一种基于协作机器人的自动化检测方法及系统
CN112348890A (zh) 一种空间定位方法、装置及计算机可读存储介质
WO2018056802A1 (en) A method for estimating three-dimensional depth value from two-dimensional images
JP2003296708A (ja) データ処理方法、データ処理プログラムおよび記録媒体