JP7350218B1 - 学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法 - Google Patents

学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法 Download PDF

Info

Publication number
JP7350218B1
JP7350218B1 JP2023529884A JP2023529884A JP7350218B1 JP 7350218 B1 JP7350218 B1 JP 7350218B1 JP 2023529884 A JP2023529884 A JP 2023529884A JP 2023529884 A JP2023529884 A JP 2023529884A JP 7350218 B1 JP7350218 B1 JP 7350218B1
Authority
JP
Japan
Prior art keywords
unit
image information
inference
learning model
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023529884A
Other languages
English (en)
Other versions
JPWO2023199502A1 (ja
Inventor
幸保 川畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP7350218B1 publication Critical patent/JP7350218B1/ja
Publication of JPWO2023199502A1 publication Critical patent/JPWO2023199502A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

学習モデル生成装置(1000)は、複数の撮影点から物体を撮影した物体の画像情報を取得する画像情報取得部(300)と、画像情報取得部が取得した画像情報に基づいて物体の形状が予め設定された複数のクラスのそれぞれに該当する確度を算出する第1学習モデルによって推論を行う第1推論部(101)と、第1推論部による推論の結果に基づいて、物体の形状が該当するクラスを判定する判定部(102)と、判定部による判定の結果と、物体の画像情報と、に基づいて複数の物体に関する画像情報を含む学習データを生成する学習データ生成部(103)と、学習データ生成部が生成した学習データに基づいて、複数の物体を含む画像情報から物体の形状を検出するための第2学習モデルを生成する学習モデル生成部(104)と、を備えた。

Description

本開示は、学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法に関する。
従来、複数種類の単純形状の3Dデータを使用して予め学習した学習モデルと、カメラによって撮像した物体の画像と、に基づいて、物体の位置を検出する位置検出装置が開示されている(特許文献1参照)。この位置検出装置は、検出する対象となる複数の物体を含む画像情報から、当該物体の形状を検出する場合、複数種類の単純形状モデルのいずれに該当するかの信頼度に基づいて物体の位置を検出する。
特開2020-77231号公報
ところで、対象となる複数の物体を含む画像情報から、当該物体の形状を検出する場合、例えば、特許文献1に記載の位置検出装置は、検出する対象となる物体が、単純形状モデルのいずれとも大きく異なる未知の形状を有する物体である場合、画像情報から当該物体の形状を検出できないことがある。
本開示は、上記課題を解決するものであって、未知の形状を有する物体であっても、複数の物体を含む画像情報から当該物体の形状を検出することができる学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法を提供することを目的とする。
本開示に係る学習モデル生成装置は、複数の撮影点から物体を撮影した物体の画像情報を取得する画像情報取得部と、画像情報取得部が取得した画像情報に基づいて物体の形状が予め設定された複数のクラスのそれぞれに該当する確度を算出する第1学習モデルによって推論を行う第1推論部と、第1推論部による推論の結果に基づいて、物体の形状が該当するクラスを判定する判定部と、判定部による判定の結果と、物体の画像情報と、に基づいて複数の物体に関する画像情報を含む学習データを生成する学習データ生成部と、学習データ生成部が生成した学習データに基づいて、複数の物体を含む画像情報から物体の形状を検出するための第2学習モデルを生成する学習モデル生成部と、を備えたことを特徴とする。
本開示によれば、複数の撮影点から物体を撮影して得られた画像情報により学習データ生成部が生成した学習データに基づいて、複数の物体を含む画像情報から物体の形状を検出するための第2学習モデルを生成する学習モデル生成部を備えたので、対象となる物体が未知の形状を有する物体であっても、複数の物体を含む画像情報から当該物体の形状を検出することができる。
実施の形態1に係る情報処理装置の概略構成を示すブロック図である。 実施の形態1に係る対象物体検出部の概略構成を示すブロック図である。 実施の形態1に係る情報処理装置のハードウェア構成の一例を示すブロック図である。 実施の形態1に係る情報処理装置が行う第2学習モデルを生成する処理の一例を示すフローチャートである。 実施の形態1に係る情報処理装置が行う画像情報に基づいて物体を選択する処理の一例を示すフローチャートである。
以下、本開示に係る実施の形態について図面を参照しながら詳細に説明する。
実施の形態1.
図1は、実施の形態1に係る情報処理装置1000の概略構成を示すブロック図であり、図2は、実施の形態1に係る対象物体検出部200の概略構成を示すブロック図である。情報処理装置1000は、複数の物体をカメラCAで撮影した際に、カメラCAから取得した画像情報に基づいて、当該複数の物体のうちのいずれかの物体を検出して選択する装置である。例えば、情報処理装置1000は、乱雑に山積みされた状態の複数の商品をロボットアームによって1つずつ移動させる際に、カメラCAから取得した山積みされた状態の複数の商品を含む画像情報に基づいて、山積みされた状態の複数の商品の中から移動させる商品として最適な商品を選択し、ロボットアームを制御する制御装置(不図示)に選択した結果を出力する装置である。なお、情報処理装置1000は、実施の形態1において、学習モデル生成装置を構成する。
図1および図2に示すように、情報処理装置1000は、画像情報取得部300と、学習部100と、対象物体検出部200と、を備えている。画像情報取得部300は、カメラCAが複数の撮影点(視点)から1つまたは複数の物体を撮影した際に、物体を複数の撮影点から視た複数の画像情報を取得する。例えば、画像情報取得部300は、互いに異なる位置に配置された複数のカメラCAが、それぞれ複数の撮影点から1つまたは複数の物体を撮影した際に、物体を複数の撮影点から視た複数の画像情報を取得する。なお、画像情報取得部300は、1つのカメラCAが複数の撮影点(視点)の間で移動しながら1つまたは複数の物体を撮影した際に、物体を複数の撮影点から視た複数の画像情報を取得するように構成されていてもよい。
学習部100は、画像情報取得部300が取得した画像情報に基づいて学習モデルを生成し、生成した学習モデルを対象物体検出部200へ出力する。学習部100の詳細については、後述する。対象物体検出部200は、画像情報取得部300が取得した複数の物体を含む画像情報と、学習部100から取得した第2学習モデルと、に基づいて、画像情報に含まれる複数の物体を検出し、検出した複数の物体のうちいずれかの物体を選択する。例えば、対象物体検出部200は、取得した画像情報に含まれる複数の物体のうち、ロボットアームによって移動させる物体として適している1つの物体を選択する。対象物体検出部200の詳細は、後述する。
図3は、実施の形態1に係る情報処理装置1000のハードウェア構成の一例を示すブロック図である。例えば、情報処理装置1000は、CPU(Central Processing Unit)1001、主記憶装置1002およびHDD(Hard Disk Drive)等からなる補助記憶装置1003を備えている。
主記憶装置1002は、例えば、ROM(Read Only Memory)1002A、およびRAM(Random Access Memory)1002Bを有している。なお、主記憶装置1002は、ROM1002AおよびRAM1002Bに加えて、またはROM1002AおよびRAM1002Bに代えて、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory)等の、不揮発性又は揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、及び、DVD(Digital Versatile Disc)等の記憶装置を有していてもよい。
また、例えば、情報処理装置1000は、外部の装置との間で情報の入出力を行うインターフェースとして、通信インターフェース1004A、入力インターフェース1004B、表示インターフェース1004C、出力インターフェース1004Dを備えている。例えば、通信インターフェース1004Aは、情報処理装置1000の外部に設けられて、各種情報を記憶する外部記憶装置1006との間で情報の入出力を行う。また、例えば、入力インターフェース1004Bは、情報処理装置1000の外部に設けられた入力装置1007からの情報の入力を受付ける。また、例えば、表示インターフェース1004Cは、CPU1001による処理の結果、主記憶装置1002および補助記憶装置1003に記憶されている情報等を、情報処理装置1000の外部に設けられた液晶ディスプレイ等の表示装置1008へ出力する。また、例えば、出力インターフェース1004Dは、CPU1001による処理の結果、主記憶装置1002および補助記憶装置1003に記憶されている情報等を、出力装置1009へ出力する。出力装置1009は、例えば、ロボットアームの制御部、サーバ等、情報処理装置1000の外部に設けられた装置である。
このように構成された情報処理装置1000の各機能は、主記憶装置1002および補助記憶装置1003に記憶されている、ソフトウェア若しくはファームウェアまたはソフトウェアとファームウェアとの組合わせからなるプログラムを、CPU1001が実行することによって実現される。なお、情報処理装置1000は、上述したCPU1001、主記憶装置1002および補助記憶装置1003に代えて、システムLSI(Large-Scale Integration)等を有する専用の処理回路を備えていてもよい。
次に、図1を参照して、学習部100の詳細について説明する。図1に示すように、学習部100は、第1推論部101、形状判定部102、学習データ生成部103、学習モデル生成部104、第1学習モデル記憶部105、学習データ記憶部106および第2学習モデル記憶部107を備えている。
第1推論部101は、画像情報取得部300が取得した画像情報に基づいて、画像情報に含まれる物体の形状および表面テクスチャを推論する。例えば、第1推論部101は、カメラCAが物体を撮影した複数の撮影点毎に物体の形状および表面テクスチャを推論する複数の推論部101aを有しており、各推論部101aによって、複数の撮影点に対応する複数の画像情報毎に物体の形状および表面テクスチャを推論する。第1推論部101は、第1学習モデル記憶部105に予め記憶されている第1学習モデルを第1学習モデル記憶部105から取得して、第1学習モデルと、画像情報取得部300が取得した画像情報と、に基づいて、推論を行う。
第1学習モデルは、互いに形状および表面テクスチャの少なくとも一方が異なる物体を示す複数のCG(Computer Graphics)を学習データとして用いて機械学習を行った学習済みモデルであり、入力された画像情報に含まれる物体の形状および表面テクスチャが、予め設定されている複数の形状カテゴリ(複数のクラス)のそれぞれに該当する確度(推論率)を、推論によって算出する。例えば、第1学習モデルの学習データとして用いられるCGは、形状および表面テクスチャの少なくとも一方が異なる複数の物体を個々に撮影した画像情報を変形させ、変形させた複数の物体の画像情報の、それぞれの形状および表面テクスチャに関する特徴を抽出して生成される。また、例えば、第1学習モデルは、NN(Neural Networks)によって構成されている。第1推論部101は、画像情報取得部300が取得した複数の画像情報毎に、複数の形状カテゴリのそれぞれに該当する確度を形状判定部102へ出力する。
形状判定部102は、第1推論部101による判定の結果としての第1推論部101から入力された情報に基づいて、画像情報取得部300が取得した画像情報に含まれている物体の形状が、予め第1学習モデルの形状カテゴリとして設定されている複数の形状カテゴリのいずれに該当するかを判定し、判定の結果を学習データ生成部103へ出力する。また、形状判定部102は、第1推論部101から入力された情報に基づいて、画像情報取得部300が取得した画像情報に含まれている物体の形状が、予め第1学習モデルの形状カテゴリとして設定されている複数の形状カテゴリのいずれにも該当しないと判定した場合、いずれの形状カテゴリにも該当しないことを示す判定の結果を学習データ生成部103へ出力する。なお、形状判定部102は、実施の形態1において、判定部を構成する。
学習データ生成部103は、形状判定部102による判定の結果と、画像情報取得部300が取得した画像情報と、に基づいて、複数の物体に関する画像情報を含むデータを生成する。例えば、学習データ生成部103は、形状判定部102による判定の結果と、画像情報取得部300が取得した画像情報と、に基づいて、複数の物体が乱雑に配置された状態のCGを生成し、学習データ記憶部106に記憶させる。例えば、学習データ生成部103は、画像情報取得部300が取得した画像情報に含まれる1つの物体を変形および複製して重ね合わせた状態の画像情報を生成し、当該画像情報から当該物体の形状および表面テクスチャに関する特徴を抽出したCGを生成する。なお、学習データ生成部103が生成するデータは、複数の物体に関する画像情報を含むデータであればよく、例えば、複数の物体が整列された状態のCGであってもよいし、複数の物体が重ねられた状態のCGであってもよいし、複数種類の物体の画像情報を含むデータであってもよい。
学習モデル生成部104は、学習データ生成部103が生成したCGの情報を学習データ記憶部106から取得し、当該情報を学習データとして、複数の物体を含む画像情報から物体の形状を検出するための第2学習モデルを生成する。例えば、学習モデル生成部104は、学習データ生成部103が生成した、複数の物体が乱雑に配置された状態のCGのデータを学習データとして、複数の物体が乱雑に配置されている状態の画像情報から、データ内の複数の物体のそれぞれの形状を検出するための第2学習モデルを生成してもよいし、データ内の特定の物体の形状を検出するための第2学習モデルを生成してもよい。例えば、第2学習モデルは、複数の物体が配置されている状態の画像情報から、インスタンス・セグメンテーションによって複数の物体を個別に検出するための学習済みモデルである。また、例えば、第2学習モデルは、Mask R-CNN(Region Based Convolutional Neural Networks)によって構成されており、インスタンス・セグメンテーションによって物体の形状および表面テクスチャを推論によって検出する。学習モデル生成部104は、生成した第2学習モデルを第2学習モデル記憶部107に記憶させる。
また、学習モデル生成部104は、形状判定部102の判定の結果に基づいて、第2学習モデル記憶部107に記憶されているいずれかの第2学習モデルを示す情報を対象物体検出部200に出力する。第2学習モデル記憶部107には、複数の物体が乱雑に配置されている状態の画像情報から物体を検出するための、第1学習モデルの複数の形状カテゴリのそれぞれに対応する複数の第2学習モデルが記憶されている。これら複数の第2学習モデルも、上述した第1学習モデルと同様に、複数の物体が乱雑に配置された状態のCGの情報を学習データとして用いた学習済みモデルである。例えば、学習モデル生成部104は、形状判定部102による判定の結果に応じた形状カテゴリに対応する第2学習モデルを示す情報を、対象物体検出部200に出力する。
次に、図4を参照して、情報処理装置1000が行う第2学習モデルを生成する処理について説明する。図4は、実施の形態1に係る情報処理装置1000が行う第2学習モデルを生成する処理の一例を示すフローチャートである。図4に示すように、例えば、情報処理装置1000は、まず、複数のカメラCAによって対象となる物体を撮影した際の画像情報を画像情報取得部300によって取得する(ステップST11)。この処理において、情報処理装置1000は、例えば、カメラCAが複数の撮影点から1つの物体を撮影した際の複数の画像情報を取得する。
ステップST11の処理を行うと、情報処理装置1000は、第1学習モデル記憶部105に記憶されている第1学習モデルと、画像情報取得部300が取得した画像情報と、に基づいて、当該画像情報に含まれる物体の形状および表面テクスチャがそれぞれの形状カテゴリに該当する確度を推論によって算出する(ステップST12)。この処理において、情報処理装置1000は、カメラCAによって撮影された物体の画像情報から、当該物体の形状および表面テクスチャを検出し、当該物体がそれぞれの形状カテゴリに該当する確度を算出している。
ステップST12の処理を行うと、情報処理装置1000は、形状カテゴリ毎に算出した確度に基づいて、画像情報取得部300が取得した画像情報に含まれる物体が該当する形状カテゴリを判定する(ステップST13およびST14)。例えば、情報処理装置1000は、形状判定部102によって、形状カテゴリ毎に算出した確度のうち、最も高い確度に対応する形状カテゴリを当該物体が該当する形状カテゴリとして判定する。また、例えば、情報処理装置1000は、形状カテゴリ毎に算出したいずれの確度も、予め設定されている所定の閾値未満であった場合、形状判定部102によって、当該物体がいずれの形状カテゴリにも該当しない新たな形状カテゴリに該当する物体、即ち第1学習モデルに予め設定されている形状カテゴリに存在しない物体であると判定する。
ステップST13およびST14の処理において、画像情報取得部300が取得した画像情報に含まれる物体が、第1学習モデルに予め設定されている形状カテゴリに存在する物体である場合(ステップST14のYES)、即ち、第1学習モデルに予め設定されている形状カテゴリのいずれかに該当する物体である場合、情報処理装置1000は、第2学習モデル記憶部107に予め記憶されている第2学習モデルのうち、当該形状カテゴリに対応する第2学習モデルを選択して、選択した第2学習モデルを示す情報を対象物体検出部200に出力し(ステップST18)、処理を終了する。
ステップST13およびST14の処理において、画像情報取得部300が取得した画像情報に含まれる物体が、第1学習モデルに予め設定されている形状カテゴリに存在しない物体である場合(ステップST14のNO)、即ち、第1学習モデルに予め設定されている形状カテゴリのいずれにも該当しない物体である場合、情報処理装置1000は、画像情報取得部300が取得した画像情報に基づいて、学習データ生成部103によって新たな学習データを生成する(ステップST15)。この処理において、情報処理装置1000は、画像情報取得部300が取得した画像情報に含まれる物体が、第1学習モデルの複数の形状カテゴリのいずれにも該当しないと形状判定部102が判定したことに基づいて、第2学習モデル記憶部107に記憶されていない新たな第2学習モデルを生成するための学習データを学習データ生成部103によって生成する。
ステップST15の処理を行うと、情報処理装置1000は、ステップST15の処理において生成した学習データに基づいて、新たな第2学習モデルを生成する(ステップST16)。この処理において、情報処理装置1000は、予め設定されていない形状および表面テクスチャを有する未知の物体であっても、複数の当該物体が乱雑に配置されている状態を示す画像情報から特定の物体を選択可能とする第2学習モデルを生成している。なお、情報処理装置1000は、取得した画像情報基づいて学習モデル生成部104が転移学習を行うことにより第2学習モデルを生成してもよい。
ステップST16の処理を行うと、情報処理装置1000は、生成した第2学習モデルを第2学習モデル記憶部107に記憶させる(ステップST17)。ステップST17の処理を行うと、情報処理装置1000は、新たに生成した第2学習モデルを示す情報を対象物体検出部200に出力し(ステップST18)、処理を終了する。
次に、図2を参照して、対象物体検出部200の詳細について説明する。図2に示すように、対象物体検出部200は、第2推論部201、候補選択部202、特徴量算出部203および対象物体選択部204を備えている。
第2推論部201は、第2学習モデル記憶部107から取得した第2学習モデルと、画像情報取得部300が取得した画像情報と、に基づいて、画像情報に含まれる物体の形状および表面テクスチャを推論によって検出する。例えば、対象物体検出部200は、学習モデル生成部104から取得したいずれかの第2学習モデルを示す情報に基づいて第2学習モデル記憶部107からいずれかの第2学習モデルを取得し、画像情報取得部300が取得した物体の形状および表面テクスチャを複数の撮影点から撮影した複数の画像情報に基づいて、画像情報に含まれる物体を推論によって検出する。言い換えると、対象物体検出部200は、画像情報取得部300が取得した画像情報と、当該画像情報に含まれる物体の形状カテゴリに対応する第2学習モデルと、に基づいて、当該画像情報に含まれる物体を推論によって検出する。
例えば、第2推論部201は、カメラCAが物体を撮影した複数の撮影点毎に物体の形状および表面テクスチャを推論する複数の推論部201aを有しており、各推論部201aによって、複数の撮影点に対応する複数の画像情報毎に物体の形状および表面テクスチャを推論する。第2推論部201は、推論によって検出された物体の形状および表面テクスチャと、推論の確度と、を推論の結果として候補選択部202へ出力する。なお、
候補選択部202は、第2推論部201による推論の結果に基づいて、画像情報取得部300が取得した画像情報に含まれる複数の物体のうち、ロボットアームによって移動させる物体として適している1つの物体を、対象物体検出部200の出力の候補の物体として選択する。例えば、候補選択部202は、画像情報取得部300が取得した画像情報に複数の物体が含まれている場合、当該画像情報に含まれる複数の物体のうち、第2推論部201による推論の確度に基づいて、いずれか1つの物体を選択する。言い換えると候補選択部202は、画像情報取得部300が取得した画像情報に複数の物体が含まれている場合、当該画像情報に含まれる複数の物体のセグメンテーションのうち、推論の確度に基づいていずれか1つのセグメンテーションを選択する。
なお、候補選択部202は、画像情報取得部300が取得した画像情報に含まれる物体が1つのみ検出されている場合、当該1つの物体を選択してもよい。また、候補選択部202は、画像情報取得部300が取得した画像情報に含まれる物体が複数ある場合、これら複数の物体のうち2以上の物体を選択してもよい。また、候補選択部202は、画像情報取得部300が取得した複数の画像情報のうち、特定の画像情報に含まれる物体が検出されていない場合、当該特定の画像情報については物体を選択する処理を行わないように構成されていてもよい。
また、例えば、候補選択部202は、各推論部201aによる推論の結果毎にいずれかの物体を選択する複数の選択部202aを有しており、各選択部202aによって、複数の撮影点に対応する複数の画像情報毎にいずれかの物体を選択する。候補選択部202は、選択の結果を特徴量算出部203に出力する。
特徴量算出部203は、候補選択部202が選択した物体の特徴量を算出する。例えば、特徴量算出部203は、各選択部202aに対応する複数の算出部203aを有しており、複数の選択部202aによる選択の結果に対応する物体毎に特徴量を算出する。言い換えると、特徴量算出部203は、画像情報取得部300が取得した複数の画像情報毎に、選択部202aによって選択された物体の特徴量を算出する。例えば、特徴量算出部203は、候補選択部202が選択した物体の位置、姿勢、見かけの面積(セグメンテーションの面積)およびバウンディングボックスの面積等の特徴量を算出する。特徴量算出部203が求める物体の位置は、物体の見かけの重心位置(セグメンテーションの重心位置)でもよいし、バウンディングボックスの中心位置でもよいし、バウンディングボックスの特定の位置、例えば、右上角の位置等、特定の角の位置でもよい。なお、特徴量算出部203は、実施の形態1において、算出部を構成する。
また、上述した候補選択部202は、特徴量算出部203によって算出された物体の特徴量に基づいて、画像情報に含まれる物体のうちいずれかの物体を選択してもよい。例えば、候補選択部202は、第2推論部201による推論の結果と、特徴量算出部203によって算出された特徴量と、に基づいて、画像情報取得部300が取得した画像情報に含まれる複数の物体のうち、検出した物体のセグメンテーションが他の物体のセグメンテーションによって複数のセグメンテーションに分割されていないいずれか1つの物体を選択してもよい。また、例えば、候補選択部202は、画像情報取得部300が取得した画像情報に含まれる複数の物体のうち、検出した物体のセグメンテーションの面積に基づいて、いずれか1つの物体を選択してもよい。具体的には、候補選択部202は、画像情報取得部300が取得した画像情報に含まれる複数の物体のうち、検出した物体のセグメンテーションの面積が最も大きい物体を選択してもよい。
また、例えば、候補選択部202は、画像情報取得部300が取得した画像情報に含まれる複数の物体のうち、検出した物体のセグメンテーションの面積及び当該物体のバウンディングボックスの面積に基づいて、いずれか1つの物体を選択してもよい。具体的には、候補選択部202は、画像情報取得部300が取得した画像情報に含まれる複数の物体のうち、検出した物体のバウンディングボックスの面積に対する当該物体のセグメンテーションの面積が最大となる物体を選択してもよい。また、例えば、候補選択部202は、画像情報取得部300が取得した画像情報に含まれる複数の物体のうち、検出した物体のバウンディングボックスの面積(Ab)に対する当該物体のセグメンテーションの面積(As)と、当該物体のセグメンテーションの面積(As)と、の積(As^2/Ab)が最大となる物体を選択してもよい。なお、これら物体のバウンディングボックスの面積に対する当該物体のセグメンテーションの面積、及び物体のバウンディングボックスの面積に対する当該物体のセグメンテーションの面積と当該物体のセグメンテーションの面積との積は、特徴量算出部203が算出してもよいし、特徴量算出部203が算出した物体のセグメンテーションの面積及びバウンディングボックスの面積に基づいて、候補選択部202が算出してもよい。
このように、候補選択部202が、候補選択部202によって選択された物体のいずれかの物体を特徴量算出部203の算出結果に基づいて選択することにより、例えば、複数の物体のうちロボットアームによって移動させる優先度が高い物体を検出することが可能になり、ロボットアームによって物体を移動させる際の作業性の向上が可能となる。
また、例えば、候補選択部202は、ロボットアームのエンドエフェクタ(不図示)の位置に関する情報を取得して、画像情報取得部300が取得した画像情報に含まれる複数の物体のうち、エンドエフェクタの位置と、検出した物体の重心位置(または、バウンディングボックスの中心位置)と、の距離に基づいて物体を選択してもよい。具体的には、候補選択部202は、画像情報取得部300が取得した画像情報に含まれる複数の物体のうち、エンドエフェクタの位置と、検出した物体のバウンディングボックスの中心位置と、の距離が最も小さい物体を選択してもよい。なお、このような場合において、候補選択部202は、実施の形態1における位置情報取得部を構成する。
対象物体選択部204は、特徴量算出部203によって算出された物体の特徴量に基づいて、画像情報取得部300が取得した画像情報に含まれる物体のうちいずれかの物体に関する情報を選択して出力する。例えば、対象物体選択部204は、画像情報取得部300が取得した複数の画像情報毎に特徴量算出部203が算出した特徴量に基づいて、画像情報取得部300が取得した画像情報に含まれる複数の物体のうちいずれか1つの物体を選択する。なお、対象物体選択部204は、画像情報取得部300が取得した複数の画像情報毎に特徴量算出部203が算出した特徴量と、第2推論部201による推論の確度と、に基づいて、画像情報取得部300が取得した画像情報に含まれる複数の物体のうちいずれか1つの物体を選択してもよい。対象物体選択部204は、選択した物体の位置に関する情報を出力する。なお、対象物体選択部204は、実施の形態1において、選択部を構成する。
次に、図5を参照して、情報処理装置1000が行う画像情報に基づいて物体を選択する処理について説明する。図5は、実施の形態1に係る情報処理装置1000が行う画像情報に基づいて物体を選択する処理の一例を示すフローチャートである。例えば、ユーザは、乱雑に配置された複数の同一の物体を1つずつロボットアームによって移動させる場合、まず、1つの当該物体を複数の撮影点からカメラCAによって撮影させ、カメラCAによって取得された画像情報を情報処理装置1000に入力し、学習部100に撮影された物体に対応する形状カテゴリの第2学習モデルを選択させる。
次に、ユーザは、乱雑に配置された複数の上記物体を複数の撮影点からカメラCAによって撮影させ、カメラCAによって取得された複数の画像情報を情報処理装置1000に入力する。ユーザは、例えば、コンテナ内に乱雑に配置された複数の上記物体を複数の撮影点に配置された複数のカメラCAによって撮影させ、複数のカメラCAによって取得された複数の画像情報を情報処理装置1000に入力する。これにより、情報処理装置1000は、複数の物体が含まれる複数の画像情報を取得する(ステップST21)。
ステップST21の処理を行うと、情報処理装置1000は、取得した複数の画像情報と、選択された第2学習モデルと、に基づいて推論を行う(ステップST22)。この処理において、情報処理装置1000は、例えば、第2学習モデルによってインスタンス・セグメンテーションを行い、各画像情報に含まれる複数の物体のそれぞれを推論によって検出する。
ステップST22の処理を行うと、情報処理装置1000は、ステップST21の推論の結果に基づいて、取得した複数の画像情報毎に、画像情報に含まれる物体のうち、例えば、ロボットアームが把持することによって移動させる候補であるいずれかの物体を選択する(ステップST23)。なお、ロボットアームによる物体の移動は、エンドエフェクタによって把持して行うものに限らず、例えば、エンドエフェクタによって物体を負圧で吸着させることによって行うものであってもよいし、エンドエフェクタのよって物体を磁力で吸着させることによって行うものであってもよいし、エンドエフェクタに物体の一部を引掛けることで行うものであってもよい。
ステップST23の処理を行うと、情報処理装置1000は、取得した複数の画像情報毎に、ステップST23の処理で選択された物体の特徴量を算出する(ステップST24)。
ステップST24の処理を行うと、情報処理装置1000は、取得した複数の画像情報毎に算出された特徴量に基づいて、いずれか1つの物体を選択する(ステップST25)。この処理によって、乱雑に配置された複数の物体のうち、ロボットアームで移動させる1つの物体が選択される。
ステップST25の処理を行うと、情報処理装置1000は、選択された物体に関する情報を出力する(ステップST26)。この処理において、情報処理装置1000は、ロボットアームが複数の物体のうちいずれか1つの物体を移動させる際に必要な情報を、ロボットアームの制御部(不図示)に出力している。例えば、情報処理装置1000は、選択した物体の座標等、位置に関する情報を出力する。
以上、実施の形態1に係る情報処理装置1000は、複数の撮影点から物体を撮影して得られた画像情報により学習データ生成部103が生成した学習データに基づいて、複数の物体を含む画像情報から物体の形状を検出するための第2学習モデルを生成する学習モデル生成部104を備えたので、対象となる物体が未知の形状を有する物体であっても、複数の物体を含む画像情報から当該物体の形状を検出することができる。
また、実施の形態1に係る情報処理装置1000は、複数の撮影点から複数の物体を撮影して得られた画像情報に基づいて、複数の物体のそれぞれの形状を検出するための第2学習モデルによって推論を行う第2推論部201と、第2推論部201による推論の結果に基づいて、複数の物体のうちのいずれかの物体を選択する対象物体選択部204と、を備えたので、対象となる物体が未知の形状を有する物体であっても、複数の物体を含む画像情報から当該物体の形状を検出することができる。
なお、実施の形態1において、第1推論部101および第2推論部201は、画像情報取得部300が取得した画像情報に基づいて、画像情報に含まれる物体の形状および表面テクスチャを推論によって検出するように構成されているが、これに限定されない。形状推論部および物体検出部は、少なくとも物体の形状を推論によって検出するように構成されていればよい。
また、本開示はその発明の範囲内において、上述した実施の形態の任意の構成要素の変形、組合せ若しくは実施の形態の任意の構成要素の省略が可能である。
本開示に係る学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法は、例えば、複数の商品のうちからいずれかの商品をロボットアームによって移動させる作業に利用することができる。
以下、本開示の諸態様を付記としてまとめて記載する。
(付記1)
複数の撮影点から物体を撮影した前記物体の画像情報を取得する画像情報取得部と、
前記画像情報取得部が取得した画像情報に基づいて前記物体の形状が予め設定された複数のクラスのそれぞれに該当する確度を算出する第1学習モデルによって推論を行う第1推論部と、
前記第1推論部による推論の結果に基づいて、前記物体の形状が該当するクラスを判定する判定部と、
前記判定部による判定の結果と、前記物体の画像情報と、に基づいて複数の前記物体に関する画像情報を含む学習データを生成する学習データ生成部と、
前記学習データ生成部が生成した学習データに基づいて、複数の前記物体を含む画像情報から前記物体の形状を検出するための第2学習モデルを生成する学習モデル生成部と、を備えた
ことを特徴とする学習モデル生成装置。
(付記2)
前記学習データ生成部は、前記物体の形状が前記複数のクラスのいずれにも該当しないと前記判定部が判定したことに基づいて、複数の前記物体に関する画像情報を含む学習データを生成する
ことを特徴とする付記1記載の学習モデル生成装置。
(付記3)
複数の撮影点から複数の物体を撮影し、前記複数の物体の画像情報を取得する画像情報取得部と、
前記画像情報取得部が取得した画像情報に基づいて、前記複数の物体のそれぞれの形状を検出するための第2学習モデルによって推論を行う第2推論部と、
前記第2推論部による推論の結果に基づいて、前記複数の物体のうちのいずれかの物体を選択する選択部と、を備えた
ことを特徴とする情報処理装置。
(付記4)
前記第2推論部による推論の結果に基づいて、前記複数の物体のそれぞれの位置を算出する算出部を備え、
前記選択部は、前記算出部による算出の結果に基づいて、前記複数の物体のうちのいずれかの物体を選択する
ことを特徴とする付記3記載の情報処理装置。
(付記5)
前記第2推論部による推論の結果に基づいて、前記複数の物体のそれぞれのセグメンテーションの面積を算出する算出部を備え、
前記選択部は、前記算出部による算出の結果に基づいて、前記複数の物体のうちのいずれかの物体を選択する
ことを特徴とする付記3又は4記載の情報処理装置。
(付記6)
前記選択部が選択した前記複数の物体のうちのいずれかの物体を移動可能な、ロボットアームのエンドエフェクタの位置に関する情報を取得する位置情報取得部を備え、
前記選択部は、前記算出部による算出の結果と、前記位置情報取得部が取得した情報と、に基づいて、前記複数の物体のうちのいずれかの物体を選択する
ことを特徴とする付記4又は5記載の情報処理装置。
(付記7)
画像情報取得部と、第1推論部と、判定部と、学習データ生成部と、学習モデル生成部と、を備えた装置が行う学習モデル生成方法であって、
前記画像情報取得部が、複数の撮影点から物体を撮影し、前記物体の画像情報を取得するステップと、
前記第1推論部が、前記画像情報取得部が取得した画像情報に基づいて前記物体の形状が予め設定された複数のクラスのそれぞれに該当する確度を算出する第1学習モデルによって推論を行うステップと、
前記判定部が、前記第1推論部による推論の結果に基づいて、前記物体の形状が該当するクラスを判定するステップと、
前記学習データ生成部が、前記判定部による判定の結果と、前記物体の画像情報と、に基づいて複数の前記物体に関する画像情報を含む学習データを生成するステップと、
前記学習モデル生成部が、前記学習データ生成部が生成した学習データに基づいて、複数の前記物体を含む画像情報から前記物体の形状を検出するための第2学習モデルを生成すると、を備えた
ことを特徴とする学習モデル生成方法。
(付記8)
画像情報取得部と、第2推論部と、選択部と、を備えた装置が行う情報処理方法であって、
前記画像情報取得部が、複数の撮影点から複数の物体を撮影し、前記複数の物体の画像情報を取得するステップと、
前記第2推論部が、前記画像情報取得部が取得した画像情報に基づいて、前記複数の物体のそれぞれの形状を検出するための第2学習モデルによって推論を行うステップと、
前記選択部が、前記第2推論部による推論の結果に基づいて、前記複数の物体のうちのいずれかの物体を選択するステップと、を備えた
ことを特徴とする情報処理方法。
100 学習部、101 第1推論部、102 形状判定部(判定部)、103 学習データ生成部、201 第2推論部、202 候補選択部(位置情報取得部)、203 特徴量算出部(算出部)、204 対象物体選択部(選択部)、300 画像情報取得部、1000 情報処理装置(学習モデル生成装置)。

Claims (8)

  1. 複数の撮影点から物体を撮影した前記物体の画像情報を取得する画像情報取得部と、
    前記画像情報取得部が取得した画像情報に基づいて前記物体の形状が予め設定された複数のクラスのそれぞれに該当する確度を算出する第1学習モデルによって推論を行う第1推論部と、
    前記第1推論部による推論の結果に基づいて、前記物体の形状が該当するクラスを判定する判定部と、
    前記判定部による判定の結果と、前記物体の画像情報と、に基づいて複数の前記物体に関する画像情報を含む学習データを生成する学習データ生成部と、
    前記学習データ生成部が生成した学習データに基づいて、複数の前記物体を含む画像情報から前記物体の形状を検出するための第2学習モデルを生成する学習モデル生成部と、を備えた
    ことを特徴とする学習モデル生成装置。
  2. 前記学習データ生成部は、前記物体の形状が前記複数のクラスのいずれにも該当しないと前記判定部が判定したことに基づいて、複数の前記物体に関する画像情報を含む学習データを生成する
    ことを特徴とする請求項1記載の学習モデル生成装置。
  3. 複数の撮影点から複数の物体を撮影し、前記複数の物体の画像情報を取得する画像情報取得部と、
    前記画像情報取得部が取得した画像情報に基づいて、前記複数の物体のそれぞれの形状を検出するための第2学習モデルによって推論を行う第2推論部と、
    前記第2推論部による推論の結果に基づいて、前記複数の物体のうちのいずれかの物体を選択する選択部と、を備えた
    ことを特徴とする情報処理装置。
  4. 前記第2推論部による推論の結果に基づいて、前記複数の物体のそれぞれの位置を算出する算出部を備え、
    前記選択部は、前記算出部による算出の結果に基づいて、前記複数の物体のうちのいずれかの物体を選択する
    ことを特徴とする請求項3記載の情報処理装置。
  5. 前記第2推論部による推論の結果に基づいて、前記複数の物体のそれぞれのセグメンテーションの面積を算出する算出部を備え、
    前記選択部は、前記算出部による算出の結果に基づいて、前記複数の物体のうちのいずれかの物体を選択する
    ことを特徴とする請求項3記載の情報処理装置。
  6. 前記選択部が選択した前記複数の物体のうちのいずれかの物体を移動可能な、ロボットアームのエンドエフェクタの位置に関する情報を取得する位置情報取得部を備え、
    前記選択部は、前記算出部による算出の結果と、前記位置情報取得部が取得した情報と、に基づいて、前記複数の物体のうちのいずれかの物体を選択する
    ことを特徴とする請求項4又は5記載の情報処理装置。
  7. 画像情報取得部と、第1推論部と、判定部と、学習データ生成部と、学習モデル生成部と、を備えた装置が行う学習モデル生成方法であって、
    前記画像情報取得部が、複数の撮影点から物体を撮影し、前記物体の画像情報を取得するステップと、
    前記第1推論部が、前記画像情報取得部が取得した画像情報に基づいて前記物体の形状が予め設定された複数のクラスのそれぞれに該当する確度を算出する第1学習モデルによって推論を行うステップと、
    前記判定部が、前記第1推論部による推論の結果に基づいて、前記物体の形状が該当するクラスを判定するステップと、
    前記学習データ生成部が、前記判定部による判定の結果と、前記物体の画像情報と、に基づいて複数の前記物体に関する画像情報を含む学習データを生成するステップと、
    前記学習モデル生成部が、前記学習データ生成部が生成した学習データに基づいて、複数の前記物体を含む画像情報から前記物体の形状を検出するための第2学習モデルを生成すると、を備えた
    ことを特徴とする学習モデル生成方法。
  8. 画像情報取得部と、第2推論部と、選択部と、を備えた装置が行う情報処理方法であって、
    前記画像情報取得部が、複数の撮影点から複数の物体を撮影し、前記複数の物体の画像情報を取得するステップと、
    前記第2推論部が、前記画像情報取得部が取得した画像情報に基づいて、前記複数の物体のそれぞれの形状を検出するための第2学習モデルによって推論を行うステップと、
    前記選択部が、前記第2推論部による推論の結果に基づいて、前記複数の物体のうちのいずれかの物体を選択するステップと、を備えた
    ことを特徴とする情報処理方法。
JP2023529884A 2022-04-15 2022-04-15 学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法 Active JP7350218B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/017895 WO2023199502A1 (ja) 2022-04-15 2022-04-15 学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法

Publications (2)

Publication Number Publication Date
JP7350218B1 true JP7350218B1 (ja) 2023-09-25
JPWO2023199502A1 JPWO2023199502A1 (ja) 2023-10-19

Family

ID=88099195

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023529884A Active JP7350218B1 (ja) 2022-04-15 2022-04-15 学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法

Country Status (2)

Country Link
JP (1) JP7350218B1 (ja)
WO (1) WO2023199502A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011096135A (ja) 2009-10-30 2011-05-12 Canon Inc 画像処理装置、画像処理方法
JP2020052981A (ja) 2018-09-28 2020-04-02 株式会社東芝 情報処理装置、学習装置、情報処理システム、情報処理方法及びコンピュータプログラム
JP2020077231A (ja) 2018-11-08 2020-05-21 富士通株式会社 位置検出プログラム、位置検出方法及び位置検出装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60118479A (ja) * 1983-11-30 1985-06-25 株式会社日立製作所 部品供給組立装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011096135A (ja) 2009-10-30 2011-05-12 Canon Inc 画像処理装置、画像処理方法
JP2020052981A (ja) 2018-09-28 2020-04-02 株式会社東芝 情報処理装置、学習装置、情報処理システム、情報処理方法及びコンピュータプログラム
JP2020077231A (ja) 2018-11-08 2020-05-21 富士通株式会社 位置検出プログラム、位置検出方法及び位置検出装置

Also Published As

Publication number Publication date
WO2023199502A1 (ja) 2023-10-19
JPWO2023199502A1 (ja) 2023-10-19

Similar Documents

Publication Publication Date Title
US10334168B2 (en) Threshold determination in a RANSAC algorithm
JP6011102B2 (ja) 物体姿勢推定方法
JP2940317B2 (ja) 画像処理装置
JP5538617B2 (ja) 複数カメラのキャリブレーション用の方法および構成
CN109934847B (zh) 弱纹理三维物体姿态估计的方法和装置
JP5406705B2 (ja) データ補正装置及び方法
EP3905194A1 (en) Pose estimation method and apparatus
CN112164115B (zh) 物体位姿识别的方法、装置及计算机存储介质
JP2022519194A (ja) 奥行き推定
JP2011198349A (ja) 情報処理方法及びその装置
CN108364302B (zh) 一种无标记的增强现实多目标注册跟踪方法
JP2009230703A (ja) オブジェクト検出方法、オブジェクト検出装置、およびオブジェクト検出プログラム
JP2020135679A (ja) データセット作成方法、データセット作成装置、及びデータセット作成プログラム
CN112149590A (zh) 一种手部关键点检测方法
CN112287730A (zh) 姿态识别方法、装置、系统、存储介质及设备
JP5704909B2 (ja) 注目領域検出方法、注目領域検出装置、及びプログラム
KR100691855B1 (ko) 영상정보의 특징 추출장치 및 그 방법
JP7350218B1 (ja) 学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法
JPWO2011099072A1 (ja) パターン識別装置
EP3905107A1 (en) Computer-implemented method for 3d localization of an object based on image data and depth data
EP3905130A1 (en) Computer-implemented method for 3d localization of an object based on image data and depth data
JP2021026778A (ja) クロスドメイン距離学習のシステム及び方法
JP6198104B2 (ja) 3次元物体認識装置及び3次元物体認識方法
Ramírez-Arias Ph D et al. Object recognition through artificial intelligence techniques
KR101884874B1 (ko) 부분 이미지 기반 객체 판별 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230517

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230912

R150 Certificate of patent or registration of utility model

Ref document number: 7350218

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150