JP7350218B1

JP7350218B1 - 学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法

Info

Publication number: JP7350218B1
Application number: JP2023529884A
Authority: JP
Inventors: 幸保川畑
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2023-09-25
Anticipated expiration: 2042-04-15
Also published as: WO2023199502A1; JPWO2023199502A1

Abstract

学習モデル生成装置（１０００）は、複数の撮影点から物体を撮影した物体の画像情報を取得する画像情報取得部（３００）と、画像情報取得部が取得した画像情報に基づいて物体の形状が予め設定された複数のクラスのそれぞれに該当する確度を算出する第１学習モデルによって推論を行う第１推論部（１０１）と、第１推論部による推論の結果に基づいて、物体の形状が該当するクラスを判定する判定部（１０２）と、判定部による判定の結果と、物体の画像情報と、に基づいて複数の物体に関する画像情報を含む学習データを生成する学習データ生成部（１０３）と、学習データ生成部が生成した学習データに基づいて、複数の物体を含む画像情報から物体の形状を検出するための第２学習モデルを生成する学習モデル生成部（１０４）と、を備えた。

Description

本開示は、学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法に関する。

従来、複数種類の単純形状の３Ｄデータを使用して予め学習した学習モデルと、カメラによって撮像した物体の画像と、に基づいて、物体の位置を検出する位置検出装置が開示されている（特許文献１参照）。この位置検出装置は、検出する対象となる複数の物体を含む画像情報から、当該物体の形状を検出する場合、複数種類の単純形状モデルのいずれに該当するかの信頼度に基づいて物体の位置を検出する。

特開２０２０－７７２３１号公報

ところで、対象となる複数の物体を含む画像情報から、当該物体の形状を検出する場合、例えば、特許文献１に記載の位置検出装置は、検出する対象となる物体が、単純形状モデルのいずれとも大きく異なる未知の形状を有する物体である場合、画像情報から当該物体の形状を検出できないことがある。

本開示は、上記課題を解決するものであって、未知の形状を有する物体であっても、複数の物体を含む画像情報から当該物体の形状を検出することができる学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法を提供することを目的とする。

本開示に係る学習モデル生成装置は、複数の撮影点から物体を撮影した物体の画像情報を取得する画像情報取得部と、画像情報取得部が取得した画像情報に基づいて物体の形状が予め設定された複数のクラスのそれぞれに該当する確度を算出する第１学習モデルによって推論を行う第１推論部と、第１推論部による推論の結果に基づいて、物体の形状が該当するクラスを判定する判定部と、判定部による判定の結果と、物体の画像情報と、に基づいて複数の物体に関する画像情報を含む学習データを生成する学習データ生成部と、学習データ生成部が生成した学習データに基づいて、複数の物体を含む画像情報から物体の形状を検出するための第２学習モデルを生成する学習モデル生成部と、を備えたことを特徴とする。

本開示によれば、複数の撮影点から物体を撮影して得られた画像情報により学習データ生成部が生成した学習データに基づいて、複数の物体を含む画像情報から物体の形状を検出するための第２学習モデルを生成する学習モデル生成部を備えたので、対象となる物体が未知の形状を有する物体であっても、複数の物体を含む画像情報から当該物体の形状を検出することができる。

実施の形態１に係る情報処理装置の概略構成を示すブロック図である。実施の形態１に係る対象物体検出部の概略構成を示すブロック図である。実施の形態１に係る情報処理装置のハードウェア構成の一例を示すブロック図である。実施の形態１に係る情報処理装置が行う第２学習モデルを生成する処理の一例を示すフローチャートである。実施の形態１に係る情報処理装置が行う画像情報に基づいて物体を選択する処理の一例を示すフローチャートである。

以下、本開示に係る実施の形態について図面を参照しながら詳細に説明する。
実施の形態１．
図１は、実施の形態１に係る情報処理装置１０００の概略構成を示すブロック図であり、図２は、実施の形態１に係る対象物体検出部２００の概略構成を示すブロック図である。情報処理装置１０００は、複数の物体をカメラＣＡで撮影した際に、カメラＣＡから取得した画像情報に基づいて、当該複数の物体のうちのいずれかの物体を検出して選択する装置である。例えば、情報処理装置１０００は、乱雑に山積みされた状態の複数の商品をロボットアームによって１つずつ移動させる際に、カメラＣＡから取得した山積みされた状態の複数の商品を含む画像情報に基づいて、山積みされた状態の複数の商品の中から移動させる商品として最適な商品を選択し、ロボットアームを制御する制御装置（不図示）に選択した結果を出力する装置である。なお、情報処理装置１０００は、実施の形態１において、学習モデル生成装置を構成する。

図１および図２に示すように、情報処理装置１０００は、画像情報取得部３００と、学習部１００と、対象物体検出部２００と、を備えている。画像情報取得部３００は、カメラＣＡが複数の撮影点（視点）から１つまたは複数の物体を撮影した際に、物体を複数の撮影点から視た複数の画像情報を取得する。例えば、画像情報取得部３００は、互いに異なる位置に配置された複数のカメラＣＡが、それぞれ複数の撮影点から１つまたは複数の物体を撮影した際に、物体を複数の撮影点から視た複数の画像情報を取得する。なお、画像情報取得部３００は、１つのカメラＣＡが複数の撮影点（視点）の間で移動しながら１つまたは複数の物体を撮影した際に、物体を複数の撮影点から視た複数の画像情報を取得するように構成されていてもよい。

学習部１００は、画像情報取得部３００が取得した画像情報に基づいて学習モデルを生成し、生成した学習モデルを対象物体検出部２００へ出力する。学習部１００の詳細については、後述する。対象物体検出部２００は、画像情報取得部３００が取得した複数の物体を含む画像情報と、学習部１００から取得した第２学習モデルと、に基づいて、画像情報に含まれる複数の物体を検出し、検出した複数の物体のうちいずれかの物体を選択する。例えば、対象物体検出部２００は、取得した画像情報に含まれる複数の物体のうち、ロボットアームによって移動させる物体として適している１つの物体を選択する。対象物体検出部２００の詳細は、後述する。

図３は、実施の形態１に係る情報処理装置１０００のハードウェア構成の一例を示すブロック図である。例えば、情報処理装置１０００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１００１、主記憶装置１００２およびＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等からなる補助記憶装置１００３を備えている。

主記憶装置１００２は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１００２Ａ、およびＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１００２Ｂを有している。なお、主記憶装置１００２は、ＲＯＭ１００２ＡおよびＲＡＭ１００２Ｂに加えて、またはＲＯＭ１００２ＡおよびＲＡＭ１００２Ｂに代えて、フラッシュメモリ、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）等の、不揮発性又は揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、及び、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）等の記憶装置を有していてもよい。

また、例えば、情報処理装置１０００は、外部の装置との間で情報の入出力を行うインターフェースとして、通信インターフェース１００４Ａ、入力インターフェース１００４Ｂ、表示インターフェース１００４Ｃ、出力インターフェース１００４Ｄを備えている。例えば、通信インターフェース１００４Ａは、情報処理装置１０００の外部に設けられて、各種情報を記憶する外部記憶装置１００６との間で情報の入出力を行う。また、例えば、入力インターフェース１００４Ｂは、情報処理装置１０００の外部に設けられた入力装置１００７からの情報の入力を受付ける。また、例えば、表示インターフェース１００４Ｃは、ＣＰＵ１００１による処理の結果、主記憶装置１００２および補助記憶装置１００３に記憶されている情報等を、情報処理装置１０００の外部に設けられた液晶ディスプレイ等の表示装置１００８へ出力する。また、例えば、出力インターフェース１００４Ｄは、ＣＰＵ１００１による処理の結果、主記憶装置１００２および補助記憶装置１００３に記憶されている情報等を、出力装置１００９へ出力する。出力装置１００９は、例えば、ロボットアームの制御部、サーバ等、情報処理装置１０００の外部に設けられた装置である。

このように構成された情報処理装置１０００の各機能は、主記憶装置１００２および補助記憶装置１００３に記憶されている、ソフトウェア若しくはファームウェアまたはソフトウェアとファームウェアとの組合わせからなるプログラムを、ＣＰＵ１００１が実行することによって実現される。なお、情報処理装置１０００は、上述したＣＰＵ１００１、主記憶装置１００２および補助記憶装置１００３に代えて、システムＬＳＩ（Ｌａｒｇｅ－ＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等を有する専用の処理回路を備えていてもよい。

次に、図１を参照して、学習部１００の詳細について説明する。図１に示すように、学習部１００は、第１推論部１０１、形状判定部１０２、学習データ生成部１０３、学習モデル生成部１０４、第１学習モデル記憶部１０５、学習データ記憶部１０６および第２学習モデル記憶部１０７を備えている。

第１推論部１０１は、画像情報取得部３００が取得した画像情報に基づいて、画像情報に含まれる物体の形状および表面テクスチャを推論する。例えば、第１推論部１０１は、カメラＣＡが物体を撮影した複数の撮影点毎に物体の形状および表面テクスチャを推論する複数の推論部１０１ａを有しており、各推論部１０１ａによって、複数の撮影点に対応する複数の画像情報毎に物体の形状および表面テクスチャを推論する。第１推論部１０１は、第１学習モデル記憶部１０５に予め記憶されている第１学習モデルを第１学習モデル記憶部１０５から取得して、第１学習モデルと、画像情報取得部３００が取得した画像情報と、に基づいて、推論を行う。

第１学習モデルは、互いに形状および表面テクスチャの少なくとも一方が異なる物体を示す複数のＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）を学習データとして用いて機械学習を行った学習済みモデルであり、入力された画像情報に含まれる物体の形状および表面テクスチャが、予め設定されている複数の形状カテゴリ（複数のクラス）のそれぞれに該当する確度（推論率）を、推論によって算出する。例えば、第１学習モデルの学習データとして用いられるＣＧは、形状および表面テクスチャの少なくとも一方が異なる複数の物体を個々に撮影した画像情報を変形させ、変形させた複数の物体の画像情報の、それぞれの形状および表面テクスチャに関する特徴を抽出して生成される。また、例えば、第１学習モデルは、ＮＮ（ＮｅｕｒａｌＮｅｔｗｏｒｋｓ）によって構成されている。第１推論部１０１は、画像情報取得部３００が取得した複数の画像情報毎に、複数の形状カテゴリのそれぞれに該当する確度を形状判定部１０２へ出力する。

形状判定部１０２は、第１推論部１０１による判定の結果としての第１推論部１０１から入力された情報に基づいて、画像情報取得部３００が取得した画像情報に含まれている物体の形状が、予め第１学習モデルの形状カテゴリとして設定されている複数の形状カテゴリのいずれに該当するかを判定し、判定の結果を学習データ生成部１０３へ出力する。また、形状判定部１０２は、第１推論部１０１から入力された情報に基づいて、画像情報取得部３００が取得した画像情報に含まれている物体の形状が、予め第１学習モデルの形状カテゴリとして設定されている複数の形状カテゴリのいずれにも該当しないと判定した場合、いずれの形状カテゴリにも該当しないことを示す判定の結果を学習データ生成部１０３へ出力する。なお、形状判定部１０２は、実施の形態１において、判定部を構成する。

学習データ生成部１０３は、形状判定部１０２による判定の結果と、画像情報取得部３００が取得した画像情報と、に基づいて、複数の物体に関する画像情報を含むデータを生成する。例えば、学習データ生成部１０３は、形状判定部１０２による判定の結果と、画像情報取得部３００が取得した画像情報と、に基づいて、複数の物体が乱雑に配置された状態のＣＧを生成し、学習データ記憶部１０６に記憶させる。例えば、学習データ生成部１０３は、画像情報取得部３００が取得した画像情報に含まれる１つの物体を変形および複製して重ね合わせた状態の画像情報を生成し、当該画像情報から当該物体の形状および表面テクスチャに関する特徴を抽出したＣＧを生成する。なお、学習データ生成部１０３が生成するデータは、複数の物体に関する画像情報を含むデータであればよく、例えば、複数の物体が整列された状態のＣＧであってもよいし、複数の物体が重ねられた状態のＣＧであってもよいし、複数種類の物体の画像情報を含むデータであってもよい。

学習モデル生成部１０４は、学習データ生成部１０３が生成したＣＧの情報を学習データ記憶部１０６から取得し、当該情報を学習データとして、複数の物体を含む画像情報から物体の形状を検出するための第２学習モデルを生成する。例えば、学習モデル生成部１０４は、学習データ生成部１０３が生成した、複数の物体が乱雑に配置された状態のＣＧのデータを学習データとして、複数の物体が乱雑に配置されている状態の画像情報から、データ内の複数の物体のそれぞれの形状を検出するための第２学習モデルを生成してもよいし、データ内の特定の物体の形状を検出するための第２学習モデルを生成してもよい。例えば、第２学習モデルは、複数の物体が配置されている状態の画像情報から、インスタンス・セグメンテーションによって複数の物体を個別に検出するための学習済みモデルである。また、例えば、第２学習モデルは、ＭａｓｋＲ－ＣＮＮ（ＲｅｇｉｏｎＢａｓｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）によって構成されており、インスタンス・セグメンテーションによって物体の形状および表面テクスチャを推論によって検出する。学習モデル生成部１０４は、生成した第２学習モデルを第２学習モデル記憶部１０７に記憶させる。

また、学習モデル生成部１０４は、形状判定部１０２の判定の結果に基づいて、第２学習モデル記憶部１０７に記憶されているいずれかの第２学習モデルを示す情報を対象物体検出部２００に出力する。第２学習モデル記憶部１０７には、複数の物体が乱雑に配置されている状態の画像情報から物体を検出するための、第１学習モデルの複数の形状カテゴリのそれぞれに対応する複数の第２学習モデルが記憶されている。これら複数の第２学習モデルも、上述した第１学習モデルと同様に、複数の物体が乱雑に配置された状態のＣＧの情報を学習データとして用いた学習済みモデルである。例えば、学習モデル生成部１０４は、形状判定部１０２による判定の結果に応じた形状カテゴリに対応する第２学習モデルを示す情報を、対象物体検出部２００に出力する。

次に、図４を参照して、情報処理装置１０００が行う第２学習モデルを生成する処理について説明する。図４は、実施の形態１に係る情報処理装置１０００が行う第２学習モデルを生成する処理の一例を示すフローチャートである。図４に示すように、例えば、情報処理装置１０００は、まず、複数のカメラＣＡによって対象となる物体を撮影した際の画像情報を画像情報取得部３００によって取得する（ステップＳＴ１１）。この処理において、情報処理装置１０００は、例えば、カメラＣＡが複数の撮影点から１つの物体を撮影した際の複数の画像情報を取得する。

ステップＳＴ１１の処理を行うと、情報処理装置１０００は、第１学習モデル記憶部１０５に記憶されている第１学習モデルと、画像情報取得部３００が取得した画像情報と、に基づいて、当該画像情報に含まれる物体の形状および表面テクスチャがそれぞれの形状カテゴリに該当する確度を推論によって算出する（ステップＳＴ１２）。この処理において、情報処理装置１０００は、カメラＣＡによって撮影された物体の画像情報から、当該物体の形状および表面テクスチャを検出し、当該物体がそれぞれの形状カテゴリに該当する確度を算出している。

ステップＳＴ１２の処理を行うと、情報処理装置１０００は、形状カテゴリ毎に算出した確度に基づいて、画像情報取得部３００が取得した画像情報に含まれる物体が該当する形状カテゴリを判定する（ステップＳＴ１３およびＳＴ１４）。例えば、情報処理装置１０００は、形状判定部１０２によって、形状カテゴリ毎に算出した確度のうち、最も高い確度に対応する形状カテゴリを当該物体が該当する形状カテゴリとして判定する。また、例えば、情報処理装置１０００は、形状カテゴリ毎に算出したいずれの確度も、予め設定されている所定の閾値未満であった場合、形状判定部１０２によって、当該物体がいずれの形状カテゴリにも該当しない新たな形状カテゴリに該当する物体、即ち第１学習モデルに予め設定されている形状カテゴリに存在しない物体であると判定する。

ステップＳＴ１３およびＳＴ１４の処理において、画像情報取得部３００が取得した画像情報に含まれる物体が、第１学習モデルに予め設定されている形状カテゴリに存在する物体である場合（ステップＳＴ１４のＹＥＳ）、即ち、第１学習モデルに予め設定されている形状カテゴリのいずれかに該当する物体である場合、情報処理装置１０００は、第２学習モデル記憶部１０７に予め記憶されている第２学習モデルのうち、当該形状カテゴリに対応する第２学習モデルを選択して、選択した第２学習モデルを示す情報を対象物体検出部２００に出力し（ステップＳＴ１８）、処理を終了する。

ステップＳＴ１３およびＳＴ１４の処理において、画像情報取得部３００が取得した画像情報に含まれる物体が、第１学習モデルに予め設定されている形状カテゴリに存在しない物体である場合（ステップＳＴ１４のＮＯ）、即ち、第１学習モデルに予め設定されている形状カテゴリのいずれにも該当しない物体である場合、情報処理装置１０００は、画像情報取得部３００が取得した画像情報に基づいて、学習データ生成部１０３によって新たな学習データを生成する（ステップＳＴ１５）。この処理において、情報処理装置１０００は、画像情報取得部３００が取得した画像情報に含まれる物体が、第１学習モデルの複数の形状カテゴリのいずれにも該当しないと形状判定部１０２が判定したことに基づいて、第２学習モデル記憶部１０７に記憶されていない新たな第２学習モデルを生成するための学習データを学習データ生成部１０３によって生成する。

ステップＳＴ１５の処理を行うと、情報処理装置１０００は、ステップＳＴ１５の処理において生成した学習データに基づいて、新たな第２学習モデルを生成する（ステップＳＴ１６）。この処理において、情報処理装置１０００は、予め設定されていない形状および表面テクスチャを有する未知の物体であっても、複数の当該物体が乱雑に配置されている状態を示す画像情報から特定の物体を選択可能とする第２学習モデルを生成している。なお、情報処理装置１０００は、取得した画像情報基づいて学習モデル生成部１０４が転移学習を行うことにより第２学習モデルを生成してもよい。

ステップＳＴ１６の処理を行うと、情報処理装置１０００は、生成した第２学習モデルを第２学習モデル記憶部１０７に記憶させる（ステップＳＴ１７）。ステップＳＴ１７の処理を行うと、情報処理装置１０００は、新たに生成した第２学習モデルを示す情報を対象物体検出部２００に出力し（ステップＳＴ１８）、処理を終了する。

次に、図２を参照して、対象物体検出部２００の詳細について説明する。図２に示すように、対象物体検出部２００は、第２推論部２０１、候補選択部２０２、特徴量算出部２０３および対象物体選択部２０４を備えている。

第２推論部２０１は、第２学習モデル記憶部１０７から取得した第２学習モデルと、画像情報取得部３００が取得した画像情報と、に基づいて、画像情報に含まれる物体の形状および表面テクスチャを推論によって検出する。例えば、対象物体検出部２００は、学習モデル生成部１０４から取得したいずれかの第２学習モデルを示す情報に基づいて第２学習モデル記憶部１０７からいずれかの第２学習モデルを取得し、画像情報取得部３００が取得した物体の形状および表面テクスチャを複数の撮影点から撮影した複数の画像情報に基づいて、画像情報に含まれる物体を推論によって検出する。言い換えると、対象物体検出部２００は、画像情報取得部３００が取得した画像情報と、当該画像情報に含まれる物体の形状カテゴリに対応する第２学習モデルと、に基づいて、当該画像情報に含まれる物体を推論によって検出する。

例えば、第２推論部２０１は、カメラＣＡが物体を撮影した複数の撮影点毎に物体の形状および表面テクスチャを推論する複数の推論部２０１ａを有しており、各推論部２０１ａによって、複数の撮影点に対応する複数の画像情報毎に物体の形状および表面テクスチャを推論する。第２推論部２０１は、推論によって検出された物体の形状および表面テクスチャと、推論の確度と、を推論の結果として候補選択部２０２へ出力する。なお、

候補選択部２０２は、第２推論部２０１による推論の結果に基づいて、画像情報取得部３００が取得した画像情報に含まれる複数の物体のうち、ロボットアームによって移動させる物体として適している１つの物体を、対象物体検出部２００の出力の候補の物体として選択する。例えば、候補選択部２０２は、画像情報取得部３００が取得した画像情報に複数の物体が含まれている場合、当該画像情報に含まれる複数の物体のうち、第２推論部２０１による推論の確度に基づいて、いずれか１つの物体を選択する。言い換えると候補選択部２０２は、画像情報取得部３００が取得した画像情報に複数の物体が含まれている場合、当該画像情報に含まれる複数の物体のセグメンテーションのうち、推論の確度に基づいていずれか１つのセグメンテーションを選択する。

なお、候補選択部２０２は、画像情報取得部３００が取得した画像情報に含まれる物体が１つのみ検出されている場合、当該１つの物体を選択してもよい。また、候補選択部２０２は、画像情報取得部３００が取得した画像情報に含まれる物体が複数ある場合、これら複数の物体のうち２以上の物体を選択してもよい。また、候補選択部２０２は、画像情報取得部３００が取得した複数の画像情報のうち、特定の画像情報に含まれる物体が検出されていない場合、当該特定の画像情報については物体を選択する処理を行わないように構成されていてもよい。

また、例えば、候補選択部２０２は、各推論部２０１ａによる推論の結果毎にいずれかの物体を選択する複数の選択部２０２ａを有しており、各選択部２０２ａによって、複数の撮影点に対応する複数の画像情報毎にいずれかの物体を選択する。候補選択部２０２は、選択の結果を特徴量算出部２０３に出力する。

特徴量算出部２０３は、候補選択部２０２が選択した物体の特徴量を算出する。例えば、特徴量算出部２０３は、各選択部２０２ａに対応する複数の算出部２０３ａを有しており、複数の選択部２０２ａによる選択の結果に対応する物体毎に特徴量を算出する。言い換えると、特徴量算出部２０３は、画像情報取得部３００が取得した複数の画像情報毎に、選択部２０２ａによって選択された物体の特徴量を算出する。例えば、特徴量算出部２０３は、候補選択部２０２が選択した物体の位置、姿勢、見かけの面積（セグメンテーションの面積）およびバウンディングボックスの面積等の特徴量を算出する。特徴量算出部２０３が求める物体の位置は、物体の見かけの重心位置（セグメンテーションの重心位置）でもよいし、バウンディングボックスの中心位置でもよいし、バウンディングボックスの特定の位置、例えば、右上角の位置等、特定の角の位置でもよい。なお、特徴量算出部２０３は、実施の形態１において、算出部を構成する。

また、上述した候補選択部２０２は、特徴量算出部２０３によって算出された物体の特徴量に基づいて、画像情報に含まれる物体のうちいずれかの物体を選択してもよい。例えば、候補選択部２０２は、第２推論部２０１による推論の結果と、特徴量算出部２０３によって算出された特徴量と、に基づいて、画像情報取得部３００が取得した画像情報に含まれる複数の物体のうち、検出した物体のセグメンテーションが他の物体のセグメンテーションによって複数のセグメンテーションに分割されていないいずれか１つの物体を選択してもよい。また、例えば、候補選択部２０２は、画像情報取得部３００が取得した画像情報に含まれる複数の物体のうち、検出した物体のセグメンテーションの面積に基づいて、いずれか１つの物体を選択してもよい。具体的には、候補選択部２０２は、画像情報取得部３００が取得した画像情報に含まれる複数の物体のうち、検出した物体のセグメンテーションの面積が最も大きい物体を選択してもよい。
また、例えば、候補選択部２０２は、画像情報取得部３００が取得した画像情報に含まれる複数の物体のうち、検出した物体のセグメンテーションの面積及び当該物体のバウンディングボックスの面積に基づいて、いずれか１つの物体を選択してもよい。具体的には、候補選択部２０２は、画像情報取得部３００が取得した画像情報に含まれる複数の物体のうち、検出した物体のバウンディングボックスの面積に対する当該物体のセグメンテーションの面積が最大となる物体を選択してもよい。また、例えば、候補選択部２０２は、画像情報取得部３００が取得した画像情報に含まれる複数の物体のうち、検出した物体のバウンディングボックスの面積（Ａｂ）に対する当該物体のセグメンテーションの面積（Ａｓ）と、当該物体のセグメンテーションの面積（Ａｓ）と、の積（Ａｓ＾２／Ａｂ）が最大となる物体を選択してもよい。なお、これら物体のバウンディングボックスの面積に対する当該物体のセグメンテーションの面積、及び物体のバウンディングボックスの面積に対する当該物体のセグメンテーションの面積と当該物体のセグメンテーションの面積との積は、特徴量算出部２０３が算出してもよいし、特徴量算出部２０３が算出した物体のセグメンテーションの面積及びバウンディングボックスの面積に基づいて、候補選択部２０２が算出してもよい。
このように、候補選択部２０２が、候補選択部２０２によって選択された物体のいずれかの物体を特徴量算出部２０３の算出結果に基づいて選択することにより、例えば、複数の物体のうちロボットアームによって移動させる優先度が高い物体を検出することが可能になり、ロボットアームによって物体を移動させる際の作業性の向上が可能となる。

また、例えば、候補選択部２０２は、ロボットアームのエンドエフェクタ（不図示）の位置に関する情報を取得して、画像情報取得部３００が取得した画像情報に含まれる複数の物体のうち、エンドエフェクタの位置と、検出した物体の重心位置（または、バウンディングボックスの中心位置）と、の距離に基づいて物体を選択してもよい。具体的には、候補選択部２０２は、画像情報取得部３００が取得した画像情報に含まれる複数の物体のうち、エンドエフェクタの位置と、検出した物体のバウンディングボックスの中心位置と、の距離が最も小さい物体を選択してもよい。なお、このような場合において、候補選択部２０２は、実施の形態１における位置情報取得部を構成する。

対象物体選択部２０４は、特徴量算出部２０３によって算出された物体の特徴量に基づいて、画像情報取得部３００が取得した画像情報に含まれる物体のうちいずれかの物体に関する情報を選択して出力する。例えば、対象物体選択部２０４は、画像情報取得部３００が取得した複数の画像情報毎に特徴量算出部２０３が算出した特徴量に基づいて、画像情報取得部３００が取得した画像情報に含まれる複数の物体のうちいずれか１つの物体を選択する。なお、対象物体選択部２０４は、画像情報取得部３００が取得した複数の画像情報毎に特徴量算出部２０３が算出した特徴量と、第２推論部２０１による推論の確度と、に基づいて、画像情報取得部３００が取得した画像情報に含まれる複数の物体のうちいずれか１つの物体を選択してもよい。対象物体選択部２０４は、選択した物体の位置に関する情報を出力する。なお、対象物体選択部２０４は、実施の形態１において、選択部を構成する。

次に、図５を参照して、情報処理装置１０００が行う画像情報に基づいて物体を選択する処理について説明する。図５は、実施の形態１に係る情報処理装置１０００が行う画像情報に基づいて物体を選択する処理の一例を示すフローチャートである。例えば、ユーザは、乱雑に配置された複数の同一の物体を１つずつロボットアームによって移動させる場合、まず、１つの当該物体を複数の撮影点からカメラＣＡによって撮影させ、カメラＣＡによって取得された画像情報を情報処理装置１０００に入力し、学習部１００に撮影された物体に対応する形状カテゴリの第２学習モデルを選択させる。

次に、ユーザは、乱雑に配置された複数の上記物体を複数の撮影点からカメラＣＡによって撮影させ、カメラＣＡによって取得された複数の画像情報を情報処理装置１０００に入力する。ユーザは、例えば、コンテナ内に乱雑に配置された複数の上記物体を複数の撮影点に配置された複数のカメラＣＡによって撮影させ、複数のカメラＣＡによって取得された複数の画像情報を情報処理装置１０００に入力する。これにより、情報処理装置１０００は、複数の物体が含まれる複数の画像情報を取得する（ステップＳＴ２１）。

ステップＳＴ２１の処理を行うと、情報処理装置１０００は、取得した複数の画像情報と、選択された第２学習モデルと、に基づいて推論を行う（ステップＳＴ２２）。この処理において、情報処理装置１０００は、例えば、第２学習モデルによってインスタンス・セグメンテーションを行い、各画像情報に含まれる複数の物体のそれぞれを推論によって検出する。

ステップＳＴ２２の処理を行うと、情報処理装置１０００は、ステップＳＴ２１の推論の結果に基づいて、取得した複数の画像情報毎に、画像情報に含まれる物体のうち、例えば、ロボットアームが把持することによって移動させる候補であるいずれかの物体を選択する（ステップＳＴ２３）。なお、ロボットアームによる物体の移動は、エンドエフェクタによって把持して行うものに限らず、例えば、エンドエフェクタによって物体を負圧で吸着させることによって行うものであってもよいし、エンドエフェクタのよって物体を磁力で吸着させることによって行うものであってもよいし、エンドエフェクタに物体の一部を引掛けることで行うものであってもよい。

ステップＳＴ２３の処理を行うと、情報処理装置１０００は、取得した複数の画像情報毎に、ステップＳＴ２３の処理で選択された物体の特徴量を算出する（ステップＳＴ２４）。

ステップＳＴ２４の処理を行うと、情報処理装置１０００は、取得した複数の画像情報毎に算出された特徴量に基づいて、いずれか１つの物体を選択する（ステップＳＴ２５）。この処理によって、乱雑に配置された複数の物体のうち、ロボットアームで移動させる１つの物体が選択される。

ステップＳＴ２５の処理を行うと、情報処理装置１０００は、選択された物体に関する情報を出力する（ステップＳＴ２６）。この処理において、情報処理装置１０００は、ロボットアームが複数の物体のうちいずれか１つの物体を移動させる際に必要な情報を、ロボットアームの制御部（不図示）に出力している。例えば、情報処理装置１０００は、選択した物体の座標等、位置に関する情報を出力する。

以上、実施の形態１に係る情報処理装置１０００は、複数の撮影点から物体を撮影して得られた画像情報により学習データ生成部１０３が生成した学習データに基づいて、複数の物体を含む画像情報から物体の形状を検出するための第２学習モデルを生成する学習モデル生成部１０４を備えたので、対象となる物体が未知の形状を有する物体であっても、複数の物体を含む画像情報から当該物体の形状を検出することができる。

また、実施の形態１に係る情報処理装置１０００は、複数の撮影点から複数の物体を撮影して得られた画像情報に基づいて、複数の物体のそれぞれの形状を検出するための第２学習モデルによって推論を行う第２推論部２０１と、第２推論部２０１による推論の結果に基づいて、複数の物体のうちのいずれかの物体を選択する対象物体選択部２０４と、を備えたので、対象となる物体が未知の形状を有する物体であっても、複数の物体を含む画像情報から当該物体の形状を検出することができる。

なお、実施の形態１において、第１推論部１０１および第２推論部２０１は、画像情報取得部３００が取得した画像情報に基づいて、画像情報に含まれる物体の形状および表面テクスチャを推論によって検出するように構成されているが、これに限定されない。形状推論部および物体検出部は、少なくとも物体の形状を推論によって検出するように構成されていればよい。

また、本開示はその発明の範囲内において、上述した実施の形態の任意の構成要素の変形、組合せ若しくは実施の形態の任意の構成要素の省略が可能である。

本開示に係る学習モデル生成装置、情報処理装置、学習モデル生成方法および情報処理方法は、例えば、複数の商品のうちからいずれかの商品をロボットアームによって移動させる作業に利用することができる。

以下、本開示の諸態様を付記としてまとめて記載する。

（付記１）
複数の撮影点から物体を撮影した前記物体の画像情報を取得する画像情報取得部と、
前記画像情報取得部が取得した画像情報に基づいて前記物体の形状が予め設定された複数のクラスのそれぞれに該当する確度を算出する第１学習モデルによって推論を行う第１推論部と、
前記第１推論部による推論の結果に基づいて、前記物体の形状が該当するクラスを判定する判定部と、
前記判定部による判定の結果と、前記物体の画像情報と、に基づいて複数の前記物体に関する画像情報を含む学習データを生成する学習データ生成部と、
前記学習データ生成部が生成した学習データに基づいて、複数の前記物体を含む画像情報から前記物体の形状を検出するための第２学習モデルを生成する学習モデル生成部と、を備えた
ことを特徴とする学習モデル生成装置。
（付記２）
前記学習データ生成部は、前記物体の形状が前記複数のクラスのいずれにも該当しないと前記判定部が判定したことに基づいて、複数の前記物体に関する画像情報を含む学習データを生成する
ことを特徴とする付記１記載の学習モデル生成装置。
（付記３）
複数の撮影点から複数の物体を撮影し、前記複数の物体の画像情報を取得する画像情報取得部と、
前記画像情報取得部が取得した画像情報に基づいて、前記複数の物体のそれぞれの形状を検出するための第２学習モデルによって推論を行う第２推論部と、
前記第２推論部による推論の結果に基づいて、前記複数の物体のうちのいずれかの物体を選択する選択部と、を備えた
ことを特徴とする情報処理装置。
（付記４）
前記第２推論部による推論の結果に基づいて、前記複数の物体のそれぞれの位置を算出する算出部を備え、
前記選択部は、前記算出部による算出の結果に基づいて、前記複数の物体のうちのいずれかの物体を選択する
ことを特徴とする付記３記載の情報処理装置。
（付記５）
前記第２推論部による推論の結果に基づいて、前記複数の物体のそれぞれのセグメンテーションの面積を算出する算出部を備え、
前記選択部は、前記算出部による算出の結果に基づいて、前記複数の物体のうちのいずれかの物体を選択する
ことを特徴とする付記３又は４記載の情報処理装置。
（付記６）
前記選択部が選択した前記複数の物体のうちのいずれかの物体を移動可能な、ロボットアームのエンドエフェクタの位置に関する情報を取得する位置情報取得部を備え、
前記選択部は、前記算出部による算出の結果と、前記位置情報取得部が取得した情報と、に基づいて、前記複数の物体のうちのいずれかの物体を選択する
ことを特徴とする付記４又は５記載の情報処理装置。
（付記７）
画像情報取得部と、第１推論部と、判定部と、学習データ生成部と、学習モデル生成部と、を備えた装置が行う学習モデル生成方法であって、
前記画像情報取得部が、複数の撮影点から物体を撮影し、前記物体の画像情報を取得するステップと、
前記第１推論部が、前記画像情報取得部が取得した画像情報に基づいて前記物体の形状が予め設定された複数のクラスのそれぞれに該当する確度を算出する第１学習モデルによって推論を行うステップと、
前記判定部が、前記第１推論部による推論の結果に基づいて、前記物体の形状が該当するクラスを判定するステップと、
前記学習データ生成部が、前記判定部による判定の結果と、前記物体の画像情報と、に基づいて複数の前記物体に関する画像情報を含む学習データを生成するステップと、
前記学習モデル生成部が、前記学習データ生成部が生成した学習データに基づいて、複数の前記物体を含む画像情報から前記物体の形状を検出するための第２学習モデルを生成すると、を備えた
ことを特徴とする学習モデル生成方法。
（付記８）
画像情報取得部と、第２推論部と、選択部と、を備えた装置が行う情報処理方法であって、
前記画像情報取得部が、複数の撮影点から複数の物体を撮影し、前記複数の物体の画像情報を取得するステップと、
前記第２推論部が、前記画像情報取得部が取得した画像情報に基づいて、前記複数の物体のそれぞれの形状を検出するための第２学習モデルによって推論を行うステップと、
前記選択部が、前記第２推論部による推論の結果に基づいて、前記複数の物体のうちのいずれかの物体を選択するステップと、を備えた
ことを特徴とする情報処理方法。

１００学習部、１０１第１推論部、１０２形状判定部（判定部）、１０３学習データ生成部、２０１第２推論部、２０２候補選択部（位置情報取得部）、２０３特徴量算出部（算出部）、２０４対象物体選択部（選択部）、３００画像情報取得部、１０００情報処理装置（学習モデル生成装置）。

Claims

複数の撮影点から物体を撮影した前記物体の画像情報を取得する画像情報取得部と、
前記画像情報取得部が取得した画像情報に基づいて前記物体の形状が予め設定された複数のクラスのそれぞれに該当する確度を算出する第１学習モデルによって推論を行う第１推論部と、
前記第１推論部による推論の結果に基づいて、前記物体の形状が該当するクラスを判定する判定部と、
前記判定部による判定の結果と、前記物体の画像情報と、に基づいて複数の前記物体に関する画像情報を含む学習データを生成する学習データ生成部と、
前記学習データ生成部が生成した学習データに基づいて、複数の前記物体を含む画像情報から前記物体の形状を検出するための第２学習モデルを生成する学習モデル生成部と、を備えた
ことを特徴とする学習モデル生成装置。
前記学習データ生成部は、前記物体の形状が前記複数のクラスのいずれにも該当しないと前記判定部が判定したことに基づいて、複数の前記物体に関する画像情報を含む学習データを生成する
ことを特徴とする請求項１記載の学習モデル生成装置。
複数の撮影点から複数の物体を撮影し、前記複数の物体の画像情報を取得する画像情報取得部と、
前記画像情報取得部が取得した画像情報に基づいて、前記複数の物体のそれぞれの形状を検出するための第２学習モデルによって推論を行う第２推論部と、
前記第２推論部による推論の結果に基づいて、前記複数の物体のうちのいずれかの物体を選択する選択部と、を備えた
ことを特徴とする情報処理装置。
前記第２推論部による推論の結果に基づいて、前記複数の物体のそれぞれの位置を算出する算出部を備え、
前記選択部は、前記算出部による算出の結果に基づいて、前記複数の物体のうちのいずれかの物体を選択する
ことを特徴とする請求項３記載の情報処理装置。
前記第２推論部による推論の結果に基づいて、前記複数の物体のそれぞれのセグメンテーションの面積を算出する算出部を備え、
前記選択部は、前記算出部による算出の結果に基づいて、前記複数の物体のうちのいずれかの物体を選択する
ことを特徴とする請求項３記載の情報処理装置。
前記選択部が選択した前記複数の物体のうちのいずれかの物体を移動可能な、ロボットアームのエンドエフェクタの位置に関する情報を取得する位置情報取得部を備え、
前記選択部は、前記算出部による算出の結果と、前記位置情報取得部が取得した情報と、に基づいて、前記複数の物体のうちのいずれかの物体を選択する
ことを特徴とする請求項４又は５記載の情報処理装置。
画像情報取得部と、第１推論部と、判定部と、学習データ生成部と、学習モデル生成部と、を備えた装置が行う学習モデル生成方法であって、
前記画像情報取得部が、複数の撮影点から物体を撮影し、前記物体の画像情報を取得するステップと、
前記第１推論部が、前記画像情報取得部が取得した画像情報に基づいて前記物体の形状が予め設定された複数のクラスのそれぞれに該当する確度を算出する第１学習モデルによって推論を行うステップと、
前記判定部が、前記第１推論部による推論の結果に基づいて、前記物体の形状が該当するクラスを判定するステップと、
前記学習データ生成部が、前記判定部による判定の結果と、前記物体の画像情報と、に基づいて複数の前記物体に関する画像情報を含む学習データを生成するステップと、
前記学習モデル生成部が、前記学習データ生成部が生成した学習データに基づいて、複数の前記物体を含む画像情報から前記物体の形状を検出するための第２学習モデルを生成すると、を備えた
ことを特徴とする学習モデル生成方法。
画像情報取得部と、第２推論部と、選択部と、を備えた装置が行う情報処理方法であって、
前記画像情報取得部が、複数の撮影点から複数の物体を撮影し、前記複数の物体の画像情報を取得するステップと、
前記第２推論部が、前記画像情報取得部が取得した画像情報に基づいて、前記複数の物体のそれぞれの形状を検出するための第２学習モデルによって推論を行うステップと、
前記選択部が、前記第２推論部による推論の結果に基づいて、前記複数の物体のうちのいずれかの物体を選択するステップと、を備えた
ことを特徴とする情報処理方法。