JP2024012721A

JP2024012721A - 物体認識支援システム、物体認識システム、物体認識支援方法及び物体認識方法

Info

Publication number: JP2024012721A
Application number: JP2020172630A
Authority: JP
Inventors: 悠太菊池; Yuta Kikuchi; 叡一松元; Eiichi Matsumoto; 泰輔橋本; Taisuke Hashimoto; 政浩石山; Masahiro Ishiyama; 昌伸塚田; Masanobu Tsukada
Original assignee: Preferred Networks Inc
Current assignee: Preferred Networks Inc
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2024-01-31
Also published as: WO2022080356A1

Abstract

【課題】物体の認識精度を向上させる物体認識支援システム、物体認識システム、物体認識支援方法及び物体認識方法を提供する。【解決手段】物体認識支援システムは、物体を製造、販売または流通させるユーザからの指定により生成された該物体の３次元モデルについて、複数の異なる環境である各仮想空間において撮影を行い、複数の撮影画像を生成する第１の生成部を有する。【選択図】図１

Description

本開示は、物体認識支援システム、物体認識システム、物体認識支援方法及び物体認識方法に関する。

画像データに含まれる物体を認識する認識モデルについて機械学習を行い、実用水準の認識精度を得るためには、一般に、機械学習用の画像データを多数用意する必要がある。

一方で、画像データに対してデータ拡張処理（画像データに含まれる物体に対する、移動、回転、拡大、縮小等の各種処理）を施して機械学習を行うだけでは、多種多様な物体を取り扱うユーザの場合、実用水準の認識精度を得ることができないこともある。

国際公開第２０１８／１４２７６６号特開２０１８－１７３７１１号公報特許第６６２２３６９号特開２０１９－３２７８２号公報

本開示は、物体の認識精度を向上させる物体認識支援システム、物体認識システム、物体認識支援方法及び物体認識方法を提供する。

本開示の一態様による物体認識支援システムは、例えば、以下のような構成を有する。即ち、
物体を製造、販売または流通させるユーザからの指定により生成された該物体の３次元モデルについて、複数の異なる環境である各仮想空間において撮影を行い、複数の撮影画像を生成する第１の生成部を有する。

第１の実施形態に係る物体認識支援システムのシステム構成の一例を示す図である。機械学習用データ生成装置のハードウェア構成の一例を示す図である。位置姿勢切り替え部による処理の具体例を示す図である。仮想空間切り替え部による処理の具体例を示す図である。撮像部による処理の具体例を示す図である。機械学習用データ提供処理の流れを示すフローチャートである。第２の実施形態に係る物体認識支援システムのシステム構成の一例を示す図である。機械学習済み認識モデル提供処理の流れを示す第１のフローチャートである。第３の実施形態に係る物体認識支援システムのシステム構成の一例を示す図である。機械学習済み認識モデル提供処理の流れを示す第２のフローチャートである。第４の実施形態に係る物体認識システムのシステム構成の一例を示す図である。認識結果提供処理の流れを示す第１のフローチャートである。第５の実施形態に係る物体認識支援システムのシステム構成の一例を示す図である。特徴量データ提供処理の流れを示すフローチャートである。第６の実施形態に係る物体認識システムのシステム構成の一例を示す図である。認識結果提供処理の流れを示す第２のフローチャートである。

以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。

［第１の実施形態］
＜物体認識支援システムのシステム構成＞
はじめに、物体認識支援システムのシステム構成について説明する。「物体認識支援システム」とは、ユーザの要求に応じて、物体認識処理を実現するためのデータまたは物体を認識するための認識モデルを提供するシステムである。

図１は、第１の実施形態に係る物体認識支援システムのシステム構成の一例を示す図である。図１に示すように、物体認識支援システム１００は、スキャナ装置１１０と、機械学習用データ生成装置１２０とを有する。物体認識支援システム１００は、ユーザにより指定された、認識対象の物体を受け取り、物体認識処理を実現するためのデータ（物体を認識するための認識モデルについて機械学習を行う際に用いる、機械学習用データ）を生成して、ユーザ等に提供する。これにより、物体認識支援システム１００では、ユーザ等による機械学習済み認識モデルの生成を支援することができる。なお、"ユーザ等"としたのは、認識対象の物体を指定する者（ユーザ）と、機械学習用データを用いて実際に機械学習済み認識モデルを生成する者とが同じとは限らないからである。

スキャナ装置１１０は、ユーザにより指定された、認識対象の物体１０１を受け取り、物体１０１をスキャンすることで、物体１０１表面の凹凸を検知し、３次元モデル１０２を生成する。

機械学習用データ生成装置１２０には、機械学習用データ生成プログラムがインストールされており、機械学習用データ生成装置１２０は、当該プログラムを実行することで、
・３次元モデル取得部１２１、
・位置姿勢切り替え部１２２、
・撮像部１２３、
・仮想空間切り替え部１２４、
・機械学習用データ提供部１２５、
として機能する。

３次元モデル取得部１２１は、スキャナ装置１１０より３次元モデル１０２を取得し、位置姿勢切り替え部１２２に通知する。

位置姿勢切り替え部１２２は、仮想空間内において、例えば、撮像部１２３が３次元モデル１０２を撮影する際の、撮像部１２３と３次元モデル１０２との間の相対的な位置または姿勢を切り替える。ただし、以下では説明の簡略化のため、撮像部１２３の位置及び姿勢は固定とし、３次元モデル１０２の位置または姿勢を切り替えるものとする。位置姿勢切り替え部１２２は、位置または姿勢を切り替えた後の３次元モデル１０２を撮像部１２３に通知する。

撮像部１２３は第１の生成部の一例であり、位置姿勢切り替え部１２２より通知される、位置または姿勢を切り替えた後の３次元モデル１０２を仮想空間内において撮影し、撮影画像データを生成する。撮像部１２３は、生成した撮影画像データを、該撮影画像データに含まれる物体１０１の認識結果（正解データ）と対応付けて、機械学習用データとして、機械学習用データ格納部１２６に格納する。

なお、撮影画像データに含まれる物体１０１の認識結果とは、撮影画像データを、後述する認識モデルに入力した際に、該認識モデルから出力される認識結果と同レベルの情報（正解データ）を指す。

例えば、認識モデルが、撮影画像データに含まれる物体を識別するｃｌａｓｓｉｆｉｃａｔｉｏｎ処理を実行する場合にあっては、物体１０１の認識結果には、物体１０１を示すラベルが含まれる。

また、例えば、認識モデルが、撮影画像データのどこにどのような物体が含まれるかを判定するｄｅｔｅｃｔｉｏｎ処理を実行する場合にあっては、物体１０１の認識結果には、物体１０１の位置、及び、物体１０１を示すラベルが含まれる。

また、例えば、認識モデルが、撮影画像データに含まれる各領域の意味を判定するｓｅｇｍｅｎｔａｔｉｏｎ処理を実行する場合にあっては、物体１０１の認識結果には、物体１０１の領域、及び、物体１０１を示すラベルが含まれる。

仮想空間切り替え部１２４は、撮像部１２３が３次元モデル１０２を撮影する際の仮想空間を切り替える。仮想空間切り替え部１２４は、切り替えた後の仮想空間を撮像部１２３に通知する。仮想空間切り替え部１２４が切り替えたそれぞれの仮想空間は、互いに異なる環境を再現した仮想空間である。異なる環境とは、例えば、光環境の異なる環境や、配置されている物体の３次元モデルのうち、認識対象の物体以外の物体の３次元モデルの種類、数、位置等の配置状況が異なる環境を指す。つまり、本明細書において、複数の仮想空間とは、このように異なる環境となるよう、異なる条件（環境に関わる条件）が組み合わされて設定された仮想空間のことを指す。したがって、ある仮想空間と、その仮想空間のある条件が切り替えられて設定された仮想空間とは、異なる仮想空間として取り扱われる。

機械学習用データ提供部１２５は、機械学習用データ格納部１２６に格納された機械学習用データを、ユーザ等に提供する。これにより、ユーザ等は、物体の３次元モデルについて、複数の異なる環境である各仮想空間において撮影が行われ、生成された撮影画像データ、具体的には、
・３次元モデルの位置または姿勢を切り替えて撮影した撮影画像データ、あるいは、
・仮想空間を切り替えて３次元モデルを撮影した撮影画像データ、
を含む機械学習用データを取得することができる。

なお、図１に示した機械学習用データ生成装置１２０の機能構成は一例にすぎず、他の機能構成を有していてもよい。例えば、機械学習用データ格納部１２６及び機械学習用データ提供部１２５は、機械学習用データの格納または提供の方式によっては、機械学習用データ生成装置１２０に備えられていない、または、含まれていなくてもよい。

＜機械学習用データ生成装置のハードウェア構成＞
次に、機械学習用データ生成装置１２０のハードウェア構成について説明する。図２は、機械学習用データ生成装置のハードウェア構成の一例を示す図である。図２に示すように、機械学習用データ生成装置１２０は、構成要素として、プロセッサ２０１、主記憶装置（メモリ）２０２、補助記憶装置２０３、ネットワークインタフェース２０４、デバイスインタフェース２０５を有する。機械学習用データ生成装置１２０は、これらの構成要素がバス２０６を介して接続されたコンピュータとして実現される。

なお、図２の例では、機械学習用データ生成装置１２０は、各構成要素を１個ずつ備えるものとして示しているが、機械学習用データ生成装置１２０は、同じ構成要素を複数備えていてもよい。また、図２の例では、１台の機械学習用データ生成装置１２０が示されているが、機械学習用データ生成プログラムが複数台の機械学習用データ生成装置にインストールされて、当該複数台の機械学習用データ生成装置それぞれが機械学習用データ生成プログラムの同一のまたは異なる一部の処理を実行するように構成してもよい。この場合、機械学習用データ生成装置それぞれがネットワークインタフェース２０４等を介して通信することで全体の処理を実行する分散コンピューティングの形態をとってもよい。つまり、機械学習用データ生成装置１２０は、１または複数の記憶装置に記憶された命令を１台または複数台のコンピュータが実行することで機能を実現するシステムとして構成されてもよい。また、スキャナ装置１１０から送信された各種データをクラウド上に設けられた１台または複数台の機械学習用データ生成装置で処理し、処理結果をユーザ等に送信する構成であってもよい。

機械学習用データ生成装置１２０の各種演算は、１または複数のプロセッサを用いて、または、通信ネットワーク２１０を介して通信する複数台の機械学習用データ生成装置を用いて並列処理で実行されてもよい。また、各種演算は、プロセッサ２０１内に複数ある演算コアに振り分けられて、並列処理で実行されてもよい。また、本開示の処理、手段等の一部または全部は、通信ネットワーク２１０を介して機械学習用データ生成装置１２０と通信可能なクラウド上に設けられた外部装置２２０（プロセッサ及び記憶装置の少なくとも一方）により実行されてもよい。このように、機械学習用データ生成装置１２０は、１台または複数台のコンピュータによる並列コンピューティングの形態をとってもよい。

プロセッサ２０１は、電子回路（処理回路、Processing circuit、Processing circuitry、ＣＰＵ、ＧＰＵ、ＦＰＧＡ、又はＡＳＩＣ等）であってもよい。また、プロセッサ２０１は、専用の処理回路を含む半導体装置等であってもよい。なお、プロセッサ２０１は、電子論理素子を用いた電子回路に限定されるものではなく、光論理素子を用いた光回路により実現されてもよい。また、プロセッサ２０１は、量子コンピューティングに基づく演算機能を含むものであってもよい。

プロセッサ２０１は、機械学習用データ生成装置１２０の内部構成の各装置等から入力された各種データや命令に基づいて各種演算を行い、演算結果や制御信号を各装置等に出力する。プロセッサ２０１は、ＯＳ（Operating System）や、アプリケーション等を実行することにより、機械学習用データ生成装置１２０が備える各構成要素を制御する。

また、プロセッサ２０１は、１チップ上に配置された１又は複数の電子回路を指してもよいし、２つ以上のチップあるいはデバイス上に配置された１又は複数の電子回路を指してもよい。複数の電子回路を用いる場合、各電子回路は有線又は無線により通信してもよい。

主記憶装置２０２は、プロセッサ２０１が実行する命令及び各種データ等を記憶する記憶装置であり、主記憶装置２０２に記憶された各種データがプロセッサ２０１により読み出される。補助記憶装置２０３は、主記憶装置２０２以外の記憶装置である。なお、これらの記憶装置は、各種データを格納可能な任意の電子部品を意味するものとし、半導体のメモリでもよい。半導体のメモリは、揮発性メモリ、不揮発性メモリのいずれでもよい。機械学習用データ生成装置１２０において各種データを保存するための記憶装置は、主記憶装置２０２又は補助記憶装置２０３により実現されてもよく、プロセッサ２０１に内蔵される内蔵メモリにより実現されてもよい。

また、１つの主記憶装置２０２に対して、複数のプロセッサ２０１が接続（結合）されてもよいし、単数のプロセッサ２０１が接続されてもよい。あるいは、１つのプロセッサ２０１に対して、複数の主記憶装置２０２が接続（結合）されてもよい。機械学習用データ生成装置１２０が、少なくとも１つの主記憶装置２０２と、この少なくとも１つの主記憶装置２０２に接続（結合）される複数のプロセッサ２０１とで構成される場合、複数のプロセッサ２０１のうち少なくとも１つのプロセッサが、少なくとも１つの主記憶装置２０２に接続（結合）される構成を含んでもよい。また、複数台の機械学習用データ生成装置１２０に含まれる主記憶装置２０２とプロセッサ２０１とによって、この構成が実現されてもよい。さらに、主記憶装置２０２がプロセッサと一体になっている構成（例えば、Ｌ１キャッシュ、Ｌ２キャッシュを含むキャッシュメモリ）を含んでもよい。

ネットワークインタフェース２０４は、無線又は有線により、通信ネットワーク２１０に接続するためのインタフェースである。ネットワークインタフェース２０４には、既存の通信規格に適合したもの等、適切なインタフェースが用いられる。ネットワークインタフェース２０４により、通信ネットワーク２１０を介して接続されたスキャナ装置１１０やその他の外部装置２２０と各種データのやり取りが行われてもよい。なお、通信ネットワーク２１０は、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、ＰＡＮ（Personal Area Network）等のいずれか、又は、それらの組み合わせであってもよく、コンピュータとスキャナ装置１１０やその他の外部装置２２０との間で情報のやり取りが行われるものであればよい。ＷＡＮの一例としてインタネット等があり、ＬＡＮの一例としてＩＥＥＥ８０２．１１やイーサネット等があり、ＰＡＮの一例としてＢｌｕｅｔｏｏｔｈ（登録商標が）やＮＦＣ（Near Field Communication）等がある。

デバイスインタフェース２０５は、外部装置２３０と直接接続するＵＳＢ等のインタフェースである。

外部装置２３０はコンピュータと接続されている装置である。外部装置２３０は、一例として、入力装置であってもよい。入力装置は、例えば、カメラ、マイクロフォン、モーションキャプチャ、各種センサ、キーボード、マウス、又はタッチパネル等のデバイスであり、取得した情報をコンピュータに与える。また、パーソナルコンピュータ、タブレット端末、又はスマートフォン等の入力部とメモリとプロセッサとを備えるデバイス等であってもよい。

また、外部装置２３０は、一例として、出力装置であってもよい。出力装置は、例えば、ＬＣＤ（Liquid Crystal Display）、ＣＲＴ（Cathode Ray Tube）、ＰＤＰ（Plasma Display Panel）、又は有機ＥＬ（Electro Luminescence）パネル等の表示装置であってもよいし、音声等を出力するスピーカ等であってもよい。また、パーソナルコンピュータ、タブレット端末、又はスマートフォン等の出力部とメモリとプロセッサとを備えるデバイス等であってもよい。

また、外部装置２３０は、記憶装置（メモリ）であってもよい。例えば、外部装置２３０はネットワークストレージ等であってもよく、外部装置２３０はＨＤＤ等のストレージであってもよい。

また、外部装置２３０は、機械学習用データ生成装置１２０の構成要素の一部の機能を有する装置でもよい。つまり、コンピュータは、外部装置２３０の処理結果の一部又は全部を送信または受信してもよい。

＜位置姿勢切り替え部による処理の具体例＞
次に、位置姿勢切り替え部１２２による処理の具体例について説明する。図３は、位置姿勢切り替え部による処理の具体例を示す図である。

このうち、図３（ａ）は、３次元モデル１０２の姿勢を切り替える様子を示したものである。図３（ａ）に示すように、位置姿勢切り替え部１２２では、３次元モデル１０２の位置を維持したまま、任意の姿勢に切り替えることができる。

一方、図３（ｂ）は、３次元モデル１０２の位置を切り替える様子を示している。図３（ｂ）に示すように、位置姿勢切り替え部１２２では、３次元モデル１０２の姿勢を維持したまま、任意の位置に切り替える（前後、左右に移動させる）ことができる。

なお、図３の例では、３次元モデル１０２の姿勢または位置のいずれか一方を切り替える場合について例示したが、姿勢及び位置の両方を同時に切り替えてもよい。

＜仮想空間切り替え部による処理の具体例＞
次に、仮想空間切り替え部１２４による処理の具体例について説明する。図４は、仮想空間切り替え部による処理の具体例を示す図である。

このうち、図４（ａ）は、互いに光環境の異なる複数の仮想空間を示している。ただし、説明の便宜上、図４（ａ）では、各仮想空間の内部の様子がわかるように、仮想空間の天井部分を省略し、かつ、仮想空間の手前側の側壁を切り欠いて示している。

仮想空間４０１は、照明機器（光源）のない空間を表している。仮想空間４０１の場合、３次元モデル１０２を配置して撮影を行った場合でも、３次元モデル１０２の表面に明暗が生じることはなく、また、仮想空間４０１の底面に、３次元モデル１０２の影が写り込むこともない。

一方、図４（ａ）における仮想空間４０２～４０４は、それぞれ、仮想空間の奥の側壁、右の側壁、及び、底面に照明機器（光源）が設置された空間を表している。仮想空間４０２～４０４に３次元モデル１０２を配置して撮影を行った場合、３次元モデル１０２の表面には、光源からの光の照射方向に応じた明暗が生じるとともに、仮想空間４０２～４０４の側壁、天井等には、３次元モデル１０２の影が写り込むことになる。

一方、図４（ｂ）は、仮想空間内に配置された物体の３次元モデル（物体１０１の３次元モデル１０２とは異なる物体の３次元モデル）の種類、数、位置等の配置状況が異なる仮想空間を示している。ただし、図４（ａ）と同様に、説明の便宜上、図４（ｂ）では、仮想空間の天井部分を省略し、かつ、仮想空間の手前側の側壁を切り欠いて示している。また、図４（ｂ）は、いずれも光環境が同じで、仮想空間内に照明機器（光源）がない場合を示している。

仮想空間４１１は、物体１０１の３次元モデル１０２とは異なる物体の３次元モデル４２１が配置された様子を表している。また、仮想空間４１２は、物体１０１の３次元モデル１０２とは異なる物体の３次元モデル４２２が配置された様子を表している。また、仮想空間４１３は、物体１０１の３次元モデル１０２とは異なる物体の３次元モデル４２１、４２２が配置された様子を示している。更に、仮想空間４１４は、物体１０１の３次元モデル１０２とは異なる物体の３次元モデル４２１、４２２が配置され、かつ、仮想空間４１３とは、３次元モデル４２１、４２２の位置が異なる空間を表している。

なお、図４の例では、仮想空間内の光環境、物体１０１の３次元モデル１０２以外の３次元モデルの種類、数、位置のいずれか１つの条件を切り替える場合について示した。しかしながら、光環境、３次元モデルの種類、数、位置のいずれかの２つ（あるいは、３つ、２以上、あるいは全て）ないし複数の条件を切り替えるようにしてもよい。また、光環境、３次元モデルの種類、数、位置以外の仮想空間の環境に関わる条件を切り替えてもよい。

＜撮像部による処理の具体例＞
次に、撮像部１２３による処理の具体例について説明する。図５は、撮像部による処理の具体例を示す図である。図５（ａ）に示すように、撮影画像データ５００＿１＿１は、
・位置姿勢切り替え部１２２が、３次元モデル１０２の姿勢、位置を、第１の位置姿勢パターン（姿勢＿１、位置＿１の組み合わせパターン）に切り替え、
・仮想空間切り替え部１２４が、仮想空間内の光環境、３次元モデルの種類、数、位置を、第１の仮想空間パターン（光環境＿１、種類＿１、数＿１、位置＿１の組み合わせパターン）に切り替えた、
状態で、撮像部１２３が撮影した撮影画像データの一例である。

なお、撮影画像データ５００＿１＿２、５００＿１＿３、５００＿１＿４、・・・は、第１の仮想空間パターンのもとで、位置姿勢切り替え部１２２が、第２、第３、第４、・・・の位置姿勢パターンに切り替えて撮影した撮影画像データを示している。なお、例えば、第２の位置姿勢パターンとは、（姿勢＿２、位置＿１）の組み合わせパターンを指す。

同様に、図５（ｂ）に示すように、撮影画像データ５００＿２＿１は、
・位置姿勢切り替え部１２２が、３次元モデル１０２の姿勢、位置を、第１の位置姿勢パターン（姿勢＿１、位置＿１の組み合わせパターン）に切り替え、
・仮想空間切り替え部１２４が、仮想空間内の光環境、３次元モデルの種類、数、位置を、第２の仮想空間パターン（光環境＿１、種類＿２、数＿１、位置＿１の組み合わせパターン）に切り替えた、
状態で、撮像部１２３が撮影した撮影画像データの一例である。

なお、撮影画像データ５００＿３＿１、５００＿４＿１、５００＿５＿１、・・・は、第１の位置姿勢パターンのもとで、仮想空間切り替え部１２４が、第３、第４、第５、・・・の仮想空間パターンに切り替えて撮影した撮影画像データを示している。なお、例えば、第３の仮想空間パターンとは、（光環境＿１、種類＿２、数＿１、位置＿２）の組み合わせパターンを指す。

＜機械学習用データ提供処理の流れ＞
次に、本実施形態の物体認識支援システム１００による機械学習用データ提供処理の流れについて説明する。図６は、機械学習用データ提供処理の流れを示すフローチャートである。

ステップＳ６０１において、スキャナ装置１１０は、ユーザにより指定された、認識対象の物体をスキャンし、３次元モデルを生成する。

ステップＳ６０２において、機械学習用データ生成装置１２０の撮像部１２３は、仮想空間の組み合わせパターンを示すカウンタＮに"１"を入力する。

ステップＳ６０３において、機械学習用データ生成装置１２０の仮想空間切り替え部１２４は、第Ｎの仮想空間パターンを、撮像部１２３に設定する。

ステップＳ６０４において、機械学習用データ生成装置１２０の撮像部１２３は、位置姿勢の組み合わせパターンを示すカウンタＭに"１"を入力する。

ステップＳ６０５において、機械学習用データ生成装置１２０の位置姿勢切り替え部１２２は、第Ｍの位置姿勢パターンを、撮像部１２３に設定する。

ステップＳ６０６において、機械学習用データ生成装置１２０の撮像部１２３は、第Ｎの仮想空間パターンのもとで、第Ｍの位置姿勢パターンの３次元モデルを撮影し、撮影画像データＮ＿Ｍを生成する。

ステップＳ６０７において、機械学習用データ生成装置１２０の撮像部１２３は、物体の認識結果（正解データ）と対応付けて、撮影画像データＮ＿Ｍを、機械学習用データとして、機械学習用データ格納部１２６に格納する。

ステップＳ６０８において、機械学習用データ生成装置１２０の撮像部１２３は、所定の位置姿勢の組み合わせパターンについて、撮影画像データを生成したか否かを判定する。

ステップＳ６０８において、撮影画像データを生成していない位置姿勢の組み合わせパターンがあると判定した場合には（ステップＳ６０８においてＮｏの場合には）、ステップＳ６０９に進む。

ステップＳ６０９において、機械学習用データ生成装置１２０の撮像部１２３は、位置姿勢の組み合わせパターンを示すカウンタＭをインクリメントして、ステップＳ６０５に戻る。

一方、ステップＳ６０８において、所定の位置姿勢の組み合わせパターンについて、撮影画像データを生成したと判定した場合には（ステップＳ６０８においてＹｅｓの場合には）、ステップＳ６１０に進む。

ステップＳ６１０において、機械学習用データ生成装置１２０の撮像部１２３は、所定の仮想空間の組み合わせパターンについて、撮影画像データを生成したか否かを判定する。

ステップＳ６１０において、撮影画像データを生成していない仮想空間の組み合わせパターンがあると判定した場合には（ステップＳ６１０においてＮｏの場合には）、ステップＳ６１１に進む。

ステップＳ６１１において、機械学習用データ生成装置１２０の撮像部１２３は、仮想空間の組み合わせパターンを示すカウンタＮをインクリメントして、ステップＳ６０３に戻る。

一方、ステップＳ６１０において、所定の仮想空間の組み合わせパターンについて、撮影画像データを生成したと判定した場合には（ステップＳ６１０においてＹｅｓの場合には）、ステップＳ６１２に進む。

ステップＳ６１２において、機械学習用データ提供部１２５は、機械学習用データをユーザ等に提供する。

ステップＳ６１３において、機械学習用データ生成装置１２０の３次元モデル取得部１２１は、機械学習用データ提供処理を終了するか否かを判定する。

ステップＳ６１３において、機械学習用データ提供処理を継続すると判定した場合には（ステップＳ６１３においてＮｏの場合には）、ステップＳ６０１に戻る。

一方、ステップＳ６１３において、機械学習用データ提供処理を終了すると判定した場合には（ステップＳ６１３においてＹｅｓの場合には）、機械学習用データ提供処理を終了する。

＜まとめ＞
以上の説明から明らかなように、第１の実施形態に係る物体認識支援システム１００は、
・ユーザからの指定により、物体をスキャンし、３次元モデルを生成する。
・３次元モデルについて、複数の異なる環境を再現する各仮想空間において撮影を行い、複数の撮影画像データを生成する。ただし、撮影が行われる各仮想空間には、光環境の異なる各仮想空間、３次元モデルとは異なる物体の３次元モデルの配置状況が異なる各仮想空間、３次元モデルと撮像部との相対的な位置または姿勢が異なる各仮想空間、のいずれかが含まれる。

これにより、第１の実施形態に係る物体認識支援システム１００によれば、物体認識処理の認識精度を向上させる、機械学習用データを提供することが可能になる。

［第２の実施形態］
上記第１の実施形態では、機械学習用データを提供する物体認識支援システムについて説明した。これに対して、第２の実施形態では、機械学習用データを用いて機械学習を行い、機械学習済み認識モデルを提供する物体認識支援システムについて説明する。

＜物体認識支援システムのシステム構成＞
図７は、第２の実施形態に係る物体認識支援システムのシステム構成の一例を示す図である。図７に示すように、第２の実施形態に係る物体認識支援システム７００は、スキャナ装置１１０、機械学習用データ生成装置１２０に加えて、機械学習装置７１０を有する。

なお、機械学習装置７１０のハードウェア構成は、機械学習用データ生成装置１２０のハードウェア構成と同様であるため、ここでは説明を省略する。また、機械学習装置７１０には、機械学習済み認識モデル生成プログラムがインストールされており、機械学習装置７１０は、当該プログラムを実行することで、機械学習部７２０、認識モデル提供部７３０として機能する。

機械学習部７２０は第２の生成部の一例である。機械学習部７２０は、認識モデル７２１を有し、機械学習用データ格納部１２６より読み出した機械学習用データを用いて、認識モデル７２１について機械学習（訓練）を行うことで、機械学習済み認識モデルを生成する。

なお、機械学習部７２０により生成される機械学習済み認識モデルは、例えば、新たな撮影画像データに対して、物体認識処理として、ｓｅｇｍｅｎｔａｔｉｏｎ処理を実行する認識モデルであるとする。あるいは、機械学習済み認識モデルは、物体認識処理として、例えば、ｄｅｔｅｃｔｉｏｎ処理、ｃｌａｓｓｉｆｉｃａｔｉｏｎ処理、ｒｅ－ｉｄｅｎｔｉｆｉｃａｔｉｏｎ処理、ｐｏｓｅｅｓｔｉｍａｔｉｏｎ処理のいずれかを実行する認識モデルであってもよい。あるいは、機械学習済み認識モデルは、物体認識処理として、ｓｃｅｎｅｇｒａｐｈ処理、ｄｅｎｓｅｃｏｒｒｅｓｐｏｎｄｅｎｃｅ処理、ｍｕｌｔｉ－ｍｏｄａｌ処理のいずれかを実行する認識モデルであってもよい。

認識モデル提供部７３０は、機械学習部７２０により生成された、機械学習済み認識モデルを、ユーザ等に提供する。これにより、ユーザ等は、上記機械学習用データを用いて機械学習が行われた機械学習済み認識モデルを取得し、利用することができる。なお、ここでも"ユーザ等"としたのは、認識対象の物体を指定する者（ユーザ）と、機械学習済み認識モデルを取得し、利用する者とが同じとは限らないからである。

＜機械学習済み認識モデル提供処理の流れ＞
次に、本実施形態の物体認識支援システム７００による機械学習済み認識モデル提供処理の流れについて説明する。図８は、機械学習済み認識モデル提供処理の流れを示す第１のフローチャートである。

ステップＳ８０１において、機械学習用データ生成装置１２０の３次元モデル取得部１２１～仮想空間切り替え部１２４は、機械学習用データ生成処理を実行する。なお、機械学習用データ生成処理は、図６の機械学習用データ提供処理のうち、ステップＳ６１２を除く処理と同じであるため、ここでは詳細な説明は省略する。

ステップＳ８０２において、機械学習装置７１０の機械学習部７２０は、機械学習用データ格納部１２６より、機械学習用データを読み出す。

ステップＳ８０３において、機械学習装置７１０の機械学習部７２０は、機械学習用データを用いて、認識モデル７２１について機械学習を行う。

ステップＳ８０４において、機械学習装置７１０の機械学習部７２０は、機械学習の終了条件を満たすか否かを判定する。

ステップＳ８０４において、終了条件を満たしていないと判定した場合には（ステップＳ８０４においてＮｏの場合には）、ステップＳ８０２に戻る。

一方、ステップＳ８０４において、終了条件を満たすと判定した場合には（ステップＳ８０４においてＹｅｓの場合には）、ステップＳ８０５に進む。

ステップＳ８０５において、機械学習装置７１０の認識モデル提供部７３０は、機械学習済み認識モデルをユーザ等に提供する。

＜まとめ＞
以上の説明から明らかなように、第２の実施形態に係る物体認識支援システム７００は、
・ユーザからの指定により物体をスキャンし、３次元モデルを生成する。
・３次元モデルについて、複数の異なる環境を再現する各仮想空間において撮影を行い、複数の撮影画像データを生成する。
・生成した複数の撮影画像データを入力として認識モデルの機械学習を行い、機械学習済み認識モデルを生成する。

これにより、第２の実施形態に物体認識支援システム７００によれば、物体認識処理の認識精度を向上させる、機械学習済み認識モデルを提供することが可能になる。

［第３の実施形態］
上記第２の実施形態では、機械学習用データ生成処理（図８のステップＳ８０１）において生成した機械学習用データを用いて機械学習を行うことで、機械学習済み認識モデルを生成する場合について説明した。

これに対して、第３の実施形態では、ステップＳ８０１において生成した機械学習用データを用いて機械学習を行うとともに、機械学習済み認識モデルについて、評価用画像データを用いて評価を行う。また、第３の実施形態では、評価結果に応じて機械学習用データを新たに生成し、機械学習済み認識モデルについて、再度、機械学習を行う。以下、第３の実施形態について、上記第２の実施形態との相違点を中心に説明する。

＜物体認識支援システムのシステム構成＞
図９は、第３の実施形態に係る物体認識支援システムのシステム構成の一例を示す図である。図７に示した第２の実施形態に係る物体認識支援システム７００との相違点は、第３の実施形態に係る物体認識支援システム９００の場合、機械学習装置９１０が、更に、推論部９２０、評価部９３０を有する点である。

推論部９２０は、機械学習部７２０により生成された機械学習済み認識モデル９２１を有する。推論部９２０は、評価用画像データを機械学習済み認識モデル９２１に入力することで、機械学習済み認識モデル９２１より出力された認識結果を取得し、評価部９３０に通知する。

評価部９３０は、推論部９２０より通知された認識結果を評価し、所定の認識精度に到達しているか否かを判定する。また、評価部９３０は、所定の認識精度に到達していないと判定した場合には、認識結果に基づいて、位置姿勢切り替え部１２２または仮想空間切り替え部１２４のいずれか一方または両方に、切り替え指示を通知（送信）する。なお、当該切り替え指示は、認識精度を向上させるために有効な新たな機械学習用データが取得できるように、位置姿勢の組み合わせパターンや仮想空間の組み合わせパターンを指定する切り替え指示であってもよい。あるいは、単なる切り替え指示（組み合わせパターンを指定しない切り替え指示）であってもよい。

なお、切り替え指示が通知された、位置姿勢切り替え部１２２または仮想空間切り替え部１２４のいずれか一方または両方は、位置姿勢の組み合わせパターンまたは仮想空間の組み合わせパターンを切り替える。これにより、撮像部１２３では、認識結果に応じた新たな機械学習用データを生成し、機械学習用データ格納部１２６に格納する。

この場合、機械学習部７２０では、新たな機械学習用データを用いて、再度、認識モデル７２１の機械学習を行うことで、機械学習済み認識モデル９２１を再度生成する。

なお、評価部９３０による評価は、所定の認識精度に到達するまで繰り返し実行されるものとする。また、所定の認識精度に到達した場合、認識モデル提供部７３０は、所定の認識精度に到達した際の機械学習済み認識モデルを、ユーザ等に提供する。これにより、ユーザ等は、所定の認識精度に到達した機械学習済み認識モデルを取得することができる。

＜機械学習済み認識モデル提供処理の流れ＞
次に、本実施形態の物体認識支援システム９００による機械学習済み認識モデル提供処理の流れについて説明する。図１０は、機械学習済み認識モデル提供処理の流れを示す第２のフローチャートである。なお、図１０に示すフローチャートのうち、ステップＳ８０１～Ｓ８０４までの処理は、図８に示すフローチャートのステップＳ８０１～Ｓ８０４までの処理と同じであるため、ここでは説明を省略する。

ステップＳ１００１において、機械学習装置９１０の推論部９２０は、評価用画像データを機械学習済み認識モデル９２１に入力することで、機械学習済み認識モデル９２１より認識結果を取得する。

ステップＳ１００２において、機械学習装置９１０の評価部９３０は、認識結果が、所定の認識精度を有するか否かを判定する。ステップＳ１００２において、所定の認識精度を有していないと判定した場合には（ステップＳ１００２においてＮｏの場合には）、ステップＳ１００３に進む。

ステップＳ１００３において、機械学習装置９１０の評価部９３０は、評価結果に基づいて、切り替え指示を出力する。これにより、位置姿勢の組み合わせパターンまたは仮想空間の組み合わせパターンのいずれか一方または両方が切り替わり、ステップＳ８０１に戻る。この場合、ステップＳ８０１では、評価結果に応じた新たな機械学習用データが生成される。

一方、ステップＳ１００２において所定の認識精度を有していると判定した場合には（ステップＳ１００２においてＹｅｓの場合には）、ステップＳ１００４に進む。

ステップＳ１００４において、機械学習装置９１０の認識モデル提供部７３０は、所定の認識精度に到達した際の機械学習済み認識モデルを、ユーザ等に提供する。

＜まとめ＞
以上の説明から明らかなように、第３の実施形態に係る物体認識支援システム９００は、
・ユーザからの指定により物体をスキャンし、３次元モデルを生成する。
・３次元モデルについて、複数の異なる環境を再現する各仮想空間において撮影を行い、複数の撮影画像データを生成する。
・生成した複数の撮影画像データを入力として認識モデルの機械学習を行い、機械学習済み認識モデルを生成する。
・評価用画像データを用いて機械学習済み認識モデルを評価し、評価結果に基づいて、位置姿勢の組み合わせパターンまたは仮想空間の組み合わせパターンのいずれか一方または両方を切り替えて、新たな機械学習用データを生成する。
・生成した新たな機械学習用データを入力として、再度、機械学習済み認識モデルの機械学習を行い、機械学習済み認識モデルを再度生成する。

これにより、第３の実施形態に係る物体認識支援システム９００によれば、物体認識処理の認識精度を更に向上させる、機械学習済み認識モデルを提供することが可能になる。

［第４の実施形態］
上記第２の実施形態では、生成した機械学習済み認識モデルをユーザ等に提供する物体認識支援システムについて説明した。これに対して、第４の実施形態では、生成した機械学習済み認識モデルを用いて、ユーザ等から新たに受信した撮影画像データに対して物体認識処理を行い、認識結果をユーザ等に提供する物体認識システムについて説明する。なお、「物体認識システム」とは、要求に応じて、物体認識処理を行い、認識結果を提供するシステムである。

＜物体認識システムのシステム構成＞
図１１は、第４の実施形態に係る物体認識システムのシステム構成の一例を示す図である。図１１に示すように、物体認識システム１１００は、スキャナ装置１１０、機械学習用データ生成装置１２０、物体認識装置１１１０を有する。

図７に示した第２の実施形態に係る物体認識支援システム７００との相違点は、第４の実施形態に係る物体認識システム１１００の場合、機械学習装置７１０に代えて物体認識装置１１１０を有する点である。なお、物体認識装置１１１０のハードウェア構成は、機械学習用データ生成装置１２０のハードウェア構成と同様でよいため、ここでは説明を省略する。また、物体認識装置１１１０には、物体認識プログラムがインストールされており、物体認識装置１１１０は、当該プログラムを実行することで、機械学習部７２０に加えて、推論部９２０、画像データ取得部１１２０、認識結果提供部１１３０を有する。

画像データ取得部１１２０は、機械学習済み認識モデルを用いて物体認識処理を行うユーザ等から、認識処理要求と、新たな撮影画像データとを取得し、取得した撮影画像データを推論部９２０に送信する。

推論部９２０は、機械学習部７２０により生成された機械学習済み認識モデル９２１を有する。推論部９２０は、画像データ取得部１１２０から通知された撮影画像データを機械学習済み認識モデル９２１に入力することで、認識結果を取得する。また、推論部９２０は、取得した認識結果を認識結果提供部１１３０に通知する。

認識結果提供部１１３０は、推論部９２０より通知された認識結果を、ユーザ等に提供する。これにより、ユーザ等は、上記機械学習用データを用いて機械学習が行われた機械学習済み認識モデルによって物体認識処理が行われた際の認識結果を取得することができる。

なお、図１１の物体認識システム１１００では、ユーザ等の端末について明示していないが、例えば、ユーザ等の端末には、専用のアプリケーション（例えば、画像認識用のアプリケーション）がインストールされていてもよい。具体的には、ユーザ等は、自端末上で専用のアプリケーションを起動することで、物体認識装置１１１０に対して、認識処理要求とともに、新たな撮影画像データを送信し、物体認識装置１１１０から認識結果を受信する。

あるいは、画像データ取得部１１２０及び認識結果提供部１１３０を、ＷｅｂＡＰＩ（Application Programming Interface）として機能させてもよい。これにより、例えば、ユーザ等は、インタネット上でＷｅｂＡＰＩを介して物体認識装置１１１０にアクセスし、推論部９２０を実行するよう要求することができる。また、要求に応じて推論部９２０が実行し、新たな撮影画像データに対する認識結果をユーザ等に送信した場合、ユーザ等は、認識結果を受信し、自端末上で認識結果を確認することができる。

＜認識結果提供処理の流れ＞
次に、本実施形態の物体認識システム１１００による認識結果提供処理の流れについて説明する。図１２は、認識結果提供処理の流れを示す第１のフローチャートである。なお、図１２に示すフローチャートのうち、ステップＳ８０１～Ｓ８０４までの処理は、図８に示すフローチャートのステップＳ８０１～Ｓ８０４までの処理と同じであるため、ここでは説明を省略する。

ステップＳ１２０１において、物体認識装置１１１０の画像データ取得部１１２０は、ユーザ等から、認識処理要求とともに、新たな撮影画像データを取得する。

ステップＳ１２０２において、物体認識装置１１１０の推論部９２０は、撮影画像データを機械学習済み認識モデルに入力し、認識結果を取得する。また、認識結果提供部１１３０は、認識結果をユーザ等に提供する。

＜まとめ＞
以上の説明から明らかなように、第４の実施形態に係る物体認識システム１１００は、
・ユーザからの指定により物体をスキャンし、３次元モデルを生成する。
・３次元モデルについて、複数の異なる環境を再現する各仮想空間において撮影を行い、複数の撮影画像データを生成する。
・生成した複数の撮影画像データを入力として認識モデルの機械学習を行い、機械学習済み認識モデルを生成する。
・ユーザ等からの認識処理要求に応じて、生成した機械学習済み認識モデルを用いて、撮影画像データに対して物体認識処理を行い、認識結果を、ユーザ等に提供する。

これにより、第４の実施形態に係る物体認識システム１１００によれば、機械学習済み認識モデルを用いて物体認識処理を行った認識結果を提供することが可能になる。

［第５の実施形態］
上記第２の実施形態では、生成した機械学習済み認識モデルをユーザ等に提供する場合について説明した。これに対して、第５の実施形態では、生成した機械学習済み認識モデルを用いて、機械学習用データに対して物体認識処理を行い、中間情報の一例である特徴量データを抽出（取得）する。そして、第５の実施形態では、抽出した特徴量データを、物体１０１の認識結果と対応付けてユーザ等に提供する。以下、第５の実施形態について、上記第２の実施形態との相違点を中心に説明する。

＜物体認識支援システムのシステム構成＞
図１３は、第５の実施形態に係る物体認識支援システムのシステム構成の一例を示す図である。図１３に示すように、第５の実施形態に係る物体認識支援システム１３００は、スキャナ装置１１０、機械学習用データ生成装置１２０、特徴量データ生成装置１３１０を有する。

図７に示した第２の実施形態に係る物体認識支援システム７００との相違点は、第５の実施形態に係る物体認識支援システム１３００の場合、機械学習装置７１０に代えて特徴量データ生成装置１３１０を有する点である。なお、特徴量データ生成装置１３１０のハードウェア構成は、機械学習用データ生成装置１２０のハードウェア構成と同様であるため、ここでは説明を省略する。また、特徴量データ生成装置１３１０には、特徴量データ生成プログラムがインストールされており、特徴量データ生成装置１３１０は、当該プログラムを実行することで、機械学習部７２０に加えて、
・推論部９２０、
・特徴量抽出部１３２０、
・特徴量データ提供部１３３０、
として機能する。

特徴量抽出部１３２０は、推論部９２０が、機械学習用データ格納部１２６に格納された機械学習用データを入力し、機械学習済み認識モデル９２１を実行した際に、機械学習済み認識モデル９２１の中間層より中間情報の一例である特徴量データを抽出する。

また、特徴量抽出部１３２０は、抽出した特徴量データを、撮影画像データに含まれる物体１０１の認識結果（正解データ）と対応付けて、特徴量データ格納部１３４０に格納する。

特徴量データ提供部１３３０は、特徴量データ格納部１３４０に格納された特徴量データを、撮影画像データに含まれる物体１０１の認識結果（正解データ）と対応付けて、ユーザ等に提供する。これにより、ユーザ等は、上記機械学習用データを用いて機械学習が行われた機械学習済み認識モデルが、実行時に着目する特徴量データを取得することができる。

＜特徴量データ提供処理の流れ＞
次に、本実施形態の物体認識支援システム１３００による特徴量データ提供処理の流れについて説明する。図１４は、特徴量データ提供処理の流れを示すフローチャートである。なお、図１４に示すフローチャートのうち、ステップＳ８０１～Ｓ１００３までの処理は、図１０のステップＳ８０１～Ｓ１００３までの処理と同じであるため、ここでは説明を省略する。

ステップＳ１４０１において、機械学習用データ生成装置１２０の推論部９２０は、機械学習用データ格納部１２６に格納された機械学習用データを機械学習済み認識モデル９２１に入力し、機械学習済み認識モデル９２１を実行する。また、特徴量抽出部１３２０は、機械学習済み認識モデル９２１の実行中に、機械学習済み認識モデル９２１の中間層から、特徴量データを抽出する。

ステップＳ１４０２において、特徴量データ提供部１３３０は、抽出された特徴量データを、撮影画像データに含まれる物体１０１の認識結果（正解データ）と対応付けて、ユーザ等に提供する。

＜まとめ＞
以上の説明から明らかなように、第５の実施形態に係る物体認識支援システム１３００は、
・ユーザからの指定により物体をスキャンし、３次元モデルを生成する。
・３次元モデルについて、複数の異なる環境を再現する各仮想空間において撮影を行い、複数の撮影画像データを生成する。
・生成した複数の撮影画像データを入力として認識モデルの機械学習を行い、機械学習済み認識モデルを生成する。
・機械学習済み認識モデルに、機械学習用データを入力し、機械学習済み認識モデルの中間層より、特徴量データを抽出する。
・抽出した特徴量データを、撮影画像データに含まれる物体の認識結果（正解データ）と対応付けて、ユーザ等に提供する。

これにより、第５の実施形態に係る物体認識支援システム１３００によれば、機械学習済み認識モデルが実行時に着目する中間情報（特徴量データ）を提供することが可能になる。

［第６の実施形態］
上記第５の実施形態では、機械学習済み認識モデルの実行中に抽出した特徴量データを、物体の認識結果（正解データ）と対応付けてユーザ等に提供する場合について説明した。これに対して、第６の実施形態では、機械学習済み認識モデルの実行中に抽出した特徴量データ（第１の中間情報）とユーザ等から受信した特徴量データ（第２の中間情報）とに基づいて物体を認識する。

具体的には、抽出した特徴量データをユーザ等から受信した特徴量データとマッチングし、いずれの特徴量データとの類似度が高いかを判定する。これにより、第６の実施形態によれば、当該特徴量データに対応付けられた、物体の認識結果（正解データ）を、ユーザ等に提供することができる。つまり、ユーザ等は、撮影画像データに含まれる物体の特徴量データを送信することで、撮影画像データに含まれる物体の認識結果を取得することができる。以下、第６の実施形態について、上記第５の実施形態との相違点を中心に説明する。

＜物体認識システムのシステム構成＞
図１５は、第６の実施形態に係る物体認識システムのシステム構成の一例を示す図である。図１５に示すように、物体認識システム１５００は、スキャナ装置１１０、機械学習用データ生成装置１２０、物体認識装置１５１０を有する。

図１３に示した第５の実施形態に係る物体認識支援システム１３００との相違点は、第６の実施形態に係る物体認識システム１５００の場合、特徴量データ生成装置１３１０に代えて物体認識装置１５１０を有する点である。なお、物体認識装置１５１０のハードウェア構成は、機械学習用データ生成装置１２０のハードウェア構成と同様であるため、ここでは説明を省略する。また、物体認識装置１５１０には、物体認識プログラムがインストールされており、物体認識装置１５１０は、当該プログラムを実行することで、機械学習部７２０、推論部９２０、特徴量抽出部１３２０に加えて、
・特徴量データ取得部１５２０、
・マッチング部１５３０、
・認識結果提供部１５４０、
として機能する。

特徴量データ取得部１５２０は、ユーザ等から、撮影画像データに含まれる物体の特徴量データを取得し、マッチング部１５３０に通知する。

マッチング部１５３０は、特徴量データ取得部１５２０から通知された特徴量データと、特徴量データ格納部１３４０に格納された特徴量データとの類似度を算出し、算出した類似度が最も高い特徴量データに対応する認識結果（正解データ）を判定する。また、マッチング部１５３０は、判定した認識結果（正解データ）を認識結果提供部１５４０に通知する。

認識結果提供部１５４０は、マッチング部１５３０から通知された認識結果（正解データ）を、ユーザ等に提供する。これにより、ユーザ等は、上記機械学習用データを用いて機械学習が行われた機械学習済み認識モデルが実行時に着目する特徴量データを用いて物体認識処理が行われた際の、認識結果を取得することができる。

なお、図１５において、特徴量データ格納部１３４０は、物体認識装置１５１０において実現するものとして示したが、特徴量データ格納部１３４０は、例えば、不図示のサーバ装置等において実現されてもよい。この場合、マッチング部１５３０は、不図示のサーバ装置等にアクセスすることで類似度を算出し、算出した類似度が最も高い特徴量データに対応する認識結果（正解データ）を判定する。

＜認識結果提供処理の流れ＞
次に、本実施形態の物体認識システム１５００による認識結果提供処理の流れについて説明する。図１６は、認識結果提供処理の流れを示す第２のフローチャートである。なお、図１６に示すフローチャートのうち、ステップＳ８０１～Ｓ１４０１までの処理は、図１４のステップＳ８０１～Ｓ１４０１までの処理と同じであるため、ここでは説明を省略する。

ステップＳ１６０１において、物体認識装置１５１０の特徴量抽出部１３２０は、抽出した特徴量データを、撮影画像データに含まれる物体１０１の認識結果(正解データ)と対応付けて、特徴量データ格納部１３４０に格納する。

ステップＳ１６０２において、物体認識装置１５１０の特徴量データ取得部１５２０は、ユーザ等から、新たな撮影画像データに含まれる物体の特徴量データを取得する。

ステップＳ１６０３において、物体認識装置１５１０のマッチング部１５３０は、新たな撮影画像データに含まれる物体の特徴量データと、特徴量データ格納部１３４０に格納された特徴量データとの類似度を算出する。また、物体認識装置１５１０のマッチング部１５３０は、算出した類似度が最も高い特徴量データに対応付けられた、認識結果（正解データ）を判定する。

ステップＳ１６０４において、物体認識装置１５１０の認識結果提供部１５４０は、認識結果（正解データ）をユーザ等に提供する。

＜まとめ＞
以上の説明から明らかなように、第６の実施形態に係る物体認識システム１５００は、
・ユーザからの指定により物体をスキャンし、３次元モデルを生成する。
・３次元モデルについて、複数の異なる環境を再現する各仮想空間において撮影を行い、複数の撮影画像データを生成する。
・生成した複数の撮影画像データを入力として認識モデルの機械学習を行い、機械学習済み認識モデルを生成する。
・機械学習済み認識モデルに、機械学習用データを入力し、機械学習済み認識モデルの中間層より、特徴量データを抽出する。また、抽出した特徴量データを、撮影画像データに含まれる物体の認識結果（正解データ）と対応付けて、特徴量データ格納部に格納する。
・ユーザ等から新たに取得した特徴量データと、特徴量データ格納部に格納された特徴量データとの類似度を算出し、類似度が最も高い特徴量データに対応付けられた認識結果（正解データ）を、ユーザ等に提供する。

これにより、第６の実施形態に係る物体認識システム１５００によれば、機械学習済み認識モデルが実行時に着目する特徴量データを用いて物体認識処理を行った際の、認識結果を提供することが可能になる。

［第７の実施形態］
上記第３の実施形態では、評価用画像データを用いて評価を行った際、機械学習済み認識モデル９２１より出力された認識結果が、所定の認識精度に到達していなかった場合に、切り替え指示を通知するものとして説明した。しかしながら、認識結果が所定の認識精度に到達していなかった場合の処理はこれに限定されない。例えば、評価用画像データに含まれる物体について３次元モデルを生成し、生成した３次元モデルについて、位置姿勢の組み合わせパターンまたは仮想空間の組み合わせパターンを切り替えて、新たに撮影画像データを生成してもよい。また、新たに生成した撮影画像データを含む機械学習用データを用いて、再度、機械学習済み認識モデルの機械学習を行ってもよい。

また、上記第４及び第５の実施形態では、第２の実施形態の機械学習装置７１０に代えて、物体認識装置１１１０または特徴量データ生成装置１３１０を配するものとして説明した。

しかしながら、物体認識装置１１１０または特徴量データ生成装置１３１０は、例えば、第３の実施形態の機械学習装置９１０に代えて配してもよい。この場合、物体認識装置１１１０は、例えば、再度、機械学習が行われることで再度生成された機械学習済み認識モデル９２１を用いて認識結果提供処理を行う。同様に、特徴量データ生成装置１３１０は、例えば、再度、機械学習が行われることで再度生成された機械学習済み認識モデル９２１を用いて、特徴量データ提供処理を行う。

また、上記第５の実施形態では、中間情報の一例として特徴量データを挙げたが、特徴量データ生成装置１３１０がユーザ等に提供する中間情報は、特徴量データに限定されない。例えば、中間情報には、機械学習済み認識モデル９２１が撮影画像データを処理することで得られる任意のデータが含まれてもよい。

また、上記第２乃至第６の実施形態では、機械学習用データが物体認識支援システム７００、９００、１３００、物体認識システム１１００、１５００に設けられた機械学習用データ生成装置で生成されるものとして説明した。しかしながら、機械学習用データは、物体認識支援システム７００、９００、１３００、物体認識システム１１００、１５００の外部に設けられた機械学習用データ生成装置で事前に生成されてもよい。

また、上記第５及び第６の実施形態では、物体認識支援システム１３００の特徴量データ生成装置１３１０、物体認識システム１５００の物体認識装置１５１０が有する機械学習済み認識モデルより抽出された中間情報を利用するものとして説明した。しかしながら、物体認識支援システム１３００、物体認識システム１５００または特徴量データ生成装置１３１０、物体認識装置１５１０の外部にある機械学習済み認識モデルより抽出された中間情報を利用してもよい。

また、中間情報は、物体認識支援システム１３００、物体認識システム１５００または特徴量データ生成装置１３１０、物体認識装置１５１０の外部にある中間情報データベース等に保存されていてもよい。

また、中間情報は、第１の生成部で生成された機械学習用データを用いて機械学習が行われた機械学習済み認識モデルから取得されたものに限られない。また、第１の中間情報を抽出するために機械学習済み認識モデルに入力される撮影画像データは、どのようなデータであってもよい。つまり、３次元モデルを撮影することによって得られた撮影画像データに限定されない。例えば、現実の物体を撮影して得られた撮影画像データを用いて機械学習が行われた機械学習済み認識モデルに、現実の物体を撮影して得られた撮影画像データを入力して第１の中間情報を抽出してもよい。

また、上記各実施形態のうち機械学習を行わない実施形態の場合、機械学習部７２０は、物体認識システム１１００、１５００、物体認識支援システム１３００、または特徴量データ生成装置１３１０、物体認識装置１１１０、１５１０に含まれていなくてもよい。この場合、機械学習済み認識モデル９２１は、物体認識システム１１００、１５００、物体認識支援システム１３００または特徴量データ生成装置１３１０、物体認識装置１１１０、１５１０の外部に備えられた機械学習装置で事前に生成される。

また、上記第４乃至第６の実施形態では、物体認識システム１１００、１５００、物体認識支援システム１３００が、認識結果または中間情報を、ユーザ等に提供するものとして説明した。しかしながら、物体認識システム１１００、１５００、物体認識支援システム１３００が提供する情報には、例えば、
・物体の名称、
・ロボットが当該物体を把持するために好ましい位置、
・物体の材料、
・物体を取り扱う上での注意などを含む物体の情報、
・物体に紐づけられたＪＡＮコードの情報、
等が含まれていてもよい。また、これらの情報は、認識結果または中間情報とともに、ユーザ等に提供される情報として、予め物体情報データベース等に保存されていてもよい。

また、上記各実施形態では、ユーザの具体例について言及しなかったが、ユーザは、物体を製造、販売または流通させる特定の業者であってもよい。あるいは、ユーザは、物体の広告を生成する業者、物体の宣伝を行う業者、物体を製造、販売または流通させる際に用いるシステムを開発する業者など、物体を製造、販売または流通させる特定の業者の業務を代理する業者であってもよい。

この場合、上記各実施形態で説明した仮想空間は、例えば、当該特定の業者が物体（例えば、製造物）を製造する空間（例えば、工場）を模した空間であってもよい。あるいは、当該特定の業者が物体（例えば、商品）を販売する、または流通させる空間（例えば、店舗、倉庫）を模した空間であってもよい。また、物体が利用される空間（例えば、家庭内、屋外等）を模した空間であってもよい。

このように、物体に関係する業者が、ユーザとして認識対象の物体を指定する構成とすることで、または、ユーザとして生成を依頼する構成とすることで、安定した品質の物体認識処理を実現する３次元モデルまたは機械学習用データを提供することができる。また、新製品となる物体を、一般に流通させる前に、当該新製品となる物体についての認識精度を向上させることができる。

なお、物体が小売店で取り扱われる商品である場合、日々新しい商品（物体）が作り出される。つまり、機械学習済み認識モデルに新規に認識させたい物体の種類は、日々増加する。このような場合、上記第６の実施形態によれば、第１の中間情報と第２の中間情報とに基づいて物体認識処理が行われるため、ユーザ等は機械学習済み認識モデルの更新作業や、再訓練作業等を行う負荷を抑えることができる。また、上記第６の実施形態によれば、認識対象の物体の種類が、ほとんど無限に増えていくことで、機械学習済み認識モデルのサイズが大きくなりすぎるおそれを低減させることができる。

また、過去に期間限定で販売された商品など、物体認識処理を行う頻度や物体認識処理を行う可能性が低い物体も存在する。このように、
・物体を認識させる必要がなくなった場合、あるいは、
・認識結果または物体認識処理により得られる情報を変更したい場合（例えば、異なる物体であると認識されていたものを同じ物体であると認識させるように変更する場合）、
であっても、第６の実施形態によれば、中間情報データベース上の情報または中間情報と紐づけられ、ユーザ等に提供される物体の情報を、メンテナンスないし編集することで容易に対応することができる。

なお、このような更新、メンテナンス、編集を容易にするため、中間情報データベースは、クラウド上またはネットワーク上に存在することが好ましい。

また、ユーザ等が第６の実施形態のように中間情報を利用して物体認識処理を行う場合、中間情報はユーザ等の装置で生成されてもよい。あるいは、ユーザ等の装置と通信可能な装置であって、ユーザ等が取得した撮影画像データから中間情報を抽出する特徴量データ生成装置により生成されてもよい。

また、上記各実施形態では、ユーザ等に各種データを提供する際の処理の詳細について、特に言及しなかった。しかしながら、物体認識支援システム１００、７００、９００、１３００または物体認識システム１１００、１５００では、例えば、特定のユーザ等に各種データを提供した回数や、特定のユーザ等に提供した各種データのデータ量、データ内容等を記録してもよい。これにより、物体認識支援システム１００、７００、９００、１３００または物体認識システム１１００、１５００では、各種データを提供した回数や、各種データのデータ量、データ内容等を管理することができる。更に、特定の複数の業者が物体認識支援システム１００、７００、９００、１３００または物体認識システム１１００、１５００を利用した場合にあっては、特定の業者ごとに管理することで、例えば、利用状況に応じた課金を行うことができる。

また、上記各実施形態においても説明したとおり、物体を指定するユーザと、機械学習済み認識モデルを生成する者または物体認識支援システム、物体認識システム等を利用する者とは異なってもよい。ユーザ等は、例えば、当該物体を販売する業者や、物体を購入するなどして利用する一般の需要者、それらの物体に係る機械学習モデルを生成する者であってもよい。これにより、ユーザ等は、ユーザにより指定される物体を、ユーザ等が利用する装置またはシステムにおいて適切に認識させることができる。

［その他の実施形態］
本明細書（請求項を含む）において、「ａ、ｂおよびｃの少なくとも１つ（一方）」又は「ａ、ｂ又はｃの少なくとも１つ（一方）」の表現（同様な表現を含む）が用いられる場合は、ａ、ｂ、ｃ、ａ－ｂ、ａ－ｃ、ｂ－ｃ、又はａ－ｂ－ｃのいずれかを含む。また、ａ－ａ、ａ－ｂ－ｂ、ａ－ａ－ｂ－ｂ－ｃ－ｃ等のように、いずれかの要素について複数のインスタンスを含んでもよい。さらに、ａ－ｂ－ｃ－ｄのようにｄを有する等、列挙された要素（ａ、ｂ及びｃ）以外の他の要素を加えることも含む。

また、本明細書（請求項を含む）において、「データを入力として／データに基づいて／に従って／に応じて」等の表現（同様な表現を含む）が用いられる場合は、特に断りがない場合、各種データそのものを入力として用いる場合や、各種データに何らかの処理を行ったもの（例えば、ノイズ加算したもの、正規化したもの、各種データの中間表現等）を入力として用いる場合を含む。また「データに基づいて／に従って／に応じて」何らかの結果が得られる旨が記載されている場合、当該データのみに基づいて当該結果が得られる場合を含むとともに、当該データ以外の他のデータ、要因、条件、及び／又は状態等にも影響を受けて当該結果が得られる場合をも含み得る。また、「データを出力する」旨が記載されている場合、特に断りがない場合、各種データそのものを出力として用いる場合や、各種データに何らかの処理を行ったもの（例えば、ノイズ加算したもの、正規化したもの、各種データの中間表現等）を出力とする場合も含む。

また、本明細書（請求項を含む）において、「接続される（connected）」及び「結合される（coupled）」との用語が用いられる場合は、直接的な接続／結合、間接的な接続／結合、電気的（electrically）な接続／結合、通信的（communicatively）な接続／結合、機能的（operatively）な接続／結合、物理的（physically）な接続／結合等のいずれをも含む非限定的な用語として意図される。当該用語は、当該用語が用いられた文脈に応じて適宜解釈されるべきであるが、意図的に或いは当然に排除されるのではない接続／結合形態は、当該用語に含まれるものして非限定的に解釈されるべきである。

また、本明細書（請求項を含む）において、「ＡがＢするよう構成される（A configured to B）」との表現が用いられる場合は、要素Ａの物理的構造が、動作Ｂを実行可能な構成を有するとともに、要素Ａの恒常的（permanent）又は一時的（temporary）な設定（setting/configuration）が、動作Ｂを実際に実行するように設定（configured/set）されていることを含んでよい。例えば、要素Ａが汎用プロセッサである場合、当該プロセッサが動作Ｂを実行可能なハードウェア構成を有するとともに、恒常的（permanent）又は一時的（temporary）なプログラム（命令）の設定により、動作Ｂを実際に実行するように設定（configured）されていればよい。また、要素Ａが専用プロセッサ又は専用演算回路等である場合、制御用命令及びデータが実際に付属しているか否かとは無関係に、当該プロセッサの回路的構造が動作Ｂを実際に実行するように構築（implemented）されていればよい。

また、本明細書（請求項を含む）において、含有又は所有を意味する用語（例えば、「含む（comprising/including）」及び「有する（having）」等）が用いられる場合は、当該用語の目的語により示される対象物以外の物を含有又は所有する場合を含む、open-endedな用語として意図される。これらの含有又は所有を意味する用語の目的語が数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）である場合は、当該表現は特定の数に限定されないものとして解釈されるべきである。

また、本明細書（請求項を含む）において、ある箇所において「１つ又は複数（one or more）」又は「少なくとも１つ（at least one）」等の表現が用いられ、他の箇所において数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）が用いられているとしても、後者の表現が「１つ」を意味することを意図しない。一般に、数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）は、必ずしも特定の数に限定されないものとして解釈されるべきである。

また、本明細書において、ある実施例の有する特定の構成について特定の効果（advantage/result）が得られる旨が記載されている場合、別段の理由がない限り、当該構成を有する他の１つ又は複数の実施例についても当該効果が得られると理解されるべきである。但し当該効果の有無は、一般に種々の要因、条件、及び／又は状態等に依存し、当該構成により必ず当該効果が得られるものではないと理解されるべきである。当該効果は、種々の要因、条件、及び／又は状態等が満たされたときに実施例に記載の当該構成により得られるものに過ぎず、当該構成又は類似の構成を規定したクレームに係る発明において、当該効果が必ずしも得られるものではない。

また、本明細書（請求項を含む）において、複数のハードウェアが所定の処理を行う場合、各ハードウェアが協働して所定の処理を行ってもよいし、一部のハードウェアが所定の処理の全てを行ってもよい。また、一部のハードウェアが所定の処理の一部を行い、別のハードウェアが所定の処理の残りを行ってもよい。本明細書（請求項を含む）において、「１又は複数のハードウェアが第１の処理を行い、前記１又は複数のハードウェアが第２の処理を行う」等の表現が用いられている場合、第１の処理を行うハードウェアと第２の処理を行うハードウェアは同じものであってもよいし、異なるものであってもよい。つまり、第１の処理を行うハードウェア及び第２の処理を行うハードウェアが、前記１又は複数のハードウェアに含まれていればよい。なお、ハードウェアは、電子回路、又は、電子回路を含む装置等を含んでよい。

また、本明細書（請求項を含む）において、複数の記憶装置（メモリ）がデータの記憶を行う場合、複数の記憶装置（メモリ）のうち個々の記憶装置（メモリ）は、データの一部のみを記憶してもよいし、データの全体を記憶してもよい。

以上、本開示の実施形態について詳述したが、本開示は上記した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲において種々の追加、変更、置き換え及び部分的削除等が可能である。例えば、前述した全ての実施形態において、説明に用いた数値は、一例として示したものであり、これらに限られるものではない。また、実施形態における各動作の順序は、一例として示したものであり、これらに限られるものではない。

１００：物体認識支援システム
１０２：３次元モデル
１１０：スキャナ装置
１２０：機械学習用データ生成装置
１２１：３次元モデル取得部
１２２：位置姿勢切り替え部
１２３：撮像部
１２４：仮想空間切り替え部
１２５：機械学習用データ提供部
７００：物体認識支援システム
７１０：機械学習装置
７２０：機械学習部
７２１：認識モデル
７３０：認識モデル提供部
９００：物体認識支援システム
９１０：機械学習装置
９２０：推論部
９２１：機械学習済み認識モデル
９３０：評価部
１１００：物体認識システム
１１１０：物体認識装置
１１２０：画像データ取得部
１１３０：認識結果提供部
１３００：物体認識支援システム
１３１０：特徴量データ生成装置
１３２０：特徴量抽出部
１３３０：特徴量データ提供部
１５００：物体認識システム
１５１０：物体認識装置
１５２０：特徴量データ取得部
１５３０：マッチング部
１５４０：認識結果提供部

Claims

物体を製造、販売または流通させるユーザからの指定により生成された該物体の３次元モデルについて、複数の異なる環境である各仮想空間において撮影を行い、複数の撮影画像を生成する第１の生成部
を有する物体認識支援システム。
撮影が行われる前記各仮想空間には、光環境の異なる各仮想空間、前記ユーザからの指定により生成された前記物体の３次元モデルとは異なる物体の３次元モデルの配置状況が異なる各仮想空間、前記３次元モデルと撮像部との間の相対的な位置または姿勢が異なる各仮想空間、のいずれかが含まれる、請求項１に記載の物体認識支援システム。
生成された前記複数の撮影画像を入力として認識モデルの機械学習を行い、機械学習済みモデルを生成する第２の生成部を更に有する、請求項２に記載の物体認識支援システム。
前記第１の生成部は、
評価用の撮影画像を入力とした場合の、前記機械学習済みモデルの認識結果に基づいて、前記光環境、前記配置状況、前記相対的な位置または姿勢、のいずれかを異ならせた仮想空間において、前記物体の３次元モデルについて撮影を行い、新たな複数の撮影画像を生成し、
前記第２の生成部は、
生成された前記新たな複数の撮影画像を入力として前記機械学習済みモデルの機械学習を行う、請求項３に記載の物体認識支援システム。
前記第１の生成部は、
評価用の撮影画像を入力とした場合の、前記機械学習済みモデルの認識結果が所定の認識精度に到達していない場合であって、前記評価用の撮影画像に含まれる物体の３次元モデルが生成された場合に、複数の異なる環境である前記各仮想空間において、前記評価用の撮影画像に含まれる物体の３次元モデルについて撮影を行い、新たな複数の撮影画像を生成し、
前記第２の生成部は、
生成された前記新たな複数の撮影画像を用いて、前記機械学習済みモデルについて、再度、機械学習を行う、請求項３に記載の物体認識支援システム。
前記機械学習済みモデルは、入力される撮影画像に対して物体認識処理を行う、請求項３に記載の物体認識支援システム。
物体を製造、販売または流通させるユーザからの指定により生成された該物体の３次元モデルについて、複数の異なる環境である各仮想空間において撮影が行われ、複数の撮影画像が生成された場合に、該生成された複数の撮影画像を入力として認識モデルの機械学習を行い、機械学習済みモデルを生成する生成部と、
前記機械学習済みモデルに、新たな撮影画像を入力することで、該新たな撮影画像に含まれる物体の認識結果を提供する提供部と
を有する物体認識システム。
物体を製造、販売または流通させるユーザからの指定により生成された該物体の３次元モデルについて、複数の異なる環境である各仮想空間において撮影が行われ、複数の撮影画像が生成された場合に、該生成された複数の撮影画像を入力として認識モデルの機械学習を行い、機械学習済みモデルを生成する生成部と、
前記複数の撮影画像を前記機械学習済みモデルに入力することで、前記複数の撮影画像それぞれから中間情報を抽出する抽出部と
を有する物体認識支援システム。
物体を製造、販売または流通させるユーザからの指定により生成された該物体の撮影画像に対して、機械学習済みモデルが物体認識処理を行う場合に、該物体の撮影画像から抽出される中間情報と、新たな撮影画像から抽出される中間情報とに基づいて、該新たな撮影画像に含まれる物体の認識結果を提供する提供部
を有する物体認識システム。
物体を製造、販売または流通させるユーザからの指定により生成された該物体の３次元モデルについて、複数の異なる環境である各仮想空間において撮影を行い、複数の撮影画像を生成する工程
を有する物体認識支援方法。
物体を製造、販売または流通させるユーザからの指定により生成された該物体の３次元モデルについて、複数の異なる環境である各仮想空間において撮影を行い、複数の撮影画像を生成した場合に、該生成した複数の撮影画像を入力として認識モデルの機械学習を行い、機械学習済みモデルを生成する工程と、
前記機械学習済みモデルに、新たな撮影画像を入力することで、該新たな撮影画像に含まれる物体の認識結果を提供する工程と
を有する物体認識方法。
物体の画像を入力とする認識モデルである機械学習済みモデルに、物体を製造、販売または流通させるユーザからの指定により生成された該物体の画像を入力することで、該物体の画像から中間情報を抽出する工程
を有する物体認識支援方法。
物体の画像を入力とする認識モデルである機械学習済みモデルに、物体を製造、販売または流通させるユーザからの指定により生成された該物体の画像を入力することで抽出された中間情報と、新たな画像を入力することで抽出される中間情報とに基づいて、該新たな画像に含まれる物体の認識結果を提供する工程
を有する物体認識方法。