JP2024012721A - 物体認識支援システム、物体認識システム、物体認識支援方法及び物体認識方法 - Google Patents

物体認識支援システム、物体認識システム、物体認識支援方法及び物体認識方法 Download PDF

Info

Publication number
JP2024012721A
JP2024012721A JP2020172630A JP2020172630A JP2024012721A JP 2024012721 A JP2024012721 A JP 2024012721A JP 2020172630 A JP2020172630 A JP 2020172630A JP 2020172630 A JP2020172630 A JP 2020172630A JP 2024012721 A JP2024012721 A JP 2024012721A
Authority
JP
Japan
Prior art keywords
recognition
machine learning
machine
model
object recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020172630A
Other languages
English (en)
Inventor
悠太 菊池
Yuta Kikuchi
叡一 松元
Eiichi Matsumoto
泰輔 橋本
Taisuke Hashimoto
政浩 石山
Masahiro Ishiyama
昌伸 塚田
Masanobu Tsukada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Preferred Networks Inc
Original Assignee
Preferred Networks Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Preferred Networks Inc filed Critical Preferred Networks Inc
Priority to JP2020172630A priority Critical patent/JP2024012721A/ja
Priority to PCT/JP2021/037691 priority patent/WO2022080356A1/ja
Publication of JP2024012721A publication Critical patent/JP2024012721A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 物体の認識精度を向上させる物体認識支援システム、物体認識システム、物体認識支援方法及び物体認識方法を提供する。【解決手段】 物体認識支援システムは、物体を製造、販売または流通させるユーザからの指定により生成された該物体の3次元モデルについて、複数の異なる環境である各仮想空間において撮影を行い、複数の撮影画像を生成する第1の生成部を有する。【選択図】図1

Description

本開示は、物体認識支援システム、物体認識システム、物体認識支援方法及び物体認識方法に関する。
画像データに含まれる物体を認識する認識モデルについて機械学習を行い、実用水準の認識精度を得るためには、一般に、機械学習用の画像データを多数用意する必要がある。
一方で、画像データに対してデータ拡張処理(画像データに含まれる物体に対する、移動、回転、拡大、縮小等の各種処理)を施して機械学習を行うだけでは、多種多様な物体を取り扱うユーザの場合、実用水準の認識精度を得ることができないこともある。
国際公開第2018/142766号 特開2018-173711号公報 特許第6622369号 特開2019-32782号公報
本開示は、物体の認識精度を向上させる物体認識支援システム、物体認識システム、物体認識支援方法及び物体認識方法を提供する。
本開示の一態様による物体認識支援システムは、例えば、以下のような構成を有する。即ち、
物体を製造、販売または流通させるユーザからの指定により生成された該物体の3次元モデルについて、複数の異なる環境である各仮想空間において撮影を行い、複数の撮影画像を生成する第1の生成部を有する。
第1の実施形態に係る物体認識支援システムのシステム構成の一例を示す図である。 機械学習用データ生成装置のハードウェア構成の一例を示す図である。 位置姿勢切り替え部による処理の具体例を示す図である。 仮想空間切り替え部による処理の具体例を示す図である。 撮像部による処理の具体例を示す図である。 機械学習用データ提供処理の流れを示すフローチャートである。 第2の実施形態に係る物体認識支援システムのシステム構成の一例を示す図である。 機械学習済み認識モデル提供処理の流れを示す第1のフローチャートである。 第3の実施形態に係る物体認識支援システムのシステム構成の一例を示す図である。 機械学習済み認識モデル提供処理の流れを示す第2のフローチャートである。 第4の実施形態に係る物体認識システムのシステム構成の一例を示す図である。 認識結果提供処理の流れを示す第1のフローチャートである。 第5の実施形態に係る物体認識支援システムのシステム構成の一例を示す図である。 特徴量データ提供処理の流れを示すフローチャートである。 第6の実施形態に係る物体認識システムのシステム構成の一例を示す図である。 認識結果提供処理の流れを示す第2のフローチャートである。
以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。
[第1の実施形態]
<物体認識支援システムのシステム構成>
はじめに、物体認識支援システムのシステム構成について説明する。「物体認識支援システム」とは、ユーザの要求に応じて、物体認識処理を実現するためのデータまたは物体を認識するための認識モデルを提供するシステムである。
図1は、第1の実施形態に係る物体認識支援システムのシステム構成の一例を示す図である。図1に示すように、物体認識支援システム100は、スキャナ装置110と、機械学習用データ生成装置120とを有する。物体認識支援システム100は、ユーザにより指定された、認識対象の物体を受け取り、物体認識処理を実現するためのデータ(物体を認識するための認識モデルについて機械学習を行う際に用いる、機械学習用データ)を生成して、ユーザ等に提供する。これにより、物体認識支援システム100では、ユーザ等による機械学習済み認識モデルの生成を支援することができる。なお、"ユーザ等"としたのは、認識対象の物体を指定する者(ユーザ)と、機械学習用データを用いて実際に機械学習済み認識モデルを生成する者とが同じとは限らないからである。
スキャナ装置110は、ユーザにより指定された、認識対象の物体101を受け取り、物体101をスキャンすることで、物体101表面の凹凸を検知し、3次元モデル102を生成する。
機械学習用データ生成装置120には、機械学習用データ生成プログラムがインストールされており、機械学習用データ生成装置120は、当該プログラムを実行することで、
・3次元モデル取得部121、
・位置姿勢切り替え部122、
・撮像部123、
・仮想空間切り替え部124、
・機械学習用データ提供部125、
として機能する。
3次元モデル取得部121は、スキャナ装置110より3次元モデル102を取得し、位置姿勢切り替え部122に通知する。
位置姿勢切り替え部122は、仮想空間内において、例えば、撮像部123が3次元モデル102を撮影する際の、撮像部123と3次元モデル102との間の相対的な位置または姿勢を切り替える。ただし、以下では説明の簡略化のため、撮像部123の位置及び姿勢は固定とし、3次元モデル102の位置または姿勢を切り替えるものとする。位置姿勢切り替え部122は、位置または姿勢を切り替えた後の3次元モデル102を撮像部123に通知する。
撮像部123は第1の生成部の一例であり、位置姿勢切り替え部122より通知される、位置または姿勢を切り替えた後の3次元モデル102を仮想空間内において撮影し、撮影画像データを生成する。撮像部123は、生成した撮影画像データを、該撮影画像データに含まれる物体101の認識結果(正解データ)と対応付けて、機械学習用データとして、機械学習用データ格納部126に格納する。
なお、撮影画像データに含まれる物体101の認識結果とは、撮影画像データを、後述する認識モデルに入力した際に、該認識モデルから出力される認識結果と同レベルの情報(正解データ)を指す。
例えば、認識モデルが、撮影画像データに含まれる物体を識別するclassification処理を実行する場合にあっては、物体101の認識結果には、物体101を示すラベルが含まれる。
また、例えば、認識モデルが、撮影画像データのどこにどのような物体が含まれるかを判定するdetection処理を実行する場合にあっては、物体101の認識結果には、物体101の位置、及び、物体101を示すラベルが含まれる。
また、例えば、認識モデルが、撮影画像データに含まれる各領域の意味を判定するsegmentation処理を実行する場合にあっては、物体101の認識結果には、物体101の領域、及び、物体101を示すラベルが含まれる。
仮想空間切り替え部124は、撮像部123が3次元モデル102を撮影する際の仮想空間を切り替える。仮想空間切り替え部124は、切り替えた後の仮想空間を撮像部123に通知する。仮想空間切り替え部124が切り替えたそれぞれの仮想空間は、互いに異なる環境を再現した仮想空間である。異なる環境とは、例えば、光環境の異なる環境や、配置されている物体の3次元モデルのうち、認識対象の物体以外の物体の3次元モデルの種類、数、位置等の配置状況が異なる環境を指す。つまり、本明細書において、複数の仮想空間とは、このように異なる環境となるよう、異なる条件(環境に関わる条件)が組み合わされて設定された仮想空間のことを指す。したがって、ある仮想空間と、その仮想空間のある条件が切り替えられて設定された仮想空間とは、異なる仮想空間として取り扱われる。
機械学習用データ提供部125は、機械学習用データ格納部126に格納された機械学習用データを、ユーザ等に提供する。これにより、ユーザ等は、物体の3次元モデルについて、複数の異なる環境である各仮想空間において撮影が行われ、生成された撮影画像データ、具体的には、
・3次元モデルの位置または姿勢を切り替えて撮影した撮影画像データ、あるいは、
・仮想空間を切り替えて3次元モデルを撮影した撮影画像データ、
を含む機械学習用データを取得することができる。
なお、図1に示した機械学習用データ生成装置120の機能構成は一例にすぎず、他の機能構成を有していてもよい。例えば、機械学習用データ格納部126及び機械学習用データ提供部125は、機械学習用データの格納または提供の方式によっては、機械学習用データ生成装置120に備えられていない、または、含まれていなくてもよい。
<機械学習用データ生成装置のハードウェア構成>
次に、機械学習用データ生成装置120のハードウェア構成について説明する。図2は、機械学習用データ生成装置のハードウェア構成の一例を示す図である。図2に示すように、機械学習用データ生成装置120は、構成要素として、プロセッサ201、主記憶装置(メモリ)202、補助記憶装置203、ネットワークインタフェース204、デバイスインタフェース205を有する。機械学習用データ生成装置120は、これらの構成要素がバス206を介して接続されたコンピュータとして実現される。
なお、図2の例では、機械学習用データ生成装置120は、各構成要素を1個ずつ備えるものとして示しているが、機械学習用データ生成装置120は、同じ構成要素を複数備えていてもよい。また、図2の例では、1台の機械学習用データ生成装置120が示されているが、機械学習用データ生成プログラムが複数台の機械学習用データ生成装置にインストールされて、当該複数台の機械学習用データ生成装置それぞれが機械学習用データ生成プログラムの同一のまたは異なる一部の処理を実行するように構成してもよい。この場合、機械学習用データ生成装置それぞれがネットワークインタフェース204等を介して通信することで全体の処理を実行する分散コンピューティングの形態をとってもよい。つまり、機械学習用データ生成装置120は、1または複数の記憶装置に記憶された命令を1台または複数台のコンピュータが実行することで機能を実現するシステムとして構成されてもよい。また、スキャナ装置110から送信された各種データをクラウド上に設けられた1台または複数台の機械学習用データ生成装置で処理し、処理結果をユーザ等に送信する構成であってもよい。
機械学習用データ生成装置120の各種演算は、1または複数のプロセッサを用いて、または、通信ネットワーク210を介して通信する複数台の機械学習用データ生成装置を用いて並列処理で実行されてもよい。また、各種演算は、プロセッサ201内に複数ある演算コアに振り分けられて、並列処理で実行されてもよい。また、本開示の処理、手段等の一部または全部は、通信ネットワーク210を介して機械学習用データ生成装置120と通信可能なクラウド上に設けられた外部装置220(プロセッサ及び記憶装置の少なくとも一方)により実行されてもよい。このように、機械学習用データ生成装置120は、1台または複数台のコンピュータによる並列コンピューティングの形態をとってもよい。
プロセッサ201は、電子回路(処理回路、Processing circuit、Processing circuitry、CPU、GPU、FPGA、又はASIC等)であってもよい。また、プロセッサ201は、専用の処理回路を含む半導体装置等であってもよい。なお、プロセッサ201は、電子論理素子を用いた電子回路に限定されるものではなく、光論理素子を用いた光回路により実現されてもよい。また、プロセッサ201は、量子コンピューティングに基づく演算機能を含むものであってもよい。
プロセッサ201は、機械学習用データ生成装置120の内部構成の各装置等から入力された各種データや命令に基づいて各種演算を行い、演算結果や制御信号を各装置等に出力する。プロセッサ201は、OS(Operating System)や、アプリケーション等を実行することにより、機械学習用データ生成装置120が備える各構成要素を制御する。
また、プロセッサ201は、1チップ上に配置された1又は複数の電子回路を指してもよいし、2つ以上のチップあるいはデバイス上に配置された1又は複数の電子回路を指してもよい。複数の電子回路を用いる場合、各電子回路は有線又は無線により通信してもよい。
主記憶装置202は、プロセッサ201が実行する命令及び各種データ等を記憶する記憶装置であり、主記憶装置202に記憶された各種データがプロセッサ201により読み出される。補助記憶装置203は、主記憶装置202以外の記憶装置である。なお、これらの記憶装置は、各種データを格納可能な任意の電子部品を意味するものとし、半導体のメモリでもよい。半導体のメモリは、揮発性メモリ、不揮発性メモリのいずれでもよい。機械学習用データ生成装置120において各種データを保存するための記憶装置は、主記憶装置202又は補助記憶装置203により実現されてもよく、プロセッサ201に内蔵される内蔵メモリにより実現されてもよい。
また、1つの主記憶装置202に対して、複数のプロセッサ201が接続(結合)されてもよいし、単数のプロセッサ201が接続されてもよい。あるいは、1つのプロセッサ201に対して、複数の主記憶装置202が接続(結合)されてもよい。機械学習用データ生成装置120が、少なくとも1つの主記憶装置202と、この少なくとも1つの主記憶装置202に接続(結合)される複数のプロセッサ201とで構成される場合、複数のプロセッサ201のうち少なくとも1つのプロセッサが、少なくとも1つの主記憶装置202に接続(結合)される構成を含んでもよい。また、複数台の機械学習用データ生成装置120に含まれる主記憶装置202とプロセッサ201とによって、この構成が実現されてもよい。さらに、主記憶装置202がプロセッサと一体になっている構成(例えば、L1キャッシュ、L2キャッシュを含むキャッシュメモリ)を含んでもよい。
ネットワークインタフェース204は、無線又は有線により、通信ネットワーク210に接続するためのインタフェースである。ネットワークインタフェース204には、既存の通信規格に適合したもの等、適切なインタフェースが用いられる。ネットワークインタフェース204により、通信ネットワーク210を介して接続されたスキャナ装置110やその他の外部装置220と各種データのやり取りが行われてもよい。なお、通信ネットワーク210は、WAN(Wide Area Network)、LAN(Local Area Network)、PAN(Personal Area Network)等のいずれか、又は、それらの組み合わせであってもよく、コンピュータとスキャナ装置110やその他の外部装置220との間で情報のやり取りが行われるものであればよい。WANの一例としてインタネット等があり、LANの一例としてIEEE802.11やイーサネット等があり、PANの一例としてBluetooth(登録商標が)やNFC(Near Field Communication)等がある。
デバイスインタフェース205は、外部装置230と直接接続するUSB等のインタフェースである。
外部装置230はコンピュータと接続されている装置である。外部装置230は、一例として、入力装置であってもよい。入力装置は、例えば、カメラ、マイクロフォン、モーションキャプチャ、各種センサ、キーボード、マウス、又はタッチパネル等のデバイスであり、取得した情報をコンピュータに与える。また、パーソナルコンピュータ、タブレット端末、又はスマートフォン等の入力部とメモリとプロセッサとを備えるデバイス等であってもよい。
また、外部装置230は、一例として、出力装置であってもよい。出力装置は、例えば、LCD(Liquid Crystal Display)、CRT(Cathode Ray Tube)、PDP(Plasma Display Panel)、又は有機EL(Electro Luminescence)パネル等の表示装置であってもよいし、音声等を出力するスピーカ等であってもよい。また、パーソナルコンピュータ、タブレット端末、又はスマートフォン等の出力部とメモリとプロセッサとを備えるデバイス等であってもよい。
また、外部装置230は、記憶装置(メモリ)であってもよい。例えば、外部装置230はネットワークストレージ等であってもよく、外部装置230はHDD等のストレージであってもよい。
また、外部装置230は、機械学習用データ生成装置120の構成要素の一部の機能を有する装置でもよい。つまり、コンピュータは、外部装置230の処理結果の一部又は全部を送信または受信してもよい。
<位置姿勢切り替え部による処理の具体例>
次に、位置姿勢切り替え部122による処理の具体例について説明する。図3は、位置姿勢切り替え部による処理の具体例を示す図である。
このうち、図3(a)は、3次元モデル102の姿勢を切り替える様子を示したものである。図3(a)に示すように、位置姿勢切り替え部122では、3次元モデル102の位置を維持したまま、任意の姿勢に切り替えることができる。
一方、図3(b)は、3次元モデル102の位置を切り替える様子を示している。図3(b)に示すように、位置姿勢切り替え部122では、3次元モデル102の姿勢を維持したまま、任意の位置に切り替える(前後、左右に移動させる)ことができる。
なお、図3の例では、3次元モデル102の姿勢または位置のいずれか一方を切り替える場合について例示したが、姿勢及び位置の両方を同時に切り替えてもよい。
<仮想空間切り替え部による処理の具体例>
次に、仮想空間切り替え部124による処理の具体例について説明する。図4は、仮想空間切り替え部による処理の具体例を示す図である。
このうち、図4(a)は、互いに光環境の異なる複数の仮想空間を示している。ただし、説明の便宜上、図4(a)では、各仮想空間の内部の様子がわかるように、仮想空間の天井部分を省略し、かつ、仮想空間の手前側の側壁を切り欠いて示している。
仮想空間401は、照明機器(光源)のない空間を表している。仮想空間401の場合、3次元モデル102を配置して撮影を行った場合でも、3次元モデル102の表面に明暗が生じることはなく、また、仮想空間401の底面に、3次元モデル102の影が写り込むこともない。
一方、図4(a)における仮想空間402~404は、それぞれ、仮想空間の奥の側壁、右の側壁、及び、底面に照明機器(光源)が設置された空間を表している。仮想空間402~404に3次元モデル102を配置して撮影を行った場合、3次元モデル102の表面には、光源からの光の照射方向に応じた明暗が生じるとともに、仮想空間402~404の側壁、天井等には、3次元モデル102の影が写り込むことになる。
一方、図4(b)は、仮想空間内に配置された物体の3次元モデル(物体101の3次元モデル102とは異なる物体の3次元モデル)の種類、数、位置等の配置状況が異なる仮想空間を示している。ただし、図4(a)と同様に、説明の便宜上、図4(b)では、仮想空間の天井部分を省略し、かつ、仮想空間の手前側の側壁を切り欠いて示している。また、図4(b)は、いずれも光環境が同じで、仮想空間内に照明機器(光源)がない場合を示している。
仮想空間411は、物体101の3次元モデル102とは異なる物体の3次元モデル421が配置された様子を表している。また、仮想空間412は、物体101の3次元モデル102とは異なる物体の3次元モデル422が配置された様子を表している。また、仮想空間413は、物体101の3次元モデル102とは異なる物体の3次元モデル421、422が配置された様子を示している。更に、仮想空間414は、物体101の3次元モデル102とは異なる物体の3次元モデル421、422が配置され、かつ、仮想空間413とは、3次元モデル421、422の位置が異なる空間を表している。
なお、図4の例では、仮想空間内の光環境、物体101の3次元モデル102以外の3次元モデルの種類、数、位置のいずれか1つの条件を切り替える場合について示した。しかしながら、光環境、3次元モデルの種類、数、位置のいずれかの2つ(あるいは、3つ、2以上、あるいは全て)ないし複数の条件を切り替えるようにしてもよい。また、光環境、3次元モデルの種類、数、位置以外の仮想空間の環境に関わる条件を切り替えてもよい。
<撮像部による処理の具体例>
次に、撮像部123による処理の具体例について説明する。図5は、撮像部による処理の具体例を示す図である。図5(a)に示すように、撮影画像データ500_1_1は、
・位置姿勢切り替え部122が、3次元モデル102の姿勢、位置を、第1の位置姿勢パターン(姿勢_1、位置_1の組み合わせパターン)に切り替え、
・仮想空間切り替え部124が、仮想空間内の光環境、3次元モデルの種類、数、位置を、第1の仮想空間パターン(光環境_1、種類_1、数_1、位置_1の組み合わせパターン)に切り替えた、
状態で、撮像部123が撮影した撮影画像データの一例である。
なお、撮影画像データ500_1_2、500_1_3、500_1_4、・・・は、第1の仮想空間パターンのもとで、位置姿勢切り替え部122が、第2、第3、第4、・・・の位置姿勢パターンに切り替えて撮影した撮影画像データを示している。なお、例えば、第2の位置姿勢パターンとは、(姿勢_2、位置_1)の組み合わせパターンを指す。
同様に、図5(b)に示すように、撮影画像データ500_2_1は、
・位置姿勢切り替え部122が、3次元モデル102の姿勢、位置を、第1の位置姿勢パターン(姿勢_1、位置_1の組み合わせパターン)に切り替え、
・仮想空間切り替え部124が、仮想空間内の光環境、3次元モデルの種類、数、位置を、第2の仮想空間パターン(光環境_1、種類_2、数_1、位置_1の組み合わせパターン)に切り替えた、
状態で、撮像部123が撮影した撮影画像データの一例である。
なお、撮影画像データ500_3_1、500_4_1、500_5_1、・・・は、第1の位置姿勢パターンのもとで、仮想空間切り替え部124が、第3、第4、第5、・・・の仮想空間パターンに切り替えて撮影した撮影画像データを示している。なお、例えば、第3の仮想空間パターンとは、(光環境_1、種類_2、数_1、位置_2)の組み合わせパターンを指す。
<機械学習用データ提供処理の流れ>
次に、本実施形態の物体認識支援システム100による機械学習用データ提供処理の流れについて説明する。図6は、機械学習用データ提供処理の流れを示すフローチャートである。
ステップS601において、スキャナ装置110は、ユーザにより指定された、認識対象の物体をスキャンし、3次元モデルを生成する。
ステップS602において、機械学習用データ生成装置120の撮像部123は、仮想空間の組み合わせパターンを示すカウンタNに"1"を入力する。
ステップS603において、機械学習用データ生成装置120の仮想空間切り替え部124は、第Nの仮想空間パターンを、撮像部123に設定する。
ステップS604において、機械学習用データ生成装置120の撮像部123は、位置姿勢の組み合わせパターンを示すカウンタMに"1"を入力する。
ステップS605において、機械学習用データ生成装置120の位置姿勢切り替え部122は、第Mの位置姿勢パターンを、撮像部123に設定する。
ステップS606において、機械学習用データ生成装置120の撮像部123は、第Nの仮想空間パターンのもとで、第Mの位置姿勢パターンの3次元モデルを撮影し、撮影画像データN_Mを生成する。
ステップS607において、機械学習用データ生成装置120の撮像部123は、物体の認識結果(正解データ)と対応付けて、撮影画像データN_Mを、機械学習用データとして、機械学習用データ格納部126に格納する。
ステップS608において、機械学習用データ生成装置120の撮像部123は、所定の位置姿勢の組み合わせパターンについて、撮影画像データを生成したか否かを判定する。
ステップS608において、撮影画像データを生成していない位置姿勢の組み合わせパターンがあると判定した場合には(ステップS608においてNoの場合には)、ステップS609に進む。
ステップS609において、機械学習用データ生成装置120の撮像部123は、位置姿勢の組み合わせパターンを示すカウンタMをインクリメントして、ステップS605に戻る。
一方、ステップS608において、所定の位置姿勢の組み合わせパターンについて、撮影画像データを生成したと判定した場合には(ステップS608においてYesの場合には)、ステップS610に進む。
ステップS610において、機械学習用データ生成装置120の撮像部123は、所定の仮想空間の組み合わせパターンについて、撮影画像データを生成したか否かを判定する。
ステップS610において、撮影画像データを生成していない仮想空間の組み合わせパターンがあると判定した場合には(ステップS610においてNoの場合には)、ステップS611に進む。
ステップS611において、機械学習用データ生成装置120の撮像部123は、仮想空間の組み合わせパターンを示すカウンタNをインクリメントして、ステップS603に戻る。
一方、ステップS610において、所定の仮想空間の組み合わせパターンについて、撮影画像データを生成したと判定した場合には(ステップS610においてYesの場合には)、ステップS612に進む。
ステップS612において、機械学習用データ提供部125は、機械学習用データをユーザ等に提供する。
ステップS613において、機械学習用データ生成装置120の3次元モデル取得部121は、機械学習用データ提供処理を終了するか否かを判定する。
ステップS613において、機械学習用データ提供処理を継続すると判定した場合には(ステップS613においてNoの場合には)、ステップS601に戻る。
一方、ステップS613において、機械学習用データ提供処理を終了すると判定した場合には(ステップS613においてYesの場合には)、機械学習用データ提供処理を終了する。
<まとめ>
以上の説明から明らかなように、第1の実施形態に係る物体認識支援システム100は、
・ユーザからの指定により、物体をスキャンし、3次元モデルを生成する。
・3次元モデルについて、複数の異なる環境を再現する各仮想空間において撮影を行い、複数の撮影画像データを生成する。ただし、撮影が行われる各仮想空間には、光環境の異なる各仮想空間、3次元モデルとは異なる物体の3次元モデルの配置状況が異なる各仮想空間、3次元モデルと撮像部との相対的な位置または姿勢が異なる各仮想空間、のいずれかが含まれる。
これにより、第1の実施形態に係る物体認識支援システム100によれば、物体認識処理の認識精度を向上させる、機械学習用データを提供することが可能になる。
[第2の実施形態]
上記第1の実施形態では、機械学習用データを提供する物体認識支援システムについて説明した。これに対して、第2の実施形態では、機械学習用データを用いて機械学習を行い、機械学習済み認識モデルを提供する物体認識支援システムについて説明する。
<物体認識支援システムのシステム構成>
図7は、第2の実施形態に係る物体認識支援システムのシステム構成の一例を示す図である。図7に示すように、第2の実施形態に係る物体認識支援システム700は、スキャナ装置110、機械学習用データ生成装置120に加えて、機械学習装置710を有する。
なお、機械学習装置710のハードウェア構成は、機械学習用データ生成装置120のハードウェア構成と同様であるため、ここでは説明を省略する。また、機械学習装置710には、機械学習済み認識モデル生成プログラムがインストールされており、機械学習装置710は、当該プログラムを実行することで、機械学習部720、認識モデル提供部730として機能する。
機械学習部720は第2の生成部の一例である。機械学習部720は、認識モデル721を有し、機械学習用データ格納部126より読み出した機械学習用データを用いて、認識モデル721について機械学習(訓練)を行うことで、機械学習済み認識モデルを生成する。
なお、機械学習部720により生成される機械学習済み認識モデルは、例えば、新たな撮影画像データに対して、物体認識処理として、segmentation処理を実行する認識モデルであるとする。あるいは、機械学習済み認識モデルは、物体認識処理として、例えば、detection処理、classification処理、re-identification処理、pose estimation処理のいずれかを実行する認識モデルであってもよい。あるいは、機械学習済み認識モデルは、物体認識処理として、scene graph処理、dense correspondence処理、multi-modal処理のいずれかを実行する認識モデルであってもよい。
認識モデル提供部730は、機械学習部720により生成された、機械学習済み認識モデルを、ユーザ等に提供する。これにより、ユーザ等は、上記機械学習用データを用いて機械学習が行われた機械学習済み認識モデルを取得し、利用することができる。なお、ここでも"ユーザ等"としたのは、認識対象の物体を指定する者(ユーザ)と、機械学習済み認識モデルを取得し、利用する者とが同じとは限らないからである。
<機械学習済み認識モデル提供処理の流れ>
次に、本実施形態の物体認識支援システム700による機械学習済み認識モデル提供処理の流れについて説明する。図8は、機械学習済み認識モデル提供処理の流れを示す第1のフローチャートである。
ステップS801において、機械学習用データ生成装置120の3次元モデル取得部121~仮想空間切り替え部124は、機械学習用データ生成処理を実行する。なお、機械学習用データ生成処理は、図6の機械学習用データ提供処理のうち、ステップS612を除く処理と同じであるため、ここでは詳細な説明は省略する。
ステップS802において、機械学習装置710の機械学習部720は、機械学習用データ格納部126より、機械学習用データを読み出す。
ステップS803において、機械学習装置710の機械学習部720は、機械学習用データを用いて、認識モデル721について機械学習を行う。
ステップS804において、機械学習装置710の機械学習部720は、機械学習の終了条件を満たすか否かを判定する。
ステップS804において、終了条件を満たしていないと判定した場合には(ステップS804においてNoの場合には)、ステップS802に戻る。
一方、ステップS804において、終了条件を満たすと判定した場合には(ステップS804においてYesの場合には)、ステップS805に進む。
ステップS805において、機械学習装置710の認識モデル提供部730は、機械学習済み認識モデルをユーザ等に提供する。
<まとめ>
以上の説明から明らかなように、第2の実施形態に係る物体認識支援システム700は、
・ユーザからの指定により物体をスキャンし、3次元モデルを生成する。
・3次元モデルについて、複数の異なる環境を再現する各仮想空間において撮影を行い、複数の撮影画像データを生成する。
・生成した複数の撮影画像データを入力として認識モデルの機械学習を行い、機械学習済み認識モデルを生成する。
これにより、第2の実施形態に物体認識支援システム700によれば、物体認識処理の認識精度を向上させる、機械学習済み認識モデルを提供することが可能になる。
[第3の実施形態]
上記第2の実施形態では、機械学習用データ生成処理(図8のステップS801)において生成した機械学習用データを用いて機械学習を行うことで、機械学習済み認識モデルを生成する場合について説明した。
これに対して、第3の実施形態では、ステップS801において生成した機械学習用データを用いて機械学習を行うとともに、機械学習済み認識モデルについて、評価用画像データを用いて評価を行う。また、第3の実施形態では、評価結果に応じて機械学習用データを新たに生成し、機械学習済み認識モデルについて、再度、機械学習を行う。以下、第3の実施形態について、上記第2の実施形態との相違点を中心に説明する。
<物体認識支援システムのシステム構成>
図9は、第3の実施形態に係る物体認識支援システムのシステム構成の一例を示す図である。図7に示した第2の実施形態に係る物体認識支援システム700との相違点は、第3の実施形態に係る物体認識支援システム900の場合、機械学習装置910が、更に、推論部920、評価部930を有する点である。
推論部920は、機械学習部720により生成された機械学習済み認識モデル921を有する。推論部920は、評価用画像データを機械学習済み認識モデル921に入力することで、機械学習済み認識モデル921より出力された認識結果を取得し、評価部930に通知する。
評価部930は、推論部920より通知された認識結果を評価し、所定の認識精度に到達しているか否かを判定する。また、評価部930は、所定の認識精度に到達していないと判定した場合には、認識結果に基づいて、位置姿勢切り替え部122または仮想空間切り替え部124のいずれか一方または両方に、切り替え指示を通知(送信)する。なお、当該切り替え指示は、認識精度を向上させるために有効な新たな機械学習用データが取得できるように、位置姿勢の組み合わせパターンや仮想空間の組み合わせパターンを指定する切り替え指示であってもよい。あるいは、単なる切り替え指示(組み合わせパターンを指定しない切り替え指示)であってもよい。
なお、切り替え指示が通知された、位置姿勢切り替え部122または仮想空間切り替え部124のいずれか一方または両方は、位置姿勢の組み合わせパターンまたは仮想空間の組み合わせパターンを切り替える。これにより、撮像部123では、認識結果に応じた新たな機械学習用データを生成し、機械学習用データ格納部126に格納する。
この場合、機械学習部720では、新たな機械学習用データを用いて、再度、認識モデル721の機械学習を行うことで、機械学習済み認識モデル921を再度生成する。
なお、評価部930による評価は、所定の認識精度に到達するまで繰り返し実行されるものとする。また、所定の認識精度に到達した場合、認識モデル提供部730は、所定の認識精度に到達した際の機械学習済み認識モデルを、ユーザ等に提供する。これにより、ユーザ等は、所定の認識精度に到達した機械学習済み認識モデルを取得することができる。
<機械学習済み認識モデル提供処理の流れ>
次に、本実施形態の物体認識支援システム900による機械学習済み認識モデル提供処理の流れについて説明する。図10は、機械学習済み認識モデル提供処理の流れを示す第2のフローチャートである。なお、図10に示すフローチャートのうち、ステップS801~S804までの処理は、図8に示すフローチャートのステップS801~S804までの処理と同じであるため、ここでは説明を省略する。
ステップS1001において、機械学習装置910の推論部920は、評価用画像データを機械学習済み認識モデル921に入力することで、機械学習済み認識モデル921より認識結果を取得する。
ステップS1002において、機械学習装置910の評価部930は、認識結果が、所定の認識精度を有するか否かを判定する。ステップS1002において、所定の認識精度を有していないと判定した場合には(ステップS1002においてNoの場合には)、ステップS1003に進む。
ステップS1003において、機械学習装置910の評価部930は、評価結果に基づいて、切り替え指示を出力する。これにより、位置姿勢の組み合わせパターンまたは仮想空間の組み合わせパターンのいずれか一方または両方が切り替わり、ステップS801に戻る。この場合、ステップS801では、評価結果に応じた新たな機械学習用データが生成される。
一方、ステップS1002において所定の認識精度を有していると判定した場合には(ステップS1002においてYesの場合には)、ステップS1004に進む。
ステップS1004において、機械学習装置910の認識モデル提供部730は、所定の認識精度に到達した際の機械学習済み認識モデルを、ユーザ等に提供する。
<まとめ>
以上の説明から明らかなように、第3の実施形態に係る物体認識支援システム900は、
・ユーザからの指定により物体をスキャンし、3次元モデルを生成する。
・3次元モデルについて、複数の異なる環境を再現する各仮想空間において撮影を行い、複数の撮影画像データを生成する。
・生成した複数の撮影画像データを入力として認識モデルの機械学習を行い、機械学習済み認識モデルを生成する。
・評価用画像データを用いて機械学習済み認識モデルを評価し、評価結果に基づいて、位置姿勢の組み合わせパターンまたは仮想空間の組み合わせパターンのいずれか一方または両方を切り替えて、新たな機械学習用データを生成する。
・生成した新たな機械学習用データを入力として、再度、機械学習済み認識モデルの機械学習を行い、機械学習済み認識モデルを再度生成する。
これにより、第3の実施形態に係る物体認識支援システム900によれば、物体認識処理の認識精度を更に向上させる、機械学習済み認識モデルを提供することが可能になる。
[第4の実施形態]
上記第2の実施形態では、生成した機械学習済み認識モデルをユーザ等に提供する物体認識支援システムについて説明した。これに対して、第4の実施形態では、生成した機械学習済み認識モデルを用いて、ユーザ等から新たに受信した撮影画像データに対して物体認識処理を行い、認識結果をユーザ等に提供する物体認識システムについて説明する。なお、「物体認識システム」とは、要求に応じて、物体認識処理を行い、認識結果を提供するシステムである。
<物体認識システムのシステム構成>
図11は、第4の実施形態に係る物体認識システムのシステム構成の一例を示す図である。図11に示すように、物体認識システム1100は、スキャナ装置110、機械学習用データ生成装置120、物体認識装置1110を有する。
図7に示した第2の実施形態に係る物体認識支援システム700との相違点は、第4の実施形態に係る物体認識システム1100の場合、機械学習装置710に代えて物体認識装置1110を有する点である。なお、物体認識装置1110のハードウェア構成は、機械学習用データ生成装置120のハードウェア構成と同様でよいため、ここでは説明を省略する。また、物体認識装置1110には、物体認識プログラムがインストールされており、物体認識装置1110は、当該プログラムを実行することで、機械学習部720に加えて、推論部920、画像データ取得部1120、認識結果提供部1130を有する。
画像データ取得部1120は、機械学習済み認識モデルを用いて物体認識処理を行うユーザ等から、認識処理要求と、新たな撮影画像データとを取得し、取得した撮影画像データを推論部920に送信する。
推論部920は、機械学習部720により生成された機械学習済み認識モデル921を有する。推論部920は、画像データ取得部1120から通知された撮影画像データを機械学習済み認識モデル921に入力することで、認識結果を取得する。また、推論部920は、取得した認識結果を認識結果提供部1130に通知する。
認識結果提供部1130は、推論部920より通知された認識結果を、ユーザ等に提供する。これにより、ユーザ等は、上記機械学習用データを用いて機械学習が行われた機械学習済み認識モデルによって物体認識処理が行われた際の認識結果を取得することができる。
なお、図11の物体認識システム1100では、ユーザ等の端末について明示していないが、例えば、ユーザ等の端末には、専用のアプリケーション(例えば、画像認識用のアプリケーション)がインストールされていてもよい。具体的には、ユーザ等は、自端末上で専用のアプリケーションを起動することで、物体認識装置1110に対して、認識処理要求とともに、新たな撮影画像データを送信し、物体認識装置1110から認識結果を受信する。
あるいは、画像データ取得部1120及び認識結果提供部1130を、WebAPI(Application Programming Interface)として機能させてもよい。これにより、例えば、ユーザ等は、インタネット上でWebAPIを介して物体認識装置1110にアクセスし、推論部920を実行するよう要求することができる。また、要求に応じて推論部920が実行し、新たな撮影画像データに対する認識結果をユーザ等に送信した場合、ユーザ等は、認識結果を受信し、自端末上で認識結果を確認することができる。
<認識結果提供処理の流れ>
次に、本実施形態の物体認識システム1100による認識結果提供処理の流れについて説明する。図12は、認識結果提供処理の流れを示す第1のフローチャートである。なお、図12に示すフローチャートのうち、ステップS801~S804までの処理は、図8に示すフローチャートのステップS801~S804までの処理と同じであるため、ここでは説明を省略する。
ステップS1201において、物体認識装置1110の画像データ取得部1120は、ユーザ等から、認識処理要求とともに、新たな撮影画像データを取得する。
ステップS1202において、物体認識装置1110の推論部920は、撮影画像データを機械学習済み認識モデルに入力し、認識結果を取得する。また、認識結果提供部1130は、認識結果をユーザ等に提供する。
<まとめ>
以上の説明から明らかなように、第4の実施形態に係る物体認識システム1100は、
・ユーザからの指定により物体をスキャンし、3次元モデルを生成する。
・3次元モデルについて、複数の異なる環境を再現する各仮想空間において撮影を行い、複数の撮影画像データを生成する。
・生成した複数の撮影画像データを入力として認識モデルの機械学習を行い、機械学習済み認識モデルを生成する。
・ユーザ等からの認識処理要求に応じて、生成した機械学習済み認識モデルを用いて、撮影画像データに対して物体認識処理を行い、認識結果を、ユーザ等に提供する。
これにより、第4の実施形態に係る物体認識システム1100によれば、機械学習済み認識モデルを用いて物体認識処理を行った認識結果を提供することが可能になる。
[第5の実施形態]
上記第2の実施形態では、生成した機械学習済み認識モデルをユーザ等に提供する場合について説明した。これに対して、第5の実施形態では、生成した機械学習済み認識モデルを用いて、機械学習用データに対して物体認識処理を行い、中間情報の一例である特徴量データを抽出(取得)する。そして、第5の実施形態では、抽出した特徴量データを、物体101の認識結果と対応付けてユーザ等に提供する。以下、第5の実施形態について、上記第2の実施形態との相違点を中心に説明する。
<物体認識支援システムのシステム構成>
図13は、第5の実施形態に係る物体認識支援システムのシステム構成の一例を示す図である。図13に示すように、第5の実施形態に係る物体認識支援システム1300は、スキャナ装置110、機械学習用データ生成装置120、特徴量データ生成装置1310を有する。
図7に示した第2の実施形態に係る物体認識支援システム700との相違点は、第5の実施形態に係る物体認識支援システム1300の場合、機械学習装置710に代えて特徴量データ生成装置1310を有する点である。なお、特徴量データ生成装置1310のハードウェア構成は、機械学習用データ生成装置120のハードウェア構成と同様であるため、ここでは説明を省略する。また、特徴量データ生成装置1310には、特徴量データ生成プログラムがインストールされており、特徴量データ生成装置1310は、当該プログラムを実行することで、機械学習部720に加えて、
・推論部920、
・特徴量抽出部1320、
・特徴量データ提供部1330、
として機能する。
特徴量抽出部1320は、推論部920が、機械学習用データ格納部126に格納された機械学習用データを入力し、機械学習済み認識モデル921を実行した際に、機械学習済み認識モデル921の中間層より中間情報の一例である特徴量データを抽出する。
また、特徴量抽出部1320は、抽出した特徴量データを、撮影画像データに含まれる物体101の認識結果(正解データ)と対応付けて、特徴量データ格納部1340に格納する。
特徴量データ提供部1330は、特徴量データ格納部1340に格納された特徴量データを、撮影画像データに含まれる物体101の認識結果(正解データ)と対応付けて、ユーザ等に提供する。これにより、ユーザ等は、上記機械学習用データを用いて機械学習が行われた機械学習済み認識モデルが、実行時に着目する特徴量データを取得することができる。
<特徴量データ提供処理の流れ>
次に、本実施形態の物体認識支援システム1300による特徴量データ提供処理の流れについて説明する。図14は、特徴量データ提供処理の流れを示すフローチャートである。なお、図14に示すフローチャートのうち、ステップS801~S1003までの処理は、図10のステップS801~S1003までの処理と同じであるため、ここでは説明を省略する。
ステップS1401において、機械学習用データ生成装置120の推論部920は、機械学習用データ格納部126に格納された機械学習用データを機械学習済み認識モデル921に入力し、機械学習済み認識モデル921を実行する。また、特徴量抽出部1320は、機械学習済み認識モデル921の実行中に、機械学習済み認識モデル921の中間層から、特徴量データを抽出する。
ステップS1402において、特徴量データ提供部1330は、抽出された特徴量データを、撮影画像データに含まれる物体101の認識結果(正解データ)と対応付けて、ユーザ等に提供する。
<まとめ>
以上の説明から明らかなように、第5の実施形態に係る物体認識支援システム1300は、
・ユーザからの指定により物体をスキャンし、3次元モデルを生成する。
・3次元モデルについて、複数の異なる環境を再現する各仮想空間において撮影を行い、複数の撮影画像データを生成する。
・生成した複数の撮影画像データを入力として認識モデルの機械学習を行い、機械学習済み認識モデルを生成する。
・機械学習済み認識モデルに、機械学習用データを入力し、機械学習済み認識モデルの中間層より、特徴量データを抽出する。
・抽出した特徴量データを、撮影画像データに含まれる物体の認識結果(正解データ)と対応付けて、ユーザ等に提供する。
これにより、第5の実施形態に係る物体認識支援システム1300によれば、機械学習済み認識モデルが実行時に着目する中間情報(特徴量データ)を提供することが可能になる。
[第6の実施形態]
上記第5の実施形態では、機械学習済み認識モデルの実行中に抽出した特徴量データを、物体の認識結果(正解データ)と対応付けてユーザ等に提供する場合について説明した。これに対して、第6の実施形態では、機械学習済み認識モデルの実行中に抽出した特徴量データ(第1の中間情報)とユーザ等から受信した特徴量データ(第2の中間情報)とに基づいて物体を認識する。
具体的には、抽出した特徴量データをユーザ等から受信した特徴量データとマッチングし、いずれの特徴量データとの類似度が高いかを判定する。これにより、第6の実施形態によれば、当該特徴量データに対応付けられた、物体の認識結果(正解データ)を、ユーザ等に提供することができる。つまり、ユーザ等は、撮影画像データに含まれる物体の特徴量データを送信することで、撮影画像データに含まれる物体の認識結果を取得することができる。以下、第6の実施形態について、上記第5の実施形態との相違点を中心に説明する。
<物体認識システムのシステム構成>
図15は、第6の実施形態に係る物体認識システムのシステム構成の一例を示す図である。図15に示すように、物体認識システム1500は、スキャナ装置110、機械学習用データ生成装置120、物体認識装置1510を有する。
図13に示した第5の実施形態に係る物体認識支援システム1300との相違点は、第6の実施形態に係る物体認識システム1500の場合、特徴量データ生成装置1310に代えて物体認識装置1510を有する点である。なお、物体認識装置1510のハードウェア構成は、機械学習用データ生成装置120のハードウェア構成と同様であるため、ここでは説明を省略する。また、物体認識装置1510には、物体認識プログラムがインストールされており、物体認識装置1510は、当該プログラムを実行することで、機械学習部720、推論部920、特徴量抽出部1320に加えて、
・特徴量データ取得部1520、
・マッチング部1530、
・認識結果提供部1540、
として機能する。
特徴量データ取得部1520は、ユーザ等から、撮影画像データに含まれる物体の特徴量データを取得し、マッチング部1530に通知する。
マッチング部1530は、特徴量データ取得部1520から通知された特徴量データと、特徴量データ格納部1340に格納された特徴量データとの類似度を算出し、算出した類似度が最も高い特徴量データに対応する認識結果(正解データ)を判定する。また、マッチング部1530は、判定した認識結果(正解データ)を認識結果提供部1540に通知する。
認識結果提供部1540は、マッチング部1530から通知された認識結果(正解データ)を、ユーザ等に提供する。これにより、ユーザ等は、上記機械学習用データを用いて機械学習が行われた機械学習済み認識モデルが実行時に着目する特徴量データを用いて物体認識処理が行われた際の、認識結果を取得することができる。
なお、図15において、特徴量データ格納部1340は、物体認識装置1510において実現するものとして示したが、特徴量データ格納部1340は、例えば、不図示のサーバ装置等において実現されてもよい。この場合、マッチング部1530は、不図示のサーバ装置等にアクセスすることで類似度を算出し、算出した類似度が最も高い特徴量データに対応する認識結果(正解データ)を判定する。
<認識結果提供処理の流れ>
次に、本実施形態の物体認識システム1500による認識結果提供処理の流れについて説明する。図16は、認識結果提供処理の流れを示す第2のフローチャートである。なお、図16に示すフローチャートのうち、ステップS801~S1401までの処理は、図14のステップS801~S1401までの処理と同じであるため、ここでは説明を省略する。
ステップS1601において、物体認識装置1510の特徴量抽出部1320は、抽出した特徴量データを、撮影画像データに含まれる物体101の認識結果(正解データ)と対応付けて、特徴量データ格納部1340に格納する。
ステップS1602において、物体認識装置1510の特徴量データ取得部1520は、ユーザ等から、新たな撮影画像データに含まれる物体の特徴量データを取得する。
ステップS1603において、物体認識装置1510のマッチング部1530は、新たな撮影画像データに含まれる物体の特徴量データと、特徴量データ格納部1340に格納された特徴量データとの類似度を算出する。また、物体認識装置1510のマッチング部1530は、算出した類似度が最も高い特徴量データに対応付けられた、認識結果(正解データ)を判定する。
ステップS1604において、物体認識装置1510の認識結果提供部1540は、認識結果(正解データ)をユーザ等に提供する。
<まとめ>
以上の説明から明らかなように、第6の実施形態に係る物体認識システム1500は、
・ユーザからの指定により物体をスキャンし、3次元モデルを生成する。
・3次元モデルについて、複数の異なる環境を再現する各仮想空間において撮影を行い、複数の撮影画像データを生成する。
・生成した複数の撮影画像データを入力として認識モデルの機械学習を行い、機械学習済み認識モデルを生成する。
・機械学習済み認識モデルに、機械学習用データを入力し、機械学習済み認識モデルの中間層より、特徴量データを抽出する。また、抽出した特徴量データを、撮影画像データに含まれる物体の認識結果(正解データ)と対応付けて、特徴量データ格納部に格納する。
・ユーザ等から新たに取得した特徴量データと、特徴量データ格納部に格納された特徴量データとの類似度を算出し、類似度が最も高い特徴量データに対応付けられた認識結果(正解データ)を、ユーザ等に提供する。
これにより、第6の実施形態に係る物体認識システム1500によれば、機械学習済み認識モデルが実行時に着目する特徴量データを用いて物体認識処理を行った際の、認識結果を提供することが可能になる。
[第7の実施形態]
上記第3の実施形態では、評価用画像データを用いて評価を行った際、機械学習済み認識モデル921より出力された認識結果が、所定の認識精度に到達していなかった場合に、切り替え指示を通知するものとして説明した。しかしながら、認識結果が所定の認識精度に到達していなかった場合の処理はこれに限定されない。例えば、評価用画像データに含まれる物体について3次元モデルを生成し、生成した3次元モデルについて、位置姿勢の組み合わせパターンまたは仮想空間の組み合わせパターンを切り替えて、新たに撮影画像データを生成してもよい。また、新たに生成した撮影画像データを含む機械学習用データを用いて、再度、機械学習済み認識モデルの機械学習を行ってもよい。
また、上記第4及び第5の実施形態では、第2の実施形態の機械学習装置710に代えて、物体認識装置1110または特徴量データ生成装置1310を配するものとして説明した。
しかしながら、物体認識装置1110または特徴量データ生成装置1310は、例えば、第3の実施形態の機械学習装置910に代えて配してもよい。この場合、物体認識装置1110は、例えば、再度、機械学習が行われることで再度生成された機械学習済み認識モデル921を用いて認識結果提供処理を行う。同様に、特徴量データ生成装置1310は、例えば、再度、機械学習が行われることで再度生成された機械学習済み認識モデル921を用いて、特徴量データ提供処理を行う。
また、上記第5の実施形態では、中間情報の一例として特徴量データを挙げたが、特徴量データ生成装置1310がユーザ等に提供する中間情報は、特徴量データに限定されない。例えば、中間情報には、機械学習済み認識モデル921が撮影画像データを処理することで得られる任意のデータが含まれてもよい。
また、上記第2乃至第6の実施形態では、機械学習用データが物体認識支援システム700、900、1300、物体認識システム1100、1500に設けられた機械学習用データ生成装置で生成されるものとして説明した。しかしながら、機械学習用データは、物体認識支援システム700、900、1300、物体認識システム1100、1500の外部に設けられた機械学習用データ生成装置で事前に生成されてもよい。
また、上記第5及び第6の実施形態では、物体認識支援システム1300の特徴量データ生成装置1310、物体認識システム1500の物体認識装置1510が有する機械学習済み認識モデルより抽出された中間情報を利用するものとして説明した。しかしながら、物体認識支援システム1300、物体認識システム1500または特徴量データ生成装置1310、物体認識装置1510の外部にある機械学習済み認識モデルより抽出された中間情報を利用してもよい。
また、中間情報は、物体認識支援システム1300、物体認識システム1500または特徴量データ生成装置1310、物体認識装置1510の外部にある中間情報データベース等に保存されていてもよい。
また、中間情報は、第1の生成部で生成された機械学習用データを用いて機械学習が行われた機械学習済み認識モデルから取得されたものに限られない。また、第1の中間情報を抽出するために機械学習済み認識モデルに入力される撮影画像データは、どのようなデータであってもよい。つまり、3次元モデルを撮影することによって得られた撮影画像データに限定されない。例えば、現実の物体を撮影して得られた撮影画像データを用いて機械学習が行われた機械学習済み認識モデルに、現実の物体を撮影して得られた撮影画像データを入力して第1の中間情報を抽出してもよい。
また、上記各実施形態のうち機械学習を行わない実施形態の場合、機械学習部720は、物体認識システム1100、1500、物体認識支援システム1300、または特徴量データ生成装置1310、物体認識装置1110、1510に含まれていなくてもよい。この場合、機械学習済み認識モデル921は、物体認識システム1100、1500、物体認識支援システム1300または特徴量データ生成装置1310、物体認識装置1110、1510の外部に備えられた機械学習装置で事前に生成される。
また、上記第4乃至第6の実施形態では、物体認識システム1100、1500、物体認識支援システム1300が、認識結果または中間情報を、ユーザ等に提供するものとして説明した。しかしながら、物体認識システム1100、1500、物体認識支援システム1300が提供する情報には、例えば、
・物体の名称、
・ロボットが当該物体を把持するために好ましい位置、
・物体の材料、
・物体を取り扱う上での注意などを含む物体の情報、
・物体に紐づけられたJANコードの情報、
等が含まれていてもよい。また、これらの情報は、認識結果または中間情報とともに、ユーザ等に提供される情報として、予め物体情報データベース等に保存されていてもよい。
また、上記各実施形態では、ユーザの具体例について言及しなかったが、ユーザは、物体を製造、販売または流通させる特定の業者であってもよい。あるいは、ユーザは、物体の広告を生成する業者、物体の宣伝を行う業者、物体を製造、販売または流通させる際に用いるシステムを開発する業者など、物体を製造、販売または流通させる特定の業者の業務を代理する業者であってもよい。
この場合、上記各実施形態で説明した仮想空間は、例えば、当該特定の業者が物体(例えば、製造物)を製造する空間(例えば、工場)を模した空間であってもよい。あるいは、当該特定の業者が物体(例えば、商品)を販売する、または流通させる空間(例えば、店舗、倉庫)を模した空間であってもよい。また、物体が利用される空間(例えば、家庭内、屋外等)を模した空間であってもよい。
このように、物体に関係する業者が、ユーザとして認識対象の物体を指定する構成とすることで、または、ユーザとして生成を依頼する構成とすることで、安定した品質の物体認識処理を実現する3次元モデルまたは機械学習用データを提供することができる。また、新製品となる物体を、一般に流通させる前に、当該新製品となる物体についての認識精度を向上させることができる。
なお、物体が小売店で取り扱われる商品である場合、日々新しい商品(物体)が作り出される。つまり、機械学習済み認識モデルに新規に認識させたい物体の種類は、日々増加する。このような場合、上記第6の実施形態によれば、第1の中間情報と第2の中間情報とに基づいて物体認識処理が行われるため、ユーザ等は機械学習済み認識モデルの更新作業や、再訓練作業等を行う負荷を抑えることができる。また、上記第6の実施形態によれば、認識対象の物体の種類が、ほとんど無限に増えていくことで、機械学習済み認識モデルのサイズが大きくなりすぎるおそれを低減させることができる。
また、過去に期間限定で販売された商品など、物体認識処理を行う頻度や物体認識処理を行う可能性が低い物体も存在する。このように、
・物体を認識させる必要がなくなった場合、あるいは、
・認識結果または物体認識処理により得られる情報を変更したい場合(例えば、異なる物体であると認識されていたものを同じ物体であると認識させるように変更する場合)、
であっても、第6の実施形態によれば、中間情報データベース上の情報または中間情報と紐づけられ、ユーザ等に提供される物体の情報を、メンテナンスないし編集することで容易に対応することができる。
なお、このような更新、メンテナンス、編集を容易にするため、中間情報データベースは、クラウド上またはネットワーク上に存在することが好ましい。
また、ユーザ等が第6の実施形態のように中間情報を利用して物体認識処理を行う場合、中間情報はユーザ等の装置で生成されてもよい。あるいは、ユーザ等の装置と通信可能な装置であって、ユーザ等が取得した撮影画像データから中間情報を抽出する特徴量データ生成装置により生成されてもよい。
また、上記各実施形態では、ユーザ等に各種データを提供する際の処理の詳細について、特に言及しなかった。しかしながら、物体認識支援システム100、700、900、1300または物体認識システム1100、1500では、例えば、特定のユーザ等に各種データを提供した回数や、特定のユーザ等に提供した各種データのデータ量、データ内容等を記録してもよい。これにより、物体認識支援システム100、700、900、1300または物体認識システム1100、1500では、各種データを提供した回数や、各種データのデータ量、データ内容等を管理することができる。更に、特定の複数の業者が物体認識支援システム100、700、900、1300または物体認識システム1100、1500を利用した場合にあっては、特定の業者ごとに管理することで、例えば、利用状況に応じた課金を行うことができる。
また、上記各実施形態においても説明したとおり、物体を指定するユーザと、機械学習済み認識モデルを生成する者または物体認識支援システム、物体認識システム等を利用する者とは異なってもよい。ユーザ等は、例えば、当該物体を販売する業者や、物体を購入するなどして利用する一般の需要者、それらの物体に係る機械学習モデルを生成する者であってもよい。これにより、ユーザ等は、ユーザにより指定される物体を、ユーザ等が利用する装置またはシステムにおいて適切に認識させることができる。
[その他の実施形態]
本明細書(請求項を含む)において、「a、bおよびcの少なくとも1つ(一方)」又は「a、b又はcの少なくとも1つ(一方)」の表現(同様な表現を含む)が用いられる場合は、a、b、c、a-b、a-c、b-c、又はa-b-cのいずれかを含む。また、a-a、a-b-b、a-a-b-b-c-c等のように、いずれかの要素について複数のインスタンスを含んでもよい。さらに、a-b-c-dのようにdを有する等、列挙された要素(a、b及びc)以外の他の要素を加えることも含む。
また、本明細書(請求項を含む)において、「データを入力として/データに基づいて/に従って/に応じて」等の表現(同様な表現を含む)が用いられる場合は、特に断りがない場合、各種データそのものを入力として用いる場合や、各種データに何らかの処理を行ったもの(例えば、ノイズ加算したもの、正規化したもの、各種データの中間表現等)を入力として用いる場合を含む。また「データに基づいて/に従って/に応じて」何らかの結果が得られる旨が記載されている場合、当該データのみに基づいて当該結果が得られる場合を含むとともに、当該データ以外の他のデータ、要因、条件、及び/又は状態等にも影響を受けて当該結果が得られる場合をも含み得る。また、「データを出力する」旨が記載されている場合、特に断りがない場合、各種データそのものを出力として用いる場合や、各種データに何らかの処理を行ったもの(例えば、ノイズ加算したもの、正規化したもの、各種データの中間表現等)を出力とする場合も含む。
また、本明細書(請求項を含む)において、「接続される(connected)」及び「結合される(coupled)」との用語が用いられる場合は、直接的な接続/結合、間接的な接続/結合、電気的(electrically)な接続/結合、通信的(communicatively)な接続/結合、機能的(operatively)な接続/結合、物理的(physically)な接続/結合等のいずれをも含む非限定的な用語として意図される。当該用語は、当該用語が用いられた文脈に応じて適宜解釈されるべきであるが、意図的に或いは当然に排除されるのではない接続/結合形態は、当該用語に含まれるものして非限定的に解釈されるべきである。
また、本明細書(請求項を含む)において、「AがBするよう構成される(A configured to B)」との表現が用いられる場合は、要素Aの物理的構造が、動作Bを実行可能な構成を有するとともに、要素Aの恒常的(permanent)又は一時的(temporary)な設定(setting/configuration)が、動作Bを実際に実行するように設定(configured/set)されていることを含んでよい。例えば、要素Aが汎用プロセッサである場合、当該プロセッサが動作Bを実行可能なハードウェア構成を有するとともに、恒常的(permanent)又は一時的(temporary)なプログラム(命令)の設定により、動作Bを実際に実行するように設定(configured)されていればよい。また、要素Aが専用プロセッサ又は専用演算回路等である場合、制御用命令及びデータが実際に付属しているか否かとは無関係に、当該プロセッサの回路的構造が動作Bを実際に実行するように構築(implemented)されていればよい。
また、本明細書(請求項を含む)において、含有又は所有を意味する用語(例えば、「含む(comprising/including)」及び「有する(having)」等)が用いられる場合は、当該用語の目的語により示される対象物以外の物を含有又は所有する場合を含む、open-endedな用語として意図される。これらの含有又は所有を意味する用語の目的語が数量を指定しない又は単数を示唆する表現(a又はanを冠詞とする表現)である場合は、当該表現は特定の数に限定されないものとして解釈されるべきである。
また、本明細書(請求項を含む)において、ある箇所において「1つ又は複数(one or more)」又は「少なくとも1つ(at least one)」等の表現が用いられ、他の箇所において数量を指定しない又は単数を示唆する表現(a又はanを冠詞とする表現)が用いられているとしても、後者の表現が「1つ」を意味することを意図しない。一般に、数量を指定しない又は単数を示唆する表現(a又はanを冠詞とする表現)は、必ずしも特定の数に限定されないものとして解釈されるべきである。
また、本明細書において、ある実施例の有する特定の構成について特定の効果(advantage/result)が得られる旨が記載されている場合、別段の理由がない限り、当該構成を有する他の1つ又は複数の実施例についても当該効果が得られると理解されるべきである。但し当該効果の有無は、一般に種々の要因、条件、及び/又は状態等に依存し、当該構成により必ず当該効果が得られるものではないと理解されるべきである。当該効果は、種々の要因、条件、及び/又は状態等が満たされたときに実施例に記載の当該構成により得られるものに過ぎず、当該構成又は類似の構成を規定したクレームに係る発明において、当該効果が必ずしも得られるものではない。
また、本明細書(請求項を含む)において、複数のハードウェアが所定の処理を行う場合、各ハードウェアが協働して所定の処理を行ってもよいし、一部のハードウェアが所定の処理の全てを行ってもよい。また、一部のハードウェアが所定の処理の一部を行い、別のハードウェアが所定の処理の残りを行ってもよい。本明細書(請求項を含む)において、「1又は複数のハードウェアが第1の処理を行い、前記1又は複数のハードウェアが第2の処理を行う」等の表現が用いられている場合、第1の処理を行うハードウェアと第2の処理を行うハードウェアは同じものであってもよいし、異なるものであってもよい。つまり、第1の処理を行うハードウェア及び第2の処理を行うハードウェアが、前記1又は複数のハードウェアに含まれていればよい。なお、ハードウェアは、電子回路、又は、電子回路を含む装置等を含んでよい。
また、本明細書(請求項を含む)において、複数の記憶装置(メモリ)がデータの記憶を行う場合、複数の記憶装置(メモリ)のうち個々の記憶装置(メモリ)は、データの一部のみを記憶してもよいし、データの全体を記憶してもよい。
以上、本開示の実施形態について詳述したが、本開示は上記した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲において種々の追加、変更、置き換え及び部分的削除等が可能である。例えば、前述した全ての実施形態において、説明に用いた数値は、一例として示したものであり、これらに限られるものではない。また、実施形態における各動作の順序は、一例として示したものであり、これらに限られるものではない。
100 :物体認識支援システム
102 :3次元モデル
110 :スキャナ装置
120 :機械学習用データ生成装置
121 :3次元モデル取得部
122 :位置姿勢切り替え部
123 :撮像部
124 :仮想空間切り替え部
125 :機械学習用データ提供部
700 :物体認識支援システム
710 :機械学習装置
720 :機械学習部
721 :認識モデル
730 :認識モデル提供部
900 :物体認識支援システム
910 :機械学習装置
920 :推論部
921 :機械学習済み認識モデル
930 :評価部
1100 :物体認識システム
1110 :物体認識装置
1120 :画像データ取得部
1130 :認識結果提供部
1300 :物体認識支援システム
1310 :特徴量データ生成装置
1320 :特徴量抽出部
1330 :特徴量データ提供部
1500 :物体認識システム
1510 :物体認識装置
1520 :特徴量データ取得部
1530 :マッチング部
1540 :認識結果提供部

Claims (13)

  1. 物体を製造、販売または流通させるユーザからの指定により生成された該物体の3次元モデルについて、複数の異なる環境である各仮想空間において撮影を行い、複数の撮影画像を生成する第1の生成部
    を有する物体認識支援システム。
  2. 撮影が行われる前記各仮想空間には、光環境の異なる各仮想空間、前記ユーザからの指定により生成された前記物体の3次元モデルとは異なる物体の3次元モデルの配置状況が異なる各仮想空間、前記3次元モデルと撮像部との間の相対的な位置または姿勢が異なる各仮想空間、のいずれかが含まれる、請求項1に記載の物体認識支援システム。
  3. 生成された前記複数の撮影画像を入力として認識モデルの機械学習を行い、機械学習済みモデルを生成する第2の生成部を更に有する、請求項2に記載の物体認識支援システム。
  4. 前記第1の生成部は、
    評価用の撮影画像を入力とした場合の、前記機械学習済みモデルの認識結果に基づいて、前記光環境、前記配置状況、前記相対的な位置または姿勢、のいずれかを異ならせた仮想空間において、前記物体の3次元モデルについて撮影を行い、新たな複数の撮影画像を生成し、
    前記第2の生成部は、
    生成された前記新たな複数の撮影画像を入力として前記機械学習済みモデルの機械学習を行う、請求項3に記載の物体認識支援システム。
  5. 前記第1の生成部は、
    評価用の撮影画像を入力とした場合の、前記機械学習済みモデルの認識結果が所定の認識精度に到達していない場合であって、前記評価用の撮影画像に含まれる物体の3次元モデルが生成された場合に、複数の異なる環境である前記各仮想空間において、前記評価用の撮影画像に含まれる物体の3次元モデルについて撮影を行い、新たな複数の撮影画像を生成し、
    前記第2の生成部は、
    生成された前記新たな複数の撮影画像を用いて、前記機械学習済みモデルについて、再度、機械学習を行う、請求項3に記載の物体認識支援システム。
  6. 前記機械学習済みモデルは、入力される撮影画像に対して物体認識処理を行う、請求項3に記載の物体認識支援システム。
  7. 物体を製造、販売または流通させるユーザからの指定により生成された該物体の3次元モデルについて、複数の異なる環境である各仮想空間において撮影が行われ、複数の撮影画像が生成された場合に、該生成された複数の撮影画像を入力として認識モデルの機械学習を行い、機械学習済みモデルを生成する生成部と、
    前記機械学習済みモデルに、新たな撮影画像を入力することで、該新たな撮影画像に含まれる物体の認識結果を提供する提供部と
    を有する物体認識システム。
  8. 物体を製造、販売または流通させるユーザからの指定により生成された該物体の3次元モデルについて、複数の異なる環境である各仮想空間において撮影が行われ、複数の撮影画像が生成された場合に、該生成された複数の撮影画像を入力として認識モデルの機械学習を行い、機械学習済みモデルを生成する生成部と、
    前記複数の撮影画像を前記機械学習済みモデルに入力することで、前記複数の撮影画像それぞれから中間情報を抽出する抽出部と
    を有する物体認識支援システム。
  9. 物体を製造、販売または流通させるユーザからの指定により生成された該物体の撮影画像に対して、機械学習済みモデルが物体認識処理を行う場合に、該物体の撮影画像から抽出される中間情報と、新たな撮影画像から抽出される中間情報とに基づいて、該新たな撮影画像に含まれる物体の認識結果を提供する提供部
    を有する物体認識システム。
  10. 物体を製造、販売または流通させるユーザからの指定により生成された該物体の3次元モデルについて、複数の異なる環境である各仮想空間において撮影を行い、複数の撮影画像を生成する工程
    を有する物体認識支援方法。
  11. 物体を製造、販売または流通させるユーザからの指定により生成された該物体の3次元モデルについて、複数の異なる環境である各仮想空間において撮影を行い、複数の撮影画像を生成した場合に、該生成した複数の撮影画像を入力として認識モデルの機械学習を行い、機械学習済みモデルを生成する工程と、
    前記機械学習済みモデルに、新たな撮影画像を入力することで、該新たな撮影画像に含まれる物体の認識結果を提供する工程と
    を有する物体認識方法。
  12. 物体の画像を入力とする認識モデルである機械学習済みモデルに、物体を製造、販売または流通させるユーザからの指定により生成された該物体の画像を入力することで、該物体の画像から中間情報を抽出する工程
    を有する物体認識支援方法。
  13. 物体の画像を入力とする認識モデルである機械学習済みモデルに、物体を製造、販売または流通させるユーザからの指定により生成された該物体の画像を入力することで抽出された中間情報と、新たな画像を入力することで抽出される中間情報とに基づいて、該新たな画像に含まれる物体の認識結果を提供する工程
    を有する物体認識方法。
JP2020172630A 2020-10-13 2020-10-13 物体認識支援システム、物体認識システム、物体認識支援方法及び物体認識方法 Pending JP2024012721A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020172630A JP2024012721A (ja) 2020-10-13 2020-10-13 物体認識支援システム、物体認識システム、物体認識支援方法及び物体認識方法
PCT/JP2021/037691 WO2022080356A1 (ja) 2020-10-13 2021-10-12 訓練データ生成装置、訓練済みモデル生成装置、物体認識支援システム、物体認識システム、訓練データ生成方法、訓練済みモデル生成方法、物体認識支援方法及び物体認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020172630A JP2024012721A (ja) 2020-10-13 2020-10-13 物体認識支援システム、物体認識システム、物体認識支援方法及び物体認識方法

Publications (1)

Publication Number Publication Date
JP2024012721A true JP2024012721A (ja) 2024-01-31

Family

ID=81208242

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020172630A Pending JP2024012721A (ja) 2020-10-13 2020-10-13 物体認識支援システム、物体認識システム、物体認識支援方法及び物体認識方法

Country Status (2)

Country Link
JP (1) JP2024012721A (ja)
WO (1) WO2022080356A1 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005185560A (ja) * 2003-12-25 2005-07-14 Konica Minolta Medical & Graphic Inc 医用画像処理装置及び医用画像処理システム
AU2017302833B2 (en) * 2016-07-29 2020-11-12 Hitachi, Ltd. Database construction system for machine-learning
JP2019207662A (ja) * 2018-05-30 2019-12-05 株式会社イームズラボ 機械学習装置、機械学習方法及びプログラム
WO2020195015A1 (ja) * 2019-03-27 2020-10-01 日本電気株式会社 画像処理装置、画像処理方法及びプログラムが格納された非一時的なコンピュータ可読媒体

Also Published As

Publication number Publication date
WO2022080356A1 (ja) 2022-04-21

Similar Documents

Publication Publication Date Title
US10482674B1 (en) System and method for mobile augmented reality
US20210225090A1 (en) Floorplan generation based on room scanning
CN110276829B (zh) 通过多尺度体素哈希处理的三维表示
US11704806B2 (en) Scalable three-dimensional object recognition in a cross reality system
US20170323488A1 (en) Augmented reality product preview
CN108520552A (zh) 图像处理方法、装置、存储介质及电子设备
KR102433857B1 (ko) 혼합 현실에서 동적 가상 콘텐츠들을 생성하기 위한 디바이스 및 방법
CN112150551A (zh) 物体位姿的获取方法、装置和电子设备
US11367263B1 (en) Image-guided three dimensional modeling
CN115393386B (zh) 三维场景图的生成方法、装置、设备及可读存储介质
CN108459704A (zh) 用于三维数字内容的笔画操作预测
CN116097316A (zh) 用于非模态中心预测的对象识别神经网络
Vajak et al. Combining photogrammetry, 3D modeling and real time information gathering for highly immersive VR experience
JP2019174920A (ja) 物品管理システム、及び物品管理プログラム
US20040240741A1 (en) Method and system for creating interactive walkthroughs of real-world environment from set of densely captured images
CN112950759B (zh) 基于房屋全景图的三维房屋模型构建方法及装置
US11625838B1 (en) End-to-end multi-person articulated three dimensional pose tracking
CN111967481B (zh) 视觉定位方法、装置、电子设备及存储介质
JP2024012721A (ja) 物体認識支援システム、物体認識システム、物体認識支援方法及び物体認識方法
Dourado et al. Semantic Scene Completion from a Single 360-Degree Image and Depth Map.
KR20210073428A (ko) 현실기반 sns를 위한 나만의 캐릭터 생성 및 사물 및 배경 복원 방법 및 시스템
JP2021086462A (ja) データ生成方法、データ生成装置、モデル生成方法、モデル生成装置及びプログラム
US20140267698A1 (en) Method and system for interactive mobile room design
KR20210070747A (ko) 가상 공간을 생성하기 위한 모바일 단말 및 방법과 시스템
Jha Point Cloud Registration of non-rigid objects in sparse 3D Scans with applications in Mixed Reality