JP2020144785A

JP2020144785A - 画像収集装置、画像収集システム、画像収集方法及び画像収集プログラム

Info

Publication number: JP2020144785A
Application number: JP2019042825A
Authority: JP
Inventors: 信行梅谷; Nobuyuki Umetani; 五十嵐　健夫; Takeo Igarashi; 健夫五十嵐
Original assignee: University of Tokyo NUC
Current assignee: University of Tokyo NUC
Priority date: 2019-03-08
Filing date: 2019-03-08
Publication date: 2020-09-10

Abstract

【課題】画像認識モデルや画像生成モデルの性能を向上させる学習用の画像を収集する画像収集装置等を提供する。【解決手段】画像収集装置１０は、対象物５０を撮影した画像を用いて、画像認識モデル１１ｂ又は画像生成モデル１１ｃを学習させる学習部１２と、画像認識モデル１１ｂによる認識精度又は画像生成モデル１１ｃによる生成精度が低い画像が撮影されるように、対象物５０を照明するパラメータを決定する決定部１３と、を備える。学習部１２は、決定されたパラメータに従った照明で対象物５０を撮影した画像を用いて、画像認識モデル１１ｂ又は画像生成モデル１１ｃを再学習させる。【選択図】図３

Description

本発明は、画像収集装置、画像収集システム、画像収集方法及び画像収集プログラムに関する。

近年、機械学習技術の進展により、画像認識や画像生成の性能が飛躍的に向上している。ここで、画像認識モデルや画像生成モデルは、学習用の画像を用いた教師あり学習によって生成される場合がある。

一方、ＣＧ（Computer Graphics）の分野では、所定の背景で人物を撮影し、別途撮影した背景画像と人物の画像を合成する技術が研究されている。そのような画像合成をより精度良く行うため、下記非特許文献１では、ドームの中に多数配置された照明によって、背景画像の照明環境を再現する技術が研究されている。

Paul Debevec, Tim Hawkins, Chris Tchou, Haarm-Pieter Duiker, Westley Sarokin, and Mark Sagar, "Acquiring the Reflectance Field of a Human Face", SIGGRAPH 2000 Conference Proceedings, 2000

画像認識モデルや画像生成モデルの性能を向上させるためには、多様な環境で撮影された学習用の画像を大量に収集することが望まれる。とりわけ、画像が撮影される照明環境がモデルの性能に大きな影響を及ぼすが、多様な照明環境を網羅するような画像を用意することは困難な場合がある。そのため、学習用の画像に含まれていなかった照明環境で撮影された画像について、画像認識モデルや画像生成モデルの性能が高められないことがある。

そこで、本発明は、画像認識モデルや画像生成モデルの性能を向上させる学習用の画像を収集する画像収集装置、画像収集システム、画像収集方法及び画像収集プログラムを提供する。

本発明の一態様に係る画像収集装置は、対象物を撮影した画像を用いて、画像認識モデル又は画像生成モデルを学習させる学習部と、画像認識モデルによる認識精度又は画像生成モデルによる生成精度が低い画像が撮影されるように、対象物を照明するパラメータを決定する決定部と、を備え、学習部は、決定されたパラメータに従った照明で対象物を撮影した画像を用いて、画像認識モデル又は画像生成モデルを再学習させる。

この態様によれば、画像認識モデルによる認識精度又は画像生成モデルによる生成精度が低い画像を学習用画像に加えることができ、画像認識モデルや画像生成モデルの性能を向上させる学習用の画像を収集することができる。

上記態様において、パラメータは、照明の分布を級数展開した場合の展開係数を含んでもよい。

この態様によれば、画像認識モデルによる認識又は画像生成モデルによる生成が比較的易しい画像の収集から始めて、画像認識モデルによる認識又は画像生成モデルによる生成が比較的難しい画像の収集に進むことができ、画像認識モデル又は画像生成モデルの学習を段階的に進めていくことができる。

上記態様において、級数展開は、球面調和関数による展開であってもよい。

この態様によれば、球面上に照明を配置する場合に、画像認識モデルによる認識又は画像生成モデルによる生成が比較的易しい画像の収集から始めて、画像認識モデルによる認識又は画像生成モデルによる生成が比較的難しい画像の収集に進むことができ、画像認識モデル又は画像生成モデルの学習を段階的に進めていくことができる。

上記態様において、パラメータは、異なる照明で撮影された複数の画像を合成する重み係数を含んでもよい。

この態様によれば、既存の画像を重ね合わせて、既存の画像には存在しない照明環境をシミュレートし、画像認識モデルによる認識精度又は画像生成モデルによる生成精度が低い画像を撮影するためのパラメータを探索することができる。

上記態様において、異なる照明で撮影された複数の画像は、異なる色の照明で撮影された複数の画像を含んでもよい。

この態様によれば、既存の画像を重ね合わせて、既存の画像には存在しない色の照明環境をシミュレートし、画像認識モデルによる認識精度又は画像生成モデルによる生成精度が低い画像を撮影するための照明の色を探索することができる。

上記態様において、異なる照明で撮影された複数の画像は、異なる方向の照明で撮影された複数の画像を含んでもよい。

この態様によれば、既存の画像を重ね合わせて、既存の画像には存在しない照明方向の照明環境をシミュレートし、画像認識モデルによる認識精度又は画像生成モデルによる生成精度が低い画像を撮影するための照明の方向を探索することができる。

上記態様において、パラメータは、照明の配置を表す数値、照明の色を表す数値、照明の光量を表す数値及び撮影視点を表す数値の少なくともいずれかを含んでもよい。

この態様によれば、照明の配置、照明の色、照明の光量及び撮影視点を変化させて、画像認識モデルによる認識精度又は画像生成モデルによる生成精度が低い画像を学習用画像に加えることができ、画像認識モデルや画像生成モデルの性能を向上させる学習用の画像を収集することができる。

上記態様において、決定部は、事前にサンプリングされた参考画像に基づいて決定された変動範囲に収まるようにパラメータを決定してもよい。

この態様によれば、特定の照明環境において想定される範囲でパラメータを変動させて、画像認識モデルや画像生成モデルの性能を向上させる学習用の画像を収集することができる。

上記態様において、パラメータは、対象物の位置を表す数値及び対象物の姿勢を表す数値の少なくともいずれかを含んでもよい。

この態様によれば、対象物の位置及び対象物の姿勢を変化させて、画像認識モデルによる認識精度又は画像生成モデルによる生成精度が低い画像を学習用画像に加えることができ、画像認識モデルや画像生成モデルの性能を向上させる学習用の画像を収集することができる。

本発明の他の態様に係る画像収集システムは、設定されたパラメータに従って対象物を照らす照明と、対象物を撮影するカメラと、学習画像収集装置と、を備える学習画像収集システムであって、学習画像収集装置は、対象物をカメラで撮影した画像を用いて、画像認識モデル又は画像生成モデルを学習させる学習部と、画像認識モデルの認識精度又は画像生成モデルの生成精度が落ちるように、照明によって対象物を照明するパラメータを決定する決定部と、学習部は、決定されたパラメータにより設定された照明で対象物を撮影した画像を用いて、画像認識モデル又は画像生成モデルを再学習させる。

本発明の他の態様に係る画像収集方法は、学習画像収集装置に、対象物を撮影した画像を用いて、画像認識モデル又は画像生成モデルを学習させることと、画像認識モデルの認識精度又は画像生成モデルの生成精度が落ちるように、対象物を照明するパラメータを決定することと、決定されたパラメータに従った照明で対象物を撮影した画像を用いて、画像認識モデル又は画像生成モデルを再学習させることと、を実行させる。

本発明の他の態様に係る画像収集プログラムは、学習画像収集装置に、対象物を撮影した画像を用いて、画像認識モデル又は画像生成モデルを学習させることと、画像認識モデルの認識精度又は画像生成モデルの生成精度が落ちるように、対象物を照明するパラメータを決定することと、決定されたパラメータに従った照明で対象物を撮影した画像を用いて、画像認識モデル又は画像生成モデルを再学習させることと、を実行させる。

本発明によれば、画像認識モデルや画像生成モデルの性能を向上させる学習用の画像を収集する画像収集装置、画像収集システム、画像収集方法及び画像収集プログラムを提供することができる。

本発明の実施形態に係る画像収集システムのネットワーク構成を示す図である。本実施形態に係る画像収集システムの概要を示す図である。本実施形態に係る画像収集装置の機能ブロックを示す図である。本実施形態に係る画像収集装置の物理的構成を示す図である。本実施形態に係る画像収集システムにより実行される処理のフローチャートである。本実施形態に係る画像収集装置によって収集された画像を用いて画像認識モデルを生成した場合の認識精度と比較例の認識精度を示す図である。

添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。

図１は、本発明の実施形態に係る画像収集システム１００のネットワーク構成を示す図である。画像収集システム１００は、画像収集装置１０、カメラ２０、照明３０及びステージ４０を含み、対象物５０の画像を収集する。

画像収集装置１０は、照明３０及びステージ４０を制御して、カメラ２０によって撮影した対象物５０の画像を収集する。画像収集装置１０は、照明３０及びステージ４０を制御して、後述する画像認識モデルによる認識精度又は画像生成モデルによる生成精度が低い画像が撮影されるように、照明３０及びステージ４０を制御して、カメラ２０によって画像を撮影し、学習用の画像を収集する。

カメラ２０は、対象物５０の画像を撮影する。カメラ２０は、汎用のデジタルカメラであってよいが、可視光以外の光を用いて対象物５０の画像を撮影するカメラであってもよい。画像収集システム１００は、複数のカメラ２０を含んでよい。複数のカメラ２０は、次図に示すように球面上に配置されていたり、２次元格子上に配置されていたりしてよい。また、カメラ２０は、移動可能であってもよい。

照明３０は、画像収集装置１０により設定されたパラメータに従って、対象物５０を照らす。照明３０は、例えば、ＲＧＢの３原色に対応する複数のＬＥＤ（Light Emitting Diode）で構成されてよい。照明３０は、次図に示すように、ＬＥＤが球面上に配置されたものであったり、ＬＥＤが２次元格子上に配置されたものであったりしてよい。照明３０は、個々のＬＥＤの光量を制御可能であってよく、ＲＧＢに対応するＬＥＤの光量を制御することで、任意の色及び任意の光量で対象物５０を照らすことができるものであってよい。また、照明３０は、移動可能であってもよい。

ステージ４０は、対象物５０が置かれる可動式の台である。ステージ４０は、対象物５０の位置及び姿勢を制御可能であってよい。ステージ４０は、対象物５０を把持するロボットハンドであってもよい。また、ステージ４０は、対象物５０を押すロッドや対象物５０を引く紐を含んだり、対象物５０に風を当てたり振動させる機構を含んだりしてもよい。また、ステージ４０は、対象物５０を水で濡らしたり、汚したりする機構を含んでもよい。画像収集装置１０は、ステージ４０に含まれる機構を制御して、対象物５０の状態を様々に変化させて学習用の画像を収集してよい。

対象物５０は、任意の物である。本実施形態では、対象物５０は、菓子袋である。菓子袋は、照明環境や視点によって見え方が変動しやすく、画像認識モデルによって安定した認識を行ったり、画像生成モデルによって安定した画像生成を行ったりすることが難しい対象物の１つである。なお、対象物５０は、人や動物等の生物であってもよい。

図２は、本実施形態に係る画像収集システム１００の概要を示す図である。画像収集システム１００は、画像収集装置１０、カメラ２０ａ，２０ｂ，２０ｃ、照明３０及びステージ４０を含む。照明３０は、対象物５０を囲む半球面上に配置された複数のＬＥＤを含む。個々のＬＥＤの光量や色は、画像収集装置１０によって制御可能であってよく、照明３０は、任意の色及び任意の光量で、任意の方向から対象物５０を照らすことができるものであってよい。

カメラ２０ａ，２０ｂ，２０ｃは、汎用のデジタルカメラであってよく、照明３０と同様に、半球面上に配置されていてよい。なお、同図では、３台のカメラを例示しているが、カメラの台数は任意であり、その配置も任意である。

ステージ４０は、対象物５０が置かれる可動式の台であり、対象物５０の位置及び姿勢は、画像収集装置１０によって制御可能であってよい。なお、ステージ４０等の対象物５０の背景となる面は、単一の色（例えば黒色）のものであってよい。

図３は、本実施形態に係る画像収集装置１０の機能ブロックを示す図である。画像収集装置１０は、記憶部１１、学習部１２及び決定部１３を備える。

記憶部１１は、学習用画像１１ａ、画像認識モデル１１ｂ及び画像生成モデル１１ｃを記憶している。学習用画像１１ａは、ステージ４０に置かれた対象物５０を照明３０で照らして、カメラ２０で撮影した画像であり、異なる照明環境で撮影された複数枚の画像を含んでよい。画像認識モデル１１ｂを学習させる場合、学習用画像１１ａには対象物５０の分類を示すラベルデータや、画像に写された対象物５０の位置を示すデータが関連付けられてよい。

画像認識モデル１１ｂは、画像に写された物体を分類したり、画像に写された物体の位置をバウンディングボックスで示したりするモデルであってよく、例えば、ＣＮＮ（Convolutional Neural Network）で構成されてよい。画像生成モデル１１ｃは、学習用の画像に類似する画像を生成するモデルであってよく、例えば、ＧＡＮ（Generative Adversarial Network）で構成されてよい。

なお、本実施形態では、記憶部１１に画像認識モデル１１ｂ及び画像生成モデル１１ｃを記憶する場合を例示するが、記憶部１１は、画像認識モデル１１ｂのみを記憶してもよいし、画像生成モデル１１ｃのみを記憶してもよい。また、画像認識モデル１１ｂ及び画像生成モデル１１ｃは、画像収集装置１０と通信可能な他の計算機に記憶されていてもよい。

学習部１２は、対象物５０を撮影した画像を用いて、画像認識モデル１１ｂ又は画像生成モデル１１ｃを学習させる。ここで、画像認識モデル１１ｂ又は画像生成モデル１１ｃがニューラルネットワークによって構成される場合、画像認識モデル１１ｂ又は画像生成モデル１１ｃの学習は、所定の損失関数を最小化するように、誤差逆伝播法によって行われてよい。

決定部１３は、画像認識モデル１１ｂによる認識精度又は画像生成モデル１１ｃによる生成精度が低い画像が撮影されるように、対象物５０を照明するパラメータを決定する。画像認識モデル１１ｂによる認識精度が低い画像とは、画像認識モデル１１ｂが画像に写された対象物５０を誤認識しやすい画像であり、対象物５０の分類を誤りやすい画像であったり、対象物５０の位置や姿勢を誤って認識しやすい画像であったりしてよい。また、画像生成モデル１１ｃによる生成精度が低い画像とは、画像生成モデル１１ｃにより生成される画像と対比される学習用の画像であって、画像生成モデル１１ｃにより生成される画像と学習用の画像とが非類似となりやすい画像であってよい。画像生成モデル１１ｃがＧＡＮにより構成される場合、画像生成モデル１１ｃによる生成精度が低い画像は、ディスクリミネータによって参照される学習用の画像であり、ジェネレータによって生成された画像と学習用の画像との違いを識別することが比較的容易である画像であってよい。決定部１３は、例えば、焼きなまし法（Simulated Annealing）及びMetropolis Hasting法等の確率的最適化によってパラメータを決定したり、ベイズ最適化(Baysian Optiization)、遺伝的最適化及び粒子群最適化(Particle Swarm Optimization)等によってパラメータを決定したりしてよい。

学習部１２は、決定部１３により決定されたパラメータに従った照明で対象物５０を撮影した画像を用いて、画像認識モデル１１ｂ又は画像生成モデル１１ｃを再学習させる。画像認識モデル１１ｂ又は画像生成モデル１１ｃがニューラルネットワークによって構成される場合、画像認識モデル１１ｂ又は画像生成モデル１１ｃの再学習は、所定の損失関数を最小化するように、誤差逆伝播法によって行われてよい。

このように、画像認識モデル１１ｂによる認識精度又は画像生成モデル１１ｃによる生成精度が低い画像を学習用画像に加えることができ、画像認識モデル１１ｂや画像生成モデル１１ｃの性能を向上させる学習用の画像を収集することができる。

決定部１３により決定されるパラメータは、照明の分布を級数展開した場合の展開係数を含んでよい。例えば、照明３０が２次元格子上に配置された複数のＬＥＤを含む場合、パラメータは、複数のＬＥＤによる照明の分布を多項式、三角関数又は特殊関数で展開した場合の展開係数を含んでよい。決定部１３は、低次の級数によって表される照明の分布から、高次の級数によって表される照明の分布に進むように、パラメータを決定してよい。これにより、画像認識モデル１１ｂによる認識又は画像生成モデル１１ｃによる生成が比較的易しい画像の収集から始めて、画像認識モデル１１ｂによる認識又は画像生成モデル１１ｃによる生成が比較的難しい画像の収集に進むことができ、画像認識モデル１１ｂ又は画像生成モデル１１ｃの学習を段階的に進めていくことができる。

また、照明の分布の級数展開は、球面調和関数による展開であってもよい。例えば、照明３０が球面上に配置された複数のＬＥＤを含む場合、パラメータは、複数のＬＥＤによる照明の分布を球面調和関数で展開した場合の展開係数を含んでよい。決定部１３は、低次の球面調和関数によって表される照明の分布から、高次の球面調和関数によって表される照明の分布に進むように、パラメータを決定してよい。これにより、球面上に照明３０を配置する場合に、画像認識モデル１１ｂによる認識又は画像生成モデル１１ｃによる生成が比較的易しい画像の収集から始めて、画像認識モデル１１ｂによる認識又は画像生成モデル１１ｃによる生成が比較的難しい画像の収集に進むことができ、画像認識モデル１１ｂ又は画像生成モデル１１ｃの学習を段階的に進めていくことができる。

決定部１３により決定されるパラメータは、異なる照明で撮影された複数の画像を合成する重み係数を含んでよい。画像収集装置１０は、既存の画像を重ね合わせて、既存の画像には存在しない照明環境をシミュレートし、画像認識モデル１１ｂによる認識精度又は画像生成モデル１１ｃによる生成精度が低い画像を撮影するためのパラメータを探索することができる。合成の重み係数の変化に対して合成画像は線形に変化するので、重み係数を最適化するための処理負荷は比較的軽く、比較的高速に計算することができる。

異なる照明で撮影された複数の画像は、異なる色の照明で撮影された複数の画像を含んでよい。その場合、パラメータは、例えば、赤色の照明で撮影された画像と、緑色の照明で撮影された画像と、青色の照明で撮影された画像とを合成して任意の色で照明された画像を合成する場合の重み係数を含んでよい。これにより、既存の画像を重ね合わせて、既存の画像には存在しない色の照明環境をシミュレートし、画像認識モデル１１ｂによる認識精度又は画像生成モデル１１ｃによる生成精度が低い画像を撮影するための照明の色を探索することができる。

また、異なる照明で撮影された複数の画像は、異なる方向の照明で撮影された複数の画像を含んでよい。その場合、パラメータは、例えば、前から対象物５０を照らして撮影された画像と、後ろから対象物５０を照らして撮影された画像と、左から対象物５０を照らして撮影された画像と、右から対象物５０を照らして撮影された画像と、上から対象物５０を照らして撮影された画像とを合成して任意の方向から対象物５０を照らした画像を合成する場合の重み係数を含んでよい。これにより、既存の画像を重ね合わせて、既存の画像には存在しない照明方向の照明環境をシミュレートし、画像認識モデル１１ｂによる認識精度又は画像生成モデル１１ｃによる生成精度が低い画像を撮影するための照明の方向を探索することができる。

決定部１３により決定されるパラメータは、照明３０の配置を表す数値、照明３０の色を表す数値、照明３０の光量を表す数値及びカメラ２０の撮影視点を表す数値の少なくともいずれかを含んでよい。これにより、照明３０の配置、照明３０の色、照明３０の光量及びカメラ２０の撮影視点を変化させて、画像認識モデル１１ｂによる認識精度又は画像生成モデル１１ｃによる生成精度が低い画像を学習用画像に加えることができ、画像認識モデル１１ｂや画像生成モデル１１ｃの性能を向上させる学習用の画像を収集することができる。

決定部１３は、事前にサンプリングされた参考画像に基づいて決定された変動範囲に収まるようにパラメータを決定してよい。例えば、画像認識モデル１１ｂを屋内の所定の照明環境で撮影された画像に用いる場合、決定部１３は、事前にサンプリングされた当該照明環境で撮影された参考画像に基づいて、想定し得る照明の変動範囲に収まるように照明のパラメータを決定してよい。ここで、屋内とは、例えば店舗内であったり、店舗のレジ周辺であったりしてよい。また、例えば、画像認識モデル１１ｂを屋外で撮影された画像に用いる場合、決定部１３は、異なる天候下で事前にサンプリングされた参考画像に基づいて、想定し得る照明の変動範囲に収まるように照明のパラメータを決定してよい。この場合、参考画像は、全天球画像であってもよい。このように、特定の照明環境において想定される範囲でパラメータを変動させて、画像認識モデル１１ｂや画像生成モデル１１ｃの性能を向上させる学習用の画像を収集することができる。

決定部１３により決定されるパラメータは、対象物５０の位置を表す数値及び対象物５０の姿勢を表す数値の少なくともいずれかを含んでよい。対象物５０の位置を表す数値及び対象物５０の姿勢を表す数値は、ステージ４０を制御するための数値であってよい。これにより、対象物５０の位置及び対象物５０の姿勢を変化させて、画像認識モデル１１ｂによる認識精度又は画像生成モデル１１ｃによる生成精度が低い画像を学習用画像に加えることができ、画像認識モデル１１ｂや画像生成モデル１１ｃの性能を向上させる学習用の画像を収集することができる。

図４は、本実施形態に係る画像収集装置１０の物理的構成を示す図である。画像収集装置１０は、演算部に相当するＣＰＵ（Central Processing Unit）１０ａと、記憶部に相当するＲＡＭ（Random Access Memory）１０ｂと、記憶部に相当するＲＯＭ（Read only Memory）１０ｃと、通信部１０ｄと、入力部１０ｅと、表示部１０ｆと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。なお、本例では画像収集装置１０が一台のコンピュータで構成される場合について説明するが、画像収集装置１０は、複数のコンピュータが組み合わされて実現されてもよい。また、図３で示す構成は一例であり、画像収集装置１０はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。

ＣＰＵ１０ａは、ＲＡＭ１０ｂ又はＲＯＭ１０ｃに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。ＣＰＵ１０ａは、画像認識モデルによる認識精度又は画像生成モデルによる生成精度が低い画像が撮影されるように、対象物５０を照明するパラメータを決定し、決定したパラメータに従って対象物５０を照明して撮影した画像を用いて画像認識モデル又は画像生成モデルを学習させるプログラム（画像収集プログラム）を実行する演算部である。ＣＰＵ１０ａは、入力部１０ｅや通信部１０ｄから種々のデータを受け取り、データの演算結果を表示部１０ｆに表示したり、ＲＡＭ１０ｂやＲＯＭ１０ｃに格納したりする。

ＲＡＭ１０ｂは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。ＲＡＭ１０ｂは、ＣＰＵ１０ａが実行するプログラム、収集した画像といったデータを記憶してよい。なお、これらは例示であって、ＲＡＭ１０ｂには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。

ＲＯＭ１０ｃは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されてよい。ＲＯＭ１０ｃは、例えば画像収集プログラムや、書き換えが行われないデータを記憶してよい。

通信部１０ｄは、画像収集装置１０を他の機器に接続するインターフェースである。通信部１０ｄは、インターネット等の通信ネットワークＮに接続されてよい。

入力部１０ｅは、ユーザからデータの入力を受け付けるものであり、例えば、キーボード及びタッチパネルを含んでよい。

表示部１０ｆは、ＣＰＵ１０ａによる演算結果を視覚的に表示するものであり、例えば、ＬＣＤ（Liquid Crystal Display）により構成されてよい。表示部１０ｆは、収集した画像を表示してよい。

画像収集プログラムは、ＲＡＭ１０ｂやＲＯＭ１０ｃ等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部１０ｄにより接続される通信ネットワークを介して提供されてもよい。画像収集装置１０では、ＣＰＵ１０ａが画像収集プログラムを実行することにより、図２を用いて説明した学習部１２及び決定部１３の動作が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、画像収集装置１０は、ＣＰＵ１０ａとＲＡＭ１０ｂやＲＯＭ１０ｃが一体化したＬＳＩ（Large-Scale Integration）を備えていてもよい。

図５は、本実施形態に係る画像収集システム１００により実行される処理のフローチャートである。はじめに、画像収集装置１０は、パラメータの初期値を決定する（Ｓ１０）。

次に、画像収集システム１００は、決定されたパラメータに従って照明３０によって対象物５０を照らし、決定されたパラメータに従ってステージ４０によって対象物５０を位置及び姿勢を制御して、カメラ２０によって対象物５０の画像を撮影し、学習用画像として蓄積する（Ｓ１１）。

その後、画像収集装置１０は、学習用画像を用いて画像認識モデル１１ｂ又は画像生成モデル１１ｃの学習処理を実行する（Ｓ１２）。

画像収集を終了しない場合（Ｓ１３：ＮＯ）、画像収集装置１０は、画像認識モデル１１ｂの認識精度又は画像生成モデル１１ｃの生成精度が低い画像が撮影されるように、パラメータを決定する（Ｓ１４）。その後、画像収集システム１００は、新たに決定されたパラメータを用いて、処理Ｓ１１及びＳ１２を繰り返す。

一方、画像収集を終了する場合（Ｓ１３：ＹＥＳ）、画像収集システム１００により実行される処理が終了する。

図６は、本実施形態に係る画像収集装置１０によって収集された画像を用いて画像認識モデル１１ｂを生成した場合の認識精度と比較例の認識精度を示す図である。同図では、縦軸に画像認識モデル１１ｂの認識精度を表すＦ１値を示し、横軸に対象物５０の種類を示している。本例では、対象物５０は９種類の菓子袋であり、画像認識モデル１１ｂは、画像に写されている物が９種類の菓子袋のいずれであるか分類するモデルである。

同図では、照明３０によって一定の光をあてて対象物５０を撮影した画像を、ＰＣＡ（Principal Component Analysis）によるデータ拡張(data augmentation)を行って明度や色調を変化させた１００枚の画像を用いて画像認識モデル１１ｂを生成した第１比較例の場合の認識精度を一点鎖線で示している。また、照明３０によってランダムな光をあてて対象物５０を撮影した１００枚の画像を用いて画像認識モデル１１ｂを生成した第２比較例の場合の認識精度を破線で示している。また、照明３０によってランダムな光をあてて対象物５０を撮影した８０枚の画像を用いて画像認識モデル１１ｂを生成し、本実施形態に係る画像収集装置１０によって２０枚の画像を収集して、合計１００枚の画像で画像認識モデル１１ｂを再学習させた場合の認識精度を実線で示している。

第１比較例の場合、分類精度を表すＦ１値は、０．８〜０．９程度であり、第２比較例の場合、分類精度を表すＦ１値は、０．９〜１．０程度である。対して、本実施形態に係る画像収集装置１０によって収集された画像を用いて生成した画像認識モデル１１ｂの分類精度を表すＦ１値は、９種類の対象物全てについて１．０程度である。

このように、本実施形態に係る画像収集装置１０によれば、画像認識モデル１１ｂによる認識精度が低い画像を学習用画像に加えることができ、画像認識モデル１１ｂの性能を向上させる学習用の画像を収集することができる。上記の例は画像認識モデル１１ｂの場合であるが、画像生成モデル１１ｃの生成精度についても、同様に、性能を向上させる学習用の画像を収集することができるという効果を奏する。

以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。

１０…画像収集装置、１０ａ…ＣＰＵ、１０ｂ…ＲＡＭ、１０ｃ…ＲＯＭ、１０ｄ…通信部、１０ｅ…入力部、１０ｆ…表示部、１１…記憶部、１１ａ…学習用画像、１１ｂ…画像認識モデル、１１ｃ…画像生成モデル、１２…学習部、１３…決定部、２０，２０ａ，２０ｂ，２０ｃ…カメラ、３０…照明、４０…ステージ、５０…対象物、１００…画像収集システム

Claims

対象物を撮影した画像を用いて、画像認識モデル又は画像生成モデルを学習させる学習部と、
前記画像認識モデルによる認識精度又は前記画像生成モデルによる生成精度が低い画像が撮影されるように、前記対象物を照明するパラメータを決定する決定部と、を備え、
前記学習部は、決定されたパラメータに従った照明で前記対象物を撮影した画像を用いて、前記画像認識モデル又は前記画像生成モデルを再学習させる、
学習画像収集装置。
前記パラメータは、前記照明の分布を級数展開した場合の展開係数を含む、
請求項１に記載の学習画像収集装置。
前記級数展開は、球面調和関数による展開である、
請求項２に記載の学習画像収集装置。
前記パラメータは、異なる照明で撮影された複数の画像を合成する重み係数を含む、
請求項１から３のいずれか一項に記載の学習画像収集装置。
異なる照明で撮影された前記複数の画像は、異なる色の照明で撮影された複数の画像を含む、
請求項４に記載の学習画像収集装置。
異なる照明で撮影された前記複数の画像は、異なる方向の照明で撮影された複数の画像を含む、
請求項４に記載の学習画像収集装置。
前記パラメータは、照明の配置を表す数値、照明の色を表す数値、照明の光量を表す数値及び撮影視点を表す数値の少なくともいずれかを含む、
請求項１から６のいずれか一項に記載の学習画像収集装置。
前記決定部は、事前にサンプリングされた参考画像に基づいて決定された変動範囲に収まるように前記パラメータを決定する、
請求項１から７のいずれか一項に記載の学習画像収集装置。
前記パラメータは、前記対象物の位置を表す数値及び前記対象物の姿勢を表す数値の少なくともいずれかを含む、
請求項１から８のいずれか一項に記載の学習画像収集装置。
設定されたパラメータに従って対象物を照らす照明と、前記対象物を撮影するカメラと、
学習画像収集装置と、を備える学習画像収集システムであって、
前記学習画像収集装置は、
前記対象物を前記カメラで撮影した画像を用いて、画像認識モデル又は画像生成モデルを学習させる学習部と、
前記画像認識モデルの認識精度又は前記画像生成モデルの生成精度が落ちるように、前記照明によって前記対象物を照明するパラメータを決定する決定部と、
前記学習部は、決定されたパラメータにより設定された照明で前記対象物を撮影した画像を用いて、前記画像認識モデル又は前記画像生成モデルを再学習させる、
学習画像収集システム。
学習画像収集装置に、
対象物を撮影した画像を用いて、画像認識モデル又は画像生成モデルを学習させることと、
前記画像認識モデルの認識精度又は前記画像生成モデルの生成精度が落ちるように、前記対象物を照明するパラメータを決定することと、
決定されたパラメータに従った照明で前記対象物を撮影した画像を用いて、前記画像認識モデル又は前記画像生成モデルを再学習させることと、
を実行させる学習画像収集方法。
学習画像収集装置に、
対象物を撮影した画像を用いて、画像認識モデル又は画像生成モデルを学習させることと、
前記画像認識モデルの認識精度又は前記画像生成モデルの生成精度が落ちるように、前記対象物を照明するパラメータを決定することと、
決定されたパラメータに従った照明で前記対象物を撮影した画像を用いて、前記画像認識モデル又は前記画像生成モデルを再学習させることと、
を実行させる学習画像収集プログラム。