JP2020144785A - 画像収集装置、画像収集システム、画像収集方法及び画像収集プログラム - Google Patents

画像収集装置、画像収集システム、画像収集方法及び画像収集プログラム Download PDF

Info

Publication number
JP2020144785A
JP2020144785A JP2019042825A JP2019042825A JP2020144785A JP 2020144785 A JP2020144785 A JP 2020144785A JP 2019042825 A JP2019042825 A JP 2019042825A JP 2019042825 A JP2019042825 A JP 2019042825A JP 2020144785 A JP2020144785 A JP 2020144785A
Authority
JP
Japan
Prior art keywords
image
learning
model
recognition model
accuracy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019042825A
Other languages
English (en)
Inventor
信行 梅谷
Nobuyuki Umetani
信行 梅谷
五十嵐 健夫
Takeo Igarashi
健夫 五十嵐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tokyo NUC
Original Assignee
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Tokyo NUC filed Critical University of Tokyo NUC
Priority to JP2019042825A priority Critical patent/JP2020144785A/ja
Publication of JP2020144785A publication Critical patent/JP2020144785A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】画像認識モデルや画像生成モデルの性能を向上させる学習用の画像を収集する画像収集装置等を提供する。【解決手段】画像収集装置10は、対象物50を撮影した画像を用いて、画像認識モデル11b又は画像生成モデル11cを学習させる学習部12と、画像認識モデル11bによる認識精度又は画像生成モデル11cによる生成精度が低い画像が撮影されるように、対象物50を照明するパラメータを決定する決定部13と、を備える。学習部12は、決定されたパラメータに従った照明で対象物50を撮影した画像を用いて、画像認識モデル11b又は画像生成モデル11cを再学習させる。【選択図】図3

Description

本発明は、画像収集装置、画像収集システム、画像収集方法及び画像収集プログラムに関する。
近年、機械学習技術の進展により、画像認識や画像生成の性能が飛躍的に向上している。ここで、画像認識モデルや画像生成モデルは、学習用の画像を用いた教師あり学習によって生成される場合がある。
一方、CG(Computer Graphics)の分野では、所定の背景で人物を撮影し、別途撮影した背景画像と人物の画像を合成する技術が研究されている。そのような画像合成をより精度良く行うため、下記非特許文献1では、ドームの中に多数配置された照明によって、背景画像の照明環境を再現する技術が研究されている。
Paul Debevec, Tim Hawkins, Chris Tchou, Haarm-Pieter Duiker, Westley Sarokin, and Mark Sagar, "Acquiring the Reflectance Field of a Human Face", SIGGRAPH 2000 Conference Proceedings, 2000
画像認識モデルや画像生成モデルの性能を向上させるためには、多様な環境で撮影された学習用の画像を大量に収集することが望まれる。とりわけ、画像が撮影される照明環境がモデルの性能に大きな影響を及ぼすが、多様な照明環境を網羅するような画像を用意することは困難な場合がある。そのため、学習用の画像に含まれていなかった照明環境で撮影された画像について、画像認識モデルや画像生成モデルの性能が高められないことがある。
そこで、本発明は、画像認識モデルや画像生成モデルの性能を向上させる学習用の画像を収集する画像収集装置、画像収集システム、画像収集方法及び画像収集プログラムを提供する。
本発明の一態様に係る画像収集装置は、対象物を撮影した画像を用いて、画像認識モデル又は画像生成モデルを学習させる学習部と、画像認識モデルによる認識精度又は画像生成モデルによる生成精度が低い画像が撮影されるように、対象物を照明するパラメータを決定する決定部と、を備え、学習部は、決定されたパラメータに従った照明で対象物を撮影した画像を用いて、画像認識モデル又は画像生成モデルを再学習させる。
この態様によれば、画像認識モデルによる認識精度又は画像生成モデルによる生成精度が低い画像を学習用画像に加えることができ、画像認識モデルや画像生成モデルの性能を向上させる学習用の画像を収集することができる。
上記態様において、パラメータは、照明の分布を級数展開した場合の展開係数を含んでもよい。
この態様によれば、画像認識モデルによる認識又は画像生成モデルによる生成が比較的易しい画像の収集から始めて、画像認識モデルによる認識又は画像生成モデルによる生成が比較的難しい画像の収集に進むことができ、画像認識モデル又は画像生成モデルの学習を段階的に進めていくことができる。
上記態様において、級数展開は、球面調和関数による展開であってもよい。
この態様によれば、球面上に照明を配置する場合に、画像認識モデルによる認識又は画像生成モデルによる生成が比較的易しい画像の収集から始めて、画像認識モデルによる認識又は画像生成モデルによる生成が比較的難しい画像の収集に進むことができ、画像認識モデル又は画像生成モデルの学習を段階的に進めていくことができる。
上記態様において、パラメータは、異なる照明で撮影された複数の画像を合成する重み係数を含んでもよい。
この態様によれば、既存の画像を重ね合わせて、既存の画像には存在しない照明環境をシミュレートし、画像認識モデルによる認識精度又は画像生成モデルによる生成精度が低い画像を撮影するためのパラメータを探索することができる。
上記態様において、異なる照明で撮影された複数の画像は、異なる色の照明で撮影された複数の画像を含んでもよい。
この態様によれば、既存の画像を重ね合わせて、既存の画像には存在しない色の照明環境をシミュレートし、画像認識モデルによる認識精度又は画像生成モデルによる生成精度が低い画像を撮影するための照明の色を探索することができる。
上記態様において、異なる照明で撮影された複数の画像は、異なる方向の照明で撮影された複数の画像を含んでもよい。
この態様によれば、既存の画像を重ね合わせて、既存の画像には存在しない照明方向の照明環境をシミュレートし、画像認識モデルによる認識精度又は画像生成モデルによる生成精度が低い画像を撮影するための照明の方向を探索することができる。
上記態様において、パラメータは、照明の配置を表す数値、照明の色を表す数値、照明の光量を表す数値及び撮影視点を表す数値の少なくともいずれかを含んでもよい。
この態様によれば、照明の配置、照明の色、照明の光量及び撮影視点を変化させて、画像認識モデルによる認識精度又は画像生成モデルによる生成精度が低い画像を学習用画像に加えることができ、画像認識モデルや画像生成モデルの性能を向上させる学習用の画像を収集することができる。
上記態様において、決定部は、事前にサンプリングされた参考画像に基づいて決定された変動範囲に収まるようにパラメータを決定してもよい。
この態様によれば、特定の照明環境において想定される範囲でパラメータを変動させて、画像認識モデルや画像生成モデルの性能を向上させる学習用の画像を収集することができる。
上記態様において、パラメータは、対象物の位置を表す数値及び対象物の姿勢を表す数値の少なくともいずれかを含んでもよい。
この態様によれば、対象物の位置及び対象物の姿勢を変化させて、画像認識モデルによる認識精度又は画像生成モデルによる生成精度が低い画像を学習用画像に加えることができ、画像認識モデルや画像生成モデルの性能を向上させる学習用の画像を収集することができる。
本発明の他の態様に係る画像収集システムは、設定されたパラメータに従って対象物を照らす照明と、対象物を撮影するカメラと、学習画像収集装置と、を備える学習画像収集システムであって、学習画像収集装置は、対象物をカメラで撮影した画像を用いて、画像認識モデル又は画像生成モデルを学習させる学習部と、画像認識モデルの認識精度又は画像生成モデルの生成精度が落ちるように、照明によって対象物を照明するパラメータを決定する決定部と、学習部は、決定されたパラメータにより設定された照明で対象物を撮影した画像を用いて、画像認識モデル又は画像生成モデルを再学習させる。
この態様によれば、画像認識モデルによる認識精度又は画像生成モデルによる生成精度が低い画像を学習用画像に加えることができ、画像認識モデルや画像生成モデルの性能を向上させる学習用の画像を収集することができる。
本発明の他の態様に係る画像収集方法は、学習画像収集装置に、対象物を撮影した画像を用いて、画像認識モデル又は画像生成モデルを学習させることと、画像認識モデルの認識精度又は画像生成モデルの生成精度が落ちるように、対象物を照明するパラメータを決定することと、決定されたパラメータに従った照明で対象物を撮影した画像を用いて、画像認識モデル又は画像生成モデルを再学習させることと、を実行させる。
この態様によれば、画像認識モデルによる認識精度又は画像生成モデルによる生成精度が低い画像を学習用画像に加えることができ、画像認識モデルや画像生成モデルの性能を向上させる学習用の画像を収集することができる。
本発明の他の態様に係る画像収集プログラムは、学習画像収集装置に、対象物を撮影した画像を用いて、画像認識モデル又は画像生成モデルを学習させることと、画像認識モデルの認識精度又は画像生成モデルの生成精度が落ちるように、対象物を照明するパラメータを決定することと、決定されたパラメータに従った照明で対象物を撮影した画像を用いて、画像認識モデル又は画像生成モデルを再学習させることと、を実行させる。
この態様によれば、画像認識モデルによる認識精度又は画像生成モデルによる生成精度が低い画像を学習用画像に加えることができ、画像認識モデルや画像生成モデルの性能を向上させる学習用の画像を収集することができる。
本発明によれば、画像認識モデルや画像生成モデルの性能を向上させる学習用の画像を収集する画像収集装置、画像収集システム、画像収集方法及び画像収集プログラムを提供することができる。
本発明の実施形態に係る画像収集システムのネットワーク構成を示す図である。 本実施形態に係る画像収集システムの概要を示す図である。 本実施形態に係る画像収集装置の機能ブロックを示す図である。 本実施形態に係る画像収集装置の物理的構成を示す図である。 本実施形態に係る画像収集システムにより実行される処理のフローチャートである。 本実施形態に係る画像収集装置によって収集された画像を用いて画像認識モデルを生成した場合の認識精度と比較例の認識精度を示す図である。
添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。
図1は、本発明の実施形態に係る画像収集システム100のネットワーク構成を示す図である。画像収集システム100は、画像収集装置10、カメラ20、照明30及びステージ40を含み、対象物50の画像を収集する。
画像収集装置10は、照明30及びステージ40を制御して、カメラ20によって撮影した対象物50の画像を収集する。画像収集装置10は、照明30及びステージ40を制御して、後述する画像認識モデルによる認識精度又は画像生成モデルによる生成精度が低い画像が撮影されるように、照明30及びステージ40を制御して、カメラ20によって画像を撮影し、学習用の画像を収集する。
カメラ20は、対象物50の画像を撮影する。カメラ20は、汎用のデジタルカメラであってよいが、可視光以外の光を用いて対象物50の画像を撮影するカメラであってもよい。画像収集システム100は、複数のカメラ20を含んでよい。複数のカメラ20は、次図に示すように球面上に配置されていたり、2次元格子上に配置されていたりしてよい。また、カメラ20は、移動可能であってもよい。
照明30は、画像収集装置10により設定されたパラメータに従って、対象物50を照らす。照明30は、例えば、RGBの3原色に対応する複数のLED(Light Emitting Diode)で構成されてよい。照明30は、次図に示すように、LEDが球面上に配置されたものであったり、LEDが2次元格子上に配置されたものであったりしてよい。照明30は、個々のLEDの光量を制御可能であってよく、RGBに対応するLEDの光量を制御することで、任意の色及び任意の光量で対象物50を照らすことができるものであってよい。また、照明30は、移動可能であってもよい。
ステージ40は、対象物50が置かれる可動式の台である。ステージ40は、対象物50の位置及び姿勢を制御可能であってよい。ステージ40は、対象物50を把持するロボットハンドであってもよい。また、ステージ40は、対象物50を押すロッドや対象物50を引く紐を含んだり、対象物50に風を当てたり振動させる機構を含んだりしてもよい。また、ステージ40は、対象物50を水で濡らしたり、汚したりする機構を含んでもよい。画像収集装置10は、ステージ40に含まれる機構を制御して、対象物50の状態を様々に変化させて学習用の画像を収集してよい。
対象物50は、任意の物である。本実施形態では、対象物50は、菓子袋である。菓子袋は、照明環境や視点によって見え方が変動しやすく、画像認識モデルによって安定した認識を行ったり、画像生成モデルによって安定した画像生成を行ったりすることが難しい対象物の1つである。なお、対象物50は、人や動物等の生物であってもよい。
図2は、本実施形態に係る画像収集システム100の概要を示す図である。画像収集システム100は、画像収集装置10、カメラ20a,20b,20c、照明30及びステージ40を含む。照明30は、対象物50を囲む半球面上に配置された複数のLEDを含む。個々のLEDの光量や色は、画像収集装置10によって制御可能であってよく、照明30は、任意の色及び任意の光量で、任意の方向から対象物50を照らすことができるものであってよい。
カメラ20a,20b,20cは、汎用のデジタルカメラであってよく、照明30と同様に、半球面上に配置されていてよい。なお、同図では、3台のカメラを例示しているが、カメラの台数は任意であり、その配置も任意である。
ステージ40は、対象物50が置かれる可動式の台であり、対象物50の位置及び姿勢は、画像収集装置10によって制御可能であってよい。なお、ステージ40等の対象物50の背景となる面は、単一の色(例えば黒色)のものであってよい。
図3は、本実施形態に係る画像収集装置10の機能ブロックを示す図である。画像収集装置10は、記憶部11、学習部12及び決定部13を備える。
記憶部11は、学習用画像11a、画像認識モデル11b及び画像生成モデル11cを記憶している。学習用画像11aは、ステージ40に置かれた対象物50を照明30で照らして、カメラ20で撮影した画像であり、異なる照明環境で撮影された複数枚の画像を含んでよい。画像認識モデル11bを学習させる場合、学習用画像11aには対象物50の分類を示すラベルデータや、画像に写された対象物50の位置を示すデータが関連付けられてよい。
画像認識モデル11bは、画像に写された物体を分類したり、画像に写された物体の位置をバウンディングボックスで示したりするモデルであってよく、例えば、CNN(Convolutional Neural Network)で構成されてよい。画像生成モデル11cは、学習用の画像に類似する画像を生成するモデルであってよく、例えば、GAN(Generative Adversarial Network)で構成されてよい。
なお、本実施形態では、記憶部11に画像認識モデル11b及び画像生成モデル11cを記憶する場合を例示するが、記憶部11は、画像認識モデル11bのみを記憶してもよいし、画像生成モデル11cのみを記憶してもよい。また、画像認識モデル11b及び画像生成モデル11cは、画像収集装置10と通信可能な他の計算機に記憶されていてもよい。
学習部12は、対象物50を撮影した画像を用いて、画像認識モデル11b又は画像生成モデル11cを学習させる。ここで、画像認識モデル11b又は画像生成モデル11cがニューラルネットワークによって構成される場合、画像認識モデル11b又は画像生成モデル11cの学習は、所定の損失関数を最小化するように、誤差逆伝播法によって行われてよい。
決定部13は、画像認識モデル11bによる認識精度又は画像生成モデル11cによる生成精度が低い画像が撮影されるように、対象物50を照明するパラメータを決定する。画像認識モデル11bによる認識精度が低い画像とは、画像認識モデル11bが画像に写された対象物50を誤認識しやすい画像であり、対象物50の分類を誤りやすい画像であったり、対象物50の位置や姿勢を誤って認識しやすい画像であったりしてよい。また、画像生成モデル11cによる生成精度が低い画像とは、画像生成モデル11cにより生成される画像と対比される学習用の画像であって、画像生成モデル11cにより生成される画像と学習用の画像とが非類似となりやすい画像であってよい。画像生成モデル11cがGANにより構成される場合、画像生成モデル11cによる生成精度が低い画像は、ディスクリミネータによって参照される学習用の画像であり、ジェネレータによって生成された画像と学習用の画像との違いを識別することが比較的容易である画像であってよい。決定部13は、例えば、焼きなまし法(Simulated Annealing)及びMetropolis Hasting法等の確率的最適化によってパラメータを決定したり、ベイズ最適化(Baysian Optiization)、遺伝的最適化及び粒子群最適化(Particle Swarm Optimization)等によってパラメータを決定したりしてよい。
学習部12は、決定部13により決定されたパラメータに従った照明で対象物50を撮影した画像を用いて、画像認識モデル11b又は画像生成モデル11cを再学習させる。画像認識モデル11b又は画像生成モデル11cがニューラルネットワークによって構成される場合、画像認識モデル11b又は画像生成モデル11cの再学習は、所定の損失関数を最小化するように、誤差逆伝播法によって行われてよい。
このように、画像認識モデル11bによる認識精度又は画像生成モデル11cによる生成精度が低い画像を学習用画像に加えることができ、画像認識モデル11bや画像生成モデル11cの性能を向上させる学習用の画像を収集することができる。
決定部13により決定されるパラメータは、照明の分布を級数展開した場合の展開係数を含んでよい。例えば、照明30が2次元格子上に配置された複数のLEDを含む場合、パラメータは、複数のLEDによる照明の分布を多項式、三角関数又は特殊関数で展開した場合の展開係数を含んでよい。決定部13は、低次の級数によって表される照明の分布から、高次の級数によって表される照明の分布に進むように、パラメータを決定してよい。これにより、画像認識モデル11bによる認識又は画像生成モデル11cによる生成が比較的易しい画像の収集から始めて、画像認識モデル11bによる認識又は画像生成モデル11cによる生成が比較的難しい画像の収集に進むことができ、画像認識モデル11b又は画像生成モデル11cの学習を段階的に進めていくことができる。
また、照明の分布の級数展開は、球面調和関数による展開であってもよい。例えば、照明30が球面上に配置された複数のLEDを含む場合、パラメータは、複数のLEDによる照明の分布を球面調和関数で展開した場合の展開係数を含んでよい。決定部13は、低次の球面調和関数によって表される照明の分布から、高次の球面調和関数によって表される照明の分布に進むように、パラメータを決定してよい。これにより、球面上に照明30を配置する場合に、画像認識モデル11bによる認識又は画像生成モデル11cによる生成が比較的易しい画像の収集から始めて、画像認識モデル11bによる認識又は画像生成モデル11cによる生成が比較的難しい画像の収集に進むことができ、画像認識モデル11b又は画像生成モデル11cの学習を段階的に進めていくことができる。
決定部13により決定されるパラメータは、異なる照明で撮影された複数の画像を合成する重み係数を含んでよい。画像収集装置10は、既存の画像を重ね合わせて、既存の画像には存在しない照明環境をシミュレートし、画像認識モデル11bによる認識精度又は画像生成モデル11cによる生成精度が低い画像を撮影するためのパラメータを探索することができる。合成の重み係数の変化に対して合成画像は線形に変化するので、重み係数を最適化するための処理負荷は比較的軽く、比較的高速に計算することができる。
異なる照明で撮影された複数の画像は、異なる色の照明で撮影された複数の画像を含んでよい。その場合、パラメータは、例えば、赤色の照明で撮影された画像と、緑色の照明で撮影された画像と、青色の照明で撮影された画像とを合成して任意の色で照明された画像を合成する場合の重み係数を含んでよい。これにより、既存の画像を重ね合わせて、既存の画像には存在しない色の照明環境をシミュレートし、画像認識モデル11bによる認識精度又は画像生成モデル11cによる生成精度が低い画像を撮影するための照明の色を探索することができる。
また、異なる照明で撮影された複数の画像は、異なる方向の照明で撮影された複数の画像を含んでよい。その場合、パラメータは、例えば、前から対象物50を照らして撮影された画像と、後ろから対象物50を照らして撮影された画像と、左から対象物50を照らして撮影された画像と、右から対象物50を照らして撮影された画像と、上から対象物50を照らして撮影された画像とを合成して任意の方向から対象物50を照らした画像を合成する場合の重み係数を含んでよい。これにより、既存の画像を重ね合わせて、既存の画像には存在しない照明方向の照明環境をシミュレートし、画像認識モデル11bによる認識精度又は画像生成モデル11cによる生成精度が低い画像を撮影するための照明の方向を探索することができる。
決定部13により決定されるパラメータは、照明30の配置を表す数値、照明30の色を表す数値、照明30の光量を表す数値及びカメラ20の撮影視点を表す数値の少なくともいずれかを含んでよい。これにより、照明30の配置、照明30の色、照明30の光量及びカメラ20の撮影視点を変化させて、画像認識モデル11bによる認識精度又は画像生成モデル11cによる生成精度が低い画像を学習用画像に加えることができ、画像認識モデル11bや画像生成モデル11cの性能を向上させる学習用の画像を収集することができる。
決定部13は、事前にサンプリングされた参考画像に基づいて決定された変動範囲に収まるようにパラメータを決定してよい。例えば、画像認識モデル11bを屋内の所定の照明環境で撮影された画像に用いる場合、決定部13は、事前にサンプリングされた当該照明環境で撮影された参考画像に基づいて、想定し得る照明の変動範囲に収まるように照明のパラメータを決定してよい。ここで、屋内とは、例えば店舗内であったり、店舗のレジ周辺であったりしてよい。また、例えば、画像認識モデル11bを屋外で撮影された画像に用いる場合、決定部13は、異なる天候下で事前にサンプリングされた参考画像に基づいて、想定し得る照明の変動範囲に収まるように照明のパラメータを決定してよい。この場合、参考画像は、全天球画像であってもよい。このように、特定の照明環境において想定される範囲でパラメータを変動させて、画像認識モデル11bや画像生成モデル11cの性能を向上させる学習用の画像を収集することができる。
決定部13により決定されるパラメータは、対象物50の位置を表す数値及び対象物50の姿勢を表す数値の少なくともいずれかを含んでよい。対象物50の位置を表す数値及び対象物50の姿勢を表す数値は、ステージ40を制御するための数値であってよい。これにより、対象物50の位置及び対象物50の姿勢を変化させて、画像認識モデル11bによる認識精度又は画像生成モデル11cによる生成精度が低い画像を学習用画像に加えることができ、画像認識モデル11bや画像生成モデル11cの性能を向上させる学習用の画像を収集することができる。
図4は、本実施形態に係る画像収集装置10の物理的構成を示す図である。画像収集装置10は、演算部に相当するCPU(Central Processing Unit)10aと、記憶部に相当するRAM(Random Access Memory)10bと、記憶部に相当するROM(Read only Memory)10cと、通信部10dと、入力部10eと、表示部10fと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。なお、本例では画像収集装置10が一台のコンピュータで構成される場合について説明するが、画像収集装置10は、複数のコンピュータが組み合わされて実現されてもよい。また、図3で示す構成は一例であり、画像収集装置10はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。
CPU10aは、RAM10b又はROM10cに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。CPU10aは、画像認識モデルによる認識精度又は画像生成モデルによる生成精度が低い画像が撮影されるように、対象物50を照明するパラメータを決定し、決定したパラメータに従って対象物50を照明して撮影した画像を用いて画像認識モデル又は画像生成モデルを学習させるプログラム(画像収集プログラム)を実行する演算部である。CPU10aは、入力部10eや通信部10dから種々のデータを受け取り、データの演算結果を表示部10fに表示したり、RAM10bやROM10cに格納したりする。
RAM10bは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。RAM10bは、CPU10aが実行するプログラム、収集した画像といったデータを記憶してよい。なお、これらは例示であって、RAM10bには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。
ROM10cは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されてよい。ROM10cは、例えば画像収集プログラムや、書き換えが行われないデータを記憶してよい。
通信部10dは、画像収集装置10を他の機器に接続するインターフェースである。通信部10dは、インターネット等の通信ネットワークNに接続されてよい。
入力部10eは、ユーザからデータの入力を受け付けるものであり、例えば、キーボード及びタッチパネルを含んでよい。
表示部10fは、CPU10aによる演算結果を視覚的に表示するものであり、例えば、LCD(Liquid Crystal Display)により構成されてよい。表示部10fは、収集した画像を表示してよい。
画像収集プログラムは、RAM10bやROM10c等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部10dにより接続される通信ネットワークを介して提供されてもよい。画像収集装置10では、CPU10aが画像収集プログラムを実行することにより、図2を用いて説明した学習部12及び決定部13の動作が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、画像収集装置10は、CPU10aとRAM10bやROM10cが一体化したLSI(Large-Scale Integration)を備えていてもよい。
図5は、本実施形態に係る画像収集システム100により実行される処理のフローチャートである。はじめに、画像収集装置10は、パラメータの初期値を決定する(S10)。
次に、画像収集システム100は、決定されたパラメータに従って照明30によって対象物50を照らし、決定されたパラメータに従ってステージ40によって対象物50を位置及び姿勢を制御して、カメラ20によって対象物50の画像を撮影し、学習用画像として蓄積する(S11)。
その後、画像収集装置10は、学習用画像を用いて画像認識モデル11b又は画像生成モデル11cの学習処理を実行する(S12)。
画像収集を終了しない場合(S13:NO)、画像収集装置10は、画像認識モデル11bの認識精度又は画像生成モデル11cの生成精度が低い画像が撮影されるように、パラメータを決定する(S14)。その後、画像収集システム100は、新たに決定されたパラメータを用いて、処理S11及びS12を繰り返す。
一方、画像収集を終了する場合(S13:YES)、画像収集システム100により実行される処理が終了する。
図6は、本実施形態に係る画像収集装置10によって収集された画像を用いて画像認識モデル11bを生成した場合の認識精度と比較例の認識精度を示す図である。同図では、縦軸に画像認識モデル11bの認識精度を表すF1値を示し、横軸に対象物50の種類を示している。本例では、対象物50は9種類の菓子袋であり、画像認識モデル11bは、画像に写されている物が9種類の菓子袋のいずれであるか分類するモデルである。
同図では、照明30によって一定の光をあてて対象物50を撮影した画像を、PCA(Principal Component Analysis)によるデータ拡張(data augmentation)を行って明度や色調を変化させた100枚の画像を用いて画像認識モデル11bを生成した第1比較例の場合の認識精度を一点鎖線で示している。また、照明30によってランダムな光をあてて対象物50を撮影した100枚の画像を用いて画像認識モデル11bを生成した第2比較例の場合の認識精度を破線で示している。また、照明30によってランダムな光をあてて対象物50を撮影した80枚の画像を用いて画像認識モデル11bを生成し、本実施形態に係る画像収集装置10によって20枚の画像を収集して、合計100枚の画像で画像認識モデル11bを再学習させた場合の認識精度を実線で示している。
第1比較例の場合、分類精度を表すF1値は、0.8〜0.9程度であり、第2比較例の場合、分類精度を表すF1値は、0.9〜1.0程度である。対して、本実施形態に係る画像収集装置10によって収集された画像を用いて生成した画像認識モデル11bの分類精度を表すF1値は、9種類の対象物全てについて1.0程度である。
このように、本実施形態に係る画像収集装置10によれば、画像認識モデル11bによる認識精度が低い画像を学習用画像に加えることができ、画像認識モデル11bの性能を向上させる学習用の画像を収集することができる。上記の例は画像認識モデル11bの場合であるが、画像生成モデル11cの生成精度についても、同様に、性能を向上させる学習用の画像を収集することができるという効果を奏する。
以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。
10…画像収集装置、10a…CPU、10b…RAM、10c…ROM、10d…通信部、10e…入力部、10f…表示部、11…記憶部、11a…学習用画像、11b…画像認識モデル、11c…画像生成モデル、12…学習部、13…決定部、20,20a,20b,20c…カメラ、30…照明、40…ステージ、50…対象物、100…画像収集システム

Claims (12)

  1. 対象物を撮影した画像を用いて、画像認識モデル又は画像生成モデルを学習させる学習部と、
    前記画像認識モデルによる認識精度又は前記画像生成モデルによる生成精度が低い画像が撮影されるように、前記対象物を照明するパラメータを決定する決定部と、を備え、
    前記学習部は、決定されたパラメータに従った照明で前記対象物を撮影した画像を用いて、前記画像認識モデル又は前記画像生成モデルを再学習させる、
    学習画像収集装置。
  2. 前記パラメータは、前記照明の分布を級数展開した場合の展開係数を含む、
    請求項1に記載の学習画像収集装置。
  3. 前記級数展開は、球面調和関数による展開である、
    請求項2に記載の学習画像収集装置。
  4. 前記パラメータは、異なる照明で撮影された複数の画像を合成する重み係数を含む、
    請求項1から3のいずれか一項に記載の学習画像収集装置。
  5. 異なる照明で撮影された前記複数の画像は、異なる色の照明で撮影された複数の画像を含む、
    請求項4に記載の学習画像収集装置。
  6. 異なる照明で撮影された前記複数の画像は、異なる方向の照明で撮影された複数の画像を含む、
    請求項4に記載の学習画像収集装置。
  7. 前記パラメータは、照明の配置を表す数値、照明の色を表す数値、照明の光量を表す数値及び撮影視点を表す数値の少なくともいずれかを含む、
    請求項1から6のいずれか一項に記載の学習画像収集装置。
  8. 前記決定部は、事前にサンプリングされた参考画像に基づいて決定された変動範囲に収まるように前記パラメータを決定する、
    請求項1から7のいずれか一項に記載の学習画像収集装置。
  9. 前記パラメータは、前記対象物の位置を表す数値及び前記対象物の姿勢を表す数値の少なくともいずれかを含む、
    請求項1から8のいずれか一項に記載の学習画像収集装置。
  10. 設定されたパラメータに従って対象物を照らす照明と、前記対象物を撮影するカメラと、
    学習画像収集装置と、を備える学習画像収集システムであって、
    前記学習画像収集装置は、
    前記対象物を前記カメラで撮影した画像を用いて、画像認識モデル又は画像生成モデルを学習させる学習部と、
    前記画像認識モデルの認識精度又は前記画像生成モデルの生成精度が落ちるように、前記照明によって前記対象物を照明するパラメータを決定する決定部と、
    前記学習部は、決定されたパラメータにより設定された照明で前記対象物を撮影した画像を用いて、前記画像認識モデル又は前記画像生成モデルを再学習させる、
    学習画像収集システム。
  11. 学習画像収集装置に、
    対象物を撮影した画像を用いて、画像認識モデル又は画像生成モデルを学習させることと、
    前記画像認識モデルの認識精度又は前記画像生成モデルの生成精度が落ちるように、前記対象物を照明するパラメータを決定することと、
    決定されたパラメータに従った照明で前記対象物を撮影した画像を用いて、前記画像認識モデル又は前記画像生成モデルを再学習させることと、
    を実行させる学習画像収集方法。
  12. 学習画像収集装置に、
    対象物を撮影した画像を用いて、画像認識モデル又は画像生成モデルを学習させることと、
    前記画像認識モデルの認識精度又は前記画像生成モデルの生成精度が落ちるように、前記対象物を照明するパラメータを決定することと、
    決定されたパラメータに従った照明で前記対象物を撮影した画像を用いて、前記画像認識モデル又は前記画像生成モデルを再学習させることと、
    を実行させる学習画像収集プログラム。
JP2019042825A 2019-03-08 2019-03-08 画像収集装置、画像収集システム、画像収集方法及び画像収集プログラム Pending JP2020144785A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019042825A JP2020144785A (ja) 2019-03-08 2019-03-08 画像収集装置、画像収集システム、画像収集方法及び画像収集プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019042825A JP2020144785A (ja) 2019-03-08 2019-03-08 画像収集装置、画像収集システム、画像収集方法及び画像収集プログラム

Publications (1)

Publication Number Publication Date
JP2020144785A true JP2020144785A (ja) 2020-09-10

Family

ID=72354321

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019042825A Pending JP2020144785A (ja) 2019-03-08 2019-03-08 画像収集装置、画像収集システム、画像収集方法及び画像収集プログラム

Country Status (1)

Country Link
JP (1) JP2020144785A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022070937A1 (ja) * 2020-09-30 2022-04-07 ソニーセミコンダクタソリューションズ株式会社 情報処理装置、情報処理方法、及び、プログラム
KR20220046896A (ko) * 2020-10-08 2022-04-15 한국과학기술원 블랙 박스 생성기에 대한 적대적 비(非)우도 추론 방법 및 장치

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022070937A1 (ja) * 2020-09-30 2022-04-07 ソニーセミコンダクタソリューションズ株式会社 情報処理装置、情報処理方法、及び、プログラム
KR20220046896A (ko) * 2020-10-08 2022-04-15 한국과학기술원 블랙 박스 생성기에 대한 적대적 비(非)우도 추론 방법 및 장치
KR102403797B1 (ko) 2020-10-08 2022-05-31 한국과학기술원 블랙 박스 생성기에 대한 적대적 비(非)우도 추론 방법 및 장치

Similar Documents

Publication Publication Date Title
WO2020253663A1 (zh) 基于人工智能的图像区域识别方法、模型训练方法及装置
CN110543578B (zh) 物体识别方法及装置
CN111488824B (zh) 运动提示方法、装置、电子设备和存储介质
US9690982B2 (en) Identifying gestures or movements using a feature matrix that was compressed/collapsed using principal joint variable analysis and thresholds
CN108701352A (zh) 使用基于三维对象模型的识别的图像修改与增强
CN107077624A (zh) 跟踪手部/身体姿势
CN107871102A (zh) 一种人脸检测方法及装置
CN109325469A (zh) 一种基于深度神经网络的人体姿态识别方法
CN103324938A (zh) 训练姿态分类器及物体分类器、物体检测的方法及装置
CN103827891A (zh) 使用全球生成的多维姿势数据检测身体运动的系统和方法
CN110084304A (zh) 一种基于合成数据集的目标检测方法
De Vita et al. Quantitative analysis of deep leaf: A plant disease detector on the smart edge
KR102503116B1 (ko) 인공지능 머신러닝 학습을 위한 데이터셋 자동 생성 장치와 그의 제어 방법
CN112242002B (zh) 基于深度学习的物体识别和全景漫游方法
JP2020144785A (ja) 画像収集装置、画像収集システム、画像収集方法及び画像収集プログラム
CN101894263A (zh) 基于水平集和局部敏感判别映射的植物物种计算机辅助分类系统及分类方法
US20220366244A1 (en) Modeling Human Behavior in Work Environment Using Neural Networks
CN113419623A (zh) 一种非标定眼动交互方法和装置
CN111507325B (zh) 基于深度学习的工业视觉ocr识别系统及方法
CN115222896A (zh) 三维重建方法、装置、电子设备及计算机可读存储介质
CN114821466A (zh) 一种基于改进yolo模型的轻型室内火灾识别方法
CN107316025B (zh) 一种手部姿态识别方法及识别系统
CN110084845A (zh) 变形预测方法、装置及计算机可读存储介质
KR20170082412A (ko) 인식 대상 맞춤형 비전 시스템 생성 장치 및 방법
JPWO2020075468A1 (ja) 環境類似度表示装置、環境類似度表示方法および環境類似度表示アルゴリズム