JP7300699B2 - 教師データ生成方法、教師データ生成プログラム、教師データ生成装置、及び商品識別装置 - Google Patents

教師データ生成方法、教師データ生成プログラム、教師データ生成装置、及び商品識別装置 Download PDF

Info

Publication number
JP7300699B2
JP7300699B2 JP2018212304A JP2018212304A JP7300699B2 JP 7300699 B2 JP7300699 B2 JP 7300699B2 JP 2018212304 A JP2018212304 A JP 2018212304A JP 2018212304 A JP2018212304 A JP 2018212304A JP 7300699 B2 JP7300699 B2 JP 7300699B2
Authority
JP
Japan
Prior art keywords
image
learning
collective
images
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018212304A
Other languages
English (en)
Other versions
JP2020080003A (ja
JP2020080003A5 (ja
Inventor
弘法 堤
修 廣瀬
祥憲 樽本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ishida Co Ltd
Original Assignee
Ishida Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ishida Co Ltd filed Critical Ishida Co Ltd
Priority to JP2018212304A priority Critical patent/JP7300699B2/ja
Priority to US16/678,768 priority patent/US20200151511A1/en
Priority to CN201911096334.2A priority patent/CN111178379B/zh
Priority to EP19208349.1A priority patent/EP3651067A1/en
Publication of JP2020080003A publication Critical patent/JP2020080003A/ja
Publication of JP2020080003A5 publication Critical patent/JP2020080003A5/ja
Application granted granted Critical
Publication of JP7300699B2 publication Critical patent/JP7300699B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/68Food, e.g. fruit or vegetables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Cash Registers Or Receiving Machines (AREA)
  • Image Processing (AREA)

Description

本開示は、教師データ生成方法、教師データ生成プログラム、教師データ生成装置、及び商品識別装置に関する。
特許文献1(特開2017-27136号公報)が開示する店舗システムは、商品を画像認識により識別する。このようなシステムは、商店の会計係などにおける応用が期待されている。
複数の商品が写った画像を撮影する際に、商品が部分的に重なることがある。このような場合、従来の画像処理では、重なり合う複数の商品の区別に支障をきたすことがある。この問題は、近年注目されている機械学習を用いた画像処理においても同様である。
本開示の課題は、複数の商品を識別する商品識別装置等において、商品の数量を演算する演算器を機械学習によって学習する際、重なった商品を区別できるようにすることである。
第1観点に係る教師データの生成方法は、1又は複数の種類の商品が写った集合画像から、集合画像に含まれる各種類の商品の数量を演算する商品識別装置のための、演算器の生成に用いるものである。教師データは、複数の学習用集合画像および複数の学習用集合画像の各々に付されたラベルを含む。教師データの生成方法は、各種類の1つの商品を写した個別画像を取得する第1ステップと、個別画像をランダムに配置することによって1又は複数の商品を含む複数の学習用集合画像を生成する第2ステップと、を備える。第2ステップで生成される複数の学習用集合画像は、個別画像どうしが少なくとも部分的にオーバーラップした学習用集合画像を含む。
この方法によれば、学習用集合画像の少なくとも一部として、個別画像どうしが少なくとも部分的にオーバーラップしたものが存在する。したがって、オーバーラップした商品を識別可能な演算器を構成する教師画像データを得ることができる。
第2観点に係る教師データの生成方法は、第1観点に係る教師データの生成方法において、第2ステップで生成される学習用集合画像に含まれる各種類の商品の数量を、ラベルとして学習用集合画像に付す第3ステップ、をさらに備える。
この方法によれば、教師データは、各商品の数量をラベルとして含む。したがって、商品の数量を識別できるよう、演算器を訓練できる。
第3観点に係る教師データの生成方法は、第1観点に係る教師データの生成方法において、第2ステップで生成される学習用集合画像に含まれる個別画像の各々に対応する重心の座標を、ラベルとして学習用集合画像に付す第3ステップ、をさらに備える。
この方法によれば、教師データは、個別画像の重心の座標を、ラベルとして含む。したがって、複数の商品を単一の商品であると誤認しないよう、演算器を訓練できる。
第4観点に係る教師データの生成方法は、第1観点に係る教師データの生成方法において、第2ステップで生成される集合画像に含まれる個別画像の各々を、それぞれ、対応する代表画像で置換した置換画像を、ラベルとして学習用集合画像に付す第3ステップ、をさらに備える。
この方法によれば、教師データは、個別画像を代表画像で置換した置換画像をラベルとして含む。
第5観点に係る教師データの生成方法は、第4観点に係る教師データの生成方法において、代表画像は、個別画像の各々の重心を示す画素である。
この方法によれば、教師データは、個別画像をその重心画素で置換した置換画像をラベルとして含む。
第6観点に係る教師データの生成方法は、第4観点に係る教師データの生成方法において、代表画像は、個別画像の各々の輪郭である。
この方法によれば、教師データは、個別画像をその輪郭で置換した置換画像をラベルとして含む。
第7観点に係る教師データの生成方法は、第1観点から第6観点のいずれか1項に記載の教師データの生成方法であって、第2ステップにおいて、個別画像の面積に対するオーバーラップ箇所の面積の割合で規定されるオーバーラップ率の、上限値及び下限値を指定できる。
この方法によれば、学習用集合画像における、個別画像のオーバーラップの度合いが指定される。したがって、現実的に起こりうるオーバーラップの度合いに適した演算器の学習が可能である。
第8観点に係る教師データの生成方法は、第1観点から第7観点のいずれか1項に記載の教師データの生成方法であって、第2ステップにおいて、個別画像を配置する際に、個別画像ごとに、ランダムな比率で個別画像を拡大又は縮小する処理、ランダムな角度で個別画像を回転させる処理、ランダムな度合いで個別画像のコントラストを変化させる処理、及び、ランダムに個別画像を反転させる処理、の少なくとも1つを行う。
この方法によれば、教師データの量が増える。したがって、演算器の認識精度を向上できる。
第9観点に係る教師データの生成方法は、第1観点から第8観点のいずれか1項に記載の教師データの生成方法であって、商品は、食品である。
この方法によれば、食品について演算器の認識精度を向上できる。
第10観点に係る教師データの生成プログラムは、1又は複数の種類の商品が写った集合画像から、集合画像に含まれる各種類の商品の数量を演算する商品識別装置のための、演算器の生成に用いるものである。教師データは、複数の学習用集合画像および複数の学習用集合画像の各々に付されたラベルを含む。教師データの生成プログラムは、コンピュータを、各種類の1つの商品を写した個別画像を取得する個別画像取得部、及び、個別画像をランダムに配置することによって1又は複数の商品を含む複数の学習用集合画像を生成する学習用集合画像生成部、として機能させる。学習用集合画像のなかに、個別画像どうしが少なくとも部分的にオーバーラップするものが含まれる。
この構成によれば、学習用集合画像の少なくとも一部として、個別画像どうしが少なくとも部分的にオーバーラップしたものが存在する。したがって、オーバーラップした商品を識別可能な演算器を構成する教師画像データを得ることができる。
第11観点に係る教師データの生成装置は、1又は複数の種類の商品が写った集合画像から、集合画像に含まれる各種類の商品の数量を演算する商品識別装置のための、演算器の生成に用いるものである。教師データは、複数の学習用集合画像および複数の学習用集合画像の各々に付されたラベルを含む。教師データの生成装置は、各種類の1つの商品を写した個別画像を取得する個別画像取得部、及び、個別画像をランダムに配置することによって1又は複数の商品を含む複数の学習用集合画像を生成する学習用集合画像生成部、を備える。学習用集合画像生成部は、個別画像どうしを少なくとも部分的にオーバーラップさせる。
この構成によれば、学習用集合画像の少なくとも一部として、個別画像どうしが少なくとも部分的にオーバーラップしたものが存在する。したがって、オーバーラップした商品を識別可能な演算器を構成する教師画像データを得ることができる。
第12観点に係る商品識別装置は、1又は複数の種類の商品が写った集合画像から、集合画像に含まれる各種類の商品の数量を演算するものである。商品識別装置は、カメラと、カメラの出力を処理するニューラルネットワークと、を備える。ニューラルネットワークは、教師データを用いて学習したものである。教師データは、複数の学習用集合画像および複数の学習用集合画像の各々に付されたラベルを含む。複数の学習用集合画像は、少なくとも部分的にオーバーラップした複数の商品の個別画像を含む学習用集合画像を含む。
この構成によれば、ニューラルネットワークの学習には、オーバーラップした複数の商品の個別画像を含む教師データが用いられる。したがって、ニューラルネットワークの認識精度が向上している。
本開示によれば、オーバーラップした商品を識別可能な演算器を構成する教師画像データを得ることができる。
商品識別装置10を示す模式図である。 識別コンピュータ30のブロック図である。 教師データ40を示す模式図である。 個別画像43a~43cを示す模式図である。 商品識別装置10の学習フェーズを示す模式図である。 商品識別装置10の推論フェーズを示す模式図である。 本開示の第1実施形態に係る教師データ生成装置50を示す模式図である。 生成コンピュータ60のブロック図である。 教師データ40の生成方法のフローチャートである。 第1実施形態に係る、教師データ40の生成方法(個別画像を取得するための撮影)を示す模式図である。 第1実施形態に係る、教師データ40の生成方法(個別画像の切り出し)を示す模式図である。 第1実施形態に係る、教師データ40の生成方法(学習用集合画像の生成、及びラベルの付与)を示す模式図である。 第2実施形態に係る、教師データ40の生成方法(学習用集合画像の生成、及びラベルの付与)を示す模式図である。 第3実施形態に係る、教師データ40の生成方法(学習用集合画像の生成、及びラベルの付与)を示す模式図である。 第4実施形態に係る、教師データ40の生成方法(学習用集合画像の生成、及びラベルの付与)を示す模式図である。
以下、図面を参照しながら、本発明の実施形態について説明する。なお、以下の実施形態は、本発明の具体例であって、本発明の技術的範囲を限定するものではない。
<第1実施形態>
(1)商品識別装置10
(1-1)構成
図1は商品識別装置10を示す模式図である。商品識別装置10は、トレイTの上に置かれた商品Gを識別するものである。商品Gは、典型的にはパンや惣菜などの食品である。商品識別装置10は、例えば、パン販売店、又はスーパーマーケットの惣菜売り場などの店舗の会計係に設置される。商品識別装置10のユーザは、それらの店舗の店員などである。
商品識別装置10は、撮影装置20及び識別コンピュータ30を有する。撮影装置20と識別コンピュータ30はネットワークNを介して接続されている。ここでいうネットワークNとは、LANでもよいし、WANでもよい。撮影装置20と識別コンピュータ30は、互いに遠隔地に設置されてもよい。例えば、識別コンピュータ30はクラウドサーバとして構成されてもよい。あるいは、撮影装置20と識別コンピュータ30は、ネットワークNを介さずに直接接続されてもよい。
(1-1-1)撮影装置20
撮影装置20は、ベース21、支持部22、光源23、カメラ24、表示部25、入力部26を有する。ベース21は、トレイTを載置するための台として機能する。支持部22は、光源23及びカメラ24を支持する。光源23は、トレイTの上に置かれた商品を照らすためのものである。カメラ24は、トレイTの上に置かれた商品Gを撮影するためのものである。表示部25は、商品Gの識別結果を表示するためのものである。入力部26は、商品Gの名称などを入力するためのものである。
(1-1-2)識別コンピュータ30
図2に示すように、識別コンピュータ30は、専用のプログラムを実行することによって、画像取得部32、商品判定部35として機能する。画像取得部32は、カメラ24と通信を行い、商品Gが置かれたトレイTの静止画を取得する。商品判定部35は、静止画の中に含まれる商品Gを識別し、商品Gの数量を算出する。
商品判定部35は、演算器Xを有する。演算器Xは、入出力の関係を学習可能な関数近似器である。演算器Xは、典型的には多層ニューラルネットワークとして構成される。演算器Xは、事前の機械学習の結果として、学習済みモデルMを獲得している。機械学習は、典型的にはディープラーニングとして行われるが、この態様に限定されるものではない。
(1-2)学習と推論
(1-2-1)教師データ
識別コンピュータ30の演算器Xが学習済みモデルMを獲得するための学習フェーズは、教師あり学習によって行われる。教師あり学習は、図3に示す教師データ40を用いて実行される。教師データ40は、複数の学習用集合画像41、および、当該複数の学習用集合画像41の各々に付されたラベル42からなる。学習用集合画像41は、演算器Xに入力される画像の例を示している。ラベル42は、学習用集合画像41を入力された演算器Xが出力すべき回答の内容を示している。
本実施形態では、各学習用集合画像41は、図4に示す個別画像43a~43cの組み合わせからなる。個別画像43a~43cの各々は、1種類の商品1つを写した画像である。この例では、個別画像43aはクロワッサン(商品G1)の画像であり、個別画像43bはコーンブレッド(商品G2)の画像であり、個別画像43cはロールパン(商品G3)の画像である。図3に示す学習用集合画像41は、トレイTの上に置かれた1つ又は複数の商品G1~G3を表現している。また、本実施形態では、ラベル42は、対応する学習用集合画像41の中に含まれる各商品G1~G3の数量を表現している。
(1-2-2)学習フェーズ
図5に示すように、学習フェーズでは、教師データ40を用いて、演算器Xに教師あり学習を行わせる。これにより、例えば誤差逆伝播法によって、演算器Xが学習済みモデルMを獲得する。
(1-2-3)推論フェーズ
図6に示すように、推論フェーズは、商品識別装置10を実際に使用する場面である。店舗において、顧客は購入したい商品GをトレイTに載せる。顧客は会計係までトレイTを運び、撮影装置20のベース21の上に置く。ユーザである店員が、商品識別装置10を作動させる。カメラ24が、トレイTの上の商品の集合画像を撮影する。なお、ここでいう「集合画像」は、商品を1つだけ撮影した画像も含まれる。カメラ24が撮影した集合画像は、ネットワークNを介して識別コンピュータ30の画像取得部32へ送信される。集合画像は、商品判定部35へ送られる。商品判定部35は、集合画像に含まれる各商品G1~G3の数量を推論する。推論の結果は、ネットワークNを介して撮影装置20へ転送される。推論の結果は、表示部25に表示されるとともに、会計処理に利用される。
(2)教師データ生成装置50
(2-1)構成
図7に示す教師データ生成装置50は、商品識別装置10の学習フェーズで用いる教師データ40(図3)を生成する。教師データ生成装置50は、商品識別装置10に用いられるものと同じまたは類似する撮影装置20、及び生成コンピュータ60を有する。撮影装置20と生成コンピュータ60はネットワークNを介して接続されている。ここでいうネットワークNとは、LANでもよいし、WANでもよい。撮影装置20と生成コンピュータ60は、互いに遠隔地に設置されてもよい。例えば、撮影装置20は、調理場に設置されてもよい。生成コンピュータ60はクラウドサーバとして構成されてもよい。あるいは、撮影装置20と生成コンピュータ60は、ネットワークNを介さずに直接接続されてもよい。生成コンピュータ60は、専用のプログラムを搭載されたコンピュータである。図8に示すように、生成コンピュータ60は、当該プログラムを実行することによって、個別画像取得部61、学習用集合画像生成部62、ラベル付与部63として機能する。
(2-2)教師データの生成
教師データ生成装置50は、図9に示す手順で教師データ40を生成する。まず、個別画像取得部61が商品の個別画像を取得する(ステップ104)。具体的には、図10に示すように、同一の種類の商品G1を1又は複数個並べたトレイTを、商品識別装置10にセットする。次いで、商品G1の名前を入力部26から入力する。図10では、商品G1の名前として“クロワッサン”が入力されている。次いで、同一の種類の商品G1の集合画像を撮影する。集合画像は生成コンピュータ60に送られる。図11に示すように、生成コンピュータ60の個別画像取得部61は、集合画像45から背景を取り除き、1又は複数の個別画像を、商品名と関連付けて取得する。これにより、6つの個別画像43a1~43a6が商品名“クロワッサン”と関連付けて取得される。なお、同時に取得された個別画像43a1~43a6の中に、他の個別画像と比較して極端に大きさ又は形が異なるものが含まれる場合には、その個別画像は廃棄してもよい。これは、例えば、2つの商品G1が不適切に接触している場合などに起こりうる。
この個別画像の取得を商品G2、G3についても行う。
次いで、設定が教師データ生成装置50に入力される(ステップ106)。設定とは、例えば次の値である。
・画像枚数:生成される教師データ40が何枚の学習用集合画像41を含むか。
・オーバーラップ率の上限値及び下限値:個別画像のオーバーラップに関し、個別画像の面積に対するオーバーラップ箇所の面積の割合。その上限値と下限値。
・個別画像の含有数:1枚の学習用集合画像41が最大でいくつの個別画像43a1~43a6、43b1~43b6、43c1~43c6を含むか。
次いで、学習用集合画像生成部62が、個別画像をランダムに配置することによって、学習用集合画像41を1枚生成する(ステップ108)。具体的には、図12に示すように、学習用集合画像生成部62が、複数種類の個別画像43a1~43a6、43b1~43b6、43c1~43c6を使用して、学習用集合画像41を1枚生成する。学習用集合画像41の中に含まれる各商品の数量、及び配置される各個別画像の位置は、設定の範囲内で無作為に選ばれる。個別画像の配置に際しては、次の処理が行われる。
・ランダムな比率で個別画像を拡大又は縮小する処理。
・ランダムな角度で個別画像を回転させる処理。
・ランダムな度合いで個別画像のコントラストを変化させる処理。
・ランダムに個別画像を反転させる処理。
これらの処理は、食品によく見られる個体差を再現することを意図している。個体差とは、同一の商品について、例えば、大きさ、形、色(パンの焼き加減)などに違いが生じることである。さらに、回転処理によって、商品Gの配置方向のバリエーションを扱うことができる。
さらに、図12に示すように、個別画像の配置に際して、1つの個別画像が他の個別画像とオーバーラップすることが許可される。学習用集合画像41の中の箇所L1、箇所L2、箇所L3においては、オーバーラップが発生している。このオーバーラップは、オーバーラップ率がステップ106で入力されたオーバーラップ率の上限値及び下限値の間に収まるようになされる。典型的には、オーバーラップは一定の割合で発生するように構成される。複数の学習用集合画像41のうちの一部においてオーバーラップした個別画像が含まれる。
次いで、ラベル付与部63がラベル42を生成し、そのラベル42を学習用集合画像41に付与する(ステップ110)。具体的には、ラベル付与部63が、学習用集合画像41に配置した個別画像の記録から、ラベル42を生成する。ラベル42は、本実施形態では各商品G1~G3の数量である。ラベル42は、学習用集合画像41に付与され、すなわち、学習用集合画像41と関連付けて記録される。
教師データ生成装置50は、ラベル42を付された学習用集合画像41の枚数が設定された枚数に到達するまで、ステップ108とステップ110を繰り返す。それによって、学習用集合画像41とラベル42の組が多数生成される。
(3)特徴
(3-1)複数の学習用集合画像41の少なくとも一部として、個別画像43a1~43a6、43b1~43b6、43c1~43c6どうしが少なくとも部分的にオーバーラップしたものが存在する。したがって、本開示による教師データ40の生成方法、教師データ40の生成プログラム、教師データ生成装置50によれば、オーバーラップした商品Gを識別可能な演算器Xを構成する教師データ40を得ることができる。
(3-2)教師データ40は、各商品Gの数量をラベルとして含む。したがって、商品Gの数量を識別できるよう、演算器Xを訓練できる。
(3-3)学習用集合画像41における、個別画像43a1~43a6、43b1~43b6、43c1~43c6のオーバーラップの度合いが指定される。したがって、現実的に起こりうるオーバーラップの度合いに適した演算器Xの学習が可能である。
(3-4)学習用集合画像41の中に配置される前に、個別画像43a1~43a6、43b1~43b6、43c1~43c6は、拡大縮小、回転、コントラスト変化、反転を施される。したがって、教師データ40の量が増えるので、演算器Xの認識精度を向上できる。
(3-5)食品について演算器Xの認識精度を向上できる。
(3-6)本開示による商品識別装置10によれば、ニューラルネットワークの学習に、オーバーラップした複数の商品Gの個別画像43a1~43a6、43b1~43b6、43c1~43c6を含む教師データ40が用いられる。したがって、ニューラルネットワークの認識精度が向上している。
<第2実施形態>
(1)教師データの生成
図13は、本開示の第2実施形態に係る教師データ40の生成方法を示す。本実施形態に係る教師データ40の生成方法は、ラベル42のフォーマットが第1実施形態と異なっており、それ以外の点については第1実施形態と同様である。
本実施形態では、ラベル42は、学習用集合画像41に配置された個別画像43a1~43a6、43b1~43b6、43c1~43cの重心の座標を含む。図9のステップ110において、学習用集合画像41にはこのようなラベル42が付与される。
この教師データ40を用いて学習済みモデルMを獲得した商品識別装置10は、推論フェーズにおいて、まず各商品Gの重心の座標を得る。重心の座標から商品Gの数量への換算は、識別コンピュータ30に格納された別の専用のプログラムにより行われる。
(2)特徴
教師データ40は、個別画像43a1~43a6、43b1~43b6、43c1~43cの重心の座標を、ラベル42として含む。したがって、複数の商品Gを単一の商品であると誤認しないよう、演算器Xを訓練できる。
<第3実施形態>
(1)教師データの生成
図14は、本開示の第3実施形態に係る教師データ40の生成方法を示す。本実施形態に係る教師データ40の生成方法は、ラベル42のフォーマットが第1実施形態と異なっており、それ以外の点については第1実施形態と同様である。
本実施形態では、ラベル42は、学習用集合画像41に含まれる個別画像43a1~43a6、43b1~43b6、43c1~43cを、代表画像で置換した置換画像である。本実施形態においては、代表画像は、個別画像43a1~43a6、43b1~43b6、43c1~43cの重心画素Pである。図9のステップ110において、学習用集合画像41にはこのようなラベル42が付与される。
ラベル42のフォーマットについてさらに説明する。ラベル42は、例えば、学習用集合画像41と同じサイズの画像である。学習用集合画像41がX列及びY行に配列したX×Y個の画素を有する場合、ラベル42も、X列及びY行に配列したX×Y個の画素を有する。ラベル42の画素は、RGBで構成されるのではなく、N次元のベクトルとして構成される。ここで、Nは、教師データ生成装置50に登録された商品Gの種類の数である。(例えば商品G1、G2、G3が登録されている場合、N=3である。)x列目、y行目の画素は、下記のベクトルとして表される。
Figure 0007300699000001
ここで、axyiは、座標(x,y)におけるi番目の種類の商品Gの数であり、すなわち、座標(x,y)に存在するi番目の種類の商品Gに相当する重心画素Pの個数である。
この教師データ40を用いて学習済みモデルMを獲得した商品識別装置10は、推論フェーズにおいて、まず置換画像を得る。この置換画像もまた、ベクトルAで表される画素により構成されている。置換画像から商品Gの数量への換算は、識別コンピュータ30に格納された別の専用のプログラムにより行われる。例えば、プログラムは、学習用集合画像41に含まれるi番目の種類の商品Gの数量Hを下記の数式により求める。
Figure 0007300699000002
(2)特徴
教師データ40は、学習用集合画像41に含まれる個別画像43a1~43a6、43b1~43b6、43c1~43cを、重心画素Pで置換した置換画像を、ラベル42として含む。したがって、複数の商品Gを単一の商品であると誤認しないよう、演算器Xを訓練できる。
(3)変形例
(3-1)
上述の第3実施形態では、1つの個別画像を表現する代表画像として1つの重心画素Pを用いる。これに代えて、1つの個別画像を表現する代表画像として、重心位置を示す複数画素からなる領域を使用してもよい。この場合、上述の数式は、i番目の種類の商品Gの数量Hを正確に算出できるように、例えば係数を乗じるなどの手段により、適宜修正される。
(3-2)
上述の第3実施形態では、代表画像として重心画素Pを用いる。これに代えて、代表画像は他の画素であってもよい。例えば、代表画像は、個別画像を囲む四角形の領域(領域の四辺のそれぞれが個別画像の上下左右の端点を通過する)の中心点の画素であってもよい。あるいは、代表画像は、個別画像を囲む四角形の領域の、1つの頂点(例えば左下の頂点)の画素であってもよい。
<第4実施形態>
(1)教師データの生成
図15は、本開示の第4実施形態に係る教師データ40の生成方法を示す。本実施形態に係る教師データ40の生成方法は、ラベル42のフォーマットが第1実施形態と異なっており、それ以外の点については第1実施形態と同様である。
本実施形態では、ラベル42は、学習用集合画像41に含まれる個別画像43a1~43a6、43b1~43b6、43c1~43cを、代表画像で置換した置換画像である。本実施形態においては、代表画像は、個別画像43a1~43a6、43b1~43b6、43c1~43cの輪郭画像Oである。図9のステップ110において、学習用集合画像41にはこのようなラベル42が付与される。
この教師データ40を用いて学習済みモデルMを獲得した商品識別装置10は、推論フェーズにおいて、まず置換画像を得る。置換画像から商品Gの数量への換算は、識別コンピュータ30に格納された別の専用のプログラムにより行われる。
(2)特徴
教師データ40は、学習用集合画像41に含まれる個別画像43a1~43a6、43b1~43b6、43c1~43cを、当該個別画像43a1~43a6、43b1~43b6、43c1~43cの輪郭画像Oで置換した置換画像を、ラベル42として含む。したがって、複数の商品を単一の商品であると誤認しないよう、演算器Xを訓練できる。
10 :商品識別装置
20 :撮影装置
30 :識別コンピュータ
40 :教師データ
41 :学習用集合画像
42 :ラベル
43a(43a1~43a6) :個別画像
43b(43b1~43b6) :個別画像
43c(43c1~43c6) :個別画像
45 :集合画像
50 :教師データ生成装置
60 :生成コンピュータ
61 :個別画像取得部
62 :学習用集合画像生成部
63 :ラベル付与部
104 :ステップ
106 :ステップ
108 :ステップ
110 :ステップ
G(G1~G3) :商品
L1~L3 :オーバーラップの箇所
M :モデル
N :ネットワーク
O :輪郭画像
P :重心画素
X :演算器
特開2017-27136号公報

Claims (11)

  1. 1又は複数の種類の商品が写った集合画像から、前記集合画像に含まれる各種類の前記商品の数量を演算する商品識別装置のための、演算器の生成に用いる教師データの生成方法であって、
    前記教師データは、複数の学習用集合画像および複数の前記学習用集合画像の各々に付されたラベルを含み、
    各種類の1つの前記商品を写した個別画像を取得する第1ステップと、
    前記個別画像をランダムに配置することによって1又は複数の前記商品を含む複数の前記学習用集合画像を生成する第2ステップと、
    前記第2ステップにおいてランダムに配置された前記個別画像の記録から、前記学習用集合画像に含まれる前記商品の数量を前記ラベルとして、前記学習用集合画像に付与する第3ステップと、
    を備え、
    前記第2ステップで生成される複数の前記学習用集合画像は、前記個別画像どうしが少なくとも部分的にオーバーラップした前記学習用集合画像を含む、
    教師データの生成方法。
  2. 前記第3ステップにおける前記ラベルは、前記個別画像の重心の座標を含む
    請求項1に記載の教師データの生成方法。
  3. 前記第3ステップにおける前記ラベルは、前記個別画像を、対応する代表画像で置換した置換画像を含む
    請求項1に記載の教師データの生成方法。
  4. 前記代表画像は、前記個別画像の各々の重心を示す画素である、
    請求項3に記載の教師データの生成方法。
  5. 前記代表画像は、前記個別画像の各々の輪郭である、
    請求項3に記載の教師データの生成方法。
  6. 前記第2ステップにおいて、前記個別画像の一つを、他の前記個別画像とオーバーラップさせるときの面積の割合で規定されるオーバーラップ率の、上限値及び下限値を指定できる、
    請求項1から5のいずれか1項に記載の教師データの生成方法。
  7. 前記第2ステップにおいて、前記個別画像を配置する際に、前記個別画像ごとに、
    ランダムな比率で前記個別画像を拡大又は縮小する処理、
    ランダムな角度で前記個別画像を回転させる処理、
    ランダムな度合いで前記個別画像のコントラストを変化させる処理、及び、
    ランダムに前記個別画像を反転させる処理、
    の少なくとも1つを行う、
    請求項1から6のいずれか1項に記載の教師データの生成方法。
  8. 前記商品は、食品である、
    請求項1から7のいずれか1項に記載の教師データの生成方法。
  9. 1又は複数の種類の商品が写った集合画像から、前記集合画像に含まれる各種類の前記商品の数量を演算する商品識別装置のための、演算器の生成に用いる教師データの生成プログラムであって、
    前記教師データは、複数の学習用集合画像および複数の前記学習用集合画像の各々に付されたラベルを含み、
    コンピュータを、
    各種類の1つの前記商品を写した個別画像を取得する個別画像取得部、
    前記個別画像をランダムに配置することによって1又は複数の前記商品を含む複数の前記学習用集合画像を生成する学習用集合画像生成部、及び、
    前記学習用集合画像生成部においてランダムに配置された前記個別画像の記録から、前記学習用集合画像に含まれる前記商品の数量を前記ラベルとして、前記学習用集合画像に付与するラベル付与部、
    として機能させ、
    前記学習用集合画像のなかに、前記個別画像どうしが少なくとも部分的にオーバーラップするものが含まれる、
    教師データの生成プログラム。
  10. 1又は複数の種類の商品が写った集合画像から、前記集合画像に含まれる各種類の前記商品の数量を演算する商品識別装置のための、演算器の生成に用いる教師データの生成装置であって、
    前記教師データは、複数の学習用集合画像および複数の前記学習用集合画像の各々に付されたラベルを含み、
    各種類の1つの前記商品を写した個別画像を取得する個別画像取得部、
    前記個別画像をランダムに配置することによって1又は複数の前記商品を含む複数の前記学習用集合画像を生成する学習用集合画像生成部、及び、
    前記学習用集合画像生成部においてランダムに配置された前記個別画像の記録から、前記学習用集合画像に含まれる前記商品の数量を前記ラベルとして、前記学習用集合画像に付与するラベル付与部、
    を備え、
    前記学習用集合画像生成部は、前記個別画像どうしを少なくとも部分的にオーバーラップさせる、
    教師データの生成装置。
  11. 請求項10に記載の教師データの生成装置と、
    前記集合画像を撮影するカメラと、
    前記集合画像を処理するニューラルネットワークと、
    前記集合画像に含まれる前記商品の数量を推論する商品判定部と、
    前記商品判定部の推論結果を表示する表示部と、
    を備え、
    前記ニューラルネットワークは、前記教師データを用いて学習したものである、
    商品識別装置。
JP2018212304A 2018-11-12 2018-11-12 教師データ生成方法、教師データ生成プログラム、教師データ生成装置、及び商品識別装置 Active JP7300699B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2018212304A JP7300699B2 (ja) 2018-11-12 2018-11-12 教師データ生成方法、教師データ生成プログラム、教師データ生成装置、及び商品識別装置
US16/678,768 US20200151511A1 (en) 2018-11-12 2019-11-08 Training data generation method, training data generation program, training data generation apparatus, and product identification apparatus
CN201911096334.2A CN111178379B (zh) 2018-11-12 2019-11-11 示教数据生成方法及生成装置、以及商品识别装置
EP19208349.1A EP3651067A1 (en) 2018-11-12 2019-11-11 Training data generation method, training data generation apparatus, and product identification apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018212304A JP7300699B2 (ja) 2018-11-12 2018-11-12 教師データ生成方法、教師データ生成プログラム、教師データ生成装置、及び商品識別装置

Publications (3)

Publication Number Publication Date
JP2020080003A JP2020080003A (ja) 2020-05-28
JP2020080003A5 JP2020080003A5 (ja) 2021-12-02
JP7300699B2 true JP7300699B2 (ja) 2023-06-30

Family

ID=68840846

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018212304A Active JP7300699B2 (ja) 2018-11-12 2018-11-12 教師データ生成方法、教師データ生成プログラム、教師データ生成装置、及び商品識別装置

Country Status (4)

Country Link
US (1) US20200151511A1 (ja)
EP (1) EP3651067A1 (ja)
JP (1) JP7300699B2 (ja)
CN (1) CN111178379B (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3896647A4 (en) * 2018-12-14 2022-01-26 FUJIFILM Corporation MINI-BATCH LEARNING DEVICE, OPERATING PROGRAM FOR MINI-BATCH LEARNING DEVICE, OPERATING METHOD FOR MINI-BATCH LEARNING DEVICE, AND IMAGE PROCESSING DEVICE
CN111797896B (zh) * 2020-06-01 2023-06-27 锐捷网络股份有限公司 基于智慧烘焙的商品识别方法及装置
US11790650B2 (en) * 2020-08-20 2023-10-17 Adobe Inc. Contrastive captioning for image groups
JP2022122364A (ja) * 2021-02-10 2022-08-23 日本電気株式会社 データ生成装置、データ生成方法、及びプログラム
US20240153253A1 (en) 2021-03-29 2024-05-09 Yamaha Hatsudoki Kabushiki Kaisha Method and program for generating trained model for inspecting number of objects
KR102557870B1 (ko) * 2021-04-30 2023-07-21 주식회사 서연이화 자동차 부품의 성능 검증 결과를 예측하는 인공지능 모델의 학습 데이터를 생성하는 방법 및 장치
EP4343690A1 (en) 2021-05-19 2024-03-27 Kyocera Corporation Information processing method, program, and information processing device
JP7336503B2 (ja) * 2021-12-27 2023-08-31 Fsx株式会社 サーバ及びおしぼり管理システム
CN114866162B (zh) * 2022-07-11 2023-09-26 中国人民解放军国防科技大学 信号数据增强方法、系统及通信辐射源的识别方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170745A (ja) 2010-02-22 2011-09-01 Burein:Kk パンの識別装置とそのプログラム
WO2014207991A1 (ja) 2013-06-28 2014-12-31 日本電気株式会社 教師データ生成装置、方法、プログラム、および群衆状態認識装置、方法、プログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5930393A (en) * 1997-08-11 1999-07-27 Lucent Technologies Inc. Method and apparatus for enhancing degraded document images
US6707464B2 (en) * 2001-01-31 2004-03-16 Harris Corporation System and method for identifying tie point collections used in imagery
CN103679764B (zh) * 2012-08-31 2016-12-21 西门子公司 一种图像生成方法及装置
US9158995B2 (en) * 2013-03-14 2015-10-13 Xerox Corporation Data driven localization using task-dependent representations
JP6473056B2 (ja) 2015-07-16 2019-02-20 株式会社ブレイン 店舗システムとそのプログラム
US9767381B2 (en) * 2015-09-22 2017-09-19 Xerox Corporation Similarity-based detection of prominent objects using deep CNN pooling layers as features
JP2017062623A (ja) * 2015-09-24 2017-03-30 富士通株式会社 画像検出プログラム、画像検出方法、及び画像検出装置
US11238362B2 (en) * 2016-01-15 2022-02-01 Adobe Inc. Modeling semantic concepts in an embedding space as distributions
CN106781014B (zh) * 2017-01-24 2018-05-18 广州市蚁道互联网有限公司 自动售货机及其运行方法
US10311312B2 (en) * 2017-08-31 2019-06-04 TuSimple System and method for vehicle occlusion detection
US10817509B2 (en) * 2017-03-16 2020-10-27 Massachusetts Institute Of Technology System and method for semantic mapping of natural language input to database entries via convolutional neural networks
US10489688B2 (en) * 2017-07-24 2019-11-26 Adobe Inc. Personalized digital image aesthetics in a digital medium environment
CN108269371B (zh) * 2017-09-27 2020-04-03 缤果可为(北京)科技有限公司 商品自动结算方法、装置、自助收银台
CN107862775B (zh) * 2017-11-29 2020-07-10 深圳易伙科技有限责任公司 一种基于人工智能的超市商品防盗预警系统及方法
US10817711B2 (en) * 2018-06-20 2020-10-27 International Business Machines Corporation Determining a need for a workspace graphical notation to increase user engagement

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170745A (ja) 2010-02-22 2011-09-01 Burein:Kk パンの識別装置とそのプログラム
WO2014207991A1 (ja) 2013-06-28 2014-12-31 日本電気株式会社 教師データ生成装置、方法、プログラム、および群衆状態認識装置、方法、プログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Debidatta Dwibedi et al.,Cut, Paste and Learn: Surprisingly Easy Synthesis for Instance Detection,[online],2017年,https://ieeexplore.ieee.org/document/8237408
Elad Walach et al.,Learning to Count with CNN Boosting,[online],2016年,https://link.springer.com/content/pdf/10.1007/978-3-319-46475-6_41.pdf
Patrick Follmann et al.,MVTec D2S: Densely Segmented Supermarket Dataset,[online],2018年07月25日,https://arxiv.org/abs/1804.08292
伊藤康一,外2名,畳み込みニューラルネットワークを用いた生体検知手法,電子情報通信学会論文誌,2017年,Vol.J100-A No.12,pp.455-464

Also Published As

Publication number Publication date
JP2020080003A (ja) 2020-05-28
EP3651067A1 (en) 2020-05-13
US20200151511A1 (en) 2020-05-14
CN111178379B (zh) 2024-04-05
CN111178379A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
JP7300699B2 (ja) 教師データ生成方法、教師データ生成プログラム、教師データ生成装置、及び商品識別装置
JP2020080003A5 (ja)
CN112330526B (zh) 一种人脸转换模型的训练方法、存储介质及终端设备
JP7147921B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP6549558B2 (ja) 売上登録装置、プログラム及び売上登録方法
US20210248579A1 (en) Apparatus and method for visually identifying an item selected from a stock of items
CN109711472B (zh) 训练数据生成方法和装置
US11669948B2 (en) Learned model generating method, learned model generating device, product identifying method, product identifying device, product identifying system, and measuring device
CN106203225B (zh) 基于深度的图像元素删除
JP2017102573A (ja) 購買行動分析プログラム、購買行動分析方法、及び購買行動分析装置
JP6565639B2 (ja) 情報表示プログラム、情報表示方法、及び情報表示装置
CN111814660A (zh) 一种图像识别方法、终端设备及存储介质
JP7381330B2 (ja) 情報処理システム、情報処理装置及び情報処理方法
JP2022528022A (ja) スーパーマーケット商品棚上の商品の分析方法及びシステム
JP2024023957A (ja) 処理装置、処理方法及びプログラム
JP7289448B2 (ja) 物品識別システム及び物品識別システムを備えた会計処理システム
JPWO2021199132A5 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP6877806B6 (ja) 情報処理装置、プログラム及び情報処理方法
CN109857880B (zh) 一种基于模型的数据处理方法、装置及电子设备
JP6696149B2 (ja) 画像生成方法、画像生成プログラム、情報処理装置および表示制御方法
JP6209298B1 (ja) 情報提供装置及び情報提供方法
JP2017102564A (ja) 表示制御プログラム、表示制御方法、及び表示制御装置
EP4386649A1 (en) Information processing program, information processing method, and information processing device
JP7457347B2 (ja) 商品候補提示システム及び会計処理システム
CN117743622B (zh) 图片标签生成方法、装置及设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211022

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211022

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230411

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230613

R150 Certificate of patent or registration of utility model

Ref document number: 7300699

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150