JP2022079331A - 商品認識用学習済みモデル生成方法及び商品認識用学習済みモデル生成装置 - Google Patents
商品認識用学習済みモデル生成方法及び商品認識用学習済みモデル生成装置 Download PDFInfo
- Publication number
- JP2022079331A JP2022079331A JP2020190461A JP2020190461A JP2022079331A JP 2022079331 A JP2022079331 A JP 2022079331A JP 2020190461 A JP2020190461 A JP 2020190461A JP 2020190461 A JP2020190461 A JP 2020190461A JP 2022079331 A JP2022079331 A JP 2022079331A
- Authority
- JP
- Japan
- Prior art keywords
- gaze area
- product
- area
- new
- gaze
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】パッケージ商品の微小な変化に対して堅牢な商品認識結果が得られる学習済みモデルを生成することができること。【解決手段】元商品の元商品画像を入力して該元商品画像の注視領域である元注視領域を生成し、該元注視領域を人の知見による任意の修正を受けた修正注視領域に修正して再学習を行わせる注視領域修正部と、修正元注視領域を保存する注視領域データベース15と、元商品と同一クラスの商品であってパッケージが類似する新商品の新商品画像を入力して該新商品画像の注視領域である新注視領域を生成し、該新注視領域と、注視領域データベース15に保存された新注視領域に類似する修正注視領域との共通領域MP20を算出する共通領域算出部23と、共通領域MP20を用いてパーセプションブランチ3及び/又はアテンションブランチ5を再学習する再学習部と、を備える。【選択図】図6
Description
本発明は、パッケージ商品の微小な変化に対して堅牢な商品認識結果が得られる学習済みモデルを生成することができる商品認識用学習済みモデル生成方法及び商品認識用学習済みモデル生成装置に関する。
近年、労働人口の減少により、コンビニエンスストアやスーパーなどの小売業界でも労働力不足が深刻化しており、特に業務負荷の高い決済業務(レジ精算)に対して画像認識AIを活用した省力化・無人化の実現が期待されている。
小売店では、お菓子・カップ麺のようなパッケージ品やお弁当・パンのような非パッケージ品(日配品)等、多種多様な商品を扱っている。このため、一般的には、大規模な学習データセットを作成し、公知の深層学習技術であるCNN(Convolutional Neural Network)などを用いて画像認識AIによる自動商品認識システムを構築する。あるいは、パッケージ商品は従来技術である特徴点マッチングで認識し、非パッケージ商品はCNNで認識する方式を用いて構築する例もある(非特許文献1参照)。
菊池 克ら、,"あらゆる小売商品を認識可能にする多種物体認識技術",NEC技報,Vol.72,No.1 [令和2年11月8日検索],インターネット<URL: https://jpn.nec.com/techrep/journal/g19/n01/190118.html>
Hiroshi Fukui, Tsubasa Hirakawa, Takayoshi Yamashita, Hironobu Fujiyoshi, "Attention Branch Network: Learning of Attention Mechanism for Visual Explanation", Chubu University,CVPR_2019
三津原 将弘,福井 宏(中部大),坂下 祐輔(中部大,ニデック),緒方 貴紀(ABEJA),平川 翼,山下 隆義,藤吉 弘亘(中部大), "Attention mapを介したDeep Neural Networkへの人の知見の組み込み"。第22回画像の認識・理解シンポジウム,2019
ところで、商品の約8割を占めるパッケージ商品は、微小なパッケージ変化が頻繁に起きるため、一般的なCNN方式では、パッケージが類似する同一商品であるにもかかわらず、他のパッケージ商品(クラス)と誤認識され、AIの認識率が低下する課題がある。また、特徴点マッチングとCNNとを組み合わせた手法では、パッケージが微小に変化しただけでも認識不可となる場合がある。このため、新しいパッケージ商品の画像を大量に取得して学習済みモデルを再学習する方法が一般的である。
しかし、パッケージが変化する度に新しく大量の学習画像を収集し、追加学習を行う場合、学習画像の収集負荷が高くなるという課題があるとともに、対象クラスから抽出される特徴量の分布、すなわち対象クラスの特徴量が取り得るデータ範囲が大きくなるため、他クラスの特徴量分布と混合するという課題もある。例えば、クラスAのパッケージが、異なるクラスBのパッケージに近くなるように変化し、特長量分布が一部重なりあうことが想定される。
本発明は、上記に鑑みてなされたものであって、パッケージ商品の微小な変化に対して堅牢な商品認識結果が得られる学習済みモデルを生成することができる商品認識用学習済みモデル生成方法及び商品認識用学習済みモデル生成装置を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、深層学習ネットワークを前段深層学習ネットワークと後段深層学習ネットワークとに分割し、前記前段深層学習ネットワークから出力された特徴抽出画像をもとに注視領域を生成するアテンションブランチを設け、前記アテンションブランチの注視領域を前記特徴抽出画像に回帰させ前記注視領域により重み付けされた前記特徴抽出画像を用いて前記後段深層学習ネットワークが深層学習を行うことにより、店舗内の商品を自動認識する商品認識用学習済みモデルを生成する商品認識用学習済みモデル生成方法であって、元商品の元商品画像を入力して該元商品画像の注視領域である元注視領域を生成し、該元注視領域を人の知見による任意の修正を受けた修正注視領域に修正して再学習を行わせる注視領域修正ステップと、前記修正注視領域を保存する保存ステップと、前記元商品と同一クラスの商品であってパッケージが類似する新商品の新商品画像を入力して該新商品画像の注視領域である新注視領域を生成し、該新注視領域と、保存された前記新商品と同一クラスの商品の該新注視領域に類似する前記修正注視領域との共通領域を算出する共通領域算出ステップと、前記共通領域を用いて前記後段深層学習ネットワーク及び/又はアテンションブランチを再学習する新商品再学習ステップと、を含むことを特徴とする。
また、本発明は、上記の発明において、前記共通領域は、前記新注視領域と前記修正注視領域との差分を用いて算出することを特徴とする。
また、本発明は、上記の発明において、前記共通領域は、前記新注視領域と前記修正注視領域との共通度合いが所定の閾値以上の場合、前記注視領域として用いて前記アテンションブランチを再学習して前記商品認識用学習済みモデルを更新することを特徴とする。
また、本発明は、上記の発明において、前記共通領域は、前記新注視領域と前記修正注視領域との共通度合いが所定の閾値以上の場合、前記注視領域として用いて前記後段深層学習ネットワークを再学習して前記商品認識用学習済みモデルを更新することを特徴とする。
また、本発明は、上記の発明において、前記共通領域は、前記新注視領域と前記修正注視領域との共通度合いが所定の閾値未満の場合、前記注視領域として用いず、前記アテンションブランチ及び/又は前記後段深層学習ネットワークの再学習を行わないことを特徴とする。
また、本発明は、上記の発明において、前記共通領域算出ステップにおいて算出された前記共通領域以外の差異領域は、画素値を0に置き換える補間を行い、該補間された共通領域を含む画像を注視領域として用いることを特徴とする。
また、本発明は、上記の発明において、前記共通領域及び前記差異領域を表示部に表示することを特徴とする。
また、本発明は、深層学習ネットワークを前段深層学習ネットワークと後段深層学習ネットワークとに分割し、前記前段深層学習ネットワークから出力された特徴抽出画像をもとに注視領域を生成するアテンションブランチを設け、前記アテンションブランチの注視領域を前記特徴抽出画像に回帰させ前記注視領域により重み付けされた前記特徴抽出画像を用いて前記後段深層学習ネットワークが深層学習を行うことにより、店舗内の商品を自動認識する商品認識用学習済みモデルを生成する商品認識用学習済みモデル生成装置であって、元商品の元商品画像を入力して該元商品画像の注視領域である元注視領域を生成し、該元注視領域を人の知見による任意の修正を受けた修正注視領域に修正して再学習を行わせる注視領域修正部と、前記修正注視領域を保存する注視領域データベースと、前記元商品と同一クラスの商品であってパッケージが類似する新商品の新商品画像を入力して該新商品画像の注視領域である新注視領域を生成し、該新注視領域と、前記注視領域データベースに保存された前記新商品と同一クラスの商品の該新注視領域に類似する前記修正注視領域との共通領域を算出する共通領域算出部と、前記共通領域を用いて前記後段深層学習ネットワーク及び/又はアテンションブランチを再学習する再学習部と、を備えたことを特徴とする。
本発明によれば、パッケージ商品の微小な変化に対して堅牢な商品認識結果が得られる学習済みモデルを生成することができる。
以下、添付図面を参照してこの発明を実施するための形態について説明する。
<商品認識用学習済みモデルの構成>
図1は、本発明の実施の形態である商品認識用学習済みモデル生成装置に適用される商品認識用学習済みモデルMの概要構成を示す図である。なお、商品認識用学習済みモデルMは、デフォルトとして学習前のモデルであってもよいし、学習済みのモデルであってもよい。図1に示すように、商品認識用学習済みモデルMは、深層学習技術の1つであるABN(Attention Branch Network:非特許文献2参照)を用いている。ABNは、CNNである深層学習ネットワーク1を前段深層学習ネットワーク2と後段深層学習ネットワーク(パーセプションブランチ(Perception Branch))3とに分割し、前段深層学習ネットワーク2から出力された特徴抽出画像D1をもとに注視領域(Attention Map)MPを生成するアテンションブランチ(Attention branch)5を設け、アテンションブランチ5の注視領域MPを特徴抽出画像D1に回帰させ注視領域MPを乗算部4により重み付けされた特徴抽出画像をパーセプションブランチ3に出力して深層学習を行う。
図1は、本発明の実施の形態である商品認識用学習済みモデル生成装置に適用される商品認識用学習済みモデルMの概要構成を示す図である。なお、商品認識用学習済みモデルMは、デフォルトとして学習前のモデルであってもよいし、学習済みのモデルであってもよい。図1に示すように、商品認識用学習済みモデルMは、深層学習技術の1つであるABN(Attention Branch Network:非特許文献2参照)を用いている。ABNは、CNNである深層学習ネットワーク1を前段深層学習ネットワーク2と後段深層学習ネットワーク(パーセプションブランチ(Perception Branch))3とに分割し、前段深層学習ネットワーク2から出力された特徴抽出画像D1をもとに注視領域(Attention Map)MPを生成するアテンションブランチ(Attention branch)5を設け、アテンションブランチ5の注視領域MPを特徴抽出画像D1に回帰させ注視領域MPを乗算部4により重み付けされた特徴抽出画像をパーセプションブランチ3に出力して深層学習を行う。
アテンションブランチ5は、特徴抽出画像D1(K個のチャネルを持つ最終畳み込み層の出力)に対して、畳み込み演算と活性化関数の適用とを行い、出力への応答値が高い、すなわち影響度の高い画素を特定し、1つのデータとして結合した注視領域MPを生成する。この注視領域MPを元の特徴抽出画像D1に掛け合わせて重み付けを行うことにより、パーセプションブランチ3は、注目すべきチャネルを強調した特徴抽出画像を生成し、注目すべき領域に対して重点的に学習することができる。これにより精度の高い商品判定を行うことができる。
図1では、3つのクラスA,B,Cの商品画像を教師データとして入力して、パーセプションブランチ3が出力する各クラスの確率をもとに判定出力部6が判定出力する。なお、判定出力部6は、アテンションブランチ5が出力する確率をも用いて判定出力するようにしてもよい。
<商品認識用学習済みモデル生成装置の構成>
図2は、商品認識用学習済みモデル生成装置10の構成を示すブロック図である。図2に示すように、商品認識用学習済みモデル生成装置10は、画像取得部11、入力部12、表示部13、記憶部14、注視領域データベース15及び制御部16を有する。
図2は、商品認識用学習済みモデル生成装置10の構成を示すブロック図である。図2に示すように、商品認識用学習済みモデル生成装置10は、画像取得部11、入力部12、表示部13、記憶部14、注視領域データベース15及び制御部16を有する。
画像取得部11は、分類判定すべき商品画像を取得するデバイスであり、例えばカメラなどの撮像デバイスである。入力部12は、キーボードやマウス等の入力デバイスであり、各種情報を入力する。表示部13は、液晶パネルやディスプレイ装置等の表示デバイスである。
記憶部14は、ハードディスク装置又はSSD等の二次記憶媒体であり、商品認識用学習済みモデルMを記憶する。注視領域データベース15は、後述する注視領域修正部22が修正した修正注視領域を保存するデータベースである。
制御部16は、商品認識用学習済みモデル生成装置10を全体制御する制御部であり、学習部21、注視領域修正部22、共通領域算出部23、再学習部24、補間部25及び表示処理部26を有する。実際には、制御部16が、これらの機能部に対応するプログラムを不揮発性メモリ等などの記憶装置に記憶しておき、これらのプログラムをメモリにロードして、CPUで実行することで、対応するプロセスを実行させることになる。
なお、制御部16は、第1学習フェーズの後に第2学習フェーズに移行する。第1学習フェーズでは、元商品に対する学習を行うとともに、元商品の注視領域(元注視領域)を人の知見によって修正した修正注視領域を生成して注視領域データベース15に保存するとともに、修正注視領域を用いたバックプロバゲーションによる再学習を行う。一方、第2学習フェーズでは、元商品と同一の商品であってパッケージが類似する新商品の学習を行うがこの際、新商品の新注視領域と、保存されている類似の修正注視領域との共通領域を算出し、この共通領域を用いてバックプロバゲーションによる再学習を行う。
学習部21は、第1学習フェーズ及び第2学習フェーズにおいて、入力された商品画像に対してフォワードプロバケーションにより学習を行う。
注視領域修正部22は、第1学習フェーズにおいて、元商品の元商品画像を入力して該元商品画像の注視領域である元注視領域を生成し、元商品の元商品画像(商品A,B,Cの商品画像)を入力して元商品画像の注視領域である元注視領域を生成し、該元注視領域を人の知見による任意の修正を受けた修正注視領域に修正して再学習を行わせる(非特許文献3参照)。この元注視領域の修正により、背景やノイズを除外し、人の判断に用いる特徴的な領域のみを残した修正注視領域が生成される。この修正注視領域は、注視領域データベース15に保存される。なお、注視領域修正部22は、HITL(Human-in-the-loop)機構を設けたものである。
共通領域算出部23は、第2学習フェーズにおいて、元商品と同一の商品であってパッケージが類似する新商品の新商品画像を入力して該新商品画像の注視領域である新注視領域を生成し、該新注視領域と、新商品と同一の商品の該新注視領域に類似する、第1学習フェーズにおいて注視領域データベース15に保存された修正注視領域との共通領域を算出する。
再学習部24は、第1学習フェーズにおいて、修正注視領域による重み付けによる再学習を行い、第2学習フェーズにおいて、共通領域による重み付けによる再学習を行う。
補間部25は、第2学習フェーズにおいて、算出された共通領域以外の差異領域を、画素値を0に置き換える補間を行う。再学習部24は、この補間された共通領域のみをもつ注視領域によって再学習を行う。
表示処理部26は、商品認識用学習済みモデルMからの判定出力を表示部13に表示する処理を行う。なお、表示処理部26は、後述するように、共通領域及び差異領域を表示部13に表示するようにしてもよい。
<学習処理手順>
図3は、商品認識用学習済みモデル生成装置10による商品の学習処理手順を示すフローチャートである。図3に示すように、第1学習フェーズにおいて、まず、学習部21は、元商品の元商品画像が商品認識用学習済みモデルMに入力されることにより学習する(ステップS110)。この学習の際に、注視領域MPを生成し、注視領域修正部22により注視領域MPが修正され、この修正した修正注視領域を特徴抽出画像D1に掛け合わせて再学習を行う(ステップS120)。そして、この修正注視領域は、注視領域データベース15に保存する(ステップS130)。これにより、第1学習フェーズにおける元商品に対する商品認識用学習済みモデルMが構築される(ステップS140)。
図3は、商品認識用学習済みモデル生成装置10による商品の学習処理手順を示すフローチャートである。図3に示すように、第1学習フェーズにおいて、まず、学習部21は、元商品の元商品画像が商品認識用学習済みモデルMに入力されることにより学習する(ステップS110)。この学習の際に、注視領域MPを生成し、注視領域修正部22により注視領域MPが修正され、この修正した修正注視領域を特徴抽出画像D1に掛け合わせて再学習を行う(ステップS120)。そして、この修正注視領域は、注視領域データベース15に保存する(ステップS130)。これにより、第1学習フェーズにおける元商品に対する商品認識用学習済みモデルMが構築される(ステップS140)。
その後、第2学習フェーズにおいて、パッケージのみが微小に変化した場合などのように、元商品に類似する新商品の新商品画像が商品認識用学習済みモデルMに入力されることにより学習する(ステップS210)。その後、共通領域算出部23は、生成した新注視領域に類似する修正注視領域を注視領域データベース15から抽出する(ステップS220)。その後、新注視領域と、抽出した修正注視領域とに共通する共通領域を算出する(ステップS230)。この際、共通領域以外の領域である差異領域の画素値を0にした注視領域にするとよい。その後、再学習部24は、共通領域を用いた新商品に対する再学習を行う(ステップS240)。これにより、第2学習フェーズにおける新商品に対する商品認識用学習済みモデルMが構築される(ステップS140)。
<第1学習フェーズと第2学習フェーズ>
図4は、第1学習フェーズで入力される学習対象の元商品A(クラスA)、元商品B(クラスB)、元商品C(クラスC)と、第2学習フェーズで入力される学習対象の新商品A´(クラスA)、新商品B´(クラスB)、新商品C´(クラスC)との具体例を示す図である。クラスAは、ペットボトル飲料の商品であり、クラスBは、缶入り飲料の商品であり、クラスCは、包装商品である。クラスAの新商品A´、クラスBの新商品B´、クラスCの新商品C´には、それぞれマークA1~A3が描かれており、元商品A~Cのパッケージから微小変化したパッケージとなっている。
図4は、第1学習フェーズで入力される学習対象の元商品A(クラスA)、元商品B(クラスB)、元商品C(クラスC)と、第2学習フェーズで入力される学習対象の新商品A´(クラスA)、新商品B´(クラスB)、新商品C´(クラスC)との具体例を示す図である。クラスAは、ペットボトル飲料の商品であり、クラスBは、缶入り飲料の商品であり、クラスCは、包装商品である。クラスAの新商品A´、クラスBの新商品B´、クラスCの新商品C´には、それぞれマークA1~A3が描かれており、元商品A~Cのパッケージから微小変化したパッケージとなっている。
図5は、第1学習フェーズにおける学習処理を説明する説明図である。図5に示すように、まず、クラスAの元商品Aの商品画像が商品認識用学習済みモデルMに入力される。前段深層学習ネットワーク2の最終層から出力された特徴抽出画像D1は、アテンションブランチ5に入力され、注視領域MPを生成する。生成された注視領域MPは、乗算部4において特徴抽出画像D1に掛け合わされる。この注視領域MPが掛け合わされて重み付けされた特徴抽出画像D1はパーセプションブランチ3に入力される。パーセプションブランチはさらに畳み込み演算などを行い、全結合層を介して各商品の分類確率を判定出力部6に出力する。これにより、フォワードプロバゲーションによる学習が行われる。なお、アテンションブランチ5が出力する分類確率を判定出力部6に出力し、この分類確率をも参照して判定出力部6は商品の分類判定を行うようにしてもよい。
この学習時に生成された注視領域MPは、注視領域修正部22により、人の知見に基づいた修正が行われ、修正注視領域MP10を生成する。生成された修正注視領域MP10は、もとの注視領域MPに置き換えられ、この置き換えられた修正注視領域MP10によってアテンションブランチ5及び/又はパーセプションブランチ3に対し、バックプロバゲーションによる再学習を行う。一方、修正注視領域MP10は、注視領域データベース15に保存される。アテンションブランチ5及びパーセプションブランチに対する再学習は、例えば、アテンションブランチ5が出力する確率と判定結果との誤差Latt(x)と、パーセプションブランチ3が出力する確率と判定結果との誤差Lper(x)と、注視領域MPと修正注視領域MP10との誤差Lmap(x)とが小さくなるように微調整する。特に誤差Lmap(x)は、誤差Latt(x)と誤差Lper(x)とに比べて大きいため、誤差Lmap(x)を微調整するとよい。なお、クラスB,Cの元商品B,Cに対しても同様な学習処理を行う。
この第1の学習フェーズでは、注視領域MPを任意に修正できることにより、商品の特徴となる領域(人間が判断に用いる領域、背景やノイズを除外した領域)のみを学習することが可能となり、通常の学習と比較して高精度かつ効率の良い学習が可能となる。
次に、図6は、第2学習フェーズにおける学習処理を説明する説明図である。図6に示すように、まず、クラスAの新商品A´の商品画像が商品認識用学習済みモデルMに入力される。前段深層学習ネットワーク2の最終層から出力された特徴抽出画像D1は、アテンションブランチ5に入力され、新注視領域MP´を生成する。
共通領域算出部23は、新商品Aと同一ラベル(同一クラス)、かつ、最も類似の高いい(抽出した特長量ベクトル値が最も近い)修正注視領域MP10を注視領域データベース15から抽出する。そして、新商品画像に対する新注視領域MP´と、抽出した修正注視領域MP10との差分を用いて差異領域MP30を除外した共通領域MP20を算出する。そして、再学習部24は、共通領域MP20のみを用いてアテンションブランチ5及び/又はパーセプションブランチ3の再学習を行う。なお、再学習部24は、補間部25によって差異領域MP30が補間された注視領域を用いて再学習を行ってもよい。なお、クラスB,Cの新商品B´,C´に対しても同様な学習処理を行う。
この第2学習フェーズでは、新商品画像の新注視領域MP´と最も類似度の高い修正注視領域MP10を注視領域データベース15から抽出し、新注視領域MP´と修正注視領域MP10との差分を用いて共通領域MP20を算出し、この共通領域MP20のみを用いて、共通する特徴量(色合いや文様)を重点的に学習することが可能であるため、微小なパッケージ変化が生じても不変的な特徴量に基づいた堅牢な商品認識が可能になる。
<変形例>
上記の実施の形態では、第2学習フェーズにおいて、共通領域MP20を用いてアテンションブランチ5及び/又はパーセプションブランチ3の再学習を行うようにしていた。ここで、共通領域MP20の共通度合いがごくわずか、すなわち所定の閾値以下である場合、再学習しても効果的な学習が行われないと想定されるため、本変形例では、共通領域MP20を用いた再学習を行わないようにしている。これにより、余計な学習を防ぐことができ、学習が収束しやすくなる。
上記の実施の形態では、第2学習フェーズにおいて、共通領域MP20を用いてアテンションブランチ5及び/又はパーセプションブランチ3の再学習を行うようにしていた。ここで、共通領域MP20の共通度合いがごくわずか、すなわち所定の閾値以下である場合、再学習しても効果的な学習が行われないと想定されるため、本変形例では、共通領域MP20を用いた再学習を行わないようにしている。これにより、余計な学習を防ぐことができ、学習が収束しやすくなる。
図7は、本変形例の商品認識用学習済みモデル生成装置10による商品の学習処理手順を示すフローチャートである。図7に示すように、本変形例では、図3に示したフローチャートのステップS230の次にステップS231、S232を付加している。したがって、ステップS110~S230,S240.S250は、図3に示したものと同じである。
ステップS230では、共通領域MP20の算出とともに付随的に差異領域MP30が算出される。ステップS231では、表示処理部26により共通領域MP20及び差異領域MP30を表示部13に表示する。なお、この際、出力結果も表示する。
ステップS232では、共通領域MP20の共通度合いが所定の閾値以上であるか否かを判定する。共通度合いが所定の閾値以上である場合(ステップS232:Yes)には、共通領域MP20を用いた新商品に対するアテンションブランチ5及び/又はパーセプションブランチ3の再学習を行う(ステップS240)。
一方、共通度合いが所定の閾値以下でない場合(ステップS232:No)には、共通領域MP20を用いた新商品に対するアテンションブランチ5及び/又はパーセプションブランチ3の再学習を行わず、ステップS250に移行する。
図8は、本変形例による第2学習フェーズにおける学習処理を説明する説明図である。図8に示すように、共通領域算出部23は、共通領域MP20と差異領域MP30とを算出するが、共通領域MP20の共通度合いが所定の閾値以上である場合のみ、新注視領域MP´を共通領域MP20に置き換えた再学習を行い、共通度合いが所定の閾値未満である場合、新注視領域MP´を共通領域MP20に置き換えた再学習を行わない。
なお、表示部13は、出力結果に加えて、共通領域MP20及び差異領域MP30を表示する。これにより、商品認識用学習済みモデルMがどこを中心に学習し、商品のどこが変化したのかを視認することができる。
また、上記の実施の形態及び変形例で生成された商品認識用学習済みモデルMは、商品認識用学習済みモデルMを用いる店舗等によって適宜、ダウンロードされる。
さらに、上記の実施の形態及び変形例の装置で実行されるプログラムは、装置が備える記憶媒体(ROMまたは記憶部)に予め組み込んで提供するものとするが、これに限らず、インストール可能な形式または実行可能な形式のファイルでCD-ROM、フレキシブルディスク(FD)、CD-R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。さらに、記憶媒体は、コンピュータ或いは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
また、上記の実施の形態及び変形例の装置で実行されるプログラムをインターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよく、インターネット等のネットワーク経由で提供または配布するように構成してもよい。
なお、上記の実施の形態及び変形例で図示した各構成は機能概略的なものであり、必ずしも物理的に図示の構成をされていることを要しない。すなわち、各装置及び構成要素の分散・統合の形態は図示のものに限られず、その全部又は一部を各種の使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。
1 深層学習ネットワーク
2 前段深層学習ネットワーク
3 パーセプションブランチ
4 乗算部
5 アテンションブランチ
6 判定出力部
10 商品認識用学習済みモデル生成装置
11 画像取得部
12 入力部
13 表示部
14 記憶部
15 注視領域データベース
16 制御部
21 学習部
22 注視領域修正部
23 共通領域算出部
24 再学習部
25 補間部
26 表示処理部
A1~A3 マーク
D1 特徴抽出画像
Latt 誤差
Lmap 誤差
Lper 誤差
M 商品認識用学習済みモデル
MP 注視領域
MP´ 新注視領域
MP10 修正注視領域
MP20 共通領域
MP30 差異領域
2 前段深層学習ネットワーク
3 パーセプションブランチ
4 乗算部
5 アテンションブランチ
6 判定出力部
10 商品認識用学習済みモデル生成装置
11 画像取得部
12 入力部
13 表示部
14 記憶部
15 注視領域データベース
16 制御部
21 学習部
22 注視領域修正部
23 共通領域算出部
24 再学習部
25 補間部
26 表示処理部
A1~A3 マーク
D1 特徴抽出画像
Latt 誤差
Lmap 誤差
Lper 誤差
M 商品認識用学習済みモデル
MP 注視領域
MP´ 新注視領域
MP10 修正注視領域
MP20 共通領域
MP30 差異領域
Claims (8)
- 深層学習ネットワークを前段深層学習ネットワークと後段深層学習ネットワークとに分割し、前記前段深層学習ネットワークから出力された特徴抽出画像をもとに注視領域を生成するアテンションブランチを設け、前記アテンションブランチの注視領域を前記特徴抽出画像に回帰させ前記注視領域により重み付けされた前記特徴抽出画像を用いて前記後段深層学習ネットワークが深層学習を行うことにより、店舗内の商品を自動認識する商品認識用学習済みモデルを生成する商品認識用学習済みモデル生成方法であって、
元商品の元商品画像を入力して該元商品画像の注視領域である元注視領域を生成し、該元注視領域を人の知見による任意の修正を受けた修正注視領域に修正して再学習を行わせる注視領域修正ステップと、
前記修正注視領域を保存する保存ステップと、
前記元商品と同一クラスの商品であってパッケージが類似する新商品の新商品画像を入力して該新商品画像の注視領域である新注視領域を生成し、該新注視領域と、保存された前記新商品と同一クラスの商品の該新注視領域に類似する前記修正注視領域との共通領域を算出する共通領域算出ステップと、
前記共通領域を用いて前記後段深層学習ネットワーク及び/又はアテンションブランチを再学習する新商品再学習ステップと、
を含むことを特徴とする商品認識用学習済みモデル生成方法。 - 前記共通領域は、前記新注視領域と前記修正注視領域との差分を用いて算出することを特徴とする請求項1に記載の商品認識用学習済みモデル生成方法。
- 前記共通領域は、前記新注視領域と前記修正注視領域との共通度合いが所定の閾値以上の場合、前記注視領域として用いて前記アテンションブランチを再学習して前記商品認識用学習済みモデルを更新することを特徴とする請求項1又は2に記載の商品認識用学習済みモデル生成方法。
- 前記共通領域は、前記新注視領域と前記修正注視領域との共通度合いが所定の閾値以上の場合、前記注視画像として用いて前記後段深層学習ネットワークを再学習して前記商品認識用学習済みモデルを更新することを特徴とする請求項1~3のいずれか一つに記載の商品認識用学習済みモデル生成方法。
- 前記共通領域は、前記新注視領域と前記修正注視領域との共通度合いが所定の閾値未満の場合、前記注視領域として用いず、前記アテンションブランチ及び/又は前記後段深層学習ネットワークの再学習を行わないことを特徴とする請求項1~4のいずれか一つに記載の商品認識用学習済みモデル生成方法。
- 前記共通領域算出ステップにおいて算出された前記共通領域以外の差異領域は、画素値を0に置き換える補間を行い、該補間された共通領域を含む画像を注視領域として用いることを特徴とする請求項1~4のいずれか一つに記載の商品認識用学習済みモデル生成方法。
- 前記共通領域及び前記差異領域を表示部に表示することを特徴とする請求項6に記載の商品認識用学習済みモデル生成方法。
- 深層学習ネットワークを前段深層学習ネットワークと後段深層学習ネットワークとに分割し、前記前段深層学習ネットワークから出力された特徴抽出画像をもとに注視領域を生成するアテンションブランチを設け、前記アテンションブランチの注視領域を前記特徴抽出画像に回帰させ前記注視領域により重み付けされた前記特徴抽出画像を用いて前記後段深層学習ネットワークが深層学習を行うことにより、店舗内の商品を自動認識する商品認識用学習済みモデルを生成する商品認識用学習済みモデル生成装置であって、
元商品の元商品画像を入力して該元商品画像の注視領域である元注視領域を生成し、該元注視領域を人の知見による任意の修正を受けた修正注視領域に修正して再学習を行わせる注視領域修正部と、
前記修正注視領域を保存する注視領域データベースと、
前記元商品と同一クラスの商品であってパッケージが類似する新商品の新商品画像を入力して該新商品画像の注視領域である新注視領域を生成し、該新注視領域と、前記注視領域データベースに保存された前記新商品と同一クラスの商品の該新注視領域に類似する前記修正注視領域との共通領域を算出する共通領域算出部と、
前記共通領域を用いて前記後段深層学習ネットワーク及び/又はアテンションブランチを再学習する再学習部と、
を備えたことを特徴とする商品認識用学習済みモデル生成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020190461A JP2022079331A (ja) | 2020-11-16 | 2020-11-16 | 商品認識用学習済みモデル生成方法及び商品認識用学習済みモデル生成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020190461A JP2022079331A (ja) | 2020-11-16 | 2020-11-16 | 商品認識用学習済みモデル生成方法及び商品認識用学習済みモデル生成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022079331A true JP2022079331A (ja) | 2022-05-26 |
Family
ID=81707520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020190461A Pending JP2022079331A (ja) | 2020-11-16 | 2020-11-16 | 商品認識用学習済みモデル生成方法及び商品認識用学習済みモデル生成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022079331A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115601027A (zh) * | 2022-12-12 | 2023-01-13 | 临沂中科英泰智能科技有限责任公司(Cn) | 一种基于大数据的自助零售收银系统及方法 |
-
2020
- 2020-11-16 JP JP2020190461A patent/JP2022079331A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115601027A (zh) * | 2022-12-12 | 2023-01-13 | 临沂中科英泰智能科技有限责任公司(Cn) | 一种基于大数据的自助零售收银系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100207883B1 (ko) | 적응적 분류자 장치 | |
Vluymans et al. | Learning from imbalanced data | |
US8457391B2 (en) | Detecting device for specific subjects and learning device and learning method thereof | |
CN111737458A (zh) | 基于注意力机制的意图识别方法、装置、设备及存储介质 | |
CN109598234B (zh) | 关键点检测方法和装置 | |
US20160275341A1 (en) | Facial Expression Capture for Character Animation | |
JP2021508398A (ja) | 小売チェックアウト端末生鮮食品識別システム | |
US7978907B2 (en) | Image analyzer | |
US8730157B2 (en) | Hand pose recognition | |
Freytag et al. | Labeling examples that matter: Relevance-based active learning with gaussian processes | |
EP1477929B1 (en) | Signal processing | |
JP2021507421A (ja) | システム強化学習方法及び装置、電子機器並びにコンピュータ記憶媒体 | |
JP2006323507A (ja) | 属性識別システムおよび属性識別方法 | |
JP6365032B2 (ja) | データ分類方法、データ分類プログラム、及び、データ分類装置 | |
JP2012190159A (ja) | 情報処理装置、情報処理方法及びプログラム | |
US8750604B2 (en) | Image recognition information attaching apparatus, image recognition information attaching method, and non-transitory computer readable medium | |
JP2022079331A (ja) | 商品認識用学習済みモデル生成方法及び商品認識用学習済みモデル生成装置 | |
WO2021186494A1 (ja) | 物体追跡装置、物体追跡理方法、及び、記録媒体 | |
Flamary et al. | Large margin filtering | |
WO2022091335A1 (ja) | 物体追跡装置、物体追跡理方法、及び、記録媒体 | |
CN113112016A (zh) | 用于强化学习过程的动作输出方法、网络训练方法及装置 | |
CN111898560A (zh) | 一种目标检测中的分类回归特征解耦方法 | |
US20220343631A1 (en) | Learning apparatus, learning method, and recording medium | |
EP4177846A1 (en) | Image and video instance association for an e-commerce applications | |
WO2021152801A1 (ja) | 学習装置、学習方法、及び、記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231016 |