JP2022079331A

JP2022079331A - 商品認識用学習済みモデル生成方法及び商品認識用学習済みモデル生成装置

Info

Publication number: JP2022079331A
Application number: JP2020190461A
Authority: JP
Inventors: 拓耶野間; Takuya Noma
Original assignee: Fuji Electric Co Ltd
Current assignee: Fuji Electric Co Ltd
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2022-05-26

Abstract

【課題】パッケージ商品の微小な変化に対して堅牢な商品認識結果が得られる学習済みモデルを生成することができること。【解決手段】元商品の元商品画像を入力して該元商品画像の注視領域である元注視領域を生成し、該元注視領域を人の知見による任意の修正を受けた修正注視領域に修正して再学習を行わせる注視領域修正部と、修正元注視領域を保存する注視領域データベース１５と、元商品と同一クラスの商品であってパッケージが類似する新商品の新商品画像を入力して該新商品画像の注視領域である新注視領域を生成し、該新注視領域と、注視領域データベース１５に保存された新注視領域に類似する修正注視領域との共通領域ＭＰ２０を算出する共通領域算出部２３と、共通領域ＭＰ２０を用いてパーセプションブランチ３及び／又はアテンションブランチ５を再学習する再学習部と、を備える。【選択図】図６

Description

本発明は、パッケージ商品の微小な変化に対して堅牢な商品認識結果が得られる学習済みモデルを生成することができる商品認識用学習済みモデル生成方法及び商品認識用学習済みモデル生成装置に関する。

近年、労働人口の減少により、コンビニエンスストアやスーパーなどの小売業界でも労働力不足が深刻化しており、特に業務負荷の高い決済業務（レジ精算）に対して画像認識ＡＩを活用した省力化・無人化の実現が期待されている。

小売店では、お菓子・カップ麺のようなパッケージ品やお弁当・パンのような非パッケージ品（日配品）等、多種多様な商品を扱っている。このため、一般的には、大規模な学習データセットを作成し、公知の深層学習技術であるＣＮＮ（Convolutional Neural Network）などを用いて画像認識ＡＩによる自動商品認識システムを構築する。あるいは、パッケージ商品は従来技術である特徴点マッチングで認識し、非パッケージ商品はＣＮＮで認識する方式を用いて構築する例もある（非特許文献１参照）。

特開２０１９－２２０１１６号公報

菊池克ら、，"あらゆる小売商品を認識可能にする多種物体認識技術"，ＮＥＣ技報，Ｖｏｌ．７２，Ｎｏ．１ [令和２年１１月８日検索]，インターネット<URL: https://jpn.nec.com/techrep/journal/g19/n01/190118.html> Hiroshi Fukui, Tsubasa Hirakawa, Takayoshi Yamashita, Hironobu Fujiyoshi, "Attention Branch Network: Learning of Attention Mechanism for Visual Explanation", Chubu University，CVPR_2019 三津原将弘，福井宏(中部大)，坂下祐輔(中部大，ニデック)，緒方貴紀(ABEJA)，平川翼，山下隆義，藤吉弘亘(中部大), "Attention mapを介したDeep Neural Networkへの人の知見の組み込み"。第２２回画像の認識・理解シンポジウム，２０１９

ところで、商品の約８割を占めるパッケージ商品は、微小なパッケージ変化が頻繁に起きるため、一般的なＣＮＮ方式では、パッケージが類似する同一商品であるにもかかわらず、他のパッケージ商品（クラス）と誤認識され、ＡＩの認識率が低下する課題がある。また、特徴点マッチングとＣＮＮとを組み合わせた手法では、パッケージが微小に変化しただけでも認識不可となる場合がある。このため、新しいパッケージ商品の画像を大量に取得して学習済みモデルを再学習する方法が一般的である。

しかし、パッケージが変化する度に新しく大量の学習画像を収集し、追加学習を行う場合、学習画像の収集負荷が高くなるという課題があるとともに、対象クラスから抽出される特徴量の分布、すなわち対象クラスの特徴量が取り得るデータ範囲が大きくなるため、他クラスの特徴量分布と混合するという課題もある。例えば、クラスＡのパッケージが、異なるクラスＢのパッケージに近くなるように変化し、特長量分布が一部重なりあうことが想定される。

本発明は、上記に鑑みてなされたものであって、パッケージ商品の微小な変化に対して堅牢な商品認識結果が得られる学習済みモデルを生成することができる商品認識用学習済みモデル生成方法及び商品認識用学習済みモデル生成装置を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、深層学習ネットワークを前段深層学習ネットワークと後段深層学習ネットワークとに分割し、前記前段深層学習ネットワークから出力された特徴抽出画像をもとに注視領域を生成するアテンションブランチを設け、前記アテンションブランチの注視領域を前記特徴抽出画像に回帰させ前記注視領域により重み付けされた前記特徴抽出画像を用いて前記後段深層学習ネットワークが深層学習を行うことにより、店舗内の商品を自動認識する商品認識用学習済みモデルを生成する商品認識用学習済みモデル生成方法であって、元商品の元商品画像を入力して該元商品画像の注視領域である元注視領域を生成し、該元注視領域を人の知見による任意の修正を受けた修正注視領域に修正して再学習を行わせる注視領域修正ステップと、前記修正注視領域を保存する保存ステップと、前記元商品と同一クラスの商品であってパッケージが類似する新商品の新商品画像を入力して該新商品画像の注視領域である新注視領域を生成し、該新注視領域と、保存された前記新商品と同一クラスの商品の該新注視領域に類似する前記修正注視領域との共通領域を算出する共通領域算出ステップと、前記共通領域を用いて前記後段深層学習ネットワーク及び／又はアテンションブランチを再学習する新商品再学習ステップと、を含むことを特徴とする。

また、本発明は、上記の発明において、前記共通領域は、前記新注視領域と前記修正注視領域との差分を用いて算出することを特徴とする。

また、本発明は、上記の発明において、前記共通領域は、前記新注視領域と前記修正注視領域との共通度合いが所定の閾値以上の場合、前記注視領域として用いて前記アテンションブランチを再学習して前記商品認識用学習済みモデルを更新することを特徴とする。

また、本発明は、上記の発明において、前記共通領域は、前記新注視領域と前記修正注視領域との共通度合いが所定の閾値以上の場合、前記注視領域として用いて前記後段深層学習ネットワークを再学習して前記商品認識用学習済みモデルを更新することを特徴とする。

また、本発明は、上記の発明において、前記共通領域は、前記新注視領域と前記修正注視領域との共通度合いが所定の閾値未満の場合、前記注視領域として用いず、前記アテンションブランチ及び／又は前記後段深層学習ネットワークの再学習を行わないことを特徴とする。

また、本発明は、上記の発明において、前記共通領域算出ステップにおいて算出された前記共通領域以外の差異領域は、画素値を０に置き換える補間を行い、該補間された共通領域を含む画像を注視領域として用いることを特徴とする。

また、本発明は、上記の発明において、前記共通領域及び前記差異領域を表示部に表示することを特徴とする。

また、本発明は、深層学習ネットワークを前段深層学習ネットワークと後段深層学習ネットワークとに分割し、前記前段深層学習ネットワークから出力された特徴抽出画像をもとに注視領域を生成するアテンションブランチを設け、前記アテンションブランチの注視領域を前記特徴抽出画像に回帰させ前記注視領域により重み付けされた前記特徴抽出画像を用いて前記後段深層学習ネットワークが深層学習を行うことにより、店舗内の商品を自動認識する商品認識用学習済みモデルを生成する商品認識用学習済みモデル生成装置であって、元商品の元商品画像を入力して該元商品画像の注視領域である元注視領域を生成し、該元注視領域を人の知見による任意の修正を受けた修正注視領域に修正して再学習を行わせる注視領域修正部と、前記修正注視領域を保存する注視領域データベースと、前記元商品と同一クラスの商品であってパッケージが類似する新商品の新商品画像を入力して該新商品画像の注視領域である新注視領域を生成し、該新注視領域と、前記注視領域データベースに保存された前記新商品と同一クラスの商品の該新注視領域に類似する前記修正注視領域との共通領域を算出する共通領域算出部と、前記共通領域を用いて前記後段深層学習ネットワーク及び／又はアテンションブランチを再学習する再学習部と、を備えたことを特徴とする。

本発明によれば、パッケージ商品の微小な変化に対して堅牢な商品認識結果が得られる学習済みモデルを生成することができる。

図１は、本発明の実施の形態である商品認識用学習済みモデル生成装置に適用される商品認識用学習済みモデルの概要構成を示す図である。図２は、商品認識用学習済みモデル生成装置の構成を示すブロック図である。図３は、商品認識用学習済みモデル生成装置による商品の学習処理手順を示すフローチャートである。図４は、第１学習フェーズで入力される学習対象の元商品、及び、第２学習フェーズで入力される学習対象の新商品との具体例を示す図である。図５は、第１学習フェーズにおける学習処理を説明する説明図である。図６は、第２学習フェーズにおける学習処理を説明する説明図である。図７は、本変形例の商品認識用学習済みモデル生成装置による商品の学習処理手順を示すフローチャートである。図８は、本変形例による第２学習フェーズにおける学習処理を説明する説明図である。

以下、添付図面を参照してこの発明を実施するための形態について説明する。

＜商品認識用学習済みモデルの構成＞
図１は、本発明の実施の形態である商品認識用学習済みモデル生成装置に適用される商品認識用学習済みモデルＭの概要構成を示す図である。なお、商品認識用学習済みモデルＭは、デフォルトとして学習前のモデルであってもよいし、学習済みのモデルであってもよい。図１に示すように、商品認識用学習済みモデルＭは、深層学習技術の１つであるＡＢＮ（Attention Branch Network：非特許文献２参照）を用いている。ＡＢＮは、ＣＮＮである深層学習ネットワーク１を前段深層学習ネットワーク２と後段深層学習ネットワーク（パーセプションブランチ（Perception Branch））３とに分割し、前段深層学習ネットワーク２から出力された特徴抽出画像Ｄ１をもとに注視領域（Attention Map）ＭＰを生成するアテンションブランチ（Attention branch）５を設け、アテンションブランチ５の注視領域ＭＰを特徴抽出画像Ｄ１に回帰させ注視領域ＭＰを乗算部４により重み付けされた特徴抽出画像をパーセプションブランチ３に出力して深層学習を行う。

アテンションブランチ５は、特徴抽出画像Ｄ１（Ｋ個のチャネルを持つ最終畳み込み層の出力）に対して、畳み込み演算と活性化関数の適用とを行い、出力への応答値が高い、すなわち影響度の高い画素を特定し、１つのデータとして結合した注視領域ＭＰを生成する。この注視領域ＭＰを元の特徴抽出画像Ｄ１に掛け合わせて重み付けを行うことにより、パーセプションブランチ３は、注目すべきチャネルを強調した特徴抽出画像を生成し、注目すべき領域に対して重点的に学習することができる。これにより精度の高い商品判定を行うことができる。

図１では、３つのクラスＡ，Ｂ，Ｃの商品画像を教師データとして入力して、パーセプションブランチ３が出力する各クラスの確率をもとに判定出力部６が判定出力する。なお、判定出力部６は、アテンションブランチ５が出力する確率をも用いて判定出力するようにしてもよい。

＜商品認識用学習済みモデル生成装置の構成＞
図２は、商品認識用学習済みモデル生成装置１０の構成を示すブロック図である。図２に示すように、商品認識用学習済みモデル生成装置１０は、画像取得部１１、入力部１２、表示部１３、記憶部１４、注視領域データベース１５及び制御部１６を有する。

画像取得部１１は、分類判定すべき商品画像を取得するデバイスであり、例えばカメラなどの撮像デバイスである。入力部１２は、キーボードやマウス等の入力デバイスであり、各種情報を入力する。表示部１３は、液晶パネルやディスプレイ装置等の表示デバイスである。

記憶部１４は、ハードディスク装置又はＳＳＤ等の二次記憶媒体であり、商品認識用学習済みモデルＭを記憶する。注視領域データベース１５は、後述する注視領域修正部２２が修正した修正注視領域を保存するデータベースである。

制御部１６は、商品認識用学習済みモデル生成装置１０を全体制御する制御部であり、学習部２１、注視領域修正部２２、共通領域算出部２３、再学習部２４、補間部２５及び表示処理部２６を有する。実際には、制御部１６が、これらの機能部に対応するプログラムを不揮発性メモリ等などの記憶装置に記憶しておき、これらのプログラムをメモリにロードして、ＣＰＵで実行することで、対応するプロセスを実行させることになる。

なお、制御部１６は、第１学習フェーズの後に第２学習フェーズに移行する。第１学習フェーズでは、元商品に対する学習を行うとともに、元商品の注視領域（元注視領域）を人の知見によって修正した修正注視領域を生成して注視領域データベース１５に保存するとともに、修正注視領域を用いたバックプロバゲーションによる再学習を行う。一方、第２学習フェーズでは、元商品と同一の商品であってパッケージが類似する新商品の学習を行うがこの際、新商品の新注視領域と、保存されている類似の修正注視領域との共通領域を算出し、この共通領域を用いてバックプロバゲーションによる再学習を行う。

学習部２１は、第１学習フェーズ及び第２学習フェーズにおいて、入力された商品画像に対してフォワードプロバケーションにより学習を行う。

注視領域修正部２２は、第１学習フェーズにおいて、元商品の元商品画像を入力して該元商品画像の注視領域である元注視領域を生成し、元商品の元商品画像（商品Ａ，Ｂ，Ｃの商品画像）を入力して元商品画像の注視領域である元注視領域を生成し、該元注視領域を人の知見による任意の修正を受けた修正注視領域に修正して再学習を行わせる（非特許文献３参照）。この元注視領域の修正により、背景やノイズを除外し、人の判断に用いる特徴的な領域のみを残した修正注視領域が生成される。この修正注視領域は、注視領域データベース１５に保存される。なお、注視領域修正部２２は、ＨＩＴＬ（Human-in-the-loop)機構を設けたものである。

共通領域算出部２３は、第２学習フェーズにおいて、元商品と同一の商品であってパッケージが類似する新商品の新商品画像を入力して該新商品画像の注視領域である新注視領域を生成し、該新注視領域と、新商品と同一の商品の該新注視領域に類似する、第１学習フェーズにおいて注視領域データベース１５に保存された修正注視領域との共通領域を算出する。

再学習部２４は、第１学習フェーズにおいて、修正注視領域による重み付けによる再学習を行い、第２学習フェーズにおいて、共通領域による重み付けによる再学習を行う。

補間部２５は、第２学習フェーズにおいて、算出された共通領域以外の差異領域を、画素値を０に置き換える補間を行う。再学習部２４は、この補間された共通領域のみをもつ注視領域によって再学習を行う。

表示処理部２６は、商品認識用学習済みモデルＭからの判定出力を表示部１３に表示する処理を行う。なお、表示処理部２６は、後述するように、共通領域及び差異領域を表示部１３に表示するようにしてもよい。

＜学習処理手順＞
図３は、商品認識用学習済みモデル生成装置１０による商品の学習処理手順を示すフローチャートである。図３に示すように、第１学習フェーズにおいて、まず、学習部２１は、元商品の元商品画像が商品認識用学習済みモデルＭに入力されることにより学習する（ステップＳ１１０）。この学習の際に、注視領域ＭＰを生成し、注視領域修正部２２により注視領域ＭＰが修正され、この修正した修正注視領域を特徴抽出画像Ｄ１に掛け合わせて再学習を行う（ステップＳ１２０）。そして、この修正注視領域は、注視領域データベース１５に保存する（ステップＳ１３０）。これにより、第１学習フェーズにおける元商品に対する商品認識用学習済みモデルＭが構築される（ステップＳ１４０）。

その後、第２学習フェーズにおいて、パッケージのみが微小に変化した場合などのように、元商品に類似する新商品の新商品画像が商品認識用学習済みモデルＭに入力されることにより学習する（ステップＳ２１０）。その後、共通領域算出部２３は、生成した新注視領域に類似する修正注視領域を注視領域データベース１５から抽出する（ステップＳ２２０）。その後、新注視領域と、抽出した修正注視領域とに共通する共通領域を算出する（ステップＳ２３０）。この際、共通領域以外の領域である差異領域の画素値を０にした注視領域にするとよい。その後、再学習部２４は、共通領域を用いた新商品に対する再学習を行う（ステップＳ２４０）。これにより、第２学習フェーズにおける新商品に対する商品認識用学習済みモデルＭが構築される（ステップＳ１４０）。

＜第１学習フェーズと第２学習フェーズ＞
図４は、第１学習フェーズで入力される学習対象の元商品Ａ（クラスＡ）、元商品Ｂ（クラスＢ）、元商品Ｃ（クラスＣ）と、第２学習フェーズで入力される学習対象の新商品Ａ´（クラスＡ）、新商品Ｂ´（クラスＢ）、新商品Ｃ´（クラスＣ）との具体例を示す図である。クラスＡは、ペットボトル飲料の商品であり、クラスＢは、缶入り飲料の商品であり、クラスＣは、包装商品である。クラスＡの新商品Ａ´、クラスＢの新商品Ｂ´、クラスＣの新商品Ｃ´には、それぞれマークＡ１～Ａ３が描かれており、元商品Ａ～Ｃのパッケージから微小変化したパッケージとなっている。

図５は、第１学習フェーズにおける学習処理を説明する説明図である。図５に示すように、まず、クラスＡの元商品Ａの商品画像が商品認識用学習済みモデルＭに入力される。前段深層学習ネットワーク２の最終層から出力された特徴抽出画像Ｄ１は、アテンションブランチ５に入力され、注視領域ＭＰを生成する。生成された注視領域ＭＰは、乗算部４において特徴抽出画像Ｄ１に掛け合わされる。この注視領域ＭＰが掛け合わされて重み付けされた特徴抽出画像Ｄ１はパーセプションブランチ３に入力される。パーセプションブランチはさらに畳み込み演算などを行い、全結合層を介して各商品の分類確率を判定出力部６に出力する。これにより、フォワードプロバゲーションによる学習が行われる。なお、アテンションブランチ５が出力する分類確率を判定出力部６に出力し、この分類確率をも参照して判定出力部６は商品の分類判定を行うようにしてもよい。

この学習時に生成された注視領域ＭＰは、注視領域修正部２２により、人の知見に基づいた修正が行われ、修正注視領域ＭＰ１０を生成する。生成された修正注視領域ＭＰ１０は、もとの注視領域ＭＰに置き換えられ、この置き換えられた修正注視領域ＭＰ１０によってアテンションブランチ５及び／又はパーセプションブランチ３に対し、バックプロバゲーションによる再学習を行う。一方、修正注視領域ＭＰ１０は、注視領域データベース１５に保存される。アテンションブランチ５及びパーセプションブランチに対する再学習は、例えば、アテンションブランチ５が出力する確率と判定結果との誤差Ｌatt（ｘ）と、パーセプションブランチ３が出力する確率と判定結果との誤差Ｌper（ｘ）と、注視領域ＭＰと修正注視領域ＭＰ１０との誤差Ｌmap（ｘ）とが小さくなるように微調整する。特に誤差Ｌmap（ｘ）は、誤差Ｌatt（ｘ）と誤差Ｌper（ｘ）とに比べて大きいため、誤差Ｌmap（ｘ）を微調整するとよい。なお、クラスＢ，Ｃの元商品Ｂ，Ｃに対しても同様な学習処理を行う。

この第１の学習フェーズでは、注視領域ＭＰを任意に修正できることにより、商品の特徴となる領域（人間が判断に用いる領域、背景やノイズを除外した領域）のみを学習することが可能となり、通常の学習と比較して高精度かつ効率の良い学習が可能となる。

次に、図６は、第２学習フェーズにおける学習処理を説明する説明図である。図６に示すように、まず、クラスＡの新商品Ａ´の商品画像が商品認識用学習済みモデルＭに入力される。前段深層学習ネットワーク２の最終層から出力された特徴抽出画像Ｄ１は、アテンションブランチ５に入力され、新注視領域ＭＰ´を生成する。

共通領域算出部２３は、新商品Ａと同一ラベル（同一クラス）、かつ、最も類似の高いい（抽出した特長量ベクトル値が最も近い）修正注視領域ＭＰ１０を注視領域データベース１５から抽出する。そして、新商品画像に対する新注視領域ＭＰ´と、抽出した修正注視領域ＭＰ１０との差分を用いて差異領域ＭＰ３０を除外した共通領域ＭＰ２０を算出する。そして、再学習部２４は、共通領域ＭＰ２０のみを用いてアテンションブランチ５及び／又はパーセプションブランチ３の再学習を行う。なお、再学習部２４は、補間部２５によって差異領域ＭＰ３０が補間された注視領域を用いて再学習を行ってもよい。なお、クラスＢ，Ｃの新商品Ｂ´，Ｃ´に対しても同様な学習処理を行う。

この第２学習フェーズでは、新商品画像の新注視領域ＭＰ´と最も類似度の高い修正注視領域ＭＰ１０を注視領域データベース１５から抽出し、新注視領域ＭＰ´と修正注視領域ＭＰ１０との差分を用いて共通領域ＭＰ２０を算出し、この共通領域ＭＰ２０のみを用いて、共通する特徴量（色合いや文様）を重点的に学習することが可能であるため、微小なパッケージ変化が生じても不変的な特徴量に基づいた堅牢な商品認識が可能になる。

＜変形例＞
上記の実施の形態では、第２学習フェーズにおいて、共通領域ＭＰ２０を用いてアテンションブランチ５及び／又はパーセプションブランチ３の再学習を行うようにしていた。ここで、共通領域ＭＰ２０の共通度合いがごくわずか、すなわち所定の閾値以下である場合、再学習しても効果的な学習が行われないと想定されるため、本変形例では、共通領域ＭＰ２０を用いた再学習を行わないようにしている。これにより、余計な学習を防ぐことができ、学習が収束しやすくなる。

図７は、本変形例の商品認識用学習済みモデル生成装置１０による商品の学習処理手順を示すフローチャートである。図７に示すように、本変形例では、図３に示したフローチャートのステップＳ２３０の次にステップＳ２３１、Ｓ２３２を付加している。したがって、ステップＳ１１０～Ｓ２３０，Ｓ２４０．Ｓ２５０は、図３に示したものと同じである。

ステップＳ２３０では、共通領域ＭＰ２０の算出とともに付随的に差異領域ＭＰ３０が算出される。ステップＳ２３１では、表示処理部２６により共通領域ＭＰ２０及び差異領域ＭＰ３０を表示部１３に表示する。なお、この際、出力結果も表示する。

ステップＳ２３２では、共通領域ＭＰ２０の共通度合いが所定の閾値以上であるか否かを判定する。共通度合いが所定の閾値以上である場合（ステップＳ２３２：Ｙｅｓ）には、共通領域ＭＰ２０を用いた新商品に対するアテンションブランチ５及び／又はパーセプションブランチ３の再学習を行う（ステップＳ２４０）。

一方、共通度合いが所定の閾値以下でない場合（ステップＳ２３２：Ｎｏ）には、共通領域ＭＰ２０を用いた新商品に対するアテンションブランチ５及び／又はパーセプションブランチ３の再学習を行わず、ステップＳ２５０に移行する。

図８は、本変形例による第２学習フェーズにおける学習処理を説明する説明図である。図８に示すように、共通領域算出部２３は、共通領域ＭＰ２０と差異領域ＭＰ３０とを算出するが、共通領域ＭＰ２０の共通度合いが所定の閾値以上である場合のみ、新注視領域ＭＰ´を共通領域ＭＰ２０に置き換えた再学習を行い、共通度合いが所定の閾値未満である場合、新注視領域ＭＰ´を共通領域ＭＰ２０に置き換えた再学習を行わない。

なお、表示部１３は、出力結果に加えて、共通領域ＭＰ２０及び差異領域ＭＰ３０を表示する。これにより、商品認識用学習済みモデルＭがどこを中心に学習し、商品のどこが変化したのかを視認することができる。

また、上記の実施の形態及び変形例で生成された商品認識用学習済みモデルＭは、商品認識用学習済みモデルＭを用いる店舗等によって適宜、ダウンロードされる。

さらに、上記の実施の形態及び変形例の装置で実行されるプログラムは、装置が備える記憶媒体（ＲＯＭまたは記憶部）に予め組み込んで提供するものとするが、これに限らず、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。さらに、記憶媒体は、コンピュータ或いは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。

また、上記の実施の形態及び変形例の装置で実行されるプログラムをインターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよく、インターネット等のネットワーク経由で提供または配布するように構成してもよい。

なお、上記の実施の形態及び変形例で図示した各構成は機能概略的なものであり、必ずしも物理的に図示の構成をされていることを要しない。すなわち、各装置及び構成要素の分散・統合の形態は図示のものに限られず、その全部又は一部を各種の使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。

１深層学習ネットワーク
２前段深層学習ネットワーク
３パーセプションブランチ
４乗算部
５アテンションブランチ
６判定出力部
１０商品認識用学習済みモデル生成装置
１１画像取得部
１２入力部
１３表示部
１４記憶部
１５注視領域データベース
１６制御部
２１学習部
２２注視領域修正部
２３共通領域算出部
２４再学習部
２５補間部
２６表示処理部
Ａ１～Ａ３マーク
Ｄ１特徴抽出画像
Ｌatt 誤差
Ｌmap 誤差
Ｌper 誤差
Ｍ商品認識用学習済みモデル
ＭＰ注視領域
ＭＰ´ 新注視領域
ＭＰ１０修正注視領域
ＭＰ２０共通領域
ＭＰ３０差異領域

Claims

深層学習ネットワークを前段深層学習ネットワークと後段深層学習ネットワークとに分割し、前記前段深層学習ネットワークから出力された特徴抽出画像をもとに注視領域を生成するアテンションブランチを設け、前記アテンションブランチの注視領域を前記特徴抽出画像に回帰させ前記注視領域により重み付けされた前記特徴抽出画像を用いて前記後段深層学習ネットワークが深層学習を行うことにより、店舗内の商品を自動認識する商品認識用学習済みモデルを生成する商品認識用学習済みモデル生成方法であって、
元商品の元商品画像を入力して該元商品画像の注視領域である元注視領域を生成し、該元注視領域を人の知見による任意の修正を受けた修正注視領域に修正して再学習を行わせる注視領域修正ステップと、
前記修正注視領域を保存する保存ステップと、
前記元商品と同一クラスの商品であってパッケージが類似する新商品の新商品画像を入力して該新商品画像の注視領域である新注視領域を生成し、該新注視領域と、保存された前記新商品と同一クラスの商品の該新注視領域に類似する前記修正注視領域との共通領域を算出する共通領域算出ステップと、
前記共通領域を用いて前記後段深層学習ネットワーク及び／又はアテンションブランチを再学習する新商品再学習ステップと、
を含むことを特徴とする商品認識用学習済みモデル生成方法。
前記共通領域は、前記新注視領域と前記修正注視領域との差分を用いて算出することを特徴とする請求項１に記載の商品認識用学習済みモデル生成方法。
前記共通領域は、前記新注視領域と前記修正注視領域との共通度合いが所定の閾値以上の場合、前記注視領域として用いて前記アテンションブランチを再学習して前記商品認識用学習済みモデルを更新することを特徴とする請求項１又は２に記載の商品認識用学習済みモデル生成方法。
前記共通領域は、前記新注視領域と前記修正注視領域との共通度合いが所定の閾値以上の場合、前記注視画像として用いて前記後段深層学習ネットワークを再学習して前記商品認識用学習済みモデルを更新することを特徴とする請求項１～３のいずれか一つに記載の商品認識用学習済みモデル生成方法。
前記共通領域は、前記新注視領域と前記修正注視領域との共通度合いが所定の閾値未満の場合、前記注視領域として用いず、前記アテンションブランチ及び／又は前記後段深層学習ネットワークの再学習を行わないことを特徴とする請求項１～４のいずれか一つに記載の商品認識用学習済みモデル生成方法。
前記共通領域算出ステップにおいて算出された前記共通領域以外の差異領域は、画素値を０に置き換える補間を行い、該補間された共通領域を含む画像を注視領域として用いることを特徴とする請求項１～４のいずれか一つに記載の商品認識用学習済みモデル生成方法。
前記共通領域及び前記差異領域を表示部に表示することを特徴とする請求項６に記載の商品認識用学習済みモデル生成方法。
深層学習ネットワークを前段深層学習ネットワークと後段深層学習ネットワークとに分割し、前記前段深層学習ネットワークから出力された特徴抽出画像をもとに注視領域を生成するアテンションブランチを設け、前記アテンションブランチの注視領域を前記特徴抽出画像に回帰させ前記注視領域により重み付けされた前記特徴抽出画像を用いて前記後段深層学習ネットワークが深層学習を行うことにより、店舗内の商品を自動認識する商品認識用学習済みモデルを生成する商品認識用学習済みモデル生成装置であって、
元商品の元商品画像を入力して該元商品画像の注視領域である元注視領域を生成し、該元注視領域を人の知見による任意の修正を受けた修正注視領域に修正して再学習を行わせる注視領域修正部と、
前記修正注視領域を保存する注視領域データベースと、
前記元商品と同一クラスの商品であってパッケージが類似する新商品の新商品画像を入力して該新商品画像の注視領域である新注視領域を生成し、該新注視領域と、前記注視領域データベースに保存された前記新商品と同一クラスの商品の該新注視領域に類似する前記修正注視領域との共通領域を算出する共通領域算出部と、
前記共通領域を用いて前記後段深層学習ネットワーク及び／又はアテンションブランチを再学習する再学習部と、
を備えたことを特徴とする商品認識用学習済みモデル生成装置。