JP7048423B2 - 商品特定装置、プログラム及び学習方法 - Google Patents
商品特定装置、プログラム及び学習方法 Download PDFInfo
- Publication number
- JP7048423B2 JP7048423B2 JP2018109429A JP2018109429A JP7048423B2 JP 7048423 B2 JP7048423 B2 JP 7048423B2 JP 2018109429 A JP2018109429 A JP 2018109429A JP 2018109429 A JP2018109429 A JP 2018109429A JP 7048423 B2 JP7048423 B2 JP 7048423B2
- Authority
- JP
- Japan
- Prior art keywords
- product
- mark
- image
- server
- captured image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
- G06T7/0008—Industrial image inspection checking presence/absence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/60—Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30204—Marker
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Description
本発明は、商品特定装置、プログラム及び学習方法に関する。
商品を撮像した撮像画像に対して画像認識を行い、撮像された商品を特定する技術がある。例えば特許文献1では、ディープラーニングによる認識モデルを用いて、事前に登録されている商品を撮像画像から認識し、さらに商品の大きさ及び色を検証することで、精度良く商品を特定する情報処理システム等が開示されている。
しかしながら、特許文献1に係る発明では、撮像された物体は事前登録された商品群のいずれかであることが前提となっている。従って、未登録の商品が撮像された場合、当該商品を登録済みの商品のいずれかに強制的に分類してしまうという問題があった。
一つの側面では、撮像画像から商品を適切に特定することができる商品特定装置等を提供することを目的とする。
一つの側面に係る商品特定装置は、撮像画像を取得する取得部と、取得した前記撮像画像に対して標章検出器を用いて、該当する標章を備えた商品か否かを判定する標章検出部と、前記標章を検出した前記撮像画像に対して、前記標章を備えた商品を学習させた第1のニューラルネットワークを用いて複数の商品群のいずれに属するかを特定する商品群特定部と、前記複数の商品群毎に学習させた第2のニューラルネットワークを用いて、商品を特定する商品特定部とを備えることを特徴とする。
一つの側面に係るプログラムは、撮像画像を取得し、取得した前記撮像画像から該当する標章を検出することで、該標章を備えた商品か否かを判定し、前記標章を検出した前記撮像画像に対して、前記標章を備えた商品を学習させた第1のニューラルネットワークを用いて複数の商品群のいずれに属するかを特定し、前記複数の商品群毎に学習させた第2のニューラルネットワークを用いて、商品を特定する処理をコンピュータに実行させることを特徴とする。
一つの側面に係る学習方法は、商品を撮像した教師用画像と、前記商品、該商品が属する商品群、及び該商品に備わる標章を示す情報とを含む教師データを取得し、該教師データに基づき、前記商品、商品群、及び標章を識別する識別器を夫々生成する処理をコンピュータに実行させることを特徴とする。
一つの側面では、撮像画像から商品を適切に特定することができる。
以下、本発明をその実施の形態を示す図面に基づいて詳述する。
(実施の形態)
図1は、商品特定システムの構成例を示す模式図である。本実施の形態では、ユーザが撮像した商品の撮像画像から、当該画像に映っている商品を特定する商品特定システムについて説明する。商品特定システムは、商品特定装置1と、端末2とを有する。商品特定装置1及び端末2は、インターネット等のネットワークNを介して通信接続されている。
(実施の形態)
図1は、商品特定システムの構成例を示す模式図である。本実施の形態では、ユーザが撮像した商品の撮像画像から、当該画像に映っている商品を特定する商品特定システムについて説明する。商品特定システムは、商品特定装置1と、端末2とを有する。商品特定装置1及び端末2は、インターネット等のネットワークNを介して通信接続されている。
商品特定装置1は、種々の情報処理、情報の送受信が可能な情報処理装置であり、例えばサーバ装置、パーソナルコンピュータ等である。本実施の形態で商品特定装置1はサーバ装置であるものとし、以下では簡潔のためサーバ1と読み替える。サーバ1は、商品を撮像した撮像画像から、当該画像内の商品を特定する処理を行う。具体的には、サーバ1は教師用の商品画像から商品の特徴量を学習する機械学習処理を行い、画像から商品を特定するための学習モデルを構築しておく。サーバ1は、当該学習モデルを参照して、ユーザが撮像した画像に含まれる商品を特定する。
端末2は、個々のユーザが所持する端末装置であり、例えばスマートフォン、タブレット端末、パーソナルコンピュータ等である。本実施の形態で端末2は、撮像機能を有するスマートフォンであるものとして説明する。端末2は、ユーザによる操作に従って商品を撮像し、撮像した画像をサーバ1へ送信する。サーバ1は、端末2から取得した画像に対して画像認識を行い、商品を特定する。
図2は、サーバ1の構成例を示すブロック図である。サーバ1は、制御部11、主記憶部12、通信部13、補助記憶部14を備える。
制御部11は、一又は複数のCPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)等の演算処理装置を有し、補助記憶部14に記憶されたプログラムPを読み出して実行することにより、サーバ1に係る種々の情報処理、制御処理等を行う。主記憶部12は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等の一時記憶領域であり、制御部11が演算処理を実行するために必要なデータを一時的に記憶する。通信部13は、通信に関する処理を行うための処理回路等を含み、端末2等と情報の送受信を行う。
制御部11は、一又は複数のCPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)等の演算処理装置を有し、補助記憶部14に記憶されたプログラムPを読み出して実行することにより、サーバ1に係る種々の情報処理、制御処理等を行う。主記憶部12は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等の一時記憶領域であり、制御部11が演算処理を実行するために必要なデータを一時的に記憶する。通信部13は、通信に関する処理を行うための処理回路等を含み、端末2等と情報の送受信を行う。
補助記憶部14は大容量メモリ、ハードディスク等であり、制御部11が処理を実行するために必要なプログラムP、その他のデータを記憶している。また、補助記憶部14は、機械学習処理によって構築した学習モデルのデータを記憶している。具体的には、補助記憶部14は、商品を撮像した画像から商品容器に付された標章を検出するための標章識別器(標章検出器)141、撮像された商品が予め定められている複数の商品群のいずれに属するかを特定するための商品群識別器142(第1のニューラルネットワーク)、及び具体的な個々の商品を特定するための商品識別器143(第2のニューラルネットワーク)を記憶している。サーバ1は、各識別器を用いて撮像画像から商品を特定する処理を行う。
なお、補助記憶部14はサーバ1に接続された外部記憶装置であってもよい。また、サーバ1は複数のコンピュータからなるマルチサーバであってもよく、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。
また、本実施の形態においてサーバ1は上記の構成に限られず、例えば操作入力を受け付ける入力部、サーバ1に係る情報を表示する表示部、可搬型記憶媒体に記憶された情報を読み取る読取部等を含んでもよい。
図3は、本実施の形態の概要を示す説明図である。図3では、所定の商品について画像特徴量を学習済みのサーバ1が、端末2より送信される画像内の商品を特定する様子を図示している。
例えばサーバ1は、事前登録されている商品(例えば企業の自社商品)を撮像した教師用の画像データから商品容器の色、形状等の特徴量を学習する機械学習処理を行い、学習モデルを構築しておく。サーバ1は、ユーザが撮像した商品の画像データを端末2から取得し、上記の学習モデルを参照して、撮像画像に含まれる商品が、予め登録されている特定の商品のいずれに該当するかを特定する。例えばサーバ1は、特定した商品の情報をユーザに提供する。
例えばサーバ1は、事前登録されている商品(例えば企業の自社商品)を撮像した教師用の画像データから商品容器の色、形状等の特徴量を学習する機械学習処理を行い、学習モデルを構築しておく。サーバ1は、ユーザが撮像した商品の画像データを端末2から取得し、上記の学習モデルを参照して、撮像画像に含まれる商品が、予め登録されている特定の商品のいずれに該当するかを特定する。例えばサーバ1は、特定した商品の情報をユーザに提供する。
しかしながら、未登録の商品(例えば他社商品)をユーザが撮像する場合もあり得る。この場合、サーバ1は、撮像画像の商品を登録商品のいずれかに分類することになる。このように、不特定多数の画像が入力された場合、登録済みの商品のいずれかに強制分類され、誤って商品を特定する虞がある。
そこでサーバ1は、未登録商品の画像を除外する前処理を行うことで、上記の事態を防止する。具体的には、サーバ1は標章識別器141を用いて、登録商品に付された標章を撮像画像から検出する。登録商品の標章が検出されない場合、サーバ1は、当該画像を処理対象から除外する。
図4は、標章特定処理を説明するための説明図である。図4Aは、撮像画像から局所特徴量を抽出する様子を図示している。図4Bでは、抽出した局所特徴量のクラス分類を行う様子を図示している。
例えばサーバ1は、撮像画像から輝度の勾配を示す局所特徴量を抽出し、抽出した局所特徴量に基づき、商品容器に付された標章を検出する。局所特徴量は、例えばHOG(Histograms of Oriented Gradients)特徴量である。HOG特徴量は、撮像画像を所定単位で分割した局所領域(セル)における輝度の勾配方向をヒストグラム化することで、輝度勾配をベクトル表現した特徴量である。HOG特徴量は、図4Aに示すように、5×5のピクセルを1セルとし、3×3のセルを1ブロックとして、1ブロックの輝度勾配を8方向のバイナリ(図4Aに示す矢印)のヒストグラムで表現する。なお、上記のブロック及びセルの構成単位は一例であり、任意に変更してよい。また、勾配を表現するバイナリは8方向に限定されない。HOG特徴量は幾何学変化に強く、画像照明の変動に頑健な特長がある。本実施の形態においてサーバ1は、標章を特定するための特徴量として、HOG特徴量を用いる。
例えばサーバ1は、撮像画像から輝度の勾配を示す局所特徴量を抽出し、抽出した局所特徴量に基づき、商品容器に付された標章を検出する。局所特徴量は、例えばHOG(Histograms of Oriented Gradients)特徴量である。HOG特徴量は、撮像画像を所定単位で分割した局所領域(セル)における輝度の勾配方向をヒストグラム化することで、輝度勾配をベクトル表現した特徴量である。HOG特徴量は、図4Aに示すように、5×5のピクセルを1セルとし、3×3のセルを1ブロックとして、1ブロックの輝度勾配を8方向のバイナリ(図4Aに示す矢印)のヒストグラムで表現する。なお、上記のブロック及びセルの構成単位は一例であり、任意に変更してよい。また、勾配を表現するバイナリは8方向に限定されない。HOG特徴量は幾何学変化に強く、画像照明の変動に頑健な特長がある。本実施の形態においてサーバ1は、標章を特定するための特徴量として、HOG特徴量を用いる。
例えばサーバ1は、HOG特徴量に基づき、SVM(Support Vector Machine)のアルゴリズムを用いて標章を特定する。SVMは、教師あり学習を用いたパターン認識手法であり、入力データ(撮像画像)をクラス分類する手法である。図4Bに概念的に示すように、SVMでは、多次元の特徴量空間に各クラス(図4Bでは2クラス)のデータサンプルを射影し、最近傍サンプルからの距離(マージン)が最大となる識別面を求めることで、当該識別面を識別境界としてクラス分類を行う識別器を生成する。SVMでは当該識別器を用い、識別対象である入力データの特徴量が、識別面を境界とした空間のいずれに位置するかを判定することで、クラス分類を行う。
本実施の形態においてサーバ1は、容器に標章が付された登録商品の教師用画像に、当該画像における標章部分の座標位置の正解値がラベル付けされた教師データを取得(入力)する。標章は、文字、図形、記号等から成る所謂ロゴであり、消費者が商品を識別する際に着目するマークである。なお、後述する変形例で説明するように、本実施の形態における「標章」はロゴに限定されず、消費者が商品を識別する際に特徴となる商品容器等の構造、すなわち商品の形状も標章に含まれる。サーバ1は、教師用画像から、教師データで規定された座標位置のHOG特徴量を抽出することで、標章部分の輝度勾配を多次元の特徴量ベクトルで表現する。そしてサーバ1は、標章部分のHOG特徴量を多次元の特徴空間に射影し、マージンが最大となる識別境界を求めることで、HOG特徴量から標章を識別する標章識別器141を生成する。端末2から撮像画像を取得した場合、サーバ1は標章識別器141を用いて、当該画像に映っている商品に付された標章を検出する。
上記の機械学習時に学習対象とした登録商品の標章が撮像された商品に付されていない、又は標章は付されているが登録商品のものではない等の理由で、登録商品の標章が撮像画像から検出されなかった場合、サーバ1は、撮像画像の商品が登録商品ではないものとして、処理対象から除外する。例えばサーバ1は、標章検出に失敗した旨を端末2に通知し、一連の処理を終了する。
図5は、商品特定処理を説明するための説明図である。標章検出に成功した場合、サーバ1は、当該商品が登録商品のいずれに該当するかを特定する。具体的には、サーバ1は、ResNet(Residual Network)に係るニューラルネットワークである商品群識別器142及び商品識別器143を教師データから予め生成し、各識別器を用いて個々の商品を特定していく。
ResNetはニューラルネットワークの一種であり、非常に層が深く、識別精度が高いという特長を有する。図5上側に、ResNetの概念的な模式図を示す。ResNetでは、所定数のニューロン層ずつ(図5では2層ずつ)入力値と出力値の残差を計算し、計算した残差を入力値として次の層に入力するネットワーク構造を有する。ResNetでは最終層(出力層)まで上記の残差計算を繰り返す。これにより、層数を多くした場合に生じる勾配消失、勾配発散等の問題を抑止し、高い識別精度を確保することができる。
本実施の形態ではResNet-101を採用し、サーバ1は、101層のニューロン層を有するニューラルネットワーク構造の識別器を生成する。より詳細には、サーバ1は、畳み込み演算を実行するニューロン層を含むCNN(Convolution Neural Network)モデルの識別器を構築する。サーバ1は、生成した識別器を用いて個々の商品を特定していく。
具体的には、サーバ1は、教師用画像と、登録商品が属する商品群、及び商品自体を示す情報とを含む教師データを取得(入力)し、当該教師データから商品群識別器142及び商品識別器143を夫々生成する。商品群は、例えばシリーズ化されている商品ブランドにつき容器が互いに似ている商品など、特徴量がある程度近似する商品の区分である。サーバ1は、商品群の正解値(例えば商品群の名称。以下、「シリーズ名」と呼ぶ)がラベル付けされた教師用画像を取得する。サーバ1は、教師用画像から商品容器の色、形状、あるいは商品容器に表記されたシリーズ名の文字等の特徴量を抽出することで、商品群識別器142を生成する。
また、サーバ1は、教師画像に個々の商品を特定可能な情報(例えば商品名)がラベル付けされた教師データから、個別の商品を識別する商品識別器143を生成する。本実施の形態でサーバ1は、商品群毎に異なる商品識別器143a、143b、143c…を生成する。外観が似た商品群毎に個々の商品の特徴を学習し、商品群毎に別々の商品識別器143を用いることで、画像認識処理が複雑にならず、精度を高めることができる。
サーバ1は、上記の商品群識別器142及び商品識別器143を用いて商品を特定する。まずサーバ1は、標章識別器141で標章を検出した撮像画像を商品群識別器142に入力し、商品群を特定する。例えばサーバ1は、撮像画像から商品容器の形状、色、あるいは商品容器に付された文字等に係る特徴量を抽出し、商品容器がどの商品群の容器に近いか、あるいはどの商品群のシリーズ名が付されているか等を識別する。これにより、サーバ1は、撮像画像の商品がどの商品群に属するかを特定する。
商品群を特定後、サーバ1は、撮像された商品が具体的にどの商品に該当するかを、商品群に応じた商品識別器143を用いて特定する。例えば図5下側に概念的に示すように、サーバ1は、商品群識別器142で商品のシリーズが「シリーズA」である旨を特定した場合、「シリーズA」の商品を識別するための商品識別器143aを、商品特定に用いる識別器として選択する。サーバ1は商品識別器143aに画像データを入力し、商品容器の色、形状、あるいは商品容器に付された文字等の特徴量を抽出して、撮像された商品が「商品A1」であることを特定する。このように、サーバ1は、商品のシリーズ(商品群)に応じて異なる商品識別器143を用い、個別の商品を特定する。
図6は、商品特定画面の一例を示す説明図である。サーバ1は商品の特定結果を出力し、端末2は、図6に示す商品特定画面を表示する。図6に示すように、端末2は、特定した商品のサンプル画像と共に、標章(ロゴ)の検出結果、商品のシリーズ名、及び商品名を表示する。なお、図6でシリーズ名及び商品名に付された数字は、画像認識時に計算された信頼度である。
なお、図6ではシリーズ名及び商品名の双方を表示しているが、例えば画像認識時の信頼度が所定の閾値以下である場合等、サーバ1が個別の商品の認識に失敗し、商品名を特定できない場合もあり得る。この場合にサーバ1は、シリーズ名のみを端末2に表示させる。商品群識別器142が識別対象とする商品群は、外観においてある程度似ている商品容器をまとめて識別するものであるため、個々の商品を識別するよりも精度が高い。この商品群の特定結果(シリーズ名)を最低限ユーザに提示することで、個別の商品特定に失敗した場合であっても、ユーザはシリーズ名を手掛かりに商品情報を得ることができる。
なお、商品群特定時の信頼度も低く、商品群の特定にも失敗した場合、サーバ1は、撮像画像から検出した標章の検出結果のみを端末2に出力し、一連の画像認識処理を終了する。
図7は、学習モデルの学習処理の処理手順の一例を示すフローチャートである。図7に基づき、サーバ1が実行する機械学習処理の処理内容について説明する。
サーバ1の制御部11は、学習対象とする商品の商品容器が撮像された教師用画像と、商品容器に付された標章、商品が属する商品群、及び個々の商品を示す情報とを含む教師データを取得する(ステップS11)。標章は、例えば文字、図形、記号から成る所謂ロゴである。商品群は、例えばシリーズ化されている商品ブランドのように、ある程度特徴量が近似する商品の区分である。制御部11は、標章、商品群、及び商品自体の正解値が商品画像にラベル付けされた、訓練用の教師データを取得する。例えば制御部11は、商品容器において標章が付されている座標位置、商品が属する商品群のシリーズ名、個々の商品の商品名等の情報がラベル付けされた教師データを取得する。
サーバ1の制御部11は、学習対象とする商品の商品容器が撮像された教師用画像と、商品容器に付された標章、商品が属する商品群、及び個々の商品を示す情報とを含む教師データを取得する(ステップS11)。標章は、例えば文字、図形、記号から成る所謂ロゴである。商品群は、例えばシリーズ化されている商品ブランドのように、ある程度特徴量が近似する商品の区分である。制御部11は、標章、商品群、及び商品自体の正解値が商品画像にラベル付けされた、訓練用の教師データを取得する。例えば制御部11は、商品容器において標章が付されている座標位置、商品が属する商品群のシリーズ名、個々の商品の商品名等の情報がラベル付けされた教師データを取得する。
制御部11は、教師用画像から特徴量を抽出する機械学習処理を行い、撮像画像から標章、商品群、及び商品自体を特定する識別器を夫々生成する(ステップS12)。例えば制御部11は、教師データが示す座標位置の輝度勾配に係る局所特徴量(HOG特徴量)を抽出し、抽出した局所特徴量を特徴空間に射影して識別境界を求めることで、対象商品に付された標章を局所特徴量から検出(クラス分類)可能な標章識別器141を生成する。また、制御部11は、商品容器の色、形状、あるいは商品に付された文字等の特徴量を抽出し、商品群及び商品自体を示す情報(例えばシリーズ名及び商品名)と紐付けることで、画像の特徴量から商品群及び商品を特定する商品群識別器142及び商品識別器143を生成する。具体的には、制御部11は、所定数のニューロン層毎に入力値と出力値の残差計算を繰り返すResNetのネットワーク構造を有し、かつ、畳み込み演算を実行するニューロン層を含むCNNモデルの識別器を夫々生成する。制御部11は、商品群毎に異なる商品識別器143a、143b、143c…を生成する。制御部11は、一連の処理を終了する。
図8は、商品特定処理の処理手順の一例を示すフローチャートである。図8に基づき、上記の学習モデルに基づいて商品を特定する商品特定処理の処理内容について説明する。
サーバ1の制御部11は、ユーザが商品容器を撮像した撮像画像を端末2から取得する(ステップS31)。制御部11は、撮像画像に対して標章識別器141を用いて、画像内の商品の容器に付された標章を検出する(ステップS32)。具体的には、制御部11は撮像画像を所定単位の局所領域に分割し、各局所領域の輝度勾配を示す局所特徴量(HOG特徴量)を抽出する。制御部11は、抽出した局所特徴量が、特徴空間において識別境界により区分されるいずれの空間に位置するかを判定することで、事前登録された商品の標章を検出する。
サーバ1の制御部11は、ユーザが商品容器を撮像した撮像画像を端末2から取得する(ステップS31)。制御部11は、撮像画像に対して標章識別器141を用いて、画像内の商品の容器に付された標章を検出する(ステップS32)。具体的には、制御部11は撮像画像を所定単位の局所領域に分割し、各局所領域の輝度勾配を示す局所特徴量(HOG特徴量)を抽出する。制御部11は、抽出した局所特徴量が、特徴空間において識別境界により区分されるいずれの空間に位置するかを判定することで、事前登録された商品の標章を検出する。
制御部11は、標章の検出に失敗したか否かを判定する(ステップS33)。標章の検出に失敗した場合(S33:YES)、制御部11は、標章検出に失敗した旨を端末2に出力し(ステップS34)、一連の処理を終了する。
標章の検出に失敗しなかった場合(S33:NO)、制御部11は商品群識別器142(第1のニューラルネットワーク)を用いて、撮像された商品が予め定められた複数の商品群のいずれに属するかを特定する(ステップS35)。商品群は、例えばシリーズ化されているブランド商品など、特徴量がある程度近似する商品の区分である。制御部11は、ResNetに係るニューラルネットワークである商品群識別器142を用いて、撮像画像の商品が複数の商品群のいずれに属する商品であるかを特定する。
制御部11は、商品群の特定に失敗したか否かを判定する(ステップS36)。例えば制御部11は、画像認識時に計算された信頼度が所定の閾値以下であるか否かに応じて判定を行う。商品群の特定に失敗した場合(S36:YES)、制御部11は、ステップS32における標章の検出結果を端末2に出力し(ステップS37)、一連の処理を終了する。
商品群の特定に失敗しなかった場合(S36:NO)、制御部11は、特定した商品群に応じて異なる商品識別器143(第2のニューラルネットワーク)を用い、個別の商品を特定する(ステップS38)。商品識別器143は、複数の商品群毎に個別の商品の特徴量を学習したResNetに係るニューラルネットワークである。制御部11は、ステップS35で特定した商品群に応じて異なるニューラルネットワークに撮像画像を入力し、個々の商品を特定する。
制御部11は、ステップS35において個別商品の特定に失敗したか否かを判定する(ステップS39)。例えば制御部11は、画像認識時の信頼度が所定の閾値以下であるか否かに応じて判定を行う。商品の特定に失敗しなかった場合(S39:NO)、制御部11は、特定した商品及び商品群を示す商品特定画面を生成し、端末2に出力する(ステップS40)。具体的には図6に示したように、制御部11は、商品名とシリーズ名とを信頼度付きで示す商品特定画面に出力する。商品の特定に失敗した場合(S39:YES)、制御部11は商品群のみを示す商品特定画面を端末2に出力する(ステップS41)。制御部11は、一連の処理を終了する。
なお、上記ではSVM法を用いて標章を検出したが、例えばOCR(Optical Character Recognition)等の光学的手法によって標章を検出してもよい。つまり、画像認識によって標章を検出可能であればよく、検出アルゴリズムは機械学習によるものに限定されない。
また、標章検出に用いる特徴量としてHOG特徴量を用いたが、例えばSIFT、SURF等の特徴量を用いてもよい。
また、本実施の形態ではユーザ側の端末2ではなく、クラウド上のサーバ1で処理を実行したが、学習モデルのデータを端末2にインストールし、端末2で一連の特定処理を行うようにしても良い。
以上より、本実施の形態によれば、サーバ1はまず商品に付された標章を撮像画像から特定し、その後に個別の商品を特定していく。標章は多くの商品に付されており、これを基に処理対象を絞り込むことで、撮像画像から認識された物体が対象とすべき商品であるか否か、適切に判断することができる。また、サーバ1は商品群を特定後、個別の商品を特定していく。このように、商品を大まかに分類してから個別に特定していくことで学習内容が複雑にならず、精度を向上することができる。上記より、撮像画像から商品を適切に特定することができる。
また、本実施の形態によれば、サーバ1は、撮像画像から輝度勾配を示す局所特徴量(HOG特徴量)を抽出し、SVM法を用いて特徴空間で標章を検出する。例えばOCR技術を用いた場合、容器表面の材質(凹凸や鏡面等)や標章自体のデザイン等の条件によっては、正常な認識が困難になる虞がある。一方で、本実施の形態のように局所特徴量を抽出してパターン認識を行うことで、精度良く標章を検出することができる。
また、本実施の形態によれば、撮像画像から特定した商品及び商品群を示す商品特定画面を端末2に表示することで、ユーザは簡単に商品の情報を取得できるようになり、適切なサービス支援を行うことができる。
また、本実施の形態によれば、具体的な商品の特定に失敗した場合であっても、商品群(例えば商品ブランド)をユーザに提示することでき、より適切なサービス支援を行うことができる。
(変形例)
上述の実施の形態では、商品容器に付されたロゴを標章と捉え、標章識別器141を用いてロゴを検出するようにした。変形例ではロゴではなく、商品が有する特徴的な形状を標章として捉え、標章識別器141が学習済みの商品形状を有するか否かを検出する形態について説明する。
上述の実施の形態では、商品容器に付されたロゴを標章と捉え、標章識別器141を用いてロゴを検出するようにした。変形例ではロゴではなく、商品が有する特徴的な形状を標章として捉え、標章識別器141が学習済みの商品形状を有するか否かを検出する形態について説明する。
図9は、変形例の概要を示す説明図である。図9では、撮像された商品の容器の形状(図9で太線で図示)に基づき、当該商品が自社商品等の登録商品であるか否かを判定する様子を図示してある。
変形例においてサーバ1は、教師用の画像から事前に商品容器の形状を学習する学習処理を行い、特定の商品容器の形状を撮像画像から検出(識別)する標章識別器141を生成してある。例えばサーバ1は、商品群ごと、あるいは商品毎などの単位で、各商品A、B、…の標章識別器141a、141b、…を生成してある。
サーバ1は、端末2から取得した撮像画像を各標章識別器141に入力し、撮像された商品の容器が、標章として学習済みの形状を有するか否かを判定する。これによりサーバ1は、自社の標章を有する商品であるか否かを判定する。例えば図9に示すように、自社の商品Aの撮像画像が標章識別器141に入力された場合、この画像から商品Aの容器の形状を検出し、標章に該当する商品形状を有するものと判定する。その結果、サーバ1は当該画像を続く商品群識別器142に入力し、上述の実施の形態と同様に個々の商品の特定を行う。一方で、図9に示すように他社商品である商品Dの撮像画像が入力された場合、いずれの標章識別器141も標章に該当する商品形状を検出しないため、当該画像は処理対象から除外される。
上述の如く、標章は文字、図形、記号等のロゴに限定されず、商品自体の形状であってもよい。
なお、特段説明しなかったが、標章識別器141が標章として検出する商品の形状は商品の全体的な形状のみならず、商品の一部の形状であってもよい。例えば上述の例では、容器のキャップ部分に特徴的な形状を有する場合、キャップ部分のみの形状に基づいて標章を有するか否かを判定してもよい。このように、標章識別器141が検出する標章は商品の全体的な形状であってもよく、一部の形状であってもよい。
なお、特段説明しなかったが、標章識別器141が標章として検出する商品の形状は商品の全体的な形状のみならず、商品の一部の形状であってもよい。例えば上述の例では、容器のキャップ部分に特徴的な形状を有する場合、キャップ部分のみの形状に基づいて標章を有するか否かを判定してもよい。このように、標章識別器141が検出する標章は商品の全体的な形状であってもよく、一部の形状であってもよい。
図10は、変形例に係る商品特定処理の処理手順の一例を示すフローチャートである。商品容器を撮像した画像を取得した後(ステップS31)、サーバ1の制御部11は、以下の処理を実行する。制御部11は、商品容器の形状を学習した標章識別器141を用い、撮像画像から、標章に該当する商品の形状を検出する(ステップS201)。制御部11は、標章に該当する商品形状の検出に失敗したか否かを判定する(ステップS202)。標章に該当する形状の検出に失敗した場合(S202:YES)、制御部11は処理をステップS34に移行する。標章に該当する形状の検出に失敗しなかった場合(S202:NO)、制御部11は処理をステップS35に移行する。
以上より、撮像画像から商品を特定するにあたり、商品の形状によっても処理対象とすべき画像を絞り込むことができる。
図11は、上述した形態のサーバ1の動作を示す機能ブロック図である。制御部11がプログラムPを実行することにより、サーバ1は以下のように動作する。取得部111は、撮像画像を取得する。標章検出部112は、取得した前記撮像画像に対して標章検出器を用いて、該当する標章を備えた商品か否かを判定する。商品群特定部113は、前記標章を検出した前記撮像画像に対して、前記標章を備えた商品を学習させた第1のニューラルネットワークを用いて複数の商品群のいずれに属するかを特定する。商品特定部114は、前記複数の商品群毎に学習させた第2のニューラルネットワークを用いて、商品を特定する。
今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
1 サーバ(商品特定装置)
11 制御部
12 主記憶部
13 通信部
14 補助記憶部
P プログラム
141 標章識別器
142 商品群識別器
143 商品識別器
2 端末
11 制御部
12 主記憶部
13 通信部
14 補助記憶部
P プログラム
141 標章識別器
142 商品群識別器
143 商品識別器
2 端末
Claims (7)
- 撮像画像を取得する取得部と、
取得した前記撮像画像に対して標章検出器を用いて、該当する標章を備えた商品か否かを判定する標章検出部と、
前記標章を検出した前記撮像画像に対して、前記標章を備えた商品を学習させた第1のニューラルネットワークを用いて複数の商品群のいずれに属するかを特定する商品群特定部と、
前記複数の商品群毎に学習させた第2のニューラルネットワークを用いて、商品を特定する商品特定部と
を備えることを特徴とする商品特定装置。 - 前記撮像画像の輝度勾配を表す局所特徴量を抽出する局所特徴量抽出部を備え、
前記標章検出部は、特徴空間において対象の前記標章を識別する識別境界を学習した前記標章検出器を用いて、抽出した前記局所特徴量から前記標章を検出する
ことを特徴とする請求項1に記載の商品特定装置。 - 前記商品群及び商品の特定後、特定結果を出力する出力部を備える
ことを特徴とする請求項1又は2に記載の商品特定装置。 - 前記商品特定部が前記商品の特定に失敗した場合、前記出力部は、前記商品群に関する特定結果を出力する
ことを特徴とする請求項3に記載の商品特定装置。 - 前記標章は、前記商品の形状であり、
前記標章検出部は、前記標章検出器を用いて前記撮像画像から前記商品の形状を検出したか否かに基づき、前記標章を備えた前記商品か否かを判定する
ことを特徴とする請求項1~4のいずれか1項に記載の商品特定装置。 - 撮像画像を取得し、
取得した前記撮像画像から該当する標章を検出することで、該標章を備えた商品か否かを判定し、
前記標章を検出した前記撮像画像に対して、前記標章を備えた商品を学習させた第1のニューラルネットワークを用いて複数の商品群のいずれに属するかを特定し、
前記複数の商品群毎に学習させた第2のニューラルネットワークを用いて、商品を特定する
処理をコンピュータに実行させることを特徴とするプログラム。 - 商品を撮像した教師用画像と、前記商品、該商品が属する商品群、及び該商品に備わる標章を示す情報とを含む教師データを取得し、
該教師データに基づき、前記商品、商品群、及び標章を識別する識別器を夫々生成する
処理をコンピュータに実行させることを特徴とする学習方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018109429A JP7048423B2 (ja) | 2018-06-07 | 2018-06-07 | 商品特定装置、プログラム及び学習方法 |
PCT/JP2019/022436 WO2019235554A1 (ja) | 2018-06-07 | 2019-06-06 | 商品特定装置、プログラム及び学習方法 |
CN201980037262.6A CN112272838A (zh) | 2018-06-07 | 2019-06-06 | 商品确定装置、程序和学习方法 |
TW108119650A TW202004528A (zh) | 2018-06-07 | 2019-06-06 | 商品特定裝置、記錄媒體及學習方法 |
US15/733,994 US11741685B2 (en) | 2018-06-07 | 2019-06-06 | Commodity identification device, non-transitory computer-readable storage medium, and learning method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018109429A JP7048423B2 (ja) | 2018-06-07 | 2018-06-07 | 商品特定装置、プログラム及び学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019212157A JP2019212157A (ja) | 2019-12-12 |
JP7048423B2 true JP7048423B2 (ja) | 2022-04-05 |
Family
ID=68770488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018109429A Active JP7048423B2 (ja) | 2018-06-07 | 2018-06-07 | 商品特定装置、プログラム及び学習方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11741685B2 (ja) |
JP (1) | JP7048423B2 (ja) |
CN (1) | CN112272838A (ja) |
TW (1) | TW202004528A (ja) |
WO (1) | WO2019235554A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021120205A (ja) * | 2020-01-31 | 2021-08-19 | サトーホールディングス株式会社 | プリンタ、プログラム、印字方法、ユニークid生成方法 |
JP7037788B1 (ja) | 2021-08-23 | 2022-03-17 | 株式会社Toreru | 情報処理装置、学習済みモデルの作成方法、情報処理方法及び情報処理プログラム |
CN115393639B (zh) * | 2022-08-16 | 2023-08-11 | 广州市玄武无线科技股份有限公司 | 商品智能打标方法、系统、终端设备及可读存储介质 |
CN116912633B (zh) * | 2023-09-12 | 2024-01-05 | 深圳须弥云图空间科技有限公司 | 目标追踪模型的训练方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015210651A (ja) | 2014-04-25 | 2015-11-24 | サントリーシステムテクノロジー株式会社 | 商品識別システム |
JP2017084320A (ja) | 2015-03-06 | 2017-05-18 | パナソニックIpマネジメント株式会社 | 学習方法およびプログラム |
US20170255648A1 (en) | 2014-03-13 | 2017-09-07 | A9.Com, Inc. | Object recognition of feature-sparse or texture-limited subject matter |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5918890A (ja) | 1982-07-20 | 1984-01-31 | 住友金属鉱山株式会社 | 地中穿孔ドリルビツト |
JP5707375B2 (ja) * | 2012-11-05 | 2015-04-30 | 東芝テック株式会社 | 商品認識装置及び商品認識プログラム |
JP2014153894A (ja) * | 2013-02-07 | 2014-08-25 | Toshiba Tec Corp | 情報処理装置及びプログラム |
JP2015099550A (ja) * | 2013-11-20 | 2015-05-28 | 東芝テック株式会社 | 商品認識装置及び商品認識プログラム |
CN103617420A (zh) * | 2013-11-27 | 2014-03-05 | 上海电机学院 | 基于图像特征匹配的商品快速识别方法及系统 |
US9830631B1 (en) * | 2014-05-02 | 2017-11-28 | A9.Com, Inc. | Image recognition result culling |
US10007863B1 (en) * | 2015-06-05 | 2018-06-26 | Gracenote, Inc. | Logo recognition in images and videos |
CN106021575A (zh) * | 2016-05-31 | 2016-10-12 | 北京奇艺世纪科技有限公司 | 一种视频中同款商品检索方法及装置 |
JP6209716B1 (ja) | 2016-06-02 | 2017-10-11 | サインポスト株式会社 | 情報処理システム、情報処理方法、及びプログラム |
JP2018041261A (ja) * | 2016-09-07 | 2018-03-15 | 東芝テック株式会社 | 情報処理装置及びプログラム |
US10417527B2 (en) * | 2017-09-06 | 2019-09-17 | Irdeto B.V. | Identifying an object within content |
US11531840B2 (en) * | 2019-02-08 | 2022-12-20 | Vizit Labs, Inc. | Systems, methods, and storage media for training a model for image evaluation |
-
2018
- 2018-06-07 JP JP2018109429A patent/JP7048423B2/ja active Active
-
2019
- 2019-06-06 US US15/733,994 patent/US11741685B2/en active Active
- 2019-06-06 CN CN201980037262.6A patent/CN112272838A/zh active Pending
- 2019-06-06 WO PCT/JP2019/022436 patent/WO2019235554A1/ja active Application Filing
- 2019-06-06 TW TW108119650A patent/TW202004528A/zh unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170255648A1 (en) | 2014-03-13 | 2017-09-07 | A9.Com, Inc. | Object recognition of feature-sparse or texture-limited subject matter |
JP2015210651A (ja) | 2014-04-25 | 2015-11-24 | サントリーシステムテクノロジー株式会社 | 商品識別システム |
JP2017084320A (ja) | 2015-03-06 | 2017-05-18 | パナソニックIpマネジメント株式会社 | 学習方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN112272838A (zh) | 2021-01-26 |
WO2019235554A1 (ja) | 2019-12-12 |
JP2019212157A (ja) | 2019-12-12 |
TW202004528A (zh) | 2020-01-16 |
US20210217160A1 (en) | 2021-07-15 |
US11741685B2 (en) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7048423B2 (ja) | 商品特定装置、プログラム及び学習方法 | |
CN109409398B (zh) | 图像处理装置、图像处理方法以及存储介质 | |
JP5591360B2 (ja) | 分類及び対象物検出の方法及び装置、撮像装置及び画像処理装置 | |
JP5588196B2 (ja) | 認識装置及びその制御方法、コンピュータプログラム | |
US8520941B2 (en) | Method and system for document image classification | |
CN112381775A (zh) | 一种图像篡改检测方法、终端设备及存储介质 | |
US20110052050A1 (en) | Image processing apparatus, image processing method, and computer readable storage medium | |
RU2581786C1 (ru) | Определение преобразований изображения для повышения качества оптического распознавания символов | |
CN108961358B (zh) | 一种获得样本图片的方法、装置及电子设备 | |
CN112749606A (zh) | 一种文本定位方法和装置 | |
CN111738252B (zh) | 图像中的文本行检测方法、装置及计算机系统 | |
CN106845513A (zh) | 基于条件随机森林的人手检测器及方法 | |
Wang et al. | Local defect detection and print quality assessment | |
JP6814178B2 (ja) | 物体検出装置、方法、及びプログラム | |
Liu et al. | Presentation attack detection for face in mobile phones | |
CN113435219B (zh) | 防伪检测方法、装置、电子设备及存储介质 | |
JP6542406B1 (ja) | 読取システム、読取方法、プログラム、及び記憶媒体 | |
CN113762257A (zh) | 一种美妆品牌图像中标志的识别方法及装置 | |
CN107368830A (zh) | 文本检测方法和装置以及文本识别系统 | |
Byeon et al. | Supervised texture segmentation using 2D LSTM networks | |
US20210166028A1 (en) | Automated product recognition, analysis and management | |
JP2018120320A (ja) | 画像処理装置,画像処理方法,画像処理プログラム | |
US20230215137A1 (en) | Grouping Clothing Images Of Brands Using Vector Representations | |
EP4218246A1 (en) | Detection of image space suitable for overlaying media content | |
Poodikkalam et al. | Optical character recognition based on local invariant features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220315 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220324 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7048423 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |