CN112272838A - 商品确定装置、程序和学习方法 - Google Patents
商品确定装置、程序和学习方法 Download PDFInfo
- Publication number
- CN112272838A CN112272838A CN201980037262.6A CN201980037262A CN112272838A CN 112272838 A CN112272838 A CN 112272838A CN 201980037262 A CN201980037262 A CN 201980037262A CN 112272838 A CN112272838 A CN 112272838A
- Authority
- CN
- China
- Prior art keywords
- product
- commodity
- seal
- captured image
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 34
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 238000001514 detection method Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims description 29
- 239000000284 extract Substances 0.000 claims description 10
- 238000003384 imaging method Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 35
- 238000010586 diagram Methods 0.000 description 18
- 238000012986 modification Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 8
- 238000012706 support-vector machine Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 5
- 230000010365 information processing Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012567 pattern recognition method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
- G06T7/0008—Industrial image inspection checking presence/absence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/60—Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30204—Marker
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种商品确定装置(1),其特征在于,包括:获得部,其获得拍摄图像;标章检测部,其对所获得的所述拍摄图像使用标章检测器,判定是否为具有相应标章的商品;商品群确定部,其对检测出所述标章的所述拍摄图像使用学习了具有所述标章的商品的第一神经网络确定属于多个商品群中的哪一个;和商品确定部,其使用按所述多个商品群的每一个进行了学习的第二神经网络确定商品。
Description
技术领域
本发明涉及商品确定装置、程序和学习方法。
背景技术
有对拍摄商品得到的拍摄图像进行图像识别并确定所拍摄的商品的技术。例如,专利文献1中公开了一种信息处理系统,其使用基于深度学习的识别模型,从拍摄图像识别已事先登记的商品,并对商品的大小和颜色进行验证,由此精度良好地确定商品。
先行技术文献
专利文献
【专利文献1】日本专利第6209717号公报
发明内容
发明要解决的课题
但是,专利文献1的发明中,前提是所拍摄的物体为已事先登记的商品群中的任意一个。因此存在以下问题:当拍摄了未登记的商品时,要将该商品强制分类为已登记商品中的任意一种。
本发明的一个目的在于,提供能够根据拍摄图像恰当地确定商品的商品确定装置等。
用于解决课题的手段
本发明的一种商品确定装置,其特征在于,包括:获得部,其获得拍摄图像;标章检测部,其对所获得的所述拍摄图像使用标章检测器,判定是否为具有相应标章的商品;商品群确定部,其对检测出所述标章的所述拍摄图像使用学习了具有所述标章的商品的第一神经网络确定属于多个商品群中的哪一个;和商品确定部,其使用按所述多个商品群的每一个进行了学习的第二神经网络确定商品。
本发明的一种程序,其特征在于,使计算机执行下述处理:获得拍摄图像;通过从所获得的所述拍摄图像中检测相应的标章,判定是否为具有该标章的商品;对检测出所述标章的所述拍摄图像,使用学习了具有所述标章的商品的第一神经网络确定属于多个商品群中的哪一个;使用按所述多个商品群的每一个进行了学习的第二神经网络确定商品。
本发明的一种学习方法,其特征在于,使计算机执行下述处理:获得训练数据,该训练数据包含拍摄商品得到的训练用图像、和表示所述商品、该商品所属的商品群以及该商品所具有的标章的信息;基于该训练数据分别生成识别所述商品、商品群以及标章的识别器。
发明的效果
本发明的一个效果在于:能够根据拍摄图像恰当地确定商品。
附图说明
图1是表示商品确定系统的结构例的示意图。
图2是表示服务器的结构例的框图。
图3是表示本实施方式的概要的说明图。
图4A是用于说明标章确定处理的说明图。
图4B是用于说明标章确定处理的说明图。
图5是用于说明商品确定处理的说明图。
图6是表示商品确定画面的一例的说明图。
图7是表示学习模型的学习处理的处理顺序的一例的流程图。
图8是表示商品确定处理的处理顺序的一例的流程图。
图9是表示变形例的概要的说明图。
图10是表示变形例的商品确定处理的处理顺序的一例的流程图。
图11是表示上述方式的服务器的动作的功能框图。
具体实施方式
以下,基于表示本发明实施方式的附图详述本发明。
(实施方式)
图1是表示商品确定系统的结构例的示意图。本实施方式中,说明根据用户拍摄的商品的拍摄图像确定该图像中所拍商品的商品确定系统。商品确定系统具有商品确定装置1和终端2。商品确定装置1和终端2通过互联网等网络N通信连接。
商品确定装置1是能够进行各种信息处理、信息收发的信息处理装置,例如为服务器装置、个人计算机等。本实施方式中,商品确定装置1为服务器装置,以下,简洁起见,将其称为服务器1。服务器1进行根据拍摄商品得到的拍摄图像确定该图像内的商品的处理。具体来说,服务器1事先进行通过训练用的商品图像学习商品特征量的机械学习处理,构筑用于根据图像确定商品的学习模型。服务器1参照该学习模型,确定用户拍摄的图像中所含的商品。
终端2是各个用户持有的终端装置,例如为智能手机、平板终端、个人计算机等。本实施方式中,将终端2作为具有拍摄功能的智能手机进行说明。终端2按照用户的操作对商品进行拍摄,将所拍摄的图像向服务器1发送。服务器1对从终端2获得的图像进行图像识别,确定商品。
图2是表示服务器1的结构例的框图。服务器1包括控制部11、主存储部12、通信部13、辅助存储部14。
控制部11具有一个或多个CPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)等运算处理装置,通过读出并运行辅助存储部14中存储的程序P,进行服务器1的各种信息处理、控制处理等。主存储部12是SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、闪存等临时存储区域,临时存储控制部11执行运算处理所需的数据。通信部13包含用于进行与通信有关的处理的处理电路等,进行与终端2等之间的信息收发。
辅助存储部14为大容量存储器、硬盘等,存储有控制部11执行处理所需的程序P、其它数据。另外,辅助存储部14存储有通过机械学习处理构筑的学习模型的数据。具体来说,辅助存储部14存储有标章识别器(标章检测器)141、商品群识别器142(第一神经网络)和商品识别器143(第二神经网络),标章识别器141用于从拍摄商品得到的图像中检测商品容器上所带的标章,商品群识别器142用于确定所拍摄的商品属于预先规定的多个商品群中的哪一个,商品识别器143用于确定具体的各个商品。服务器1使用各识别器进行根据拍摄图像确定商品的处理。
辅助存储部14也可以是与服务器1连接的外部存储装置。另外,服务器1可以是由多个计算机构成的多服务器,也可以是由软件虚拟构筑的虚拟机。
本实施方式中,服务器1不限于上述结构,例如也可以包含受理操作输入的输入部、显示涉及服务器1的信息的显示部、读取可移动式存储介质中存储的信息的读取部等。
图3是表示本实施方式的概要的说明图。图3中,示出了就规定的商品学习了图像特征量的服务器1确定终端2发送的图像内的商品的情况。
例如,服务器1事先进行机械学习处理,构筑学习模型,所述机械学习处理是指:通过拍摄已事先登记的商品(例如企业自己的本公司商品)得到的训练用图像数据学习商品容器的颜色、形状等特征量。服务器1从终端2获得用户拍摄的商品的图像数据,参照上述学习模型,确定拍摄图像中包含的商品属于已预先登记的特定商品中的哪种。例如,服务器1将所确定的商品的信息提供给用户。
但是,也有用户拍摄未登记商品(例如其他公司商品)的情况。在这种情况下,服务器1将拍摄图像的商品分类为登记商品中的任意一种。这样,在输入了不确定多数的图像的情况下,有可能被强制分类为已登记商品中的任意一种,从而错误地确定商品。
为此,服务器1通过进行将未登记商品的图像排除的前处理,来防止上述事态。具体来说,服务器1使用标章识别器141从拍摄图像中检测登记商品所带的标章。在未检测出登记商品的标章的情况下,服务器1将该图像从处理对象中排除。
图4A和图4B是用于说明标章确定处理的说明图。图4A示出了从拍摄图像提取局部特征量的情况。图4B中,示出了对所提取的局部特征量进行分类(Classification)的情况。
例如,服务器1从拍摄图像提取表示亮度梯度的局部特征量,并基于所提取的局部特征量检测商品容器所带的标章。局部特征量例如是HOG(Histograms of OrientedGradients)特征量。HOG特征量是通过将以规定单位分割拍摄图像得到的局部区域(单元)中的亮度梯度方向做成直方图从而矢量表现了亮度梯度的特征量。如图4A所示,HOG特征量以5×5的像素为一个单元,以3×3个单元为一个块,将一个块的亮度梯度以8个方向的二进制(图4A所示的箭头)的直方图表现。此外,上述块和单元的构成单位只是一个例子,可以任意变更。另外,表现梯度的二进制不限于8个方向。HOG特征量的特长在于不受几何形变的干扰,对图像光照变化不敏感。本实施方式中,服务器1使用HOG特征量作为确定标章用的特征量。
例如,服务器1基于HOG特征量使用SVM(Support Vector Machine:支持向量机)的算法确定标章。SVM是使用了有监督学习的图案识别手法,是对输入数据(拍摄图像)进行分类的手法。如图4B所示意的那样,SVM中,通过将各类别(图4B中为两类)的数据样本映射到多维特征量空间,并求出与最近样本的距离(margin:间隔)最大的识别面,生成将该识别面作为识别边界进行分类的识别器。SVM中,使用该识别器,通过判定作为识别对象的输入数据的特征量位于以识别面为边界的哪个空间,来进行分类。
本实施方式中,服务器1获得(输入)训练数据,该训练数据是在容器上带有标章的登记商品的训练用图像中标记有该图像中标章部分的坐标位置的正确值的数据。标章是由文字、图形、符号等构成的所谓的标志(logo),是消费者在识别商品时着眼的标记。此外,如后述的变形例中说明的,本实施方式中的“标章”不限于标志,消费者识别商品时成为特征的商品容器等的结构、即商品的形状也包含在标章中。服务器1通过从训练用图像提取由训练数据规定的坐标位置的HOG特征量,用多维特征量矢量表现标章部分的亮度梯度。然后,服务器1通过将标章部分的HOG特征量映射到多维特征空间,求出间隔为最大的识别边界,来生成根据HOG特征量识别标章的标章识别器141。在从终端2获得了拍摄图像的情况下,服务器1使用标章识别器141,检测反映在该图像中的商品所带的标章。
由于在上述机械学习时作为学习对象的登记商品的标章不在所拍摄的商品上、或标章虽在但并不是登记商品等理由,未能从拍摄图像中检测出登记商品的标章的情况下,服务器1认为拍摄图像的商品并非登记商品,将其从处理对象中排除。例如,服务器1将标章检测失败的主旨通知终端2,结束一系列的处理。
图5是用于说明商品确定处理的说明图。在标章检测成功的情况下,服务器1确定该商品属于哪种登记商品。具体来说,服务器1预先通过训练数据生成商品群识别器142和商品识别器143,使用各识别器确定各个商品。商品群识别器142和商品识别器143是涉及ResNet(Residual Network)的神经网络。
ResNet是一种神经网络,特长在于层非常深、识别精度高。图5上侧表示ResNet的概念性示意图。ResNet具有如下网络结构:计算每规定数神经元层(图5中为每两层)的输入值和输出值的残差,并将计算出的残差作为输入值输入下一层。ResNet中重复上述残差计算,直到最终层(输出层)。由此,能够抑制在层数多的情况下产生的梯度消失、梯度发散等问题,确保高的识别精度。
本实施方式中采用ResNet-101,服务器1生成具有101层神经元层的神经网络结构的识别器。更详细的说,服务器1构筑包含执行卷积运算的神经元层的CNN(ConvolutionNeural Network)模型的识别器。服务器1使用所生成的识别器确定各个商品。
具体来说,服务器1获得(输入)训练数据,通过该训练数据分别生成商品群识别器142和商品识别器143。该训练数据包含训练用图像、表示登记商品所属的商品群和商品本身的信息。商品群是特征量在某种程度上近似的商品的划分,该商品例如是系列化的各商品品牌的容器彼此相似的商品等。服务器1获得标记有商品群的正确值(例如商品群的名称。以下称为“系列名”)的训练用图像。服务器1通过从训练用图像提取商品容器的颜色、形状、或商品容器上标明的系列名的文字等特征量,生成商品群识别器142。
另外,服务器1通过在训练图像上标记了能确定各个商品的信息(例如商品名)的训练数据生成识别单个商品的商品识别器143。本实施方式中,服务器1生成因商品群而异的商品识别器143a、143b、143c…。通过按外观相似的商品群学习各个商品的特征,对各商品群使用各自的商品识别器143,图像识别处理不会变得复杂,能够提高精度。
服务器1使用上述商品群识别器142和商品识别器143确定商品。首先,服务器1将用标章识别器141检测出标章的拍摄图像输入商品群识别器142,确定商品群。例如,服务器1从拍摄图像提取涉及商品容器的形状、颜色、或商品容器所带的文字等特征量,识别商品容器与哪个商品群的容器相近、或者带有哪个商品群的系列名等。由此,服务器1确定拍摄图像的商品属于哪个商品群。
确定商品群之后,服务器1使用与商品群对应的商品识别器143确定所拍摄的商品具体属于哪个商品。例如,图5下侧示意地示出的,服务器1在用商品群识别器142确定了商品的系列为“系列A”这一要点的情况下,选择用于识别“系列A”的商品的商品识别器143a作为用于商品确定的识别器。服务器1向商品识别器143a输入图像数据,提取商品容器的颜色、形状、或者商品容器所带的文字等特征量,确定所拍摄的商品为“商品A1”。这样,服务器1根据商品的系列(商品群)使用不同的商品识别器143确定单个商品。
图6是表示商品确定画面一例的说明图。服务器1输出商品确定结果,终端2显示图6所示的商品确定画面。如图6所示,终端2与所确定的商品的样本图像一起显示标章(标志)的检测结果、商品的系列名和商品名。此外,图6中系列名和商品名所附的数字是在图像识别时计算出的信赖度。
此外,图6中显示了系列名和商品名两者,但可能有服务器1识别单个商品失败从而不能确定商品名的情况,例如在图像识别时的信赖度在规定的阈值以下的情况下等。此时,服务器1仅将系列名显示在终端2上。作为商品群识别器142的识别对象的商品群,是对在外观上某种程度相似的商品容器一起识别的,所以精度比识别各个商品要高。通过最低限度向用户提示该商品群的确定结果(系列名),即使在单个商品确定失败的情况下,用户也能将系列名作为线索得到商品信息。
此外,在商品群确定时的信赖度也低、商品群的确定也失败了的情况下,服务器1仅将从拍摄图像中检测出的标章检测结果向终端2输出,结束一系列的图像识别处理。
图7是表示学习模型的学习处理处理顺序的一例的流程图。基于图7说明服务器1执行的机械学习处理的处理内容。
服务器1的控制部11获得训练数据,该训练数据包含拍摄作为学习对象的商品的商品容器得到的训练用图像、以及表示商品容器所带的标章、商品所属的商品群和各个商品的信息(步骤S11)。标章是由例如文字、图形、记号构成的所谓的标志。商品群是例如像系列化的商品品牌那样特征量在某种程度上近似的商品的划分。控制部11获得标章、商品群和商品本身的正确值被标记在商品图像上的、训练用的训练数据。例如,控制部11获得商品容器上附有标章的坐标位置、商品所属的商品群的系列名、各个商品的商品名等信息被标记的训练数据。
控制部11进行从训练用图像提取特征量的机械学习处理,分别生成根据拍摄图像确定标章、商品群和商品本身的识别器(步骤S12)。例如控制部11通过提取训练数据表示的坐标位置的涉及亮度梯度的局部特征量(HOG特征量),并将所提取的局部特征量映射到特征空间求出识别边界,来生成能够根据局部特征量检测(分类)对象商品所带标章的标章识别器141。另外,控制部11通过提取商品容器的颜色、形状、或者商品所带的文字等特征量,并与表示商品群和商品本身的信息(例如系列名和商品名)相关联,来生成根据图像的特征量确定商品群和商品的商品群识别器142和商品识别器143。具体来说,控制部11分别生成具有对各个规定数的神经元层反复进行输入值和输出值的残差计算的ResNet的网络结构、且包含执行卷积运算的神经元层的CNN模型的识别器。控制部11生成因商品群而异的商品识别器143a、143b、143c…。控制部11结束一系列的处理。
图8是表示商品确定处理的处理顺序的一例的流程图。基于图8说明根据上述学习模型确定商品的商品确定处理的处理内容。
服务器1的控制部11从终端2获得用户拍摄商品容器得到的拍摄图像(步骤S31)。控制部11对拍摄图像使用标章识别器141检测图像内的商品的容器所带的标章(步骤S32)。具体来说,控制部11将拍摄图像分割为规定单位的局部区域,提取表示各局部区域的亮度梯度的局部特征量(HOG特征量)。控制部11通过判定所提取的局部特征量位于特征空间中被识别边界划分的哪一空间,来检测已事先登记的商品的标章。
控制部11判定标章检测是否失败(步骤S33)。在标章检测失败了的情况下(S33:YES),控制部11将标章检测失败的主旨向终端2输出(步骤S34),并结束结束一系列的处理。
在标章检测没有失败的情况下(S33:NO),控制部11使用商品群识别器142(第一神经网络),确定所拍摄的商品属于预先规定的多个商品群中的哪一个(步骤S35)。商品群例如是系列化的品牌商品等特征量在某种程度上近似的商品的划分。控制部11使用作为涉及ResNet的神经网络的商品群识别器142,确定拍摄图像的商品是属于多个商品群中的哪一个的商品。
控制部11判定商品群确定是否失败(步骤S36)。例如,控制部11根据图像识别时计算出的信赖度是否在规定的阈值以下进行判定。在商品群确定失败了的情况下(S36:YES),控制部11将步骤S32中的标章检测结果向终端2输出(步骤S37),结束一系列的处理。
在商品群确定没有失败的情况下(S36:NO),控制部11使用因所确定的商品群而异的商品识别器143(第二神经网络),确定单个商品(步骤S38)。商品识别器143是按多个商品群的每一个学习了单个商品的特征量的涉及ResNet的神经网络。控制部11向因步骤S35中所确定的商品群而异的神经网络输入拍摄图像,确定各个商品。
控制部11判定步骤S35中单个商品确定是否失败(步骤S39)。例如,控制部11根据图像识别时的信赖度是否在规定的阈值以下进行判定。在商品确定没有失败的情况下(S39:NO),控制部11生成表示所确定的商品和商品群的商品确定画面,并向终端2输出(步骤S40)。具体来说,如图6所示,控制部11将商品名和系列名输出到标有信赖度的商品确定画面。在商品确定失败了的情况下(S39:YES),控制部11将仅表示商品群的商品确定画面向终端2输出(步骤S41)。控制部11结束一系列的处理。
此外,以上所述的是用SVM法检测了标章,但也可以通过例如OCR(OpticalCharacter Recognition)等光学的手法检测标章。也就是说,只要能通过图像识别检测标章即可,检测算法不限于基于机械学习的算法。
另外,作为用于标章检测的特征量使用了HOG特征量,但也可以使用例如SIFT、SURF等特征量。
另外,本实施方式中,不是用户端的终端2而是由云端的服务器1执行了处理,但也可以将学习模型的数据安装到终端2并由终端2进行一系列确定处理。
基于以上,按照本实施方式,服务器1首先根据拍摄图像确定商品所带的标章,然后确定单个商品。大多商品都带有标章,通过基于此筛选处理对象,能够恰当地判断从拍摄图像识别出的物体是否为应作为对象的商品。另外,服务器1在确定商品群后确定单个商品。这样,通过将商品粗略分类后逐个确定,能够提高精度,而学习内容也不会变复杂。综上所述,能够根据拍摄图像恰当地确定商品。
另外,按照本实施方式,服务器1从拍摄图像提取表示亮度梯度的局部特征量(HOG特征量),使用SVM法在特征空间检测标章。例如,在使用了OCR技术的情况下,由于容器表面的材质(凹凸或镜面等)或标章本身的设计等条件,有难以正常识别的顾虑。而通过像本实施方式那样提取局部特征量进行图案识别,能够精度良好地检测标章。
另外,按照本实施方式,通过将表示根据拍摄图像确定出的商品和商品群的商品确定画面显示在终端2,用户能够简单地获得商品的信息,能够进行合适的服务支援。
另外,按照本实施方式,即使在具体的商品确定失败了的情况下,也能向用户提示商品群(例如商品品牌),能够进行更合适的服务支援。
(变形例)
上述实施方式中,将商品容器所带的标志作为标章把握,使用标章识别器141检测标志。在变形例中说明以下方式,即:并非标志而是将商品具有的特征性的形状作为标章把握,标章识别器141检测是否具有已学习的商品形状。
图9是表示变形例的概要的说明图。图9中,示出了基于所拍摄的商品的容器形状(图9中以粗线图示)判定该商品是否为本公司商品等登记商品的情况。
变形例中,服务器1进行通过训练用的图像事先学习商品容器形状的学习处理,生成从拍摄图像中检测(识别)特定的商品容器形状的标章识别器141。例如,服务器1以各个商品群、或者各个商品等为单位生成各商品A、B、…的标章识别器141a、141b、…。
服务器1将从终端2获得的拍摄图像输入到各标章识别器141,判定所拍摄的商品的容器是否具有作为标章学习过的形状。由此,服务器1判定是否为具有本公司标章的商品。例如,如图9所示,在本公司商品A的拍摄图像被输入标章识别器141时,从该图像中检测出商品A的容器的形状,判定为具有与标章相符的商品形状的商品。结果,服务器1将该图像继续输入到商品群识别器142,与上述实施方式同样地进行各个商品的确定。另一方面,如图9所示,在作为其他公司商品的商品D的拍摄图像被输入的情况下,哪个标章识别器141都检测不出与标章相符的商品形状,因此该图像被从处理对象中排除。
如上所述,标章不限于文字、图形、记号等标志,也可以是商品本身的形状。
此外,虽没有特别说明,但标章识别器141作为标章检测的商品形状不仅可以是商品整体的形状,也可以是商品的局部形状。例如,上述例子中,当容器的盖子部分具有特征性的形状时,也可以基于盖子部分的形状判定是否有标章。这样,标章识别器141检测的标章既可以是商品整体的形状,也可以是一部分的形状。
图10是表示变形例的商品确定处理的处理顺序的一例的流程图。在获得对商品容器拍摄的图像之后(步骤S31),服务器1的控制部11执行以下处理。控制部11使用学习了商品容器形状的标章识别器141,从拍摄图像中检测与标章相符的商品形状(步骤S201)。控制部11判定与标章相符的商品形状的检测是否失败(步骤S202)。与标章相符的形状检测失败了的情况下(S202:YES),控制部11将处理跳转至步骤S34。在与标章相符的形状的检测没有失败的情况下(S202:NO),控制部11将处理跳转至步骤S35。
基于以上,当根据拍摄图像确定商品时,也能根据商品的形状筛选应作为处理对象的图像。
图11是表示上述方式的服务器1的动作的功能框图。通过控制部11运行程序P,服务器1如下动作。获得部111获得拍摄图像。标章检测部112对所获得的所述拍摄图像使用标章检测器判定是否为具有相应标章的商品。商品群确定部113对检测了所述标章的所述拍摄图像使用学习了具有所述标章的商品的第一神经网络确定属于多个商品群中的哪一个。商品确定部114使用按所述多个商品群的每一个进行了学习的第二神经网络确定商品。
应该认为,本次公开的实施方式所有方面都是例示,并非限制性的。本发明的范围并非由上述含义所示,而是由权利要求书所示,应包含与权利要求书等同的含义和范围内的所有变更。
附图标记说明
1 服务器(商品确定装置)
11 控制部
12 主存储部
13 通信部
14 辅助存储部
P 程序
141 标章识别器
142 商品群识别器
143 商品识别器
2 终端
Claims (7)
1.一种商品确定装置,其特征在于,包括:
获得部,其获得拍摄图像;
标章检测部,其对所获得的所述拍摄图像使用标章检测器,判定是否为具有相应标章的商品;
商品群确定部,其对检测出所述标章的所述拍摄图像使用学习了具有所述标章的商品的第一神经网络确定属于多个商品群中的哪一个;和
商品确定部,其使用按所述多个商品群的每一个进行了学习的第二神经网络确定商品。
2.根据权利要求1所述的商品确定装置,其特征在于:
包括局部特征量提取部,其提取表示所述拍摄图像的亮度梯度的局部特征量,
所述标章检测部使用学习了在特征空间识别作为对象的所述标章的识别边界的所述标章检测器,根据所提取的所述局部特征量检测所述标章。
3.根据权利要求1或2所述的商品确定装置,其特征在于:
包括在确定所述商品群和商品之后输出确定结果的输出部。
4.根据权利要求3所述的商品确定装置,其特征在于:
在所述商品确定部确定所述商品失败了的情况下,所述输出部输出关于所述商品群的确定结果。
5.根据权利要求1至4中任意一项所述的商品确定装置,其特征在于:
所述标章是所述商品的形状,
所述标章检测部基于使用所述标章检测器是否从所述拍摄图像中检测出所述商品的形状,来判定是否为具有所述标章的所述商品。
6.一种程序,其特征在于,使计算机执行下述处理:
获得拍摄图像;
通过从所获得的所述拍摄图像中检测相应的标章,判定是否为具有该标章的商品;
对检测出所述标章的所述拍摄图像,使用学习了具有所述标章的商品的第一神经网络确定属于多个商品群中的哪一个;
使用按所述多个商品群的每一个进行了学习的第二神经网络确定商品。
7.一种学习方法,其特征在于,使计算机执行下述处理:
获得训练数据,该训练数据包含拍摄商品得到的训练用图像、和表示所述商品、该商品所属的商品群以及该商品所具有的标章的信息;
基于该训练数据分别生成识别所述商品、商品群以及标章的识别器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018109429A JP7048423B2 (ja) | 2018-06-07 | 2018-06-07 | 商品特定装置、プログラム及び学習方法 |
JP2018-109429 | 2018-06-07 | ||
PCT/JP2019/022436 WO2019235554A1 (ja) | 2018-06-07 | 2019-06-06 | 商品特定装置、プログラム及び学習方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112272838A true CN112272838A (zh) | 2021-01-26 |
Family
ID=68770488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980037262.6A Pending CN112272838A (zh) | 2018-06-07 | 2019-06-06 | 商品确定装置、程序和学习方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11741685B2 (zh) |
JP (1) | JP7048423B2 (zh) |
CN (1) | CN112272838A (zh) |
TW (1) | TW202004528A (zh) |
WO (1) | WO2019235554A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021120205A (ja) * | 2020-01-31 | 2021-08-19 | サトーホールディングス株式会社 | プリンタ、プログラム、印字方法、ユニークid生成方法 |
JP7037788B1 (ja) | 2021-08-23 | 2022-03-17 | 株式会社Toreru | 情報処理装置、学習済みモデルの作成方法、情報処理方法及び情報処理プログラム |
CN115393639B (zh) * | 2022-08-16 | 2023-08-11 | 广州市玄武无线科技股份有限公司 | 商品智能打标方法、系统、终端设备及可读存储介质 |
CN116912633B (zh) * | 2023-09-12 | 2024-01-05 | 深圳须弥云图空间科技有限公司 | 目标追踪模型的训练方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617420A (zh) * | 2013-11-27 | 2014-03-05 | 上海电机学院 | 基于图像特征匹配的商品快速识别方法及系统 |
CN103810468A (zh) * | 2012-11-05 | 2014-05-21 | 东芝泰格有限公司 | 商品识别装置及商品识别方法 |
CN103984914A (zh) * | 2013-02-07 | 2014-08-13 | 东芝泰格有限公司 | 信息处理装置及其控制方法 |
CN104657704A (zh) * | 2013-11-20 | 2015-05-27 | 东芝泰格有限公司 | 商品识别装置及商品识别方法 |
CN106021575A (zh) * | 2016-05-31 | 2016-10-12 | 北京奇艺世纪科技有限公司 | 一种视频中同款商品检索方法及装置 |
CN107798333A (zh) * | 2016-09-07 | 2018-03-13 | 东芝泰格有限公司 | 信息处理装置及控制方法、终端设备、机器可读存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5918890A (ja) | 1982-07-20 | 1984-01-31 | 住友金属鉱山株式会社 | 地中穿孔ドリルビツト |
US9720934B1 (en) | 2014-03-13 | 2017-08-01 | A9.Com, Inc. | Object recognition of feature-sparse or texture-limited subject matter |
JP2015210651A (ja) | 2014-04-25 | 2015-11-24 | サントリーシステムテクノロジー株式会社 | 商品識別システム |
US9830631B1 (en) * | 2014-05-02 | 2017-11-28 | A9.Com, Inc. | Image recognition result culling |
CN105938558B (zh) | 2015-03-06 | 2021-02-09 | 松下知识产权经营株式会社 | 学习方法 |
US10007863B1 (en) * | 2015-06-05 | 2018-06-26 | Gracenote, Inc. | Logo recognition in images and videos |
JP6209716B1 (ja) | 2016-06-02 | 2017-10-11 | サインポスト株式会社 | 情報処理システム、情報処理方法、及びプログラム |
US10417527B2 (en) * | 2017-09-06 | 2019-09-17 | Irdeto B.V. | Identifying an object within content |
US11531840B2 (en) * | 2019-02-08 | 2022-12-20 | Vizit Labs, Inc. | Systems, methods, and storage media for training a model for image evaluation |
-
2018
- 2018-06-07 JP JP2018109429A patent/JP7048423B2/ja active Active
-
2019
- 2019-06-06 CN CN201980037262.6A patent/CN112272838A/zh active Pending
- 2019-06-06 TW TW108119650A patent/TW202004528A/zh unknown
- 2019-06-06 WO PCT/JP2019/022436 patent/WO2019235554A1/ja active Application Filing
- 2019-06-06 US US15/733,994 patent/US11741685B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810468A (zh) * | 2012-11-05 | 2014-05-21 | 东芝泰格有限公司 | 商品识别装置及商品识别方法 |
CN103984914A (zh) * | 2013-02-07 | 2014-08-13 | 东芝泰格有限公司 | 信息处理装置及其控制方法 |
CN104657704A (zh) * | 2013-11-20 | 2015-05-27 | 东芝泰格有限公司 | 商品识别装置及商品识别方法 |
CN103617420A (zh) * | 2013-11-27 | 2014-03-05 | 上海电机学院 | 基于图像特征匹配的商品快速识别方法及系统 |
CN106021575A (zh) * | 2016-05-31 | 2016-10-12 | 北京奇艺世纪科技有限公司 | 一种视频中同款商品检索方法及装置 |
CN107798333A (zh) * | 2016-09-07 | 2018-03-13 | 东芝泰格有限公司 | 信息处理装置及控制方法、终端设备、机器可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2019235554A1 (ja) | 2019-12-12 |
US20210217160A1 (en) | 2021-07-15 |
TW202004528A (zh) | 2020-01-16 |
US11741685B2 (en) | 2023-08-29 |
JP7048423B2 (ja) | 2022-04-05 |
JP2019212157A (ja) | 2019-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112272838A (zh) | 商品确定装置、程序和学习方法 | |
CN107016387B (zh) | 一种识别标签的方法及装置 | |
JP6366024B2 (ja) | 画像化された文書からテキストを抽出する方法及び装置 | |
US8306318B2 (en) | Image processing apparatus, image processing method, and computer readable storage medium | |
JP2015210651A (ja) | 商品識別システム | |
EP3217324A1 (en) | Hybrid detection recognition system | |
US11600084B2 (en) | Method and apparatus for detecting and interpreting price label text | |
CN110196917B (zh) | 个性化logo版式定制方法、系统和存储介质 | |
US11354549B2 (en) | Method and system for region proposal based object recognition for estimating planogram compliance | |
CN111738252B (zh) | 图像中的文本行检测方法、装置及计算机系统 | |
US11386685B2 (en) | Multiple channels of rasterized content for page decomposition using machine learning | |
US20210166028A1 (en) | Automated product recognition, analysis and management | |
CN113034492A (zh) | 一种印刷质量缺陷检测方法、存储介质 | |
Manlises et al. | Expiry Date Character Recognition on Canned Goods Using Convolutional Neural Network VGG16 Architecture | |
US11960569B2 (en) | System and method for refining an item identification model based on feedback | |
US11823444B2 (en) | System and method for aggregating metadata for item identification using digital image processing | |
US11790651B2 (en) | System and method for capturing images for training of an item identification model | |
WO2017058252A1 (en) | Detecting document objects | |
US11657511B2 (en) | Heuristics-based detection of image space suitable for overlaying media content | |
CN114445807A (zh) | 一种文本区域检测方法及装置 | |
WO2022125127A1 (en) | Detection of image space suitable for overlaying media content | |
CN114494678A (zh) | 文字识别方法和电子设备 | |
CN114881182A (zh) | 电子面单处理方法、装置、计算机设备以及存储介质 | |
US20240087346A1 (en) | Detecting reliability using augmented reality | |
US11676407B2 (en) | System and method for supporting user to read X-RAY image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |