CN111460888A - 基于机器学习的物品识别方法及装置 - Google Patents
基于机器学习的物品识别方法及装置 Download PDFInfo
- Publication number
- CN111460888A CN111460888A CN202010123160.0A CN202010123160A CN111460888A CN 111460888 A CN111460888 A CN 111460888A CN 202010123160 A CN202010123160 A CN 202010123160A CN 111460888 A CN111460888 A CN 111460888A
- Authority
- CN
- China
- Prior art keywords
- target
- suspected
- probability
- article
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000010801 machine learning Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 126
- 238000004806 packaging method and process Methods 0.000 claims abstract description 9
- 238000004590 computer program Methods 0.000 claims description 18
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 239000000047 product Substances 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000004927 fusion Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 239000013065 commercial product Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000735552 Erythroxylum Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 235000021443 coca cola Nutrition 0.000 description 1
- 235000008957 cocaer Nutrition 0.000 description 1
- ZPUCINDJVBIVPJ-LJISPDSOSA-N cocaine Chemical compound O([C@H]1C[C@@H]2CC[C@@H](N2C)[C@H]1C(=O)OC)C(=O)C1=CC=CC=C1 ZPUCINDJVBIVPJ-LJISPDSOSA-N 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于机器学习的物品识别方法及装置,该方法包括:通过图像采集装置采集目标物品的第一包装图像;将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值,其中,所述疑似物品为所述目标物品的一个或多个预设样本;将所述目标物品识别为所述概率值符合预定条件的一个疑似物品。通过本发明,解决了相关技术中对物品识别不准确等技术问题。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种基于机器学习的物品识别方法及装置。
背景技术
目前,无人零售行业异常火爆,而对零售商品的识别是技术关键,在便利店场景下实现无人零售的市场中有很大的需求。
相关技术中,通过人工将零售商品的条形码对准扫码器的扫码区,来进行识别零售商品,该方法存在自动化程度不高的情况,影响用户体验。其次,由于条形码本身存在易变形、易损坏等缺陷,导致扫码器的识别准确率低等问题。另外,现有的还有采用在零售商品上贴RFID(全称为Radio Frequency Identification,无线射频识别技术)标签,通过采用计算机视觉和深度学习结合的商品识别方法进行识别,但是,贴RFID标签的成本较高,比如标签本身成本、贴标人力成本、贴标时间成本等,平均到单件商品上是占了一定商品售价比例的,尤其是部分零售商品单品利润极低,更加降低了商家利润。
针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
本发明实施例提供了一种基于机器学习的物品识别方法及装置,以至少解决相关技术中对物品识别不准确等技术问题。
根据本发明的一个实施例,提供了一种基于机器学习的物品识别方法,包括:通过图像采集装置采集目标物品的第一包装图像;将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值,其中,所述疑似物品为所述目标物品的一个或多个预设样本;将所述目标物品识别为所述概率值符合预定条件的一个疑似物品。
可选的,在将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值之前,所述方法还包括:采集所述预设样本的第二包装图像;提取所述第二包装图像的文字特征和外观特征,其中,所述外观特征至少包括:所述第二包装图像的色彩信息,所述第二包装图像的图案信息,所述预设样本的形状信息;基于所述文字特征和所述外观特征训练初始模型,得到所述训练模型。
可选的,基于所述文字特征和所述外观特征训练初始模型,得到所述训练模型包括:通过所述文字特征和卷积神经网络的第一权重系数训练所述卷积神经网络,得到第一训练模型和所述第一训练模型的第一模型参数;以及通过所述外观特征和高斯随机网络的第二权重系数训练所述高斯随机网络,得到第二训练模型和所述第二训练模型的第二模型参数。
可选的,将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值包括:分别将所述第一包装图像输入所述训练模型中的第一训练模型和所述训练模型中的第二训练模型;通过所述第一训练模型计算所述第一包装图像的目标文字特征为所述疑似物品的文字特征的第一概率;以及通过所述第二训练模型计算所述第一包装图像的目标外观特征为所述疑似物品的外观特征的第二概率;根据所述第一概率和所述第二概率计算所述目标物品为所述疑似物品的概率值。
可选的,通过所述第一训练模型计算所述第一包装图像的目标文字特征为所述疑似物品的文字特征的第一概率包括:检测所述第一包装图像中是否存在目标文本;在检测所述第一包装图像中存在目标文本的情况下,对所述目标文本进行汉语语言模型N-GRAM编码,得到第一字符串;以及对所述疑似物品的文本进行N-GRAM编码,得到第二字符串;将所述第一字符串与所述第二字符串进行匹配,以计算所述第一概率。
可选的,根据所述第一概率和所述第二概率计算所述目标物品为所述疑似物品的概率值y的公式为:y=(1-α)f(Wtxt)+αf(Wsxs),其中,f(Wtxt)表示所述第一概率;Wt表示所述第一训练模型的第一模型参数;xt表示所述目标文字特征;f(Wsxs)表示所述第二概率,Ws表示所述第二训练模型的第二模型参数;xs表示所述目标外观特征;α表示所述第一概率与所述第二概率之间的权重系数。
可选的,将所述目标物品识别为所述概率值符合预定条件的一个疑似物品至少包括:在所述疑似物品为一个预设样本的情况下,在所述概率值大于或等于阈值时,将所述目标物品识别为所述疑似物品;在所述疑似物品为多个预设样本的情况下,从多个概率值中选择最大概率值,并将所述目标物品识别为最大概率值所对应的一个疑似物品。
根据本发明的一个实施例,还提供了一种基于机器学习的物品识别装置,包括:第一采集模块,用于通过图像采集装置采集目标物品的第一包装图像;计算模块,用于将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值,其中,所述疑似物品为所述目标物品的一个或多个预设样本;识别模块,用于将所述目标物品识别为所述概率值符合预定条件的一个疑似物品。
可选的,所述装置还包括:第二采集模块,用于在将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值之前,采集所述预设样本的第二包装图像;提取模块,用于提取所述第二包装图像的文字特征和外观特征,其中,所述外观特征至少包括:所述第二包装图像的色彩信息,所述第二包装图像的图案信息,所述预设样本的形状信息;训练模块,用于基于所述文字特征和所述外观特征训练初始模型,得到所述训练模型。
可选的,所述训练模块包括:第一训练单元,用于通过所述文字特征和卷积神经网络的第一权重系数训练所述卷积神经网络,得到第一训练模型和所述第一训练模型的第一模型参数;以及第二训练单元,用于通过所述外观特征和高斯随机网络的第二权重系数训练所述高斯随机网络,得到第二训练模型和所述第二训练模型的第二模型参数。
可选的,所述计算模块包括:输入单元,用于分别将所述第一包装图像输入所述训练模型中的第一训练模型和所述训练模型中的第二训练模型;第一计算单元,用于通过所述第一训练模型计算所述第一包装图像的目标文字特征为所述疑似物品的文字特征的第一概率;以及第二计算单元,用于通过所述第二训练模型计算所述第一包装图像的目标外观特征为所述疑似物品的外观特征的第二概率;第三计算单元,用于根据所述第一概率和所述第二概率计算所述目标物品为所述疑似物品的概率值。
可选的,所述第一计算单元包括:检测子单元,检测所述第一包装图像中是否存在目标文本;编码子单元,用于在检测所述第一包装图像中存在目标文本的情况下,对所述目标文本进行汉语语言模型N-GRAM编码,得到第一字符串;以及对所述疑似物品的文本进行N-GRAM编码,得到第二字符串;计算子单元,用于将所述第一字符串与所述第二字符串进行匹配,以计算所述第一概率。
可选的,所述第三计算单元用于计算概率值y的公式为:y=(1-α)f(Wtxt)+αf(Wsxs),其中,f(Wtxt)表示所述第一概率;Wt表示所述第一训练模型的第一模型参数;xt表示所述目标文字特征;f(Wsxs)表示所述第二概率,Ws表示所述第二训练模型的第二模型参数;xs表示所述目标外观特征;α表示所述第一概率与所述第二概率之间的权重系数。
可选的,所述识别模块包括:第一识别单元,用于在所述疑似物品为一个预设样本的情况下,在所述概率值大于或等于阈值时,将所述目标物品识别为所述疑似物品;第二识别单元,用于在所述疑似物品为多个预设样本的情况下,从多个概率值中选择最大概率值,并将所述目标物品识别为最大概率值对应的一个疑似物品。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项装置实施例中的步骤。
根据本发明的又一个实施例,还提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,将采集目标物品的包装图像输入训练模型中,通过训练模型计算目标物品为疑似物品的概率值,在所述概率值符合预定条件时,将目标物品识别为疑似物品,解决了相关技术中对物品识别不准确等技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种基于机器学习的物品识别方法应用于计算机终端的硬件结构框图;
图2是根据本发明提供的一种基于机器学习的物品识别方法的流程图;
图3是根据本发明实施例提供的商品的文字信息示例图;
图4是根据本发明实施例提供的商品的外观包装信息示例图;
图5是根据本发明一具体实施例提供的一种商品识别方法的示意图;
图6是根据本发明一具体实施例提供的α的试验结果演示图;
图7是根据本发明实施例的一种基于机器学习的物的识别装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、服务器、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本发明实施例的一种基于机器学习的物品识别方法应用于计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的基于机器学习的物品识别方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种基于机器学习的物品识别方法,图2是根据本发明提供的一种基于机器学习的物品识别方法的流程图。如图2所示,该流程包括如下步骤:
步骤S202,通过图像采集装置采集目标物品的第一包装图像;
步骤S204,将第一包装图像输入训练模型,得到目标物品为疑似物品的概率值,其中,疑似物品为目标物品的一个或多个预设样本;
本实施例中的疑似物品是指目标物品疑似为一个或多个预设样本中的任一预设样本。
步骤S206,将目标物品识别为概率值符合预定条件的一个疑似物品。
通过上述步骤,将采集目标物品的包装图像输入训练模型中,通过训练模型计算目标物品为疑似物品的概率值,在所述概率值符合预定条件时,将目标物品识别为疑似物品,解决了相关技术中对物品识别不准确等技术问题。
在一个可选的实施例中,在将第一包装图像输入训练模型,得到目标物品为疑似物品的概率值之前,还包括:采集预设样本的第二包装图像;提取第二包装图像的文字特征和外观特征,其中,外观特征至少包括:第二包装图像的色彩信息,第二包装图像的图案信息,预设样本的形状信息;基于文字特征和外观特征训练初始模型,得到训练模型。
在本实施例中,预先采集目标物品的历史版本的图像数据集,图像中包括文字信息和外观包装信息,其中,文字信息包括物品的logo(商标),名称,或者广告语等文本,外观包装信息即商品的包装设计风格特征信息,包括物品的颜色,图案或者形状等包装设计风格。以市面上coca cola(可口可乐)饮料为例,如图3和图4所示,图3是根据本发明实施例提供的商品的文字信息示例图,图4是根据本发明实施例提供的商品的外观包装信息示例图。
在一个可选的示例中,基于文字特征和外观特征训练初始模型,得到训练模型包括:通过文字特征和卷积神经网络的第一权重系数训练卷积神经网络,得到第一训练模型和第一训练模型的第一模型参数;以及通过外观特征和高斯随机网络的第二权重系数训练高斯随机网络,得到第二训练模型和第二训练模型的第二模型参数。
在一个可选的实施例中,首先,将采集到的图像数据集划分为训练集和测试集,其中,训练集和测试集可以根据生成随机数按比例划分,比如将训练集和测试集按照比例8:2进行划分,若共采集到100张图片,通过生成1~100的随机数,先抽取20张作为测试集,剩下的80张将作为训练集。
其次,根据训练集和测试集分别对卷积神经网络和高斯随机网络,以最小化代价函数为目标进行训练,得到第一训练模型和第一模型参数以及第二训练模型和第二模型参数。其中,卷积神经网络和高斯随机网络的初始模型参数(即上述第一权重系数和第二权重系数)可以来源于非商品信息的预训练,即从学术界公开的大型数据集进行训练得到(比如Imagenet,Imagenet项目是一个用于视觉对象识别软件研究的大型可视化数据库),随后再不断迭代减小优化函数得到,例如,卷积神经网络的输出值与期望目标的差距大小不断迭代减小的过程中,初始权值会通过神经网络反向传播的原理不断改变,最终达到符合商品数据集的参数需求。
根据上述实施例,将第一包装图像输入训练模型,得到目标物品为疑似物品的概率值包括:分别将第一包装图像输入训练模型中的第一训练模型和训练模型中的第二训练模型;通过第一训练模型计算第一包装图像的目标文字特征为疑似物品的文字特征的第一概率;以及通过第二训练模型计算第一包装图像的目标外观特征为疑似物品的外观特征的第二概率;根据第一概率和第二概率计算目标物品为疑似物品的概率值。
可选的,第一训练模型包括:卷积层、池化层、激励层和反卷积层,用于检测物品的包装图像中是否有文本,以及在有文本情况下,检测文本征所位于包装图像中的文本区域,并将文本区域输入文字识别模块中,计算包装图像中的文字与历史版本的预设样本的文字之间的相似度(即上述第一概率);第二训练模型包括:卷积层、池化层、激励层和全连接层,用于计算目标物品的包装与历史版本的预设样本的包装之间的相似度(即上述第二概率)。
优选地,通过第一训练模型计算第一包装图像的目标文字特征为疑似物品的文字特征的第一概率包括:检测第一包装图像中是否存在目标文本;在检测第一包装图像中存在目标文本的情况下,对目标文本进行汉语语言模型N-GRAM编码,得到第一字符串;以及对疑似物品的文本进行N-GRAM编码,得到第二字符串;将第一字符串与第二字符串进行匹配,以计算第一概率。
在一个可选的实施例中,假设有两个字符串:字符串1和字符串2,分别求字符串1的N-GRAM和字符串2的N-GRAM,查找它们的共有子字符串的数量,根据共有的子字符串去定义两个字符串间的N-GRAM距离;然后通过匹配两个字符串之间的N-GRAM距离和公共子字符串数量的概率,得到文字相似度概率。
在一个示例中,以字符串1为coca,字符串2为coco为例,根据公式:|GN(s)|+|GN(t)|-2×|GN(s)∩GN(t)|,得到字符串1和字符串2之间的N-GRAM距离分值。其中,|GN(s)|是字符串1的N-GRAM集合,|GN(t)|是字符串2的N-GRAM集合,N值一般取2或者3。假设N=2,字符串1和字符串2共有的子字符串是co,有1个,每个字符串共分2段,则根据上面公式得到:2+2-2*1=2。
根据上述示例,两个字符串之间的N-GRAM距离越小,两个字符串就越接近。当两个字符串完全相等的时候,它们之间的距离就是0。最后对两个字符串之间的N-GRAM距离分值进行归一化为[0,1],得到文字相似度(即上述第一概率)。
在一个可选的实施例中,根据第一概率和第二概率计算目标物品为疑似物品的概率值y的公式为:y=(1-α)f(Wtxt)+αf(Wsxs),其中,f(Wtxt)表示第一概率;Wt表示第一训练模型的第一模型参数;xt表示目标文字特征;f(Wsxs)表示第二概率,Ws表示第二训练模型的第二模型参数;xs表示目标外观特征;α表示第一概率与第二概率之间的权重系数。在本实施例中,在得到第一概率与第二概率之后,对两个概率值进行加权计算,得到目标物品与疑似物品的相似度(即上述概率值y)。
在一个示例中,将目标物品识别为概率值符合预定条件的一个疑似物品至少包括:在疑似物品为一个预设样本的情况下,在概率值大于或等于阈值时,将目标物品识别为疑似物品;在疑似物品为多个预设样本的情况下,从多个概率值中选择最大概率值,并将目标物品识别为最大概率值对应的一个疑似物品。
在本实施例中,在目标物品的历史版本(即上述预设样本)为一个的情况时,若计算出来目标物品与一个疑似物品的概率值y大于或等于阈值(比如90%),则将目标物品识别为疑似物品;在目标物品的历史版本(即上述预设样本)为多个的情况时,分别计算目标物品与每一个疑似物品的概率值y,得到多个概率值,从多个概率值中选择概率值最大的y所对应的预设样本,将目标物品识别为概率值最大的y所对应的预设样本。
可选地,在将目标物品识别为概率值符合预定条件的一个疑似物品之后,还包括:查询疑似物品的价格信息;依据价格信息输出目标物品的待结算金额。在本实施例中,以无人零售场景为例,在识别出目标物品之后,即确定了待结算物品以及待结算物品的价格信息(即上述结算规则),然后输出价格信息,以便用户支付待结算物品的费用。
下面结合一具体实施例对本发明实施例进一步的说明:
图5是根据本发明实施例提供的一商品的识别方法的示意图,如图5所示,先通过摄像头获取目标商品的包装图像(即上述第一包装图像),将目标商品的包装图像输入训练模型中,
针对文字特征的识别,根据输入的目标商品图像,检索历史保存的包装图像(即上述第二包装图像),检测出包装特征向量;通过高斯随机网络提取包装特征向量中的真实特征向量(即有效的文字区域);将文字区域输入文字识别模块,通过计算N-GRAM编码计算目标包装图像中的文字与历史保存的包装图像中的文字相似度(即上述第一概率)。
针对外观特征的识别,根据输入的目标商品图像的外观特征(即上述目标外观特征),检索历史保存的包装图像,对历史保存的包装图像进行随机裁剪,得到随机贴片,通过高斯随机网络计算目标商品的外观特征与历史保存的包装图像的外观特征之间的相似度(即上述第二概率)。
最后对识别到的文字特征和外观特征进行特征融合,并进行分类,从而确定目标商品为历史保存图像中的物品样本中的其中一个,比如Cola(可乐)。
在本实施例中,通过将目标商品的包装设计风格识别、包装文字区域检测、包装文字识别;最后将识别的结果融合。其中,对于文字特征和外观特征之间的权重调节参数α的确定可以通过多次试验得到,例如α=0.1,0.2,0.4,0.6等,根据多次试验得到,当α=0.4时,效果最好,实验结果演示如下图6所示,图6是根据本发明一具体实施例提供的α的试验结果演示图。
最后,将识别的准确率与相关技术中的其他方法比较。例如,以表1的方式表示目标商品疑似为多个预设商品的概率统计数据。
表1
在本实施例中,如表1所示,当α=0.4时,假设有k=4个物品样本,通过相关技术中采用gk+SC的计算方式,分别计算目标商品疑似为每个物品样本的概率,分别为:60.03,61.78,61.43,61.08;显然概率最大的是61.78;而通过本发明实施例的融合网络(FusionNet)计算得到的目标商品疑似为各个物品样本的概率,分别为:85.17,86.39,85.86,85.69,其中,概率最大的是86.39,将概率86.39所对应的物品样本确定为最终的待结算的商品,显然本发明实施例的识别结果的准确率更高。
通过上述实施例,通过机器学习对目标商品的文字特征和外观特征进行识别,来确定目标商品,解决了相关技术中对商品识别不准确的技术问题,本发明实施例的技术方案具有自动化程度高、成本低廉、准确率高等优点,在无人零售行业中,需要购物结账时,不需要商品的条码、标签等标志,通过大量的商品图像来学习商品包装本身的特征,实现了具有自动识别商品图像的能力,进而提高了商品的识别效率。
实施例2
在本实施例中还提供了一种基于机器学习的物品识别装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图7是根据本发明实施例的一种基于机器学习的物品识别装置的结构框图,如图7所示,该装置包括:第一采集模块702,用于通过图像采集装置采集目标物品的第一包装图像;计算模块704,连接至上述第一采集模块702,用于将第一包装图像输入训练模型,得到目标物品为疑似物品的概率值,其中,疑似物品为目标物品的一个或多个预设样本;识别模块706,连接至上述计算模块704,用于将目标物品识别为概率值符合预定条件的一个疑似物品。
可选的,上述装置还包括:第二采集模块,用于在将第一包装图像输入训练模型,得到目标物品为疑似物品的概率值之前,采集预设样本的第二包装图像;提取模块,用于提取第二包装图像的文字特征和外观特征,其中,外观特征至少包括:第二包装图像的色彩信息,第二包装图像的图案信息,预设样本的形状信息;训练模块,用于基于文字特征和外观特征训练初始模型,得到训练模型。
可选的,训练模块包括:第一训练单元,用于通过文字特征和卷积神经网络的第一权重系数训练卷积神经网络,得到第一训练模型和第一训练模型的第一模型参数;以及第二训练单元,用于通过外观特征和高斯随机网络的第二权重系数训练高斯随机网络,得到第二训练模型和第二训练模型的第二模型参数。
可选的,计算模块704包括:输入单元,用于分别将第一包装图像输入训练模型中的第一训练模型和训练模型中的第二训练模型;第一计算单元,用于通过第一训练模型计算第一包装图像的目标文字特征为疑似物品的文字特征的第一概率;以及第二计算单元,用于通过第二训练模型计算第一包装图像的目标外观特征为疑似物品的外观特征的第二概率;第三计算单元,用于根据第一概率和第二概率计算目标物品为疑似物品的概率值。
可选的,第一计算单元包括:检测子单元,检测第一包装图像中是否存在目标文本;编码子单元,用于在检测第一包装图像中存在目标文本的情况下,对目标文本进行汉语语言模型N-GRAM编码,得到第一字符串;以及对疑似物品的文本进行N-GRAM编码,得到第二字符串;计算子单元,用于将第一字符串与第二字符串进行匹配,以计算第一概率。
可选的,第三计算单元用于计算概率值y的公式为:y=(1-αfWtxt+αfWsxs,其中,fWtxt表示第一概率;Wt表示第一训练模型的第一模型参数;xt表示目标文字特征;f(Wsxs)表示第二概率,Ws表示第二训练模型的第二模型参数;xs表示目标外观特征;α表示第一概率与第二概率之间的权重系数。
可选的,识别模块706包括:第一识别单元,用于在疑似物品为一个预设样本的情况下,在概率值大于或等于阈值时,将目标物品识别为疑似物品;第二识别单元,用于在疑似物品为多个预设样本的情况下,从多个概率值中选择最大概率值,,并将目标物品识别为最大概率值对应的一个疑似物品。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,通过图像采集装置采集目标物品的第一包装图像;
S2,将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值,其中,所述疑似物品为所述目标物品的一个或多个预设样本;
S3,将所述目标物品识别为所述概率值符合预定条件的一个疑似物品。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,通过图像采集装置采集目标物品的第一包装图像;
S2,将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值,其中,所述疑似物品为所述目标物品的一个或多个预设样本;
S3,将所述目标物品识别为所述概率值符合预定条件的一个疑似物品。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于机器学习的物品识别方法,其特征在于,包括:
通过图像采集装置采集目标物品的第一包装图像;
将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值,其中,所述疑似物品为所述目标物品的一个或多个预设样本;
将所述目标物品识别为所述概率值符合预定条件的一个疑似物品。
2.根据权利要求1所述的方法,其特征在于,在将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值之前,所述方法还包括:
采集所述预设样本的第二包装图像;
提取所述第二包装图像的文字特征和外观特征,其中,所述外观特征至少包括:所述第二包装图像的色彩信息,所述第二包装图像的图案信息,所述预设样本的形状信息;
基于所述文字特征和所述外观特征训练初始模型,得到所述训练模型。
3.根据权利要求2所述的方法,其特征在于,基于所述文字特征和所述外观特征训练初始模型,得到所述训练模型包括:
通过所述文字特征和卷积神经网络的第一权重系数训练所述卷积神经网络,得到第一训练模型和所述第一训练模型的第一模型参数;以及通过所述外观特征和高斯随机网络的第二权重系数训练所述高斯随机网络,得到第二训练模型和所述第二训练模型的第二模型参数。
4.根据权利要求1所述的方法,其特征在于,将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值包括:
分别将所述第一包装图像输入所述训练模型中的第一训练模型和所述训练模型中的第二训练模型;
通过所述第一训练模型计算所述第一包装图像的目标文字特征为所述疑似物品的文字特征的第一概率;以及通过所述第二训练模型计算所述第一包装图像的目标外观特征为所述疑似物品的外观特征的第二概率;
根据所述第一概率和所述第二概率计算所述目标物品为所述疑似物品的概率值。
5.根据权利要求4所述的方法,其特征在于,通过所述第一训练模型计算所述第一包装图像的目标文字特征为所述疑似物品的文字特征的第一概率包括:
检测所述第一包装图像中是否存在目标文本;
在检测所述第一包装图像中存在目标文本的情况下,对所述目标文本进行汉语语言模型N-GRAM编码,得到第一字符串;以及对所述疑似物品的文本进行N-GRAM编码,得到第二字符串;
将所述第一字符串与所述第二字符串进行匹配,以计算所述第一概率。
6.根据权利要求4所述的方法,其特征在于,根据所述第一概率和所述第二概率计算所述目标物品为所述疑似物品的概率值y的公式为:
y=(1-α)f(Wtxt)+αf(Wsxs),
其中,f(Wtxt)表示所述第一概率;Wt表示所述第一训练模型的第一模型参数;xt表示所述目标文字特征;f(Wsxs)表示所述第二概率,Ws表示所述第二训练模型的第二模型参数;xs表示所述目标外观特征;α表示所述第一概率与所述第二概率之间的权重系数。
7.根据权利要求1所述的方法,其特征在于,将所述目标物品识别为所述概率值符合预定条件的一个疑似物品至少包括:
在所述疑似物品为一个预设样本的情况下,在所述概率值大于或等于阈值时,将所述目标物品识别为所述疑似物品;
在所述疑似物品为多个预设样本的情况下,从多个概率值中选择最大概率值,并将所述目标物品识别为最大概率值对应的一个疑似物品。
8.一种基于机器学习的物品识别装置,其特征在于,包括:
第一采集模块,用于通过图像采集装置采集目标物品的第一包装图像;
计算模块,用于将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值,其中,所述疑似物品为所述目标物品的一个或多个预设样本;
识别模块,用于将所述目标物品识别为所述概率值符合预定条件的一个疑似物品。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010123160.0A CN111460888A (zh) | 2020-02-27 | 2020-02-27 | 基于机器学习的物品识别方法及装置 |
PCT/CN2020/111373 WO2021169207A1 (zh) | 2020-02-27 | 2020-08-26 | 基于机器学习的物品识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010123160.0A CN111460888A (zh) | 2020-02-27 | 2020-02-27 | 基于机器学习的物品识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111460888A true CN111460888A (zh) | 2020-07-28 |
Family
ID=71679954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010123160.0A Pending CN111460888A (zh) | 2020-02-27 | 2020-02-27 | 基于机器学习的物品识别方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111460888A (zh) |
WO (1) | WO2021169207A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076755A (zh) * | 2021-04-14 | 2021-07-06 | 京东数字科技控股股份有限公司 | 关键词提取方法、装置、设备和存储介质 |
WO2021169207A1 (zh) * | 2020-02-27 | 2021-09-02 | 平安科技(深圳)有限公司 | 基于机器学习的物品识别方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190005361A1 (en) * | 2017-06-30 | 2019-01-03 | Ai Systems Co., Ltd. | Real-time identification of moving objects in video images |
CN109214383A (zh) * | 2018-07-17 | 2019-01-15 | 北京陌上花科技有限公司 | 一种图像识别方法及装置 |
CN109635690A (zh) * | 2018-11-30 | 2019-04-16 | 任飞翔 | 基于视觉的商品识别检测方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6778683B1 (en) * | 1999-12-08 | 2004-08-17 | Federal Express Corporation | Method and apparatus for reading and decoding information |
CN107480682B (zh) * | 2017-08-25 | 2020-01-17 | 重庆慧都科技有限公司 | 一种商品包装生产日期检测方法 |
CN107748973A (zh) * | 2017-09-29 | 2018-03-02 | 时瑞科技(深圳)有限公司 | 商品识别系统及自动识别售卖或入库方法 |
CN109886092B (zh) * | 2019-01-08 | 2024-05-10 | 平安科技(深圳)有限公司 | 对象识别方法及其装置 |
CN111460888A (zh) * | 2020-02-27 | 2020-07-28 | 平安科技(深圳)有限公司 | 基于机器学习的物品识别方法及装置 |
-
2020
- 2020-02-27 CN CN202010123160.0A patent/CN111460888A/zh active Pending
- 2020-08-26 WO PCT/CN2020/111373 patent/WO2021169207A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190005361A1 (en) * | 2017-06-30 | 2019-01-03 | Ai Systems Co., Ltd. | Real-time identification of moving objects in video images |
CN109214383A (zh) * | 2018-07-17 | 2019-01-15 | 北京陌上花科技有限公司 | 一种图像识别方法及装置 |
CN109635690A (zh) * | 2018-11-30 | 2019-04-16 | 任飞翔 | 基于视觉的商品识别检测方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021169207A1 (zh) * | 2020-02-27 | 2021-09-02 | 平安科技(深圳)有限公司 | 基于机器学习的物品识别方法及装置 |
CN113076755A (zh) * | 2021-04-14 | 2021-07-06 | 京东数字科技控股股份有限公司 | 关键词提取方法、装置、设备和存储介质 |
CN113076755B (zh) * | 2021-04-14 | 2024-04-09 | 京东科技控股股份有限公司 | 关键词提取方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021169207A1 (zh) | 2021-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11055557B2 (en) | Automated extraction of product attributes from images | |
CN112035742B (zh) | 用户画像生成方法、装置、设备及存储介质 | |
CN107833082B (zh) | 一种商品图片的推荐方法和装置 | |
CN110110577B (zh) | 识别菜名的方法及装置、存储介质、电子装置 | |
US11216862B2 (en) | Smart shopping cart, server, smart shopping system and method | |
CN109635705B (zh) | 一种基于二维码和深度学习的商品识别方法及装置 | |
US11861669B2 (en) | System and method for textual analysis of images | |
CN110111902B (zh) | 急性传染病的发病周期预测方法、装置及存储介质 | |
CN113627508B (zh) | 陈列场景识别方法、装置、设备以及存储介质 | |
CN111460888A (zh) | 基于机器学习的物品识别方法及装置 | |
CN115577172A (zh) | 物品推荐方法、装置、设备及介质 | |
CN115909335A (zh) | 一种商品标注方法及装置 | |
KR101901645B1 (ko) | 이미지를 검색하는 방법, 장치, 시스템 및 컴퓨터 프로그램 | |
CN115578155A (zh) | 一种订单搜索方法、装置、计算机设备和存储介质 | |
CN113570427A (zh) | 一种提取识别线上或系统商品特征信息的系统 | |
CN112966504A (zh) | 名称识别及关联推荐方法、装置、计算机设备及存储介质 | |
CN112070562A (zh) | 基于大数据与电子商务的商品识别方法及电商平台 | |
CN115860007B (zh) | 指标影响度的计算方法及装置、存储介质、电子设备 | |
KR102508419B1 (ko) | 상품정보 이미지를 활용한 오프라인 리테일 환경에서의 상품 정보 검색 장치 및 이를 위한 제어방법 | |
Pietrini et al. | A Deep Learning-Based System for Product Recognition in Intelligent Retail Environment | |
CN113971226A (zh) | 一种图像搜索方法、装置、设备以及存储介质 | |
KR20220076650A (ko) | 상품정보 이미지에 기반한 리테일 환경에서의 상품 정보 검색 장치 및 방법 | |
CN117788109A (zh) | 一种基于大语言模型生成商品标签的方法及电子设备 | |
CN114493723A (zh) | 用户生命周期的识别方法、装置、终端设备和存储介质 | |
CN112035660A (zh) | 基于网络模型的对象类别确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |