CN109214272A - 一种图像识别方法及装置 - Google Patents

一种图像识别方法及装置 Download PDF

Info

Publication number
CN109214272A
CN109214272A CN201810784504.5A CN201810784504A CN109214272A CN 109214272 A CN109214272 A CN 109214272A CN 201810784504 A CN201810784504 A CN 201810784504A CN 109214272 A CN109214272 A CN 109214272A
Authority
CN
China
Prior art keywords
based food
packaging based
packaging
residual error
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810784504.5A
Other languages
English (en)
Inventor
关梓暄
张默
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Moshanghua Technology Co Ltd
Original Assignee
Beijing Moshanghua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Moshanghua Technology Co Ltd filed Critical Beijing Moshanghua Technology Co Ltd
Priority to CN201810784504.5A priority Critical patent/CN109214272A/zh
Publication of CN109214272A publication Critical patent/CN109214272A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种图像识别方法及装置。该图像识别方法包括:创建特征生成器;将待识别图像输入所述特征生成器;以及根据所述特征生成器识别出非包装类食品。本申请解决了由于角度、远近、摆放和灯光等因素都可能造成的非包装类食品的识别结果不准确的技术问题。采用本申请提供的图像识别方法,可以准确地识别出不同角度的各种非包装类食品以及多种非包装类食品组合图片中的非包装类食品类别。

Description

一种图像识别方法及装置
技术领域
本申请涉及图像识别技术领域,具体而言,涉及一种图像识别方法及装置。
背景技术
图像识别技术是人工智能的一个重要领域。它是指对图像进行对象识别,以识别各种不同模式的目标和对像的技术。
在采用图像识别技术识别非包装类食物时,一般会存在由于人们在拍摄/获得非包装类食物图片的时候,食物的呈现会受到拍摄状态的影响,包括角度、远近、摆放和灯光等因素都可能造成识别结果的不同。在同一种非包装食物出现在不同的菜谱中时,或者比如多种水果被放置在果篮内导致个别水果被遮挡导致显露不完全时,系统的识别准确率也会下降。
针对相关技术中非包装类食物图像识别准确率较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种图像识别方法及装置,以解决非包装类食物图像识别准确率较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种图像识别方法。
根据本申请的图像识别方法包括:创建特征生成器;将待识别图像输入
所述特征生成器;以及根据所述特征生成器识别出非包装类食品。
进一步地,根据所述特征生成器识别出非包装类食品包括:确定所述待识别图像中的非包装类食品类别个数;当所述类别个数为确定个数时,计算所述待识别图像中的非包装类食品类别预测值;将所述非包装类食品类别预测值排序;以及输出所述排序中确定个数的所述非包装类食品类别预测值对应的非包装类食品类别及对应标签。
进一步地,根据所述特征生成器识别出非包装类食品包括:确定所述待识别图像中的非包装类食品类别个数;当所述类别个数为未知个数时,计算所述待识别图像中的非包装类食品类别预测值;判断所述预测值是否大于预设阈值;以及如果所述预测值大于预设阈值,则输出所述非包装类食品类别及对应标签。
进一步地,所述创建特征生成器包括:获取非包装类食品图像验证集;以及基于所述非包装类食品图像验证集构建深度学习残差网络模型,其中,构建深度学习残差网络模型包括:确定所述深度学习残差网络模型的初始参数;定义所述深度学习残差网络模型的优化算法;确定所述深度学习残差网络模型的损失函数。
进一步地,所述创建特征生成器包括:获取非包装类食品图像验证集;基于所述非包装类食品图像验证集构建深度学习残差网络模型;以及根据深度学习残差网络模型构建非包装类食品图像特征库。
为了实现上述目的,根据本申请的另一方面,提供了一种图像识别装置。
根据本申请的图像识别装置包括:创建模块,用于创建特征生成器;输入模块,用于将待识别图像输入所述特征生成器;以及识别模块,用于根据所述特征生成器识别出非包装类食品。
进一步的,所示识别模块包括:确定单元,用于确定所述待识别图像中的非包装类食品类别个数;计算单元,用于当所述类别个数为确定个数时,计算所述待识别图像中的非包装类食品类别预测值;排序单元,用于将所述非包装类食品类别预测值排序;以及输出单元,用于输出所述排序中确定个数的所述非包装类食品类别预测值对应的非包装类食品类别及对应标签。
进一步的,所述识别模块包括:确定单元,用于确定所述待识别图像中的非包装类食品类别个数;计算单元,用于当所述类别个数为未知个数时,计算所述待识别图像中的非包装类食品类别预测值;判断单元,用于判断所述预测值是否大于预设阈值;以及输出单元,用于如果所述预测值大于预设阈值,则输出所述非包装类食品类别及对应标签。
进一步的,所述创建模块包括:获取单元,用于获取非包装类食品图像验证集;以及深度学习残差网络模型构建单元,用于基于所述非包装类食品图像验证集构建深度学习残差网络模型,其中,构建深度学习残差网络模型包括:确定所述深度学习残差网络模型的初始参数;定义所述深度学习残差网络模型的优化算法;确定所述深度学习残差网络模型的损失函数。
进一步的,所述创建模块包括:获取单元,用于获取非包装类食品图像验证集;深度学习残差网络模型构建单元,用于基于所述非包装类食品图像验证集构建深度学习残差网络模型;以及特征库构建单元,用于根据深度学习残差网络模型构建非包装类食品图像特征库
在本申请实施例中,通过创建特征生成器,将待识别图像输入所述特征生成器,达到了识别出非包装类食品的目的,从而实现了提升非包装类食品识别准确率的技术效果,进而解决了非包装类食物图像识别准确率较低的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请第一实施例的图像识别方法示意图;
图2是根据本申请第二实施例的图像识别方法示意图;
图3是根据本申请第三实施例的图像识别方法示意图;
图4是根据本申请第四实施例的图像识别方法示意图;
图5是根据本申请第五实施例的图像识别方法示意图;
图6是根据本申请第一实施例的图像识别装置示意图;
图7是根据本申请第二实施例的图像识别装置示意图;
图8是根据本申请第三实施例的图像识别装置示意图;
图9是根据本申请第四实施例的图像识别装置示意图;
图10是根据本申请第五实施例的图像识别装置示意图;
图11是根据本申请实施例的图像识别方法流程示意图;以及
图12是根据本申请图片识别方法流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,该方法包括如下的步骤S102至步骤S106:
步骤S102,创建特征生成器;
选取包含各种类别的非包装类食品商品图片作为先验数据集,在该数据集中,每一个类别是一种独立商品的图片集合,包括该商品不同角度以及商品局部的图片。
利用提前训练好的模型作为特征生成器(Extractor),先用先验数据集为一系列的目标物体创建他们对应的特征库(FeatureDB)。
步骤S104,将待识别图像输入所述特征生成器;以及
在特征生成器的设计上,基于深度学习的图像分类方法,使用ImageNet 预训练的参数作为Resnet 50的模型初始参数值,预定义Adam做优化算法,交叉熵(crossEntropyloss)作为损失函数。对于所有的输入图片,输出在特征库检索到与图像特征相似的各个类别的预测值的numpy array。
步骤S106,根据所述特征生成器识别出非包装类食品。
比较预测值,选取最大的所在的类别标签作为结果。有时会遇见输入图片以组合类别的形式出现,比如说带有煎鸡蛋的面条,而煎鸡蛋与面条均作为先验集的类别,那么在提前清楚组合内的类别个数n时,可以选择最大的n个特征量预测值所在的类别标签作为输出结果。如果提前不知晓组合内类别个数,即不清楚带煎鸡蛋的面条旁边是否同时摆了一盘糖醋排骨,那么可以对每个类别的预测值加阈值,倘若输出的n个类别标签均拥有大于其阈值的预测值,则输入图片被判断为同时包含n个类别的物体,如果相似物体出现,则选择预测值较大的一个。
从以上的描述中,可以看出,本发明实现了如下技术效果:本发明可用在物体识别并分类非包装物品上,使用了ImageNet预训练的ResNet网络,并加以Adam优化和交叉熵作为损失函数,通过特征生成器对待检测的物体图片输出预测值和对应类别标签,本发明在先验数据集中提到包含了所有类别的食品不同角度以及局部的图片,同时在输入的待检测物体图片预处理的过程中灰度直方图均衡化,归一化图像亮度,增强对比度,避免了由于人们在拍摄/获得非包装类食物图片的时候,食物的呈现会受到拍摄状态的影响,包括角度、远近、摆放和灯光等因素都可能造成识别结果的不同的问题出现,大大增加了非包装类食品识别分类时的准确度。
此外,需要说明的是,本发明中的图片处理模型采用深度学习残差网络模型,采用ResNet50网络结构,即深度残差网络。在此之前,深度神经网络常常会有梯度消失问题的困扰,即来自误差函数的梯度信号会在反向传播回更早的层时指数级地下降,ResNet不再学习从x到H(x)的基本映射关系,而是学习这两者之间的差异,也就是残差(residual)。为了计算H(x),我们只需将残差加到输入上即可。假设残差为F(x)=H(x)-x,那么现在我们的网络不会直接学习H(x)了,而是学习F(x)+x。它的每一个模块(block)都由一系列层和一个捷径(shortcut)连接组成,这个捷径将该模块的输入和输出连接到了一起。然后在元素层面上执行加法(add)运算,如果输入和输出的大小不同,那就可以使用零填充或投射(通过1×1卷积)来得到匹配的大小。残差网络的实现特点为:
1)使用了较少的池化层;
2)没有使用Dropout,利用BN和全局平均池化进行正则化,除第一层外卷积层后都加BN;
3)最后一层用到global average pooling。
ResNet50的50层网络结构分别为:首先有个输入7*7*64的卷积,然后经过3+4+6+3=16个building block,每个block为3层,所以有16*3=48 层,最后有个全连接层用于分类,所以是1+48+1=50层,其结构如下表所示:
根据本发明实施例,提供了一种图像识别方法,如图2所示,根据所述特征生成器识别出非包装类食品包括:
步骤S202,确定所述待识别图像中的非包装类食品类别个数;
确定所述待识别图像中的非包装类食品类别个数可以是确定待识别图像中共包含了几类非包装类食品,例如带有煎鸡蛋的面条、糖醋排骨、苹果、菠萝等可以确定为4类非包装类食品。
步骤S204,当所述类别个数为确定个数时,计算所述待识别图像中的非包装类食品类别预测值;
当所述类别个数为确定个数时,计算所述待识别图像中的非包装类食品类别预测值可以是在提前清楚组合内的类别个数n时,可以选择最大的n个特征量预测值所在的类别标签作为输出结果。
步骤S206,将所述非包装类食品类别预测值排序;以及
将所述非包装类食品类别预测值排序可以是在确定待识别图像中各个非包装类食品后,与特征库中的已有非包装类食品进行比对计算,得出待识别图像中各个非包装类食品的预测值,并对预测值按照大小或其它标准进行排序。
步骤S208,输出所述排序中确定个数的所述非包装类食品类别预测值对应的非包装类食品类别及对应标签。
当确定待识别图像中包含确定个数个(例如n个)非包装类食品时,则取排序中的前n个作为结果输出。
根据本发明实施例,提供了一种图像识别方法,如图3所示,根据所述特征生成器识别出非包装类食品包括:
步骤S302,确定所述待识别图像中的非包装类食品类别个数;
确定所述待识别图像中的非包装类食品类别个数可以是确定待识别图像中共包含了几类非包装类食品,例如带有煎鸡蛋的面条、糖醋排骨、苹果、菠萝等可以确定为4类非包装类食品,或者待识别图像中摆放有一篮水果,表面能看到香蕉、菠萝、橙子,但是下层水果由于拍摄角度以及摆放位置的原因,不能确定到底有几种水果,即不能确定包含几类非包装类食物。
步骤S304,当所述类别个数为未知个数时,计算所述待识别图像中的非包装类食品类别预测值;
步骤S306,判断所述预测值是否大于预设阈值;以及
步骤S308,如果所述预测值大于预设阈值,则输出所述非包装类食品类别及对应标签。
当所述类别个数为未知个数时,计算所述待识别图像中的非包装类食品类别预测值,判断所述预测值是否大于预设阈值,如果所述预测值大于预设阈值,则输出所述非包装类食品类别及对应标签,可以是如果提前不知晓组合内类别个数,即不清楚带煎鸡蛋的面条旁边是否同时摆了一盘糖醋排骨,那么可以对每个类别的预测值加阈值,倘若输出的n个类别标签均拥有大于其阈值的预测值,则输入图片被判断为同时包含n个类别的物体,如果相似物体出现,则选择预测值较大的一个。
根据本发明实施例,提供了一种图像识别方法,如图4所示,所述创建特征生成器包括:
步骤S402,获取非包装类食品图像验证集;以及
选取包含各种类别的非包装类食品商品图片作为先验数据集,如开心果、花生、糖醋排骨、面条、馄饨、煎鸡蛋等,在该数据集中,每一个类别是一种独立商品的图片集合,包括该商品不同角度以及商品局部的图片。
步骤S404,基于所述非包装类食品图像验证集构建深度学习残差网络模型,其中,构建深度学习残差网络模型包括:确定所述深度学习残差网络模型的初始参数;定义所述深度学习残差网络模型的优化算法;确定所述深度学习残差网络模型的损失函数。
基于步骤S402选取的非包装类食品验证集构建深度学习残差网络模型,该深度学习残差网络模型使用ImageNet预训练的参数作为Resnet 50的模型初始参数值,预定义Adam做优化算法,交叉熵(crossEntropy loss)作为损失函数。
根据本发明实施例,提供了一种图像识别方法,如图5和图11所示,所述创建特征生成器包括:
步骤S502,获取非包装类食品图像验证集;
选取包含各种类别的非包装类食品商品图片作为先验数据集,如开心果、花生、糖醋排骨、面条、馄饨、煎鸡蛋等,在该数据集中,每一个类别是一种独立商品的图片集合,包括该商品不同角度以及商品局部的图片。
步骤S504,基于所述非包装类食品图像验证集构建深度学习残差网络模型;以及
基于步骤S502选取的非包装类食品验证集构建深度学习残差网络模型,该深度学习残差网络模型使用ImageNet预训练的参数作为Resnet 50的模型初始参数值,预定义Adam做优化算法,交叉熵(crossEntropy loss)作为损失函数。
步骤S506,根据深度学习残差网络模型构建非包装类食品图像特征库。
基于步骤S502选取的非包装类食品验证集训练深度学习残差网络模型,训练好的深度学习残差网络模型即为特征生成器,先用先验数据集为一系列的目标物体创建他们对应的特征库(FeatureDB)。当待检索的物体图像输入时,用同样的特征生成器提取其特征。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,还提供了一种用于实施上述图像识别的图像识别装置,如图6所示,该装置包括:
创建模块10,用于创建特征生成器;
本实施例的创建模块10中选取包含各种类别的非包装类食品商品图片作为先验数据集,在该数据集中,每一个类别是一种独立商品的图片集合,包括该商品不同角度以及商品局部的图片。
利用提前训练好的模型作为特征生成器(Extractor),先用先验数据集为一系列的目标物体创建他们对应的特征库(FeatureDB)。
输入模块20,用于将待识别图像输入所述特征生成器;以及
本实施例的输入模块20中在特征生成器的设计上,基于深度学习的图像分类方法,使用ImageNet预训练的参数作为Resnet 50的模型初始参数值,预定义Adam做优化算法,交叉熵(crossEntropy loss)作为损失函数。对于所有的输入图片,输出在特征库检索到与图像特征相似的各个类别的预测值的 numpy array。
识别模块30,用于根据所述特征生成器识别出非包装类食品。
本实施例的识别模块30中比较预测值,选取最大的所在的类别标签作为结果。有时会遇见输入图片以组合类别的形式出现,比如说带有煎鸡蛋的面条,而煎鸡蛋与面条均作为先验集的类别,那么在提前清楚组合内的类别个数n 时,可以选择最大的n个特征量预测值所在的类别标签作为输出结果。如果提前不知晓组合内类别个数,即不清楚带煎鸡蛋的面条旁边是否同时摆了一盘糖醋排骨,那么可以对每个类别的预测值加阈值,倘若输出的n个类别标签均拥有大于其阈值的预测值,则输入图片被判断为同时包含n个类别的物体,如果相似物体出现,则选择预测值较大的一个。
根据本发明实施例,提供了一种图像识别装置,如图7所示,所示识别模块30包括:
确定单元301,用于确定所述待识别图像中的非包装类食品类别个数;
本实施例的确定单元301中确定所述待识别图像中的非包装类食品类别个数可以是确定待识别图像中共包含了几类非包装类食品,例如带有煎鸡蛋的面条、糖醋排骨、苹果、菠萝等可以确定为4类非包装类食品。
计算单元302,用于当所述类别个数为确定个数时,计算所述待识别图像中的非包装类食品类别预测值;
本实施例的计算单元302中当所述类别个数为确定个数时,计算所述待识别图像中的非包装类食品类别预测值可以是在提前清楚组合内的类别个数n 时,可以选择最大的n个特征量预测值所在的类别标签作为输出结果。
排序单元303,用于将所述非包装类食品类别预测值排序;以及
本实施例的排序单元303中将所述非包装类食品类别预测值排序可以是在确定待识别图像中各个非包装类食品后,与特征库中的已有非包装类食品进行比对计算,得出待识别图像中各个非包装类食品的预测值,并对预测值按照大小或其它标准进行排序。
输出单元304,用于输出所述排序中确定个数的所述非包装类食品类别预测值对应的非包装类食品类别及对应标签。
本实施例的输出单元304中当确定待识别图像中包含确定个数个(例如n 个)非包装类食品时,则取排序中的前n个作为结果输出。
根据本发明实施例,提供了一种图像识别装置,如图8所示,所示识别模块30包括:
确定单元301,用于确定所述待识别图像中的非包装类食品类别个数;
本实施例的确定单元301中确定所述待识别图像中的非包装类食品类别个数可以是确定待识别图像中共包含了几类非包装类食品,例如带有煎鸡蛋的面条、糖醋排骨、苹果、菠萝等可以确定为4类非包装类食品,或者待识别图像中摆放有一篮水果,表面能看到香蕉、菠萝、橙子,但是下层水果由于拍摄角度以及摆放位置的原因,不能确定到底有几种水果,即不能确定包含几类非包装类食物。
计算单元302,用于当所述类别个数为未知个数时,计算所述待识别图像中的非包装类食品类别预测值;
判断单元305,用于判断所述预测值是否大于预设阈值;以及
输出单元304,用于如果所述预测值大于预设阈值,则输出所述非包装类食品类别及对应标签。
本实施例的计算单元302、判断单元305、输出单元304中当所述类别个数为未知个数时,计算所述待识别图像中的非包装类食品类别预测值,判断所述预测值是否大于预设阈值,如果所述预测值大于预设阈值,则输出所述非包装类食品类别及对应标签,可以是如果提前不知晓组合内类别个数,即不清楚带煎鸡蛋的面条旁边是否同时摆了一盘糖醋排骨,那么可以对每个类别的预测值加阈值,倘若输出的n个类别标签均拥有大于其阈值的预测值,则输入图片被判断为同时包含n个类别的物体,如果相似物体出现,则选择预测值较大的一个。
根据本发明实施例,提供了一种图像识别装置,如图9所示,所述创建模块10包括:
获取单元101,用于获取非包装类食品图像验证集;以及
本实施例的获取单元101中选取包含各种类别的非包装类食品商品图片作为先验数据集,如开心果、花生、糖醋排骨、面条、馄饨、煎鸡蛋等,在该数据集中,每一个类别是一种独立商品的图片集合,包括该商品不同角度以及商品局部的图片。
深度学习残差网络模型构建单元102,用于基于所述非包装类食品图像验证集构建深度学习残差网络模型,其中,构建深度学习残差网络模型包括:确定所述深度学习残差网络模型的初始参数;定义所述深度学习残差网络模型的优化算法;确定所述深度学习残差网络模型的损失函数。
本实施例的深度学习残差网络模型构建单元102中基于获取单元101中选取的非包装类食品验证集构建深度学习残差网络模型,该深度学习残差网络模型使用ImageNet预训练的参数作为Resnet 50的模型初始参数值,预定义 Adam做优化算法,交叉熵(crossEntropy loss)作为损失函数。
根据本发明实施例,提供了一种图像识别装置,如图10所示,所述创建模块10包括:
获取单元101,用于获取非包装类食品图像验证集;
本实施例的获取单元101中选取包含各种类别的非包装类食品商品图片作为先验数据集,如开心果、花生、糖醋排骨、面条、馄饨、煎鸡蛋等,在该数据集中,每一个类别是一种独立商品的图片集合,包括该商品不同角度以及商品局部的图片。
深度学习残差网络模型构建单元102,用于基于所述非包装类食品图像验证集构建深度学习残差网络模型;以及
本实施例的深度学习残差网络模型构建单元102中基于步骤S502选取的非包装类食品验证集构建深度学习残差网络模型,该深度学习残差网络模型使用ImageNet预训练的参数作为Resnet 50的模型初始参数值,预定义Adam 做优化算法,交叉熵(crossEntropyloss)作为损失函数。
特征库构建单元103,用于根据深度学习残差网络模型构建非包装类食品图像特征库。
本实施例的特征库构建单元103中基于获取单元101中选取的非包装类食品验证集训练深度学习残差网络模型,训练好的深度学习残差网络模型即为特征生成器,先用先验数据集为一系列的目标物体创建他们对应的特征库 (FeatureDB)。当待检索的物体图像输入时,用同样的特征生成器提取其特征。
根据本发明实施例,如图12所示,所述图片识别方法流程如下:
对象为非包装类食品,且可以达到组合类别分类。所述方法流程包括:训练过程,所使用的先验数据集包含带有类别标签的各种非包装类食品的不同角度和局部的独立商品合集图片,所采用的算法模型为深度残差网络以识别出物体的类别。识别过程:分成测试图片包含已知n类(n≥1)非包装食品,采用模型输出的预测值数列的最大n个值所属于的类别标签作为结果。和测试图片包含未知n类(n≥1)非包装食品,采用模型输出的预测值数列与一一对应的特征阈值进行对比的方法,预测值大于阈值的类别为结果输出。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种图像识别方法,其特征在于,包括:
创建特征生成器;
将待识别图像输入所述特征生成器;以及
根据所述特征生成器识别出非包装类食品。
2.根据权利要求1所述的图像识别方法,其特征在于,根据所述特征生成器识别出非包装类食品包括:
确定所述待识别图像中的非包装类食品类别个数;
当所述类别个数为确定个数时,计算所述待识别图像中的非包装类食品类别预测值;
将所述非包装类食品类别预测值排序;以及
输出所述排序中确定个数的所述非包装类食品类别预测值对应的非包装类食品类别及对应标签。
3.根据权利要求1所述的图像识别方法,其特征在于,根据所述特征生成器识别出非包装类食品包括:
确定所述待识别图像中的非包装类食品类别个数;
当所述类别个数为未知个数时,计算所述待识别图像中的非包装类食品类别预测值;
判断所述预测值是否大于预设阈值;以及
如果所述预测值大于预设阈值,则输出所述非包装类食品类别及对应标签。
4.根据权利要求1所述的图像识别方法,其特征在于,所述创建特征生成器包括:
获取非包装类食品图像验证集;以及
基于所述非包装类食品图像验证集构建深度学习残差网络模型,
其中,构建深度学习残差网络模型包括:
确定所述深度学习残差网络模型的初始参数;
定义所述深度学习残差网络模型的优化算法;
确定所述深度学习残差网络模型的损失函数。
5.根据权利要求1所述的图像识别方法,其特征在于,所述创建特征生成器包括:
获取非包装类食品图像验证集;
基于所述非包装类食品图像验证集构建深度学习残差网络模型;以及
根据深度学习残差网络模型构建非包装类食品图像特征库。
6.一种图像识别装置,其特征在于,包括:
创建模块,用于创建特征生成器;
输入模块,用于将待识别图像输入所述特征生成器;以及
识别模块,用于根据所述特征生成器识别出非包装类食品。
7.根据权利要求6所述的图像识别装置,其特征在于,所示识别模块包括:
确定单元,用于确定所述待识别图像中的非包装类食品类别个数;
计算单元,用于当所述类别个数为确定个数时,计算所述待识别图像中的非包装类食品类别预测值;
排序单元,用于将所述非包装类食品类别预测值排序;以及
输出单元,用于输出所述排序中确定个数的所述非包装类食品类别预测值对应的非包装类食品类别及对应标签。
8.根据权利要求6所述的图像识别装置,其特征在于,所述识别模块包括:
确定单元,用于确定所述待识别图像中的非包装类食品类别个数;
计算单元,用于当所述类别个数为未知个数时,计算所述待识别图像中的非包装类食品类别预测值;
判断单元,用于判断所述预测值是否大于预设阈值;以及
输出单元,用于如果所述预测值大于预设阈值,则输出所述非包装类食品类别及对应标签。
9.根据权利要求6所述的图像识别装置,其特征在于,所述创建模块包括:
获取单元,用于获取非包装类食品图像验证集;以及
深度学习残差网络模型构建单元,用于基于所述非包装类食品图像验证集构建深度学习残差网络模型,
其中,构建深度学习残差网络模型包括:
确定所述深度学习残差网络模型的初始参数;
定义所述深度学习残差网络模型的优化算法;
确定所述深度学习残差网络模型的损失函数。
10.根据权利要求6所述的图像识别装置,其特征在于,所述创建模块包括:
获取单元,用于获取非包装类食品图像验证集;
深度学习残差网络模型构建单元,用于基于所述非包装类食品图像验证集构建深度学习残差网络模型;以及
特征库构建单元,用于根据深度学习残差网络模型构建非包装类食品图像特征库。
CN201810784504.5A 2018-07-17 2018-07-17 一种图像识别方法及装置 Pending CN109214272A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810784504.5A CN109214272A (zh) 2018-07-17 2018-07-17 一种图像识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810784504.5A CN109214272A (zh) 2018-07-17 2018-07-17 一种图像识别方法及装置

Publications (1)

Publication Number Publication Date
CN109214272A true CN109214272A (zh) 2019-01-15

Family

ID=64990114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810784504.5A Pending CN109214272A (zh) 2018-07-17 2018-07-17 一种图像识别方法及装置

Country Status (1)

Country Link
CN (1) CN109214272A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110365639A (zh) * 2019-05-29 2019-10-22 中国科学院信息工程研究所 一种基于深度残差网络的恶意流量检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512676A (zh) * 2015-11-30 2016-04-20 华南理工大学 一种智能终端上的食物识别方法
CN106780612A (zh) * 2016-12-29 2017-05-31 浙江大华技术股份有限公司 一种图像中的物体检测方法及装置
CN108256474A (zh) * 2018-01-17 2018-07-06 百度在线网络技术(北京)有限公司 用于识别菜品的方法和装置
CN108280474A (zh) * 2018-01-19 2018-07-13 广州市派客朴食信息科技有限责任公司 一种基于神经网络的食物识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512676A (zh) * 2015-11-30 2016-04-20 华南理工大学 一种智能终端上的食物识别方法
CN106780612A (zh) * 2016-12-29 2017-05-31 浙江大华技术股份有限公司 一种图像中的物体检测方法及装置
CN108256474A (zh) * 2018-01-17 2018-07-06 百度在线网络技术(北京)有限公司 用于识别菜品的方法和装置
CN108280474A (zh) * 2018-01-19 2018-07-13 广州市派客朴食信息科技有限责任公司 一种基于神经网络的食物识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110365639A (zh) * 2019-05-29 2019-10-22 中国科学院信息工程研究所 一种基于深度残差网络的恶意流量检测方法及系统

Similar Documents

Publication Publication Date Title
CN103544506B (zh) 一种基于卷积神经网络的图像分类方法和装置
CN105844283B (zh) 用于识别图像类目归属的方法、图像搜索方法及装置
CN109214383A (zh) 一种图像识别方法及装置
CN109670528B (zh) 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法
CN109522966A (zh) 一种基于密集连接卷积神经网络的目标检测方法
CN109977943A (zh) 一种基于yolo的图像目标识别方法、系统和存储介质
CN108830285A (zh) 一种基于Faster-RCNN的加强学习的目标检测方法
CN110705424B (zh) 一种商品陈列位置的定位方法、装置及存储介质
CN105574550A (zh) 一种车辆识别方法及装置
CN107403141A (zh) 人脸检测方法及装置、计算机可读存储介质、设备
CN105654066A (zh) 一种车辆识别方法及装置
CN109800811A (zh) 一种基于深度学习的小样本图像识别方法
CN107832835A (zh) 一种卷积神经网络的轻量化方法及装置
CN105528638A (zh) 灰色关联分析法确定卷积神经网络隐层特征图个数的方法
CN109829391A (zh) 基于级联卷积网络和对抗学习的显著性目标检测方法
CN107437060A (zh) 对象识别设备、对象识别方法和程序
CN101290660A (zh) 一种用于行人检测的树状组合分类方法
CN110222604A (zh) 基于共享卷积神经网络的目标识别方法和装置
US20230118767A1 (en) Learning device, learning method, inference device, and storage medium
CN109522933A (zh) 用于货架的商品检测方法及装置
CN113888542B (zh) 产品缺陷检测方法和装置
CN106528665B (zh) Aoi设备测试文件查找方法和系统
CN115661573A (zh) 红外弱小目标的检测方法、装置、计算设备及存储介质
CN109214272A (zh) 一种图像识别方法及装置
CN108363962A (zh) 一种基于多层次特征深度学习的人脸检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20190115

Assignee: Apple R&D (Beijing) Co., Ltd.

Assignor: BEIJING MOSHANGHUA TECHNOLOGY CO., LTD.

Contract record no.: 2019990000054

Denomination of invention: Image recognition method and device

License type: Exclusive License

Record date: 20190211