CN109214383A

CN109214383A - 一种图像识别方法及装置

Info

Publication number: CN109214383A
Application number: CN201810785571.9A
Authority: CN
Inventors: 关梓暄; 张默
Original assignee: Beijing Moshanghua Technology Co Ltd
Current assignee: Beijing Moshanghua Technology Co Ltd
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2019-01-15

Abstract

本申请公开了一种图像识别方法及装置。该图像识别方法包括：输入图片建立图像集，其中，所述图像集至少包括：包装类食品图片和带有预设标注文字图片；通过训练图片处理模型得到包装类食品图片中的食品类别；通过训练文字处理模型得到文字图片中的文字和位置；输入待识别图片；根据所述图片处理模型识别出第一食品类别标签；根据所述文字处理模型识别出第二食品类别标签；通过所述第一食品类别标签和所述第二食品类别标签的相关度输出识别图片结果。本申请解决了包装类食物图像识别准确率较低的技术问题。

Description

一种图像识别方法及装置

技术领域

本申请涉及图像识别技术领域，具体而言，涉及一种图像识别方法及装置。

背景技术

图像识别技术是人工智能的一个重要领域。它是指对图像进行对象识别，以识别各种不同模式的目标和对像的技术。

在采用图像识别技术识别包装类食物时，一般会存在由于人们在拍摄/获得非包装类食物图片的时候，食物的呈现会受到拍摄状态的影响，包括角度、远近、摆放和灯光等因素都可能造成识别结果的不同。在包装类食物中，由于包装上的图片仅供参考，通过图像识别进行分类时，识别结果准确率往往不高。

针对相关技术中包装类食物图像识别准确率较低的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种图像识别方法及装置，以解决包装类食物图像识别准确率较低的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种图像识别方法。

根据本申请的图像识别方法包括：输入图片建立图像集，其中，所述图像集至少包括：包装类食品图片和带有预设标注文字图片；通过训练图片处理模型得到包装类食品图片中的食品类别；通过训练文字处理模型得到文字图片中的文字和位置；输入待识别图片；根据所述图片处理模型识别出第一食品类别标签；根据所述文字处理模型识别出第二食品类别标签；通过所述第一食品类别标签和所述第二食品类别标签的相关度输出识别图片结果。

进一步地，所述通过训练图片处理模型得到包装类食品图片中的食品类别包括：获取包装类食品图片图像集；以及基于所述包装类食品图片图像集构建深度学习残差网络模型，其中，构建深度学习残差网络模型包括：确定所述深度学习残差网络模型的初始参数；定义所述深度学习残差网络模型的优化算法；确定所述深度学习残差网络模型的损失函数。

进一步地，所述通过训练文字处理模型得到文字图片中的文字和位置包括：获取带有预设标注文字图片图像集；以及基于所述带有预设标注文字图片图像构建文字处理模型，其中，构建文字处理模型包括：构建用于识别文字位置的自然场景文本检测模型；构建用于识别文字内容的端到端文字识别模型。

进一步地，所述根据所述图片处理模型识别出第一食品类别标签包括：确定所述待识别图片中的食品类别个数；计算所述待识别图像中的食品类别预测值；将所述食品类别预测值排序；以及输出所述排序中多个所述食品类别预测值对应的食品类别及对应标签。

进一步地，通过所述第一食品类别标签和所述第二食品类别标签的相关度输出识别图片结果包括：对所述第一食品类别标签进行加权处理得到第一加权食品类别标签；对所述第二食品类别标签进行加权处理得到第二加权食品类别标签；综合处理所述第一加权食品类别标签和所述第二加权食品类别标签，输出包装类食品类别标签。

为了实现上述目的，根据本申请的另一方面，提供了一种图像识别装置。

根据本申请的图像识别装置包括：图像集模块，用于输入图片建立图像集，其中，所述图像集至少包括：包装类食品图片和带有预设标注文字图片；图片训练模块，用于通过训练图片处理模型得到包装类食品图片中的食品类别；文字训练模块，用于通过训练文字处理模型得到文字图片中的文字和位置；输入模块，用于输入待识别图片；图片识别模块，用于根据所述图片处理模型识别出第一食品类别标签；文字识别模块，用于根据所述文字处理模型识别出第二食品类别标签；输出模块，用于通过所述第一食品类别标签和所述第二食品类别标签的相关度输出识别图片结果。

进一步的，所述图片训练模块包括：获取单元，用于获取包装类食品图片图像集；以及深度学习残差网络模型构建单元，用于基于所述包装类食品图片图像集构建深度学习残差网络模型，其中，构建深度学习残差网络模型包括：确定所述深度学习残差网络模型的初始参数；定义所述深度学习残差网络模型的优化算法；确定所述深度学习残差网络模型的损失函数。

进一步的，所述文字训练模块包括：获取单元，用于获取带有预设标注文字图片图像集；以及文字处理模型构建单元，用于基于所述带有预设标注文字图片图像构建文字处理模型，其中，构建文字处理模型包括：构建用于识别文字位置的自然场景文本检测模型；构建用于识别文字内容的端到端文字识别模型。

进一步的，所述图片识别模块包括：确定单元，用于确定所述待识别图片中的食品类别个数；计算单元，用于计算所述待识别图像中的食品类别预测值；排序单元，用于将所述食品类别预测值排序；以及输出单元，用于输出所述排序中多个所述食品类别预测值对应的食品类别及对应标签。

进一步的，通过输出模块包括：第一加权处理单元，用于对所述第一食品类别标签进行加权处理得到第一加权食品类别标签；第二加权处理单元，用于对所述第二食品类别标签进行加权处理得到第二加权食品类别标签；综合处理单元，用于综合处理所述第一加权食品类别标签和所述第二加权食品类别标签，输出包装类食品类别标签。

在本申请实施例中，采用构建图像集的方式，通过图片处理模型识别待识别图片中的第一食品类别标签，通过文字处理模型识别待识别图片中的第二食品类别标签，通过综合处理第一食品类别标签和第二食品类别标签输出最终的食品类别标签，达到了对包装类食品种类进行识别的目的，从而实现了包装类食品种类识别的技术效果，进而解决了包装类食物图像识别准确率较低的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请第一实施例的图像识别方法示意图；

图2是根据本申请第二实施例的图像识别方法示意图；

图3是根据本申请第三实施例的图像识别方法示意图；

图4是根据本申请第四实施例的图像识别方法示意图；

图5是根据本申请第五实施例的图像识别方法示意图；

图6是根据本申请第一实施例的图像识别装置示意图；

图7是根据本申请第二实施例的图像识别装置示意图；

图8是根据本申请第三实施例的图像识别装置示意图；

图9是根据本申请第四实施例的图像识别装置示意图；

图10是根据本申请第五实施例的图像识别装置示意图；以及

图11是根据本申请实施例的图像识别方法流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，该方法包括如下的步骤S102至步骤S114：

步骤S102，输入图片建立图像集，其中，所述图像集至少包括：包装类食品图片和带有预设标注文字图片；

选取包含各种类别的包装类食品商品图片作为先验数据集，如老干妈、鸡精、袋装面包、听装椰汁等，在该数据集中，每一个类别是一种独立商品的图片集合，包括该商品不同角度以及商品局部的图片。

需要说明的是，图像集可以是包装类食品图片，例如薯片包装上的大土豆图片等，也可以是带有预设标注文字图片，例如配料等文字内容的图片。

步骤S104，通过训练图片处理模型得到包装类食品图片中的食品类别；

选取包含各种类别的包装类食品商品图片作为先验数据集，在该数据集中，每一个类别是一种独立商品的图片集合，包括该商品不同角度以及商品局部的图片。利用提前训练好的模型作为特征生成器(Extractor)，先用先验数据集为一系列的目标物体创建他们对应的特征库(FeatureDB)。在特征生成器的设计上，基于深度学习的图像分类方法，使用ImageNet预训练的参数作为Resnet 50的模型初始参数值，预定义Adam做优化算法，交叉熵(crossEntropy loss)作为损失函数。对于所有的输入图片，输出在特征库检索到与图像特征相似的各个类别的预测值的numpy array。比较预测值，选取最大的所在的类别标签作为结果。有时会遇见输入图片以组合类别的形式出现，提前不知晓组合内类别个数，即不清楚待识别图像中包含几类包装类食品，那么可以对每个类别的预测值加阈值，倘若输出的n个类别标签均拥有大于其阈值的预测值，则输入图片被判断为同时包含n个类别的物体，如果相似物体出现，则选择预测值较大的一个。

步骤S106，通过训练文字处理模型得到文字图片中的文字和位置；

使用带有预设标注文字图片训练文字处理模型，所使用的先验数据集包含带有类别标签的各种包装类食品的独立商品合集图片，和pascal voc公开数据集中引入的6000张带标注的多国文字自然场景图像。所采用的算法模型为深度残差网络以识别出物体的类别，与自然场景文本检测和端到端文字识别模型框架以识别包装袋上的文字与位置。

步骤S108，输入待识别图片；

输入待识别图片可以是将待识别图片作为模型输入。

步骤S110，根据所述图片处理模型识别出第一食品类别标签；

根据所述图片处理模型识别出第一食品类别标签可以是采用图片处理模型输出的预测值数列的最大n个值所属于的类别标签作为第一食品类别标签。

步骤S112，根据所述文字处理模型识别出第二食品类别标签；

根据所述文字处理模型识别出第二食品类别标签可以是采用文字处理模型输出的相关度数列的最大的n个值所属于的类别标签作为第二食品类别标签。

步骤S114，通过所述第一食品类别标签和所述第二食品类别标签的相关度输出识别图片结果。

通过所述第一食品类别标签和所述第二食品类别标签的相关度输出识别图片结果可以是综合两个分结果并加权得到最终的输出。

从以上的描述中，可以看出，本发明实现了如下技术效果：本发明可用在物体识别并分类包装物品上，且由两个部分的结果综合作为最终输出。第一部分使用了ImageNet预训练的ResNet网络，并加以Adam优化和交叉熵作为损失函数，通过特征生成器对待检测的物体图片输出预测值和对应类别标签。第二部分使用自然场景文本检测模型框架识别文本框位置，再使用端到端文字识别模型框架识别文字内容，输出该文字内容与各种类别标签一一对应的文字相关度，通过图像识别与文字识别相结合的处理方式，大大增加了包装类食品识别的准确率。

此外，需要说明的是，本发明中的图片处理模型采用深度学习残差网络模型，采用ResNet50网络结构，即深度残差网络。在此之前，深度神经网络常常会有梯度消失问题的困扰，即来自误差函数的梯度信号会在反向传播回更早的层时指数级地下降，ResNet不再学习从x到H(x)的基本映射关系，而是学习这两者之间的差异，也就是残差(residual)。为了计算H(x)，我们只需将残差加到输入上即可。假设残差为F(x)＝H(x)-x，那么现在我们的网络不会直接学习H(x)了，而是学习F(x)+x。它的每一个模块(block)都由一系列层和一个捷径(shortcut)连接组成，这个捷径将该模块的输入和输出连接到了一起。然后在元素层面上执行加法(add)运算，如果输入和输出的大小不同，那就可以使用零填充或投射(通过1×1卷积)来得到匹配的大小。残差网络的实现特点为：1)使用了较少的池化层；2)没有使用Dropout，利用BN和全局平均池化进行正则化，除第一层外卷积层后都加BN；3)最后一层用到global average pooling。

ResNet50的50层网络结构分别为：首先有个输入7*7*64的卷积，然后经过3+4+6+3＝16个building block，每个block为3层，所以有16*3＝48层，最后有个全连接层用于分类，所以是1+48+1＝50层，其结构如下表所示：

根据本发明实施例，提供了一种图像识别方法，如图2所示，所述通过训练图片处理模型得到包装类食品图片中的食品类别包括：

步骤S202，获取包装类食品图片图像集；以及

步骤S204，基于所述包装类食品图片图像集构建深度学习残差网络模型，其中，构建深度学习残差网络模型包括：确定所述深度学习残差网络模型的初始参数；定义所述深度学习残差网络模型的优化算法；确定所述深度学习残差网络模型的损失函数。

基于步骤S202选取的包装类食品验证集构建深度学习残差网络模型，该深度学习残差网络模型使用ImageNet预训练的参数作为Resnet 50的模型初始参数值，预定义Adam做优化算法，交叉熵(crossEntropy loss)作为损失函数。

根据本发明实施例，提供了一种图像识别方法，如图3所示，所述通过训练文字处理模型得到文字图片中的文字和位置包括：

步骤S302，获取带有预设标注文字图片图像集；以及

获取包装类食品包装上的带有标注文字的图片作为图像验证集。

步骤S304，基于所述带有预设标注文字图片图像构建文字处理模型，其中，构建文字处理模型包括：构建用于识别文字位置的自然场景文本检测模型；构建用于识别文字内容的端到端文字识别模型。

在文字处理模型训练的过程中，由于包装袋上与内部食品相关的文字多为大字号粗体文字，也常有繁体毛笔字，所以注意在先验数据中添加草书，楷体，幼圆等输入法字体。同时，食物品牌等信息多置于包装袋中上部，所以以自然场景文本检测模型得到的居中上部的文本框内信息为主要信息进行探究。

根据本发明实施例，提供了一种图像识别方法，如图4所示，所述根据所述图片处理模型识别出第一食品类别标签包括：

步骤S402，确定所述待识别图片中的食品类别个数；

确定所述待识别图像中的包装类食品类别个数可以是确定待识别图像中共包含了几类包装类食品。

步骤S404，计算所述待识别图像中的食品类别预测值；

当所述类别个数为确定个数时，计算所述待识别图像中的包装类食品类别预测值可以是在提前清楚组合内的类别个数n时，可以选择最大的n个特征量预测值所在的类别标签作为输出结果。

步骤S406，将所述食品类别预测值排序；以及

将所述包装类食品类别预测值排序可以是在确定待识别图像中各个包装类食品后，与特征库中的已有包装类食品进行比对计算，得出待识别图像中各个包装类食品的预测值，并对预测值按照大小或其它标准进行排序。

步骤S408，输出所述排序中多个所述食品类别预测值对应的食品类别及对应标签。

当确定待识别图像中包含确定个数个(例如n个)包装类食品时，则取排序中的前n个作为结果输出。

根据本发明实施例，提供了一种图像识别方法，如图5所示，通过所述第一食品类别标签和所述第二食品类别标签的相关度输出识别图片结果包括：

步骤S502，对所述第一食品类别标签进行加权处理得到第一加权食品类别标签；

对所述第一食品类别标签进行加权处理得到第一加权食品类别标签可以是对图片处理模型得到的第一食品类别标签赋予某一权重，例如0.3，则将第一食品类别标签的预测值乘以0.3。

步骤S504，对所述第二食品类别标签进行加权处理得到第二加权食品类别标签；

对所述第二食品类别标签进行加权处理得到第二加权食品类别标签可以是对文字处理模型得到的第二食品类别标签赋予某一权重，例如0.7，则将第一食品类别标签的预测值乘以0.7。

步骤S506，综合处理所述第一加权食品类别标签和所述第二加权食品类别标签，输出包装类食品类别标签。

将第一加权食品类别标签和第二加权食品类别标签经过运算处理，例如可以是直接相加，得到该包装类食品类别标签预测值的最终结果，输出该最终结果。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例，还提供了一种用于实施上述图像识别方法的图像识别装置，如图6所示，该装置包括：

图像集模块10，用于输入图片建立图像集，其中，所述图像集至少包括：包装类食品图片和带有预设标注文字图片；

本实施例的图像集模块10中选取包含各种类别的包装类食品商品图片作为先验数据集，如老干妈、鸡精、袋装面包、听装椰汁等，在该数据集中，每一个类别是一种独立商品的图片集合，包括该商品不同角度以及商品局部的图片。

图片训练模块20，用于通过训练图片处理模型得到包装类食品图片中的食品类别；

本实施例的图片训练模块20中选取包含各种类别的包装类食品商品图片作为先验数据集，在该数据集中，每一个类别是一种独立商品的图片集合，包括该商品不同角度以及商品局部的图片。利用提前训练好的模型作为特征生成器(Extractor)，先用先验数据集为一系列的目标物体创建他们对应的特征库(FeatureDB)。在特征生成器的设计上，基于深度学习的图像分类方法，使用ImageNet预训练的参数作为Resnet 50的模型初始参数值，预定义Adam做优化算法，交叉熵(crossEntropy loss)作为损失函数。对于所有的输入图片，输出在特征库检索到与图像特征相似的各个类别的预测值的numpy array。比较预测值，选取最大的所在的类别标签作为结果。有时会遇见输入图片以组合类别的形式出现，提前不知晓组合内类别个数，即不清楚待识别图像中包含几类包装类食品，那么可以对每个类别的预测值加阈值，倘若输出的n个类别标签均拥有大于其阈值的预测值，则输入图片被判断为同时包含n个类别的物体，如果相似物体出现，则选择预测值较大的一个。

文字训练模块30，用于通过训练文字处理模型得到文字图片中的文字和位置；

本实施例的文字训练模块30中使用带有预设标注文字图片训练文字处理模型，所使用的先验数据集包含带有类别标签的各种包装类食品的独立商品合集图片，和pascalvoc公开数据集中引入的6000张带标注的多国文字自然场景图像。所采用的算法模型为深度残差网络以识别出物体的类别，与自然场景文本检测和端到端文字识别模型框架以识别包装袋上的文字与位置。

输入模块40，用于输入待识别图片；

本实施例的输入模块40中输入待识别图片可以是将待识别图片作为模型输入。

图片识别模块50，用于根据所述图片处理模型识别出第一食品类别标签；

本实施例的图片识别模块50中根据所述图片处理模型识别出第一食品类别标签可以是采用图片处理模型输出的预测值数列的最大n个值所属于的类别标签作为第一食品类别标签。

文字识别模块60，用于根据所述文字处理模型识别出第二食品类别标签；

本实施例的文字识别模块60中根据所述文字处理模型识别出第二食品类别标签可以是采用文字处理模型输出的相关度数列的最大的n个值所属于的类别标签作为第二食品类别标签。

输出模块70，用于通过所述第一食品类别标签和所述第二食品类别标签的相关度输出识别图片结果。

本实施例的输出模块70中通过所述第一食品类别标签和所述第二食品类别标签的相关度输出识别图片结果可以是综合两个分结果并加权得到最终的输出。

根据本发明实施例，如图7所示，所述图片训练模块20包括：

获取单元201，用于获取包装类食品图片图像集；以及

本实施例的获取单元201中选取包含各种类别的包装类食品商品图片作为先验数据集，如老干妈、鸡精、袋装面包、听装椰汁等，在该数据集中，每一个类别是一种独立商品的图片集合，包括该商品不同角度以及商品局部的图片。

深度学习残差网络模型构建单元202，用于基于所述包装类食品图片图像集构建深度学习残差网络模型，其中，构建深度学习残差网络模型包括：确定所述深度学习残差网络模型的初始参数；定义所述深度学习残差网络模型的优化算法；确定所述深度学习残差网络模型的损失函数。

本实施例的深度学习残差网络模型构建单元202中基于获取单元201中选取的包装类食品验证集构建深度学习残差网络模型，该深度学习残差网络模型使用ImageNet预训练的参数作为Resnet 50的模型初始参数值，预定义Adam做优化算法，交叉熵(crossEntropy loss)作为损失函数。

根据本发明实施例，如图8所示，所述文字训练模块30包括：

获取单元301，用于获取带有预设标注文字图片图像集；以及

本实施例的获取单元301中获取包装类食品包装上的带有标注文字的图片作为图像验证集。

文字处理模型构建单元302，用于基于所述带有预设标注文字图片图像构建文字处理模型，其中，构建文字处理模型包括：构建用于识别文字位置的自然场景文本检测模型；构建用于识别文字内容的端到端文字识别模型。

本实施例的文字处理模型构建单元302中在文字处理模型训练的过程中，由于包装袋上与内部食品相关的文字多为大字号粗体文字，也常有繁体毛笔字，所以注意在先验数据中添加草书，楷体，幼圆等输入法字体。同时，食物品牌等信息多置于包装袋中上部，所以以自然场景文本检测模型得到的居中上部的文本框内信息为主要信息进行探究。

根据本发明实施例，如图9所示，所述图片识别模块50包括：

确定单元501，用于确定所述待识别图片中的食品类别个数；

本实施例的确定单元501中确定所述待识别图像中的包装类食品类别个数可以是确定待识别图像中共包含了几类包装类食品。

计算单元502，用于计算所述待识别图像中的食品类别预测值；

本实施例的计算单元502中当所述类别个数为确定个数时，计算所述待识别图像中的包装类食品类别预测值可以是在提前清楚组合内的类别个数n时，可以选择最大的n个特征量预测值所在的类别标签作为输出结果。

排序单元503，用于将所述食品类别预测值排序；以及

本实施例的排序单元503中将所述包装类食品类别预测值排序可以是在确定待识别图像中各个包装类食品后，与特征库中的已有包装类食品进行比对计算，得出待识别图像中各个包装类食品的预测值，并对预测值按照大小或其它标准进行排序。

输出单元504，用于输出所述排序中多个所述食品类别预测值对应的食品类别及对应标签。

本实施例的输出单元504中当确定待识别图像中包含确定个数个(例如n个)包装类食品时，则取排序中的前n个作为结果输出。

根据本发明实施例，如图10所示，所述输出模块70包括：

第一加权处理单元701，用于对所述第一食品类别标签进行加权处理得到第一加权食品类别标签；

本实施例的第一加权处理单元701中对所述第一食品类别标签进行加权处理得到第一加权食品类别标签可以是对图片处理模型得到的第一食品类别标签赋予某一权重，例如0.3，则将第一食品类别标签的预测值乘以0.3。

第二加权处理单元702，用于对所述第二食品类别标签进行加权处理得到第二加权食品类别标签；

本实施例的第二加权处理单元702中对所述第二食品类别标签进行加权处理得到第二加权食品类别标签可以是对文字处理模型得到的第二食品类别标签赋予某一权重，例如0.7，则将第一食品类别标签的预测值乘以0.7。

综合处理单元703，用于综合处理所述第一加权食品类别标签和所述第二加权食品类别标签，输出包装类食品类别标签。

本实施例的综合处理单元703中将第一加权食品类别标签和第二加权食品类别标签经过运算处理，例如可以是直接相加，得到该包装类食品类别标签预测值的最终结果，输出该最终结果。

根据本发明实施例，如图11所示，所述图像识别方法具体流程如下：对象为包装类食品，且识别结果为两部分综合得到。所述方法流程包括：图像的训练过程和文字的训练过程，所使用的先验数据集包含带有类别标签的各种包装类食品的独立商品合集图片，和pascal voc公开数据集中引入的6000张带标注的多国文字自然场景图像。所采用的算法模型为深度残差网络以识别出物体的类别，与自然场景文本检测和端到端文字识别模型框架以识别包装袋上的文字与位置。识别过程：采用图片处理模型输出的预测值数列的最大n个值所属于的类别标签作为结果一，和采用文字处理模型输出的相关度数列的最大的n个值所属于的类别标签作为结果二，综合两个分结果并加权得到最终的输出。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像识别方法，其特征在于，包括：

输入图片建立图像集，其中，所述图像集至少包括：包装类食品图片和带有预设标注文字图片；

通过训练图片处理模型得到包装类食品图片中的食品类别；

通过训练文字处理模型得到文字图片中的文字和位置；

输入待识别图片；

根据所述图片处理模型识别出第一食品类别标签；

根据所述文字处理模型识别出第二食品类别标签；

通过所述第一食品类别标签和所述第二食品类别标签的相关度输出识别图片结果。

2.根据权利要求1所述的图像识别方法，其特征在于，所述通过训练图片处理模型得到包装类食品图片中的食品类别包括：

获取包装类食品图片图像集；以及

基于所述包装类食品图片图像集构建深度学习残差网络模型，

其中，构建深度学习残差网络模型包括：

确定所述深度学习残差网络模型的初始参数；

定义所述深度学习残差网络模型的优化算法；

确定所述深度学习残差网络模型的损失函数。

3.根据权利要求1所述的图像识别方法，其特征在于，所述通过训练文字处理模型得到文字图片中的文字和位置包括：

获取带有预设标注文字图片图像集；以及

基于所述带有预设标注文字图片图像构建文字处理模型，

其中，构建文字处理模型包括：

构建用于识别文字位置的自然场景文本检测模型；

构建用于识别文字内容的端到端文字识别模型。

4.根据权利要求1所述的图像识别方法，其特征在于，所述根据所述图片处理模型识别出第一食品类别标签包括：

确定所述待识别图片中的食品类别个数；

计算所述待识别图像中的食品类别预测值；

将所述食品类别预测值排序；以及

输出所述排序中多个所述食品类别预测值对应的食品类别及对应标签。

5.根据权利要求1所述的图像识别方法，其特征在于，通过所述第一食品类别标签和所述第二食品类别标签的相关度输出识别图片结果包括：

对所述第一食品类别标签进行加权处理得到第一加权食品类别标签；

对所述第二食品类别标签进行加权处理得到第二加权食品类别标签；

综合处理所述第一加权食品类别标签和所述第二加权食品类别标签，输出包装类食品类别标签。

6.一种图像识别装置，其特征在于，包括：

图像集模块，用于输入图片建立图像集，其中，所述图像集至少包括：包装类食品图片和带有预设标注文字图片；

图片训练模块，用于通过训练图片处理模型得到包装类食品图片中的食品类别；

文字训练模块，用于通过训练文字处理模型得到文字图片中的文字和位置；

输入模块，用于输入待识别图片；

图片识别模块，用于根据所述图片处理模型识别出第一食品类别标签；

文字识别模块，用于根据所述文字处理模型识别出第二食品类别标签；

输出模块，用于通过所述第一食品类别标签和所述第二食品类别标签的相关度输出识别图片结果。

7.根据权利要求6所述的图像识别装置，其特征在于，所述图片训练模块包括：

获取单元，用于获取包装类食品图片图像集；以及

深度学习残差网络模型构建单元，用于基于所述包装类食品图片图像集构建深度学习残差网络模型，

其中，构建深度学习残差网络模型包括：

确定所述深度学习残差网络模型的初始参数；

定义所述深度学习残差网络模型的优化算法；

确定所述深度学习残差网络模型的损失函数。

8.根据权利要求6所述的图像识别装置，其特征在于，所述文字训练模块包括：

获取单元，用于获取带有预设标注文字图片图像集；以及

文字处理模型构建单元，用于基于所述带有预设标注文字图片图像构建文字处理模型，

其中，构建文字处理模型包括：

构建用于识别文字位置的自然场景文本检测模型；

构建用于识别文字内容的端到端文字识别模型。

9.根据权利要求6所述的图像识别装置，其特征在于，所述图片识别模块包括：

确定单元，用于确定所述待识别图片中的食品类别个数；

计算单元，用于计算所述待识别图像中的食品类别预测值；

排序单元，用于将所述食品类别预测值排序；以及

输出单元，用于输出所述排序中多个所述食品类别预测值对应的食品类别及对应标签。

10.根据权利要求6所述的图像识别装置，其特征在于，通过输出模块包括：

第一加权处理单元，用于对所述第一食品类别标签进行加权处理得到第一加权食品类别标签；

第二加权处理单元，用于对所述第二食品类别标签进行加权处理得到第二加权食品类别标签；

综合处理单元，用于综合处理所述第一加权食品类别标签和所述第二加权食品类别标签，输出包装类食品类别标签。