CN111222546A

CN111222546A - 一种多尺度融合的食品图像分类模型训练及图像分类方法

Info

Publication number: CN111222546A
Application number: CN201911373760.6A
Authority: CN
Inventors: 蒋树强; 罗正东; 闵巍庆
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-06-02
Anticipated expiration: 2039-12-27
Also published as: CN111222546B

Abstract

本发明提供一种训练食品图像分类模型的方法，所述方法包括：对食品图像进行多尺度切割，形成包含原图像的多尺度食品切割图像；分别构建多个尺度的卷积神经网络模型，每个卷积神经网络模型对应一个尺度的食品切割图像；利用带有类别标签的食品图像作为目标图像，将其多尺度切割后代入多个尺度的卷积神经网络模型，利用预测的类别概率与真实的类别标签的比对结果作为反馈来进行多个尺度的卷积神经网络模型的优化。本发明创新性地提出了在原图像基础上进行多尺度切割形成多尺度切片的方式题。本发明在多个公共数据集都达到目前最好的识别性能：本发明的方法在公共数据集ETH Food‑101上可以达到90.56％的识别准确率，在公共数据集VireoFood‑172上可以达到90.61％的识别准确率。

Description

一种多尺度融合的食品图像分类模型训练及图像分类方法

技术领域

本发明图像识别领域，尤其涉及基于深度神经网络融合的食品图像识别模型训练及相应识别方法。

背景技术

在食品图像识别领域，现有的技术大多是用将简单的识别方法用于一种装置，即只是作为识别设备(比如智能冰箱)的一个模块，而没有针对食物图像识别方法进行专门深入的改善。这类技术偏实用，主要实现方案是：(1)食物图像获取和处理；(2)训练模型以提取特征；(3)嵌入装置识别模块，进行实际识别。第(1)种方案用于对小数量的食品区域进行标注(比如，参见申请号为CN201810620629.4的中国专利“一种自动检测食物新鲜度的智能冰箱”)等处理，不适用于现实中大量无标注的食品图像。第(2)种方案所使用的模型比较传统，不是现在识别性能较好的深度神经网络模型(比如，参见申请号为CN201810736434.6的中国专利“一种计算图像中食物热量的方法及装置”)。第(3)种方案识别的数量有限(比如，参见申请号为CN201810038061.5的中国专利申请“一种基于卷积神经网络的中餐食物识别方法”)。还有一类偏重方法识别技术研究的专利，其使用的方法识别食物类别较少或只识别中国菜，且使用的识别方法不是现在主流的深度神经网络，其识别性能不是最佳。

专利CN201810620629.4“一种自动检测食物新鲜度的智能冰箱”中使用的是标注图像，必须要进行图像的大规模标注。并且该专利需要先对食物图像中食物部分找出，圈出食品区域，需要大量人工介入，繁琐复杂。

专利CN201810736434.6“一种计算图像中食物热量的方法及装置”中运用模糊C值法对像素聚类来进行切割，模糊聚类会损失一定的食物图像信息。

专利CN201810038061.5“一种基于卷积神经网络的中餐食物识别方法”是对整图进行卷积操作，并且该专利只对中餐进行识别，食物种类25种且图片不足一万，可识别的食物种类较少。

另外，专利申请CN201810054620.1，“一种基于神经网络的食物识别方法”中提出了对图像进行的LBP(Local Binary Pattern，局部二值模式)特征计算，但是，这种二值化特征会损失部分精准结果。

专利申请CN109034196A“模型生成方法及装置、食物识别方法及装置”，提出了中国食品识别模型生成方法，但是，该专利只是对全局图像做卷积操作，仅适用于中国菜。

因此，现有的食品图像识别方法要么适用范围有限，要么会带来严重的精度损失，准确性欠佳，均存在各自的问题，无法解决。

发明内容

针对上述问题，本申请的发明人希望提供一种食物图像数据处理更加简单、适用范围更广、识别准确性更高的食品图像识别方法。

本申请的发明人在进行食物图像识别技术研究时，发现现有的图像识别技术不能完全适用于食物图像识别，这是由食物自身非刚性结构导致的。

相同的食物经过不同的烹饪方式等过程会形成不同的菜品。现有图像识别技术没有考虑这个食物特点的原因可能是因为食物图像识别是一个相对比较新的研究内容，业界现有常用的食品图像数据集数量较少。现代人们越来越关注身体健康生活质量，尤其对自己吃进的食物也越来越开始重视。所以食物图像识别虽然是个新研究内容，但是却极具研究价值。针对食物图像非刚性结构的特点，发明人首次提出了通过多尺度的图像块来进行方法改进，以解决食物自身非刚性结构导致的识别方法不适用问题。

因此，本发明在解决了食物自身非刚性结构导致的识别方法不适用问题的基础上，提出了一种多尺度融合的食品图像分类模型训练及图像分类方法，该方法基于深度神经网络、融合多尺度视觉特征，可以进行有效的食品图像识别。

具体而言，本发明提供了一种训练食品图像分类模型的方法，其特征在于，所述方法包括：

步骤(1)、对带有类别标签的食品图像分别进行多尺度切割，形成包含原图像的多个尺度的食品图像；

步骤(2)、分别构建多个尺度的卷积神经网络模型，每个卷积神经网络模型对应一个尺度的食品图像；

步骤(3)、利用所述带有类别标签的食品图像及其多个尺度的食品图像作为训练数据，分别代入多个尺度的卷积神经网络模型进行特征提取；以及

步骤(4)、将所提取的多个尺度的食品图像的特征进行融合，基于融合特征对所述食品图像的类别进行预测并与相应标签进行比对，基于比对结果对所述多个尺度的卷积神经网络模型进行训练。

在一种优选实现方式中，所述步骤(4)还包括利用预测的类别概率与真实的类别标签的交叉熵函数来进行卷积神经网络模型的优化。

在另一种优选实现方式中，所述步骤(3)还包括提取出每张图片的最后一个池化层特征和最后一个全连接层的特征。

在另一种优选实现方式中，所述步骤(3)还包括对原图像的特征进行正则化操作，对切割图像的特征进行最大池化，继而进行正则化操作。

在另一种优选实现方式中，所述步骤(4)还包括使用softmax分类器做类别预测。

在另一种优选实现方式中，所述图像切割包括对于每一张图像，将图像的横向和纵向分别进行2^N等分，N为大于等于0的整数，各等分后的区块可拼接成原图像。

在另一种优选实现方式中，对于每一张图像，将图像的横向和纵向分别进行4等分和16等分。

根据本发明的另一方面，提供一种利用所述方法训练的模型进行食品图像分类的方法，包括：

1)将待分类食品图像作为目标图像，进行多尺度切割，形成包含原图像的多个尺度的食品图像；

2)待分类食品图像及其多个尺度的食品图像代入训练好的所述模型进行分类。

根据本发明的另一方面，提供一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现上述方法。

根据本发明的另一方面，提供一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述方法。

相比于现有技术，本发明创新性地提出了在原图像基础上进行多尺度切割形成多尺度切片的方式，既实现了多尺度的图像利用，又使得多尺度的图像信息包含整个图像+所有局部图像信息，有利于解决食品图像非刚性的问题。本发明不仅考虑食物图像的全局特征，同时从食物图像数据非刚性的特点出发，考虑多尺度图像信息对识别性能的影响，最后本发明在多个公共数据集(如ETH Food-101、VireoFood-172等)都达到目前最好的识别性能：本发明的方法在公共数据集ETH Food-101上可以达到90.56％的识别准确率，在公共数据集VireoFood-172上可以达到90.61％的识别准确率。

另外，本发明采用均分方法对图像处理。本发明的数据处理方法更简单，结合本发明的融合方案效果更加有效，本发明的使用的食物图像数据处理更加简单。对于图像内部没有标注的食物图像一样有效，内部标注是指：bounding-box标注，轮廓标注等。

附图说明

以下附图仅对本发明作示意性的说明和解释，并不用于限定本发明的范围，其中：

图1为本发明的食品图像识别方法的示意图。

具体实施方式

为了使本发明的目的、技术方案、设计方法及优点更加清楚明了，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

对于输入的任意一张图像，可以采用下述步骤对其进行分类模型训练以及图像类别识别。

(1)图像切割。对于每张食物图像区，对其进行等面积切割，切割成2^N份，N大于等于1，比如，可以分别切割成4块切片和16块切片，这样加上原有食品图像，可以得到三种不同尺度的图像。即，对于每一张图像，scale_1代表整个食品图像，scale_2代表将图像的横向和纵向分别进行2等分，分成4个区域块(patch)，scale_3，代表横向和纵向分别4等分，分成16个区域块(或称切割图像)。虽然本实施例中只分成三个尺度，但是本领域技术人员以此类推，可以进行更多尺度划分，比如scale_N代表的是最细粒的尺度，N为自然数。从而，形成了多个尺度的食品图像。

(2)模型构建。分别构建多个尺度的卷积神经网络模型，本实施例中为三种尺度的卷积神经网络模型，每个卷积神经网络模型与一个尺度的图像相对应。将三种尺度的图像分别输入到CNN(比如Densenet，VGG16,Resnet)卷积神经网络模型中，本实施例中以Densenet为例进行说明。

Densenet卷积神经网络与其他卷积神经网络的区别在于：Densenet从第二卷积层开始，将之前卷积层的输出再全部作为本层输入。本实施例中，Densenet卷积神经网络包含n个卷积层(n的数值本领域技术人员可以根据需要进行设定)、一个池化层、一个全连接层。

(3)提取特征。针对三种不同尺度图像的切片，用相应的卷积神经网络模型(在训练阶段采用初始构建模型，在应用阶段采用训练好的模型)提取三种尺度图像的特征。提取出每张图片的最后一个池化层特征(2208维特征)和最后一个全连接层的特征(特征维度等于数据集中食物类别数)。每个图片提取1个整图特征表示

4个4切片图特征表示

16个16切片图特征表示

(4)特征处理。对整图特征作L2正则化操作，对4块切片和16块切片的特征先做最大池化再做L2正则化操作。

(5)特征融合。将正则化处理后的三种尺度的特征全部深度融合，即三种特征分别做归一化计算，然后串接起来。

其中，步骤(4)和(5)组合公式如下：

其中，MP表示对多个特征的maxpooling最大池化操作，就是对多个特征向量做比较，取某个维度的最大值来作为池化后的特征。比如4个

特征池化后得到一个由各维度最大值组成的1个新特征Y⁴，16个

特征池化后得到一个由各维度最大值组成的1个新特征Y¹⁶，Norm表示正则化操作，比如常用的L2归一化。Con是concate操作，即三个特征串接起来，F表示图像的最终特征表示。

(6)分类预测。使用softmax分类器做类别预测。

P＝softmax (F)

其中，F是步骤(5)中获得的最终图像特征向量，softmax是一个函数分类器，P代表预测概率向量。P中最大值的位置代表了最有可能是这个位置对应的食品类别。

新构建的模型并不能够直接用于图像分类，需要进行训练。因此，需要利用带有标签的训练数据集按照上述步骤代入各个尺度的卷积神经网络模型对食品图像进行分割、特征提取、特征处理融合以及分类预测，并对卷积神经网络模型进行微调，微调是深度学习模型训练的一种方法，比如先用0.1的学习率进行模型训练，然后再选取0.1学习率结果中最好性能的参数，作为下一阶段0.01学习率的初始参数继续进行模型训练。模型训练中，卷积神经网络是对最后的全连接层特征用softmax函数(普通常用的标准softmax函数)来计算概率分布，利用预测的类别概率与真实的类别标签的交叉熵函数来优化整个训练网络：

其中，

代表预测的类标签特征向量，y表示真实的标签特征向量，优化的目标是让L^c尽可能的小，则表示预测结果和真实标签很接近。

通过这样调整损失函数的办法，可以得到一个softmax分类器，分类器计算出的结果是每个图像的概率分布

以此作为图像的特征表示

应用阶段，可以利用该分类器进行图像的类别划分。

下面结合具体的神经网络模型以及具体应用——pizza图像识别，对本实施例的图像识别方法进一步详细说明。

训练学习阶段，选取带有标签的训练集，训练集中至少包括披萨pizza图像。对于每个带有相应类别标签的训练图像按照上述方式进行图像处理和特征提取操作代入卷积神经网络模型，然后输入分类器中进行分类，通过利用神经网络模型获得的分类结果与实际真实结果的比较进行反馈，从而不断调整模型参数以及分类器参数，最终获得训练好的模型。具体而言，分别进行图像切割、对于每个尺度图像分别进行特征提取，从而训练好对于每个尺度图像的神经网络模型，然后将特征提取后的图像分别进行正则化处理，然后将正则化处理后的多个尺度图像进行融合，本实施例中融合采用串联拼接方式。然后，利用softmax分类器基于融合后的特征对图像进行分类，并将分类结果与该图像所对应的标签进行比对，将比对结果反馈回神经网络模型，进行迭代优化，从而训练出分别针对三种尺度的神经网络模型。例如，要预测pizza这道食品，真实的类别概率表示y是：把所有类的概率表示成一个与类别数目相等维度的n维列向量，pizza这个位置对应的特征值是1，其他n-1个位置都是0，而网络经过softmax预测的标签特征

也是一个n维的列向量，n个位置的值都0～1之间，且这n个值的概率和为1，然后用L^c来判断预测

和真实y之间的交叉熵，值越小说明预测越准确。

在应用阶段，如图1中的方法框架图所示，对披萨(pizza)的识别过程包括：对于每张食品图像，先制作三种尺度的图像切片：原图-scale_1，原图均分成4块-scale_2，原图均分成16块-scale_3，然后再把这三种尺度的图像分别输入三个训练好的Densenet网络，使用训练好的卷积神经网络模型分别提取三种尺度图像的特征，对所提取特征进行正则化处理，最后对各尺度的特征做融合，再用一个softmax函数(深度学习通用固定的函数)计算输入图片在数据集中属于哪一类别的概率，根据概率大小，其中pizza得分最高，则可判断输入图片的食物是pizza。

本发明的方法对整图进行均匀切割，分别对原有的整图进行等分的4个图像块和16图像块切割。从而从原有一种全局尺度的图像变为多种从尺度的图像(原图，4分图，16分图)，所有切割后的小图像合起来包含了原来整图的食物图像信息。并且本发明不但对整图进行卷积操作，还对切割的分图进行卷积操作，这种方法可以学习到更多的关于食物的信息，解决食品图像非刚性的问题，从而提升效果。

本发明的方法适用范围广，可对中餐、西餐等多国菜进行识别，识别食物种类多达172类，图片数量多达10张以上。本发明方法不使用二值化特征值，而是使用连续性数值，识别更加精确(即本申请中，特征向量中的数值为0～1之间的任意数，比如0.223,0.645这样的连续范围值，而不是只有0或1两个离散值)。即本发明的特征向量里的是0～1之间的任意数，比如0.223,0.645这样的连续范围值，而不是只有0或1两个离散值。

为了验证本发明的效果，申请人采用ETH Food-101、VireoFood-172等公共数据集进行了测试，都达到目前最好的识别性能，本发明的方法在公共数据集ETH Food-101上可以达到90.56％的识别准确率，在公共数据集VireoFood-172上可以达到90.61％的识别准确率，这明显高于现有方法的识别准确率。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种训练食品图像分类模型的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，

所述步骤(4)还包括利用预测的类别概率与真实的类别标签的交叉熵函数来进行卷积神经网络模型的优化。

3.根据权利要求1所述的方法，其特征在于，所述步骤(3)还包括提取出每张图片的最后一个池化层特征和最后一个全连接层的特征。

4.根据权利要求3所述的方法，其特征在于，所述步骤(3)还包括对原图像的特征进行正则化操作，对切割图像的特征进行最大池化，继而进行正则化操作。

5.据权利要求1所述的方法，其特征在于，所述步骤(4)还包括使用softmax分类器做类别预测。

6.根据权利要求1所述的方法，其特征在于，所述图像切割包括对于每一张图像，将图像的横向和纵向分别进行2^N等分，N为大于等于0的整数。

7.根据权利要求6所述的方法，其特征在于，对于每一张图像，将图像的横向和纵向分别进行4等分和16等分。

8.一种利用权利要求1-7之一的方法训练的模型进行食品图像分类的方法，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至7中任一项所述的方法。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任一项所述的方法。