CN111046920A

CN111046920A - 一种训练食品图像分类模型的方法及图像分类方法

Info

Publication number: CN111046920A
Application number: CN201911152246.XA
Authority: CN
Inventors: 蒋树强; 刘林虎; 闵巍庆
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2020-04-21

Abstract

本发明提供一种训练食品图像分类模型的方法及图像分类方法，所述方法包括：分别构建多尺度的食品原材料神经网络以及多尺度的食品类别神经网络，对目标图像进行多尺度划分；对于目标图像的每种类型特征，分别进行多尺度融合，对于融合后的三种类型特征进行融合；将融合后的特征输入到基于融合特征的分类器进行分类。本发明创新性地提出了高级食品语义分布和深度视觉特征的互补性融合，并且进一步将原材料属性信息与高级食品语义分布和深度视觉特征进行融合，解决了食品图像的非刚性结构和几何变形问题，更加有利于食品图像的识别。并且，本发明通过多尺度融合方式，弥补了食品图像不具备空间排列特性的缺陷，最大限度地提高了分类性能。

Description

一种训练食品图像分类模型的方法及图像分类方法

技术领域

本发明涉及图像识别领域，尤其涉及食品图像分类。

背景技术

食品是人们生活的物质基础，良好的饮食习惯可以预防各种慢性疾病(如肥胖、糖尿病等)。食品图像分类又有着广泛的实际运用，比如智能手环来分析你的饮食营养、智慧餐厅自助结账等。

但是食品图像分类也存在一定的难点：(1)在现实生活中，食品图像包含与食品无关的背景信息；(2)同一类别中的食品图像可能具有明显的差异性，而它们却和不同类别的相似；(3)食品图像没有任何独特的空间形状，也没有独特的外观，会随着烹饪的方法而改变，因此缺乏刚性结构。

为了解决以上问题，有些工作基于Faster-R-CNN提取显著性区域后进行食品图像的分类(参见梅舒欢，闵巍庆,刘林虎等人发表于南京信息工程大学学报(自然科学版),2017(06):73-79的“基于Faster R-CNN的食品图像检索和分类”)。这种方法有效的去除了复杂的背景信息，捕捉到食品主体显著性区域，从而提升分类性能；有些研究工作提出一个能够捕获食物垂直结构的技术框架(参见MartinelN,Foresti G L,Micheloni C发表于IEEEWinter Conference on Applications of Computer Vision，2018的“Wide-SliceResidual Networks for Food Recognition”)。这个框架有效的捕捉到食品图像的各种垂直结构，然后和原始图像做一个特征融合进行食品图像分类，大大的提高了食品图像分类的性能；有些研究工作运用食品图像的原材料信息来进行多任务学习(参见Chen J,Ngo C W发表于Proceedings of the2016ACM on Multimedia Conference.2016:32-41的“Deep-based ingredientrecognition for cooking recipe retrieval”)。他们提出同时使用原材料多标签和类别单标签信息共同学习的方法来提升分类性能。

现有方法大多是通过卷积神经网络(CNN)直接提取深度视觉特征用于食品图像分类，他们忽略了食物图像的特点，因此难以实现最佳性能。另外，现有方法忽略了食品图像也可以看作是细粒度图像，可以借鉴细粒度图像识别的方法，但是食品图像却没有共同的语义部分，因此增加了一定的识别难度。

发明内容

本发明的目的是解决上述现有技术并没有针对食品图像非刚性结构进行研究也没有考虑它的几何变形问题，因此提出了一种基于融合多尺度多视角特征的食品图像分类模型训练方法以及图像分类方法。

诸如在背景部分所分析的，现有方法大多没有考虑食品图像特定的上下文信息：原材料信息，使用额外的原材料信息可以增加食品图像分类的性能。在进行食品图像分类领域的研究时，本申请的发明人发现食品图像分类和细粒度图像分类一样，最主要的关键点是提取最具有判别性的特征。然而，食品图像却面临不同于细粒度图像的挑战。首先，与一般的物体分类任务不同，许多类型的食品不具有独特的空间布局。它们通常是非刚性的，而且结构信息不容易被利用。因此，标准的物体分类方法在食品图像上性能不佳。现有的方法仅限于具有某些视觉上独特的空间排列的食物类型，例如垂直结构(例如汉堡包、蛋糕)。其次，细粒度图像分类的第一步通常是发现某些主体的固定语义部分，例如鸟类和汽车。但是，许多类型的食物图像中不存在共同的语义部分，因此，很难通过现有的细粒度方法从食物图像中捕获语义信息。另外，类似于物体识别(object recognition)，食品图像还具有各种几何变体，例如不同的视角，旋转和比例。它要求食品分类方法应具有几何不变性来识别食品图像。现有的食物识别方法通常使用CNN直接从整个食物图像中提取视觉特征，并且没有考虑几何不变性。这是因为CNN只能通过最大池化来处理具有小规模变形的图像。

具体而言，本申请的发明人在研究过程中发现，食品图像所特有的原材料属性学习可以有助于食品图像分类。除了原材料属性表示以外，CNN的高级食品语义分布和深度视觉特征还可以从不同的视角和粒度提供互补信息。发明人注意到，如果将这三种类型的特征聚合在一起，可以最大可能地从食物图像中捕获语义信息，以应对食品图像的非刚性结构。

虽然食品通常不具有独特的空间排列，但发明人尝试探索不同尺度的食品区域块(patch)图像，然后将它们融合成多尺度的特征表示。这种表示可以将特征从粗尺度融合到精细尺度，因此它们的特征包含来自判别性区域的信息。所以，多尺度融合可以对几何变形更加鲁棒。基于以上研究发现，发明人提出了本发明的基于融合多尺度多视角特征的食品图像分类方法。

根据本发明的一个方面，提出了一种训练食品图像分类模型的方法，所述方法包括：

步骤(1)、分别构建多尺度的食品原材料神经网络以及多尺度的食品类别神经网络，所述食品类别神经网络包含基于融合特征的分类器；

步骤(2)、以带有标签的训练图像作为目标图像，对所述食品原材料神经网络以及食品类别神经网络进行训练，其中对目标图像进行多尺度划分，对于每个尺度利用所述食品原材料神经网络获得预测的原材料概率分布作为第一类特征，利用所述食品类别神经网络获取目标图像的类别概率分布特征和深度视觉特征，分别作为第二和第三类特征；

步骤(3)、对于所述目标图像的每种类型特征，分别进行多尺度融合，对于融合后的三种类型特征进行融合；

步骤(4)、将融合后的特征输入到基于融合特征的分类器进行分类。

在一种优选实现方式中，所述深度视觉特征包括：所述类别神经网络输出层下层预定层数内的视觉特征。

在另一种优选实现方式中，所述食品原材料神经网络和所述食品类别神经网络采用卷积神经网络，对所述食品原材料神经网络以及食品类别神经网络进行训练包括每一个尺度的图像，分别训练一个食品原材料神经网络模型以及食品类别神经网络模型。

在另一种优选实现方式中，包括利用食品类别的预测概率与真实类别的交叉熵来优化所述食品类别神经网络：

以使得该交叉熵最小。

在另一种优选实现方式中，包括训练时使用交叉熵损失函数来优化所述食品原材料神经网络，直至使优化目标最小

在另一种优选实现方式中，所述多尺度划分包括：对于每一张图像，将图像的横向和纵向分别进行2^N等分，N为大于等于0的整数。根据权利要求1所述的融合多尺度多视角特征的食品图像分类方法，其特征在于，所述步骤(3)中采用下述方式进行三种类型特征的融合：

其中，Norm()是归一化操作，Agg()是特征融合操作，

分别为三种类型特征的多尺度融合。

在另一种优选实现方式中，所述步骤(2)包括在进行类别概率分布特征提取时，所述食品类别神经网络输出层之下预定层数的视觉特征当作深度视觉特征。

根据本发明的另一方面，提供一种利用上述方法训练的模型进行食品图像分类的方法，包括：

将待分类图像作为目标图像代入所述训练好的模型进行分类。

根据本发明的另一方面，提供一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现所述的方法。

根据本发明的再一方面，提供一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现所述的方法。

本发明中提出了将三种类型特征进行融合，即融合了中层原材料属性特征、卷积神经网络(CNN)的高层食品语义特征以及深度视觉特征，从而可以最大可能地从食物图像中捕获语义信息，提升食品图像的分类性能。

本发明提出了多尺度食品图像的使用。可以探索不同尺度的食品局部区域块(patch)图像，比如全局(global)、整张图像取四个局部区域块(patch)图像。将不同尺度的图像合成多尺度的特征表示，这种表示可以将特征从粗尺度融合到精细尺度，因此它们的特征包含来自判别性区域的信息，所以，多尺度融合可以对几何变形更加鲁棒，从而提升食品分类的性能。

本发明将图像多尺度和多视角特征两个方面融合进一个方法框架，更能针对食品图像的固有特点，最大可能地提升分类性能。本发明额外运用了食品图像特有的原材料信息，中层原材料属性特征使特征之间更具有互补性。

相比于现有技术，本发明创新性地提出了高级食品语义分布和深度视觉特征的互补性融合，并且进一步将原材料属性信息与高级食品语义分布和深度视觉特征进行融合，解决了食品图像的非刚性结构和几何变形问题，更加有利于食品图像的识别。并且，本发明通过多尺度融合方式，弥补了食品图像不具备空间排列特性的缺陷。采用本发明的多尺度、多视角融合方法，最大限度地提高了模型训练效果以及相应分类性能，在多个公共数据集(ETH Food-101、VireoFood-172)都达到最佳分类性能。

附图说明

以下附图仅对本发明作示意性的说明和解释，并不用于限定本发明的范围，其中：

图1为基于融合多尺度多视角特征的食品图像分类方法框架

具体实施方式

为了使本发明的目的、技术方案、设计方法及优点更加清楚明了，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

总体而言，根据本发明的一个实施例，输入一张食品图像之后，采用多尺度融合架构提取和融合具有不同尺度和不同的三种类型特征。本实施例中，对于每一个尺度分别进行类别和原材料网络的构建和训练。通过类别网络，可以提取面向类别信息的多尺度语义分布和更抽象的深度视觉特征。为了获得中级属性特征，本实施例中使用了食品图像特有的原材料信息，并设计了原材料网络，以多尺度的方式提取中级属性特征。对于每种类型的特征，发明人通过多尺度融合的方式融合来自不同尺度的特征。这三种融合的多尺度特征进一步进行归一化，然后通过多视角特征融合成最终图像的特征表示。

接下来，将详细介绍本实施例中采用的技术方案，需要说明的是，下面的图像处理过程对于神经网络的训练阶段以及测试或实际分类应用阶段都是相同的，区别仅在于训练阶段是基于图像以及相应类别标签对神经网络参数进行迭代优化，应用阶段在对图像进行特征提取以及融合之后，直接基于融合后的多尺度、多视角特征进行分类。

本实施例中的模型训练以及食品图像分类的过程如下：

(1)分别构建多尺度的食品原材料神经网络以及多尺度的食品类别神经网络。

如图1所示，整个架构包含2个深度神经网络，分别是原材料网络和类别网络。两个神经网络可以使用现有普遍流行的CNN当做基础网络，比如VGG，ResNet和DenseNet。

(2)进行图像划分以及特征的提取

(2.1)图像划分

本实施例中，对每一张图像进行了多尺度划分，即，对于每一张图像，L＝1代表整个食品图像，L＝2代表将图像的横向和纵向分别进行2等分，分成4个区域块(patch)，L＝3，代表横向和纵向分别4等分，分成16个区域块，以此类推，L＝N代表的是最细粒的尺度，N为自然数。从而，形成了多个尺度的食品图像。

(2.2)特征提取

(2.21)中层属性特征

食品图像分类属于细粒度图像分类，由于其视觉信息的复杂性使得分类性能不理想。仅仅使用食品类别信息可能识别性能不高。但是，发明人发现，食品图像有丰富的原材料属性信息，结合原材料信息可以最大可能的提高分类性能。

因此，对于每一个尺度，都利用上述原材料网络训练一个原材料网络模型，这是本领域技术人员都能够实现的，这里不再详述。

原材料网络采用带有标签的图像数据集进行训练，每幅图像代表一种食品，标签则是其中所包含的各种原材料类别。

在原材料网络训练好之后，可以将多尺度的食品图像分别输入到各自的原材料网络模型中，进行原材料特征的提取获得该图像对应的中层属性特征。

以第一个尺度为例，即整张图像，通过将其输入相应原材料网络模型，可以得到每张图片x的属性分布：

式中M代表的是整个数据集原材料的个数(比如数据集ETH Food-101原材料个数为227)；

代表的是第m个原材料的预测概率(比如在原材料总数227维向量上，每一维的预测概率)，其概率可以通过sigmoid函数计算得到。

x表示的是属性向量中的值(比如227维向量某一维的数值，其输出这个维度的概率。)

食品图像原材料属性学习其实质是多标签分类，故使用交叉熵损失函数来优化整个原材料网络，使用随机梯度下降法来更新参数，直至使优化目标最小:

其中，a^m表示二值化的标签(0表示当前图片或当前研究区域中不包含该原材料，1表示当前图片或当前研究区域中包含该原材料)。

比如青椒土豆丝这道菜，包含原材料：青椒，土豆，在原材料总数227维的向量上，只有青椒和土豆这两个维度为1，其余的维度都等于0。通过卷积神经网络，可以得到原材料227维上的预测概率，即

整个网络的优化目标是使得L_I最小，其作用是让原材料预测概率

约等于真实二值化标签a^m。通过原材料网络，可以把预测的原材料概率分布

当作中层属性特征。

(2.22)高层语义特征

食品类别神经网络与原材料网络不同的是类别网络使用类别标签去监督整个卷积神经网络。类别网络最后一层输出的是语义概率分布(类别概率分布)，它通常表示的是高层的语义信息。

通常从头开始训练一个卷积神经网络，需要大量的计算资源和时间开销，故而优选地，根据本发明的另一个实施例，采用迁移学习的思想，使用在ImageNet(一个大规模数据集)上预训练的神经网络的参数来初始化本实施例的类别神经网络，这个操作为微调(fine-tune)。为了获得高层语义特征，微调(fine-tune)以类别信息监督的深度神经网络。在类别网络中，卷积神经网络(CNN)使用softmax函数输出最后一层的概率分布，

c表示数据集类别的数量(比如数据集ETH Food-101的类别数量为101)。x表示的是向量中的值(比如101维向量某一维的数值，其输出这个维度的概率。)

最后利用食品类别的预测概率与真实类别的交叉熵来优化整个类别网络，使用随机梯度下降法来更新类别神经网络的参数，直至使优化目标最小：

类别神经网络的优化目标是使得L^c最小，其作用是让预测的概率

约等于真实的标签y。比如青椒土豆丝这道菜的类别是青椒土豆丝类别，整个数据集的类别数目为101，真实标签y在青椒土豆丝维度为1，其余维度为0。

是类别神经网络预测的概率分布(即在101维度上每一维的概率值)。经过微调类别神经网络，直到类别神经网络优化目标L^c最小时，提取预测的类别概率分布

当作高层语义特征，C表示的是类别数。

(2.23)深度视觉特征

在卷积神经网络，低层的卷积可以获取图像的颜色、轮廓、形状等特征，逐层提取，越往高层越复杂抽象，靠近类别输出层的特征更能捕获到具有该类别最有判别性的特征，故此可以称作深度视觉特征，靠近输出层的类别神经网络层也包含独立的类别相关信息。因此，除了高层语义特征，本实施例中，当类别神经网络优化目标L^c最小时(训练至收敛)，也提取靠近输出层的特征当作深度视觉特征(可以定义为输出层下层预定层数的特征，比如，比输出层低1-3层的视觉特征)，比如VGG-16网络中fc7层的4096维特征。深度视觉特征可以表示为

其中D代表特征维度数。

当获得所有类型的特征后，将其融合为统一的特征的表示。考虑到不同特征之间的值会不一样，所以发明人首先对这些特征进行归一化，然后进行特征融合：

Norm()是归一化操作，可以采用比如L2归一化或者Z-score归一化。Agg()是特征融合方式，比如简单的串连操作或者前馈神经网络。

(1)多尺度特征融合

对于每种类型的特征，可以采用多尺度卷积神经网络来提取每个尺度的特征，然后将不同尺度同一特征融合成统一的特征表示。以中层属性特征为例子，L＝1代表整个食品图像，而L＝2代表提取图像的4个区域块(patch)，L＝N代表的是最细粒的尺度。对于每一个尺度L，都训练了一个原材料模型去提取中层属性特征。例如对于L＝1的尺度，将整个图片输入到原材料网络；对于L＝2的尺度，将一张图片的4个区域块(patch)输入到原材料网络，分别提取各个区域块的属性特征，然后使用最大池化(Maxpooing)的方式将4个区域块的特征表示成一张图片的特征表示。最终，可以得到不同尺度的属性特征

同理，对于高层语义特征和深度视觉特征，依然使用多个尺度：L＝1代表整个食品图像，而L＝2代表提取图像的4个区域块(patch)，L＝N代表的是最细粒的尺度。对于每一个尺度L，都训练一个类别神经网络去提取语义特征

和深度视觉特征

对于L＝1的尺度，我们将整张图片输入到类别神经网络，对于L＝2的尺度，将一张图片的4个区域块(patch)输入到网络，可以获得不同尺度的语义特征

和深度视觉特征

然后使用最大池化(Maxpooing)的方式将4个区域块(patch)的特征表示成一张图片的特征表示。

(3)多尺度融合

当特征提取完，就可以分别采用多尺度融合，分别对上述三种特征的各个尺度特征进行融合，得到三种融合后的特征。三种类型特征的多尺度融合可以表示成

融合操作Fus()可以是简单的串连或者前馈神经网络操作，在实际操作中可以采用简单的串连方式进行不同尺度间的融合。

(4)多视角特征融合

经过多尺度融合后，可以获得多尺度融合后的特征。在本实施例的方案中，有三种不同的特征，所以采用多视角融合方式，就可以得到一张图像的特征表示。多视角融合可以表示成:

Norm()是归一化操作，比如L2归一化，Z-score归一化。Agg()是特征融合操作，比如简单的串连或者前馈神经网络。

(4)最终，将融合后的特征输入到基于融合特征的softmax分类器中进行分类，(比如数据集的类别数目为101，softmax分类器会输出101维的向量，表示的是每一类的预测概率)通常取概率值最大的类表示食品图像的类别。需要说明的是，此处基于融合特征的softmax分类器与步骤(2)中特征提取过程中采用的softmax分类器为两个不同的分类器，进行类别神经网络训练时，分别针对多尺度的图像的分类以及融合特征训练不同的softmax分类器，第一个softmax分类器用于步骤(2)中的类别概率分布确定，第二个基于融合特征的softmax分类器用于基于融合特征进行食品图像分类。

(5)，将带有标签的训练图像作为输入图像，按照步骤(2)-(4)对食品原材料神经网络以及食品类别神经网络进行训练。优选地，对于每一个尺度，分别训练食品原材料神经网络以及食品类别神经网络，从而形成对于每一个尺度的食品原材料神经网络模型和食品类别神经网络模型。

(6)将待分类图像作为目标图像代入训练好的食品原材料神经网络和食品类别神经网络进行分类，该步骤包括：

对待分类图像进行多尺度划分，对于每个尺度利用所述食品原材料神经网络获得预测的原材料概率分布作为第一类特征，利用所述食品类别神经网络获取目标图像的类别概率分布特征和深度视觉特征，分别作为第二和第三类特征；

对于所述待分类图像的每种类型特征，分别进行多尺度融合，对于融合后的三种类型特征进行融合；

将融合后的特征输入到基于融合特征的分类器进行分类。

通过多尺度多角度的融合，本发明方法在多个公共数据集(ETH Food-101、VireoFood-172)都达到最好分类性能。而且多尺度多角度的融合更具有特征互补性，提升分类性能。

下面表1给出了在公共数据集ETH Food-101上采用本发明方法和现有方法的分类准确性对比。表中Top1准确率表示：预测分类概率最大的标签和真实的标签相同。Top5准确率表示：预测分类概率前五名中的标签和真实标签相同。

表1

表2中给出了在公共数据集VireoFood-172上采用本发明方法与现有其他方法进行分类的准确性对比，表中Top1和Top5的含义与表1相同。

方法	Top1准确率(％)	Top5准确率(％)
			AlexNet	64.91	85.32
VGG-16	80.41	94.59
			DenseNet-161	86.93	97.17
MultiTaskDCNN(VGG-16)	82.06	95.88
			MultiTaskDCNN(DenseNet-161)	87.21	97.29
本发明方法	90.61	98.31

表2

从上面各个表格中的对比可以看出采用多尺度融合的方式，可以有效提升分类的准确率。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。