CN107578060A

CN107578060A - 一种基于可判别区域的深度神经网络用于菜品图像分类的方法

Info

Publication number: CN107578060A
Application number: CN201710692917.6A
Authority: CN
Inventors: 李宏亮; 陈雅丽; 方清; 姚晓宇; 杨燕平
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-08-14
Filing date: 2017-08-14
Publication date: 2018-01-12
Anticipated expiration: 2037-08-14
Also published as: CN107578060B

Abstract

该发明公开了一种基于可判别区域的深度神经网络用于菜品图像分类的方法，涉及图像处理领域。融合了显著谱池化操作，同时对底层特征、高层特征在网络中加以融合。采用了卷积核填充操作，有效保留特征谱上的重要信息的同时，匹配全连接层的数据维度，使其在训练阶段能够利用VGG‑16的预训练模型，提高训练效率和网络收敛速度。基于我们构建的数据库学习到的模型，对每一幅待分类图像进行归一化处理，利用训练好的卷积神经网络对该图像进行测试，采用Softmax损失衡量分类精度，得到该图像的分类结果，对比所有测试图像中目标的真实类别和预测类别，计算得到分类准确率。本发明提出的方法在自建的数据集CFOOD90上进行测试，验证了方法的有效性和实时性。

Description

一种基于可判别区域的深度神经网络用于菜品图像分类的方法

技术领域

本发明涉及图像处理领域，特别是用于菜品图像分类的卷积神经网络的新型应用方法。

背景技术

近年来，健康饮食伴随着健身热潮成为社会焦点话题，准确地对菜品图像进行分类是智能健康饮食管理中的重要一环。尽管营养学专家可以针对健身人士、病患给出一些专业的饮食分析和咨询建议，指导他们管理卡路里和营养摄入，但其高昂的费用和时间成本限制了向大众的普及和发展。因此，迫切需要一种能直接对智能手机、平板电脑等移动设备拍摄的食物照片进行自动识别，进而对食物进行分类和管理个人饮食的方法。

基于深度卷神经网络的算法在图像分类上取得了突破性的成就，例如基于VggNet、GoogleNet、残差等深度卷积网络模型实现的图像分类都取得了不错的效果。深度卷积神经网络也被运用于菜品图像分类。一般基于深度网络的图像分类都是对整幅输入图像直接进行特征提取和分类，不仅浪费计算资源，而且增加卷积神经网络的训练时间，降低分类效率。根据菜品图像通常都居于图像中央这一特征，本发明提出基于可判别区域，结合深度卷积神经网络用于菜品图像分类。基于深度网络的可判别区域提取方法近年来取得了不错的效果，但在实时性上却不如传统方法。为了减少计算量提高运算效率，我们采用传统的基于最小障碍物距离的显著目标检测方法得到所有菜品图像的显著谱，对所得到的显著谱加权平均后进行归一化，得到一个模板，将这个模板作为提取可判别区域的参考。

中餐菜品类别丰富，食材千变万化，类间相似性高，类内差异性大，同时与目标检测不同的是，由于菜品缺少特定的空间特征以及结构信息可以作为辅助，因此，菜品分类具有很大难度。直观上看，菜品通常位于图片中央，本发明考虑提取图片的可判别区域来辅助完成菜品图像分类。通过去除与菜品无关的盘子和环境特征，将注意力集中在菜品的特征上，可以有效去除冗余信息，帮助分类具有较高类间相似性的菜品图像。

卷积神经网络是深度学习的核心，一个性能良好的卷积神经网络能在分割和其他计算机视觉任务中有非常突出的表现。低层的卷积神经网络可以提取颜色特征、边缘特征、纹理特征，高层卷积神经网络可以提取语义和上下文信息。为了提取更完备的特征，本发明采用多尺度特征融合的方式对网络进行改进，通过不同层的级联，可以提取一组完备的特征，帮助提高分类效果。同时在输入图像上也采用多尺度的方法，最终形成一组包含了多尺度输入和多尺度特征谱融合的多尺度策略。

神经网络中有数以百万计的参数，为了解决过拟合问题，先用一个大型的数据库来预训练一个模型，然后采用一个小规模的数据集在此模型上微调之外，同时采用dropout的方法，随机地让一些隐藏层节点在训练期间不工作，避免过拟合。

发明内容

本发明解决的技术问题包括：现有公开的中餐菜品图像训练数据库数量不充足的问题，现有技术中因网络参数过多而训练样本太少所产生的过拟合问题，从而准确对菜品图像进行分类。

本发明技术方案为一种基于可判别区域的深度神经网络用于菜品图像分类的方法，该方法包括：

步骤1:获取充足的训练中餐菜品图像数据，对获取的训练图像进行人工标注类别，将每一幅训练样本进行图像处理，获得额外的训练样本，对所有的训练样本进行归一化处理；

步骤2：建立一个特征提取网络,根据该特征提取网络提取出各训练样本的低层纹理特征、边缘特征和高层特征,并进行特征融合；

步骤3：将步骤2提取的融合特征输入Softmax分类器，对图像类别进行分类；

其特征在于，所述步骤2的特征提取网络包括2个输入模块，1个显著谱池化模块，第一至第五卷积模块，第一至第五池化模块，1个低层特征提取模块，1个高层特征提取模块，第一至第二特征融合模块，3个全连接层模块；所述括2个输入模块分别为待分类图像和预处理好的图像平均显著谱的模版，这2个输入模块的输出作为显著谱池化模块的输入；第一卷积模块、第一池化模，第二卷积模块、第二池化模块，第三卷积模块、第三池化模块依次级联；额外的，在第二池化模块后级联低层特征提取网络，低层特征提取网络的输出与第三池化模块的输出共同输入第一特征融合模块；第一特征融合模块后级联第四卷积模块、第四池化模块，第五卷积模块、第五池化模块；第四池化模块后同时级联高层特征提取网络，高层特征提取网络的输出与第五池化模块的输出共同输入第二特征融合模块；随后级联第一至第三全连接层模块，最后从第三全连接层模块输出。

进一步的，所述底层特征提取网络和层特征提取网络都包括：依次级联的一个卷积层、一个池化层、一个尺度层。

进一步的，第一卷积模块包含两个卷积层，顺次级联并且其参数设置一致，大小为3*3，步长为1，扩充为1；第一池化模块池化核大小为2*2，步长为2；第二卷积模块包含2个卷积层，顺次级联并且其参数设置一致，大小为3*3，步长为1，扩充为1；第二池化模块池化核大小为2*2，步长为2；所述第一、二卷积模块位于整个特征提取网络的前端，用于提取底层的边缘特征，选用较小的卷积核能够在更好地提取图像中的细节特征的同时，显著减少网络的参数，加快运行速度。第三卷积模块包含3个卷积层，顺次级联并且其参数设置一致，大小为3*3，步长为1，扩充为1；底层特征提取网络接收第二卷积模块的输出，包含一个卷积层、一个池化层、一个尺度层，其卷积层的卷积核大小为3*3，扩充为1，池化层的池化核大小为2*2，步长为2，尺度层的尺度比例为0.01；意为底层特征提取模块的输出按0.01的比例和原特征进行融合；第一特征融合模块对底层特征提取网络和第三卷积模块的输出进行融合，第三池化模块接收第一特征融合模块的输出，其池化核大小为为2*2，步长为2；第四卷积模块包含3个卷积层，顺次级联，各卷积层的卷积核大小均为3*3，步长均为1，扩充为1，其中的第三个卷积层采用卷积核填充，其填充大小为2；第四池化模块池化核大小为2*2，步长为2；第五卷积模块包含3个卷积层，顺次级联，各卷积层的卷积核大小均为3*3，步长均为1，扩充为1，卷积核填充大小为2；高层特征提取网络接收第四卷积模块的输出，包含一个卷积层、一个池化层、一个尺度层，卷积层的卷积核大小为3*3，扩充为5，池化层的池化核大小为3*3，步径为3，尺度层的尺度比例为0.0001；意为底层特征提取模块的输出按0.0001的比例和原特征进行融合。第二特征融合模块对高层特征提取模块和第五卷积模块的输出进行融合，第五池化模块池化核大小为为3*3，步长为3。

该网络的2个输入模块分别为待分类图像和预处理好的图像平均显著谱的模版图片，共同输入显著谱池化模块提取待分类图像的显著信息。这样做的目的是去除冗余信息，同时简化计算量，提高训练效率。

除了在特征谱上进行底层特征、高层特征的融合，本文还利用了多尺度输入图像信息进一步提升分类精度。VGG-16默认的输入图像尺寸为224×224，我们将输入图片的尺寸调整到448×448，以提高分类性能。输入维度的扩大意味着后续卷积层输出特征谱维度的扩大，例如VGG-16第五卷积模块第三个卷积层的默认输出维度是7×7，现在变成14×14。在卷积神经网络中，全连接层包含了大量的可学习参数，在预训练模型中占据30％-80％的比重，为了能利用这些参数，必须保证全连接层输入数据的维度和预训练模型的数据维度一致，即第13层的输出和预训练模型中的7×7一致。当在网络中进行卷积计算时，输入维度I，输出维度O，卷积核尺度Ki，卷积层填充参数P，卷积核步进参数S的关系如公式(1)所示：

O＝(I+P*2-Ki)/S+1 (1)

可以看出，通过扩大卷积核尺度Ki，可以对输出特征谱进行降维。因此，我们采用了卷积核“添0”填充的方式对特征谱进行降维。卷积核尺度Ki，填充参数D，填充后的卷积核尺度Ko的关系如公示(2)所示：

Ko＝D*(Ki-1)+1 (2)

例如，式(2)中Ki＝3，D＝2，则填充后的Ko＝5，相比于原来3×3的卷积核，只需要在第一行、第二行、第一列、第二列之后添0即可完成填充操作。该层卷积核扩大，则输出特征谱会进行相应的降维。本文中在第四卷积模块的第三个卷积层、第五卷积模块的三个卷积层中运用了卷积核填充操作，填充大小均为2。

本发明提出一种VGG-16的特征提取网络，融合了显著谱池化操作，同时对底层特征、高层特征在网络中加以融合。采用了卷积核填充操作，有效保留特征谱上的重要信息的同时，匹配全连接层的数据维度，使其在训练阶段能够利用VGG-16的预训练模型，提高训练效率和网络收敛速度。基于我们构建的数据库学习到的模型，对每一幅待分类图像进行归一化处理，利用训练好的卷积神经网络对该图像进行测试，采用Softmax损失衡量分类精度，得到该图像的分类结果，对比所有测试图像中目标的真实类别和预测类别，计算得到分类准确率。本发明提出的方法在自建的数据集CFOOD90上进行测试，验证了方法的有效性和实时性。

附图说明

图1为获得的训练中餐菜品图像数据示意图；

图2为本发明网络结构图；

图3为卷积核填充示意图。

具体实施方式

本发明主要可以分为基于可判别区域的深度神经网络用于菜品图像分类的学习和测试两个部分，全部工作可以分为以下5个步骤：

步骤一、构建数据库：首先针对提出的问题，我们建立了一个包含红烧肉、排骨萝卜汤、回锅肉、炒土豆丝、番茄炒蛋、肉沫茄子、炒西蓝花等共计90类常见热门菜品的图片数据库，每类1500张，这些图像的样本都源自菜谱网站。我们随机选取其中的1200张作为训练样本，剩下300作为测试样本。所有的图像大小都归一化。由于网络参数较多而样本较少，为了避免过拟合，在训练时随机地从图像中裁剪的图像用以网络训练，以增加样本数。

步骤二、对训练图像的菜品分类：对数据库中的每一幅图像构建图像级标签，类别标签为0～89。

步骤三、预训练VGG-16模型：因为神经网络中包含大量参数，而我们数据库中的样本数偏少，用此数据库直接进行训练容易发生过拟合现象，故我们在ImageNet这一较大的数据库上预训练我们的模型。

步骤四、学习基于可判别区域的深度神经网络模型。此时将归一化的平均显著谱模板加到输入图片上，提取图片的显著信息，去除冗余信息，得到一个基准模型。

步骤五、学习多尺度的VGG-16模型。在步骤四的基础上，我们继续学习神经网络模型，进一步提高分裂精度。该过程可以分为以下几个关键步骤：

1.将步骤一中构建的人员图像库中的全部训练图像的大小进行归一化为448×448；

2.将多尺度的特征谱在网络中进行级联；

3.得到最终的神经网络模型。在该过程中，设定初始学习率为0.0001。

步骤六、用学习好的模型作测试：该步中，我们同样将测试图像的大小归一化，再输入到已经学习好的模型中，得到了测试图像中目标的类别。

在我们建立的数据库CFFOD90上，我们进行了大量的测试，对汤圆、皮蛋瘦肉粥、炒菜心、银耳汤、蒸螃蟹、玉米排骨汤、麻婆豆腐、泡椒鸡爪等一共90类常见中餐菜品达到了很高的平均识别精度。部分测试结果如图1所示；

在CFOOD90数据集上进行测试，对比AlexNet、VGG-16、Multi-Scale和本文方法的Top1、Top5分类精度，得到如下表所示的结果：

	AlexNet	VGG-16	Multi-Scale	本文方法
					Top1	67.629％	88.5966％	89.586％	91.1816
Top5	89.663％	97.7851％	98.1513％	98.3443

对比结果表明，本文提出的方法能够明显提高分类精度。

Claims

1.一种基于可判别区域的深度神经网络用于菜品图像分类的方法，该方法包括：

2.如权利要求1所述的一种基于可判别区域的深度神经网络用于菜品图像分类的方法，其特征在于所述底层特征提取网络和层特征提取网络都包括：依次级联的一个卷积层、一个池化层、一个尺度层。

3.如权利要求2所述的一种基于可判别区域的深度神经网络用于菜品图像分类的方法，其特征在于第一卷积模块包含两个卷积层，顺次级联并且其参数设置一致，大小为3*3，步长为1，扩充为1；第一池化模块池化核大小为2*2，步长为2；第二卷积模块包含2个卷积层，顺次级联并且其参数设置一致，大小为3*3，步长为1，扩充为1；第二池化模块池化核大小为2*2，步长为2；第三卷积模块包含3个卷积层，顺次级联并且其参数设置一致，大小为3*3，步长为1，扩充为1；底层特征提取网络接收第二卷积模块的输出，包含一个卷积层、一个池化层、一个尺度层，其卷积层的卷积核大小为3*3，扩充为1，池化层的池化核大小为2*2，步长为2，尺度层的尺度比例为0.01；第一特征融合模块对底层特征提取网络和第三卷积模块的输出进行融合，第三池化模块接收第一特征融合模块的输出，其池化核大小为为2*2，步长为2；第四卷积模块包含3个卷积层，顺次级联，各卷积层的卷积核大小均为3*3，步长均为1，扩充为1，其中的第三个卷积层采用卷积核填充，其填充大小为2；第四池化模块池化核大小为2*2，步长为2；第五卷积模块包含3个卷积层，顺次级联，各卷积层的卷积核大小均为3*3，步长均为1，扩充为1，卷积核填充大小为2；高层特征提取网络接收第四卷积模块的输出，包含一个卷积层、一个池化层、一个尺度层，卷积层的卷积核大小为3*3，扩充为5，池化层的池化核大小为3*3，步径为3，尺度层的尺度比例为0.0001；第二特征融合模块对高层特征提取模块和第五卷积模块的输出进行融合，第五池化模块池化核大小为为3*3，步长为3。