CN107563439A

CN107563439A - 一种识别清洗食材图片的模型及识别食材类别的方法

Info

Publication number: CN107563439A
Application number: CN201710776039.6A
Authority: CN
Inventors: 吴淇; 肖光意; 王换文; 郑瀚韬; 何珍; 陈浩; 胡超慧; 王宇
Original assignee: Hunan Luchuan Information Science And Technology Co Ltd
Current assignee: Hunan Luchuan Information Science And Technology Co Ltd
Priority date: 2017-08-31
Filing date: 2017-08-31
Publication date: 2018-01-09

Abstract

本发明属于食材识别技术领域，公开了一种食材图片预处理过程中清洗脏图片的模型及识别食材类别的方法，包括：利用基于多任务Auto‑Clean卷积神经网络模型，首先给定一个K类的词库和Yes/No clean标签，其中模型中两个CNN模型将分别对类标签和clean标签进行卷积运算，经过前向传播后，优化softmax层，然后再将特定参数在反向传播中进行传播。将清洗后且标注了Yes/No和类标签的图像，用于整个网络中进行迭代，得到模型，实现自动清洗图片以及识别食材类别的方法。本发明在现有技术的基础上，有针对性地改变缺点，进行优化，针对食材图像具有背景复杂多变等特点，实现高效、准确、快速识别的食材图像。

Description

一种识别清洗食材图片的模型及识别食材类别的方法

技术领域

本发明属于食材识别技术领域，尤其涉及一种识别清洗食材图片的模型及识别食材类别的方法。

背景技术

餐饮行业是国民经济支柱产业之一，如何对食材进行快速分类和精准检测是餐饮行业中食材质量控制和食品安全监测的核心和关键问题。传统食材采购对食材进行基于文本分类的标签分类方式不能满足日益增长的业务需求，如何对食材图像实现快速高效的分类成为亟待解决的难题。

数据清洗是对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。针对图像预处理过程中，人工方式清洗需要花费大量的人力、物力和时间成本，并且清洗过程很容易因人为因素产生错误的问题。

传统的技术方案在进行图像分类时，首先是对图片提取一定量的特征点，其次通过数据模型来对提取的图像信息进行建模分析及表达，并最终利用图像匹配的方法来对图像进行识别。利用传统的图像分类方法进行图像分类时识别的准确率和识别效率都不能满足实际应用的需求这一问题，在实际应用场合中，食材图像具有背景复杂多变、旋转、尺度、光线多变不固定等特点，传统的识别方法无法在这种复杂情况下保持稳定。

现在还没有实时在线检测的技术，因此本发明构建在线平台，为用户提供随时随地的在线识别分类的服务。

综上所述，现有技术存在的问题是：

现有技术的图像预处理过程中，人工方式清洗需要花费大量的人力、物力和时间成本，并且清洗过程很容易因人为因素产生错误。在实际应用场合中，食材图像具有背景复杂多变、旋转、尺度、光线多变不固定等特点，因此给传统的图像分类方法带来了很大的挑战；传统的食材类别识别算法效率低下，并且食材种类复杂，目前还未见针对肉类识别的研究。

发明内容

针对现有技术存在的问题，本发明提供了一种识别清洗食材图片的模型及识别食材类别的方法。

本发明是这样实现的，一种快速识别食材类别的方法，所述快速识别食材类别的方法，包括：

本发明利用基于卷积神经网络的图像分类模型，首先给定一个K类的词库和Yes/No clean标签，其中模型中两个CNN模型将分别对类标签和clean标签进行卷积运算，经过前向传播后，优化softmax层，然后再将特定参数在反向传播中进行传播。将清洗后且标注了Yes/No和类标签的图像，用于整个网络中进行迭代，得到模型，实现自动清洗图片以及识别食材类别的方法。

进一步，分别采用AlexNet，VGG-16及CaffeNet这三个卷积神经网络来对实验数据集进行实验，寻找最适合食材图像分类的卷积神经网络架构；并对卷积神经网络架构进行参数调优；具体包括：

步骤一、将图片转换成lmdb格式并计算均值文件：在caffe-master根目录下examples文件夹下面创建一个demo的文件夹，来用存放配置文件和脚本文件。然后编写一个脚本create_filelist.sh，用来生成train.txt和test.txt清单文件，调用convert_imageset命令来转换数据格式，统一转换成640*480大小。运行成功后，会在examples/demo下面生成两个文件夹img_train_lmdb和img_test_lmdb，分别用于保存图片转换后的lmdb文件。

步骤二：构建用于训练的模型：图片减去均值再训练，会提高训练速度和精度，使用计算均值的文件compute_image_mean.cpp，会在examples/myfile/下面生成一个mean.binaryproto的均值文件，再调用models/bvlc_reference_caffenet/文件夹下的模型用于训练。

步骤三：配置train.prototxt及solver.prototxt文件中的参数，用于模型进行训练，修改train.prototxt文件的data层，以及solver.prototxt文件的batch_size以及test_iter。

步骤四：从训练的卷积网络的所有模型中，选出最低损失率和最高精确度的模型，然后用测试数据集对选定的模型进行训练。

进一步，所述步骤一中，lmdb为容易被Caffe框架所处理的图像格式；

所述步骤三的train.prototxt和solver.prototxt文件中，设置许多超级参数用来使卷积网络获得识别率，同时，对参数进行调优。

本发明另一目的在于提供一种识别清洗食材图片的模型为多任务Auto-Clean卷积神经网络模型；所述多任务Auto-Clean卷积神经网络模型包括：

给定一个K类的词库和Yes/No clean标签，多任务Auto-Clean卷积神经网络模型中两个CNN模型将分别对类标签和clean标签进行卷积运算，经过两个CNN模型前向传播后，从最后一个卷积层和第一个全连接层生成的联合特征将会被输入到两个损失层中；从两个损失层学习到的权重参数矩阵将会分解成共享层；同时，从底层的组合矩阵到第一个全连接层具有两个CNN模型的不同信息。

进一步，所述多任务Auto-Clean卷积神经网络模型；具体包括：

给定N张训练图片集和对应的标签集其中C_i表示该图片是否是脏图片；I_i表示图片所属食材类别，K表示食材总个数；如公式(1)所示，Auto-Clean CNN模型提取高维度的特征其中x_i表示为：

x_i＝f(I_i,k,b,β,γ) (1)

式中：f(*)表示输入图片到第一个全连接层特征共享的非线性映射，k和b表示所有卷积层过滤器和偏置的集合，β和γ表示所有bottom层缩放和旋转的集合，另外Θ＝(k,b,β,γ)表示所有提取特征参数的集合，提取的特征x_i在图像清理和多类识别实现共享；假定和是全连接层中的权重矩阵和偏置向量，其中D_d为D中不同食材的数量，则生成的线性模型如公式(2)所示：

式中：输出给softmax层用来计算训练集中属于每个食材类别x_i的概率大小；

式中：表示x_i属于第j个食材的概率，softmax(*)函数将模型输出映射到所有食材图像的概率分布上以及第K_i个食材图像索引上；最终，要获得的食材图像结果由下式获得：

则交叉熵损失函数表示为：

同样的，计算clean任务的损失函数；令W＝{W^d,W^c,W^f}表示其权重矩阵；对于给定的训练集D，多任务Auto-Clean卷积神经网络模型最小化两个任务结合起来的损失函数；损失函数如公式(6)所示：

式中：α_d和α_c分别表示每个任务的权重，当α_d或α_c为0时，为单一任务模型；损失函数驱动模型同时学习提取特征参数Φ和分类任务权重W；

在测试阶段，首先测试输入图像是干净的还是不干净的图片；如果输入的图像无法进行相应的分类，则模型将会输出该图像为脏图像，若输入的为干净图像，那么该模型将会输出识别的食材类别。

进一步，多任务Auto-Clean卷积神经网络模型的自适应权重学习包括：

多任务Auto-Clean卷积神经网络模型通过向量α_s来对α_d和α_c进行学习过程的中的自动分配，从第一全连接层添加一个softmax层为：

α_s＝softmax(ω_sTx_i+ε_s) (7)

式中：α_s是在α_d+α_c＝1条件下，双任务的自适应损失率；所以公式(7)写成如下公式：

α_d+α_c＝1 (8)

其中，使用小批量随机梯度下降法来解决优化，在这些优化中，权值的调整会聚合在批处理样本中。

本发明的优点及积极效果为：

食材图像具有背景复杂多变、旋转、尺度、光线多变不固定等特点，传统的识别方法无法在这种复杂情况下保持稳定，本发明在卷积神经网络框架下，将特征提取和分类器通过联合反馈进行优化，解决现有技术中的缺点。

针对图像预处理过程中，传统的人工方式清洗需要花费大量的人力、物力和时间成本，并且清洗过程本身很容易因人为因素产生错误的问题，本发明提出了一种改进的多任务Auto-Clean卷积神经网络模型，并进行了模型设计、算法公式描述，实现步骤等操作，将错误率进一步进行尽可能的降低。

本发明提出了将卷积神经网络应用于食材图像分类。首先将AlexNet、VGG-16以及CaffeNet卷积网络应用在食材图像分类，并对网络结构超级参数进行调优，使图像得到高达90％的分类准确率和低达400ms的识别时间。然后结合双任务模型，双任务分类的Top-1，Top-3，Top-5要比单任务分类的精度高。实验分类准确率可以达到95％，每张图片的识别时间大约200ms，从而证明了本实验提出的双任务分类模型的正确性与可行性

本发明在现有技术的基础上，有针对性地改变缺点，进行优化，针对食材图像具有背景复杂多变等特点，实现高效、准确、快速识别的食材图像。

本发明基于卷积神经网络的图像分类模型的优点是能够取得更精确的识别准确率以及更高效的识别效率。在该过程中，首先给定一个K类的词库和Yes/No clean标签，其中模型中两个CNN模型将分别对类标签和clean标签进行卷积运算，经过前向传播后，优化softmax层，然后再将特定参数在反向传播中进行传播。将清洗后且标注了Yes/No和类标签的图像，用于整个网络中进行迭代，得到模型，实现自动清洗图片以及识别食材类别的方法。卷积神经网络不仅具有能够从图像数据中主动学习特征的特点，并且能够对新的训练数据进行快速的训练并得到该图像信息新的特征表示。现有的图像分类技术大部分由特征提取和分类器这两个重要部分组成，并且这两部分的优化相互分开进行。而在卷积神经网络框架下，特征提取和分类器主要通过联合反馈进行优化。在实际应用场合中，食材图像具有背景复杂多变、旋转、尺度、光线多变不固定等特点，因此现有技术出现明显的不足。但卷积神经网络具有的特征提取和分类器两者联合协作的特点，给食材图像分类带来了新的前景。目前，通过利用卷积神经网络来进行数字手写体识别技术已被广泛应用在银行等领域中，并且进行手写体识别时错误识别率小于0.1％，已接近人眼识别的精度。因此，利用深度学习中的卷积神经网络对图像分类进行研究，并建立针对食材图像分类的模型和算法是非常有意义的

附图说明

图1是本发明实施例提供的快速识别食材类别的方法流程图。

图2是本发明实施例提供的为从原始图片输入到图片多层次分类识别的总体结构示意图。

图3是本发明实施例提供的CaffeNet、AlexNet及VGG-16针对不同食材图片的分类识别时间图。

图4是本发明实施例提供的CaffeNet、AlexNet及VGG-16针对不同食材图片的Top-1,Top-3和Top-5对应的分类识别准确率图。

图5是本发明实施例提供的食材图像在双任务模型和单一任务模型的识别时间图。

图6是本发明实施例提供的双任务和单任务Top-1，Top-3和Top-5的平均分类准确率图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明基于卷积神经网络的图像分类模型能够取得更精确的识别准确率以及更高效的识别效率。在食品加工过程中，准确、快速、客观的质量检测系统是食品工业的一个重要组成部分。目前，还没有食品数据图像的数据集，对于这些海量数据，需要一种高效快速的识别方法。对于传统的基于主成分分析方法和局部二元特征，有限的硬件性能和无法应付的海量数据在识别效果上存在较大误差。相反，深度学习的概念是通过对大量数据的研究，模仿人脑视觉神经的建立与大数据处理相适应的网络。然而，有没有相关的实时分类分析，所以利用数据传输来识别食品图片，基于智能食品材料应用和食品供应链，无论是对商业应用还是科学分析都具有实际价值。

本发明提及的深度学习(deep learning)是机器学习拉出的分支，是机器学习中一种基于对数据进行表征学习的方法。它试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。

卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网络由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成，同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网络在图像和语音识别方面能够给出更优的结果。同时，卷积神经网络需要估计的参数更少，使之成为一种颇具吸引力的深度学习结构。

本发明提供的Caffe框架：Caffe是一个深度学习框架，具有表达力强、速度快和模块化的思想，可以在配置中定义模型和优化，不需要硬编码，构架富有表现力，鼓励应用和创新。代码的可扩展性让开发更加活跃，速度使Caffe完美的用于研究实验和工业开发，推理过程为1ms/一幅图像，而学习过程为4ms/一幅图像。在视觉、速度和多媒体方面，Caffe已经有能力用于学术分析、启动原型，甚至大规模的工业应用。

下面结合附图及具体实施例对本发明的应用原理作进一步描述。

如图1所示，本发明实施例提供的快速识别食材类别的方法，包括：

S101：利用基于卷积神经网络的图像分类模型，首先给定一个K类的词库和Yes/Noclean标签，其中模型中两个CNN模型将分别对类标签和clean标签进行卷积运算，经过前向传播后，优化softmax层。

S102：然后再将特定参数在反向传播中进行传播。将清洗后且标注了Yes/No和类标签的图像，用于整个网络中进行迭代，得到模型。

S103：最后利用此模型对新的图像进行识别分类，使得其识别的准确率和效率都有大幅度的提升。

下面结合具体实施例对本发明作进一步描述。

针对图像预处理过程中，传统的人工方式清洗需要花费大量的人力、物力和时间成本，并且清洗过程本身很容易因人为因素产生错误的问题，本发明提出了一种改进的多任务Auto-Clean卷积神经网络模型，并进行了模型设计、算法公式描述，实现步骤等操作，最终通过对比来验证该Auto-Clean卷积神经网络模型方法的可行性。

前期图片较少时多以人眼能够进行分辨作为总体筛选图片的标准，尽可能多的保证训练的图片的真实性和鲁棒性。

(1)Auto-Clean卷积神经网络模型

给定一个K类的词库和Yes/No clean标签，Auto-Clean模型中两个CNN模型将分别对类标签和clean标签进行卷积运算，经过两个CNN模型前向传播后，从最后一个卷积层和第一个全连接层生成的联合特征将会被输入到两个损失层中，接下来，从两个损失层学习到的权重参数矩阵将会分解成共享层。同时，从底层的组合矩阵到第一个全连接层具有两个CNN模型的不同信息。

图2所示为从原始图片输入到图片多层次分类识别的总体结构即改进的多任务Auto-Clean卷积神经网络模型。

图2显示：首先将带有两个标签信息的图像(最左“萝卜”)被输入到CNN模型中；经分批次读取数据层分批次读取数据进行处理，size为200，一次性读取200条数据；最后由两个损失层识别一个二进制的clean标签和一个类标签。其中，特征共享层L连接了由softmax损失层产生的第一个全连接层的权重矩阵或者是第二个全连接层的权重矩阵；共享层L是分别对类标签和clean标签进行卷积运算的两个CNN模型任务之间的共享矩阵；softmax层(S)是特定任务的权重矩阵层。在实现图片训练特征中使用了clean标签和类标签的标签信息。

该模型也可以被看做特定softmax损失层以及两个特定的层来完成清洗任务。其中，这两个特定的层包含一个全连接层和共享相同bottom层的多类softmax损失层。在优化联合损失层和实现视觉特征共享之后，两个CNN模型会将特定参数在反向传播中进行传播。将清洗后且标注了clean/dirty和multi-class标签的图像，用于整个网络中进行反复迭代，直到网络最终收敛。

(2)Auto-Clean CNN模型公式描述：

给定N张训练图片集和对应的标签集其中C_i表示该图片是否是脏图片。I_i表示图片所属食材类别，K表示食材总个数。如公式(1)所示，Auto-Clean CNN模型提取了高维度的特征其中x_i可表示为：

x_i＝f(I_i,k_,b,β,γ) (1)

式中：f(*)表示输入图片到第一个全连接层特征共享的非线性映射，k和b表示所有卷积层过滤器和偏置的集合，β和γ表示所有bottom层缩放和旋转的集合，另外Θ＝(k,b,β,γ)表示所有提取特征参数的集合，提取的特征x_i在图像清理和多类识别实现共享。假定和是全连接层中的权重矩阵和偏置向量，其中D_d为D中不同食材的数量，则生成的线性模型如公式(2)所示：

式中：输出给softmax层用来计算训练集中属于每个食材类别x_i的概率大小。

式中：表示x_i属于第j个食材的概率，softmax(*)函数将模型输出映射到所有食材图像的概率分布上以及第K_i个食材图像索引上。最终，要获得的食材图像结果可由下式获得：

则交叉熵损失函数可以表示为：

同样的，我们可以计算clean任务的损失函数。对于食材图像类，图像清理及两个全连接层的连接来说，令W＝{W^d,W^c,W^f}表示其权重矩阵。为了简化，消除了偏置系数。对于给定的训练集D来说，Auto-Clean卷积模型目的是为了最小化两个任务结合起来的损失函数。其损失函数如公式(6)所示：

式中：α_d和α_c分别表示每个任务的权重，当α_d或α_c为0时，为单一任务模型。损失函数驱动模型同时学习提取特征参数Φ和分类任务权重W。在测试阶段，首先测试输入图像是干净的还是不干净的图片。如果我们输入的图像无法进行相应的分类，则模型将会输出该图像为脏图像，若输入的为干净图像，那么该模型将会输出识别的食材类别。

(3)自适应权重学习

在基于MTL的卷积神经网络中，如何设置两项任务的权重是分析过程中的重要内容。之前的工作中，不是平等对待所遇到的任务，就是通过蛮力搜索来获得权重。然而，搜索所有的权重组合是非常耗时的，接下来我们将对如何自动进行权重的调整进行介绍。

Auto-Clean CNN通过向量α_s来对α_d和α_c进行学习过程的中的自动分配，我们从第一全连接层添加一个softmax层为：

α_s＝softmax(ω_sTx_i+ε_s) (7)

式中：α_s是在α_d+α_c＝1条件下，双任务的自适应损失率。所以公式(7)可以写成如下公式：

α_d+α_c＝1 (8)

其中，使用小批量随机梯度下降法来解决上述优化问题，在这些优化问题中，权值的调整会聚合在批处理样本中。

(4)基于AlexNet，VGG-16及CaffeNet食材图像分类的具体实现

1)具体实现过程描述：

分别采用AlexNet，VGG-16及CaffeNet这三个卷积神经网络来对实验数据集进行实验，从而寻找最适合食材图像分类的卷积神经网络架构。在实验数据集的50个类中，每个类分别有500张图片，其中300张图片用于训练集，100张图片用于验证集，100张图片用于测试集。为了获得更好实验效果的同时加快实验训练速度，在得到最适合的卷积网络的基础上，通过对该网络预训练好的模型进行参数调优的方式来获得更好的分类效果。实验步骤如下所述：

在步骤一中，lmdb是容易被Caffe框架所处理的一种图像格式，通过使用lmdb格式，可以提升训练和测试过程中的速度和精确度。在步骤三的train.prototxt和solver.prototxt文件中，设置了许多超级参数用来使卷积网络获得更好的识别率，同时，我们也对参数进行了调优，以便获得更好的分类精度和识别速度。

2)图像分类结果与分析

a)分别用AlexNet、VGG-16、CaffeNet卷积神经网络对实验数据进行训练并利用图像分类精确度和图像分类时间两个度量标准对三个模型的性能予以评估。

b)利用超级参数的调整对以上三个网络架构中较优的CaffeNet卷积网络架构进行性能调优，得到图片识别精度和分类时间方面性能更优的参数配置。

图1为CaffeNet、AlexNet及VGG-16针对不同食材图片的分类识别时间图。

图2为CaffeNet、AlexNet及VGG-16针对不同食材图片的Top-1,Top-3和Top-5对应的分类识别准确率图。

图3所示为CaffeNet、AlexNet及VGG-16针对不同食材图片的分类识别时间。从图中可以发现，VGG-16所耗费的识别时间远远超过CaffeNet和AlexNet模型所耗费的时间；CaffeNet和AlexNet所消耗的时间相似，但CaffeNet识别一张图片的时间不到200ms，该时间远少于其他两个模型所花费的时间。

图4所示为CaffeNet、AlexNet及VGG-16针对不同食材图片的Top-1，Top-3和Top-5对应的分类识别准确率。相比于VGG-16卷积神经网络，CaffeNet和AlexNet的识别准确率较高；对CaffeNet和AlexNet进行比较时，CaffeNet的Top-1和Top-5识别准确率优于AlexNet，而AlexNet的Top-3识别准确率与CaffeNet相近。

综上所述，从分类识别精度和分类识别速度角度进行性能分析，针对食材图像分类，CaffeNet要比AlexNet和VGG-16性能更优。

针对CaffeNet进行参数调优，主要从迭代次数和学习率两个方面进行网络模型性能的优化。首先选取不同的迭代次数来进行实验，

从不同迭代次数对CaffeNet精度的影响曲线，可以看到，当迭代次数不断增加时，食材图像分类的精度越来越稳定。当迭代次数为1000时，精度曲线还在持续的增加。当迭代次数为3000时，精度曲线仍呈现上升的趋势，但上升的幅度越来越小，并趋于稳定。当迭代次数为6000时，曲线几乎完全稳定，因此从鲁棒性和分类精确度及稳定性的角度，我们最终选取6000作为最终网络设置的迭代次数。

另一方面，针对学习率对CaffeNet的调优问题，当迭代次数设置为6000时，分别取学习率0.001到0.005来进行实验，当迭代次数设置为6000时，基于CaffeNet框架不同学习率对应的accuracy和迭代次数之间的关系曲线。可以看出，收敛的速度越快，但稳定性也越差。当学习率为0.001时，稳定性最好，但收敛速度最慢，当学习率为0.003、0.004和0.005时收敛很快，但稳定性很差，当学习率为0.002时，稳定性与学习率为0.001时相差较少，但收敛速度却得到了大幅度的提高。因此，从识别速度和识别精度的评判维度分析，选取0.002为食材图像处理的最佳学习率。

图5所示为在双任务模型和单任务模型下各类食材图像的识别时间。可以看到，与单一任务相比，双任务模型的时间消耗相对较小，此为双任务模型的优点。除了较少的时间消耗，双任务模型也具有更好的准确性。

图6为双任务和单任务Top-1，Top-3和Top-5的平均分类准确率，由图5.6可以看出，双任务分类的Top-1，Top-3，Top-5要比单任务分类的精度高。从而证明了本章提出的双任务分类模型的正确性与可行性。

针对预处理阶段传统的人工清洗方式需要花费大量的人力、物力和时间成本，并且清洗过程本身很容易因人为因素产生错误的问题，提出一种改进的多任务Auto-Clean卷积神经网络模型，该方法通过将数据清洗模型和图像分类模型合并为双任务模型，对模型进行训练，实现数据的自动清洗并进行分类，有效地解决了预处理阶段数据清洗的难题。最后，通过Auto-Clean多任务卷积神经网络模型与单任务卷积网络进行对比，证明该方法在保证较高精确度的同时，能自动完成图像的清洗工作。

下面结合具体分析对本发明的应用原理作进一步描述。

以食材图像分类为背景，同时基于caffe平台的卷积神经网络获得的Top5也正好与需求相吻合，因此在分析总结传统图像分类方法的基础上，对基于卷积神经网络的其它食材图像分类方法进行了分析。

2014年提出来的GoogleNet模型，将Top-5的错误率降低到了7.32％以及6.67％，2015年提出的152层的ResNet模型将错误率降到了3.6％。

(1)GoogleNet

GoogleNet利用更多的卷积、更深的层次获得更好的结构，从而更精准的进行食材图像识别。

第一层卷积层conv1，pad是3，64个特征，7*7步长为2，输出特征为112*112*64，然后进行relu，经过pool1(红色的max pool)进行pooling 3*3的核，步长为2，[(112-3+1)/2]+1＝56特征为56*56*64，然后进行norm。

第二层卷积层conv2，pad是1，3*3，192个特征，输出为56*56*192，然后进行relu，进行norm，经过pool2进行pooling，3*3的核，步长为2输出为28*28*192然后进行split分成四个支线。

第三层开始时inception module，这个的思想受到使用不同尺度的Gabor过滤器来处理多尺度问题，inception module采用不同尺度的卷积核来处理问题。3a包含四个支线：

1)64个1*1的卷积核(之后进行RULE计算)变成28*28*64；

2)96个1*1的卷积核作为3*3卷积核之前的reduce，变成28*28*96，进行relu计算后，再进行128个3*3的卷积，pad为1，28*28*128；

3)16个1*1的卷积核作为5*5卷积核之前的reduce，变成28*28*16，进行relu计算后，再进行32个5*5的卷积，pad为2，变成28*28*32；

4)pool层，3*3的核，pad为1，输出还是28*28*192，然后进行32个1*1的卷积，变成28*28*32。

将四个结果进行连接，输出为28*28*256。

然后将3a的结果又分成四条支线，开始建立3b的inception module：

1)128个1*1的卷积核(之后进行RULE计算)变成28*28*128；

2)128个1*1的卷积核作为3*3卷积核之前的reduce，变成28*28*128，再进行192个3*3的卷积，pad为1，28*28*192，进行relu计算；

3)32个1*1的卷积核作为5*5卷积核之前的reduce，变成28*28*32，进行relu计算后，再进行96个5*5的卷积，pad为2，变成28*28*96。

4：pool层，3*3的核，pad为1，输出还是28*28*256，然后进行64个1*1的卷积，变成28*28*64。

将四个结果进行连接，输出为28*28*480。

(2)ResNet

ResNet引入了残差网络结构(residual network)，通过残差网络，获得更深层次的网络层，最多可达到1000多层，从而可获得较好的网络分类效果。

通过在输出和输入之间引入一个shortcut connection，解决网络由于层次较深而出现的梯度消失问题。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种快速识别食材类别的方法，其特征在于，所述快速识别食材类别的方法，利用基于卷积神经网络的图像分类模型，首先将图像输入到神经网络中，再利用深度学习的前向传播和反向传播误差算法来最小化损失函数，更新权值后，得到一个识别模型，最后利用识别模型对新的图像进行识别分类。

2.如权利要求1所述的快速识别食材类别的方法，其特征在于，所述快速识别食材类别的方法，分别采用AlexNet，VGG-16及CaffeNet这三个卷积神经网络来对实验数据集进行实验，寻找最适合食材图像分类的卷积神经网络架构；并对卷积神经网络架构进行参数调优；具体包括：

步骤一、将图片转换成lmdb格式并计算均值文件：在caffe-master根目录下examples文件夹下面创建一个demo的文件夹，来用存放配置文件和脚本文件；然后编写一个脚本create_filelist.sh，用来生成train.txt和test.txt清单文件，调用convert_imageset命令来转换数据格式，统一转换成640*480大小；运行成功后，在examples/demo下面生成两个文件夹img_train_lmdb和img_test_lmdb，分别用于保存图片转换后的lmdb文件；

步骤二、构建用于训练的模型：图片减去均值再训练，使用计算均值的文件compute_image_mean.cpp，会在examples/myfile/下面生成一个mean.binaryproto的均值文件，再调用models/bvlc_reference_caffenet/文件夹下的模型用于训练；

步骤三、配置train.prototxt及solver.prototxt文件中的参数，用于模型进行训练，修改train.prototxt文件的data层，以及solver.prototxt文件的batch_size以及test_iter；

步骤四、从训练的卷积网络的所有模型中，选出最低损失率和最高精确度的模型，然后用测试数据集对选定的模型进行训练。

3.如权利要求2所述的快速识别食材类别的方法，其特征在于，所述步骤一中，lmdb为容易被Caffe框架所处理的图像格式；

所述步骤三的train.prototxt和solver.prototxt文件中，设置多个超级参数用于使卷积网络获得识别率，同时，对参数进行调优。

4.一种如权利要求1所述快速识别食材类别的方法的识别清洗食材图片的模型，其特征在于，所述识别清洗食材图片的模型为多任务Auto-Clean卷积神经网络模型；所述多任务Auto-Clean卷积神经网络模型包括：

5.如权利要求所4述的识别清洗食材图片的模型，其特征在于，所述多任务Auto-Clean卷积神经网络模型；具体包括：

x_i＝f(I_i,k,b,β,γ) (1)；

<mrow> <msubsup> <mi>y</mi> <mi>i</mi> <mi>d</mi> </msubsup> <mo>=</mo> <msup> <mi>W</mi> <mi>d</mi> </msup> <mo>&CenterDot;</mo> <msub> <mi>T</mi> <msub> <mi>x</mi> <mi>i</mi> </msub> </msub> <mo>+</mo> <msup> <mi>b</mi> <mi>d</mi> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <mi>s</mi> <mi>o</mi> <mi>f</mi> <mi>t</mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> <msub> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>d</mi> </msubsup> <mo>)</mo> </mrow> <msub> <mi>K</mi> <mi>n</mi> </msub> </msub> <mo>=</mo> <mi>p</mi> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>d</mi> </msubsup> <mo>=</mo> <msub> <mi>K</mi> <mi>n</mi> </msub> <mo>|</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mrow> <msub> <mi>iK</mi> <mi>i</mi> </msub> </mrow> <mi>d</mi> </msubsup> <mo>)</mo> </mrow> </mrow> <mrow> <mi>&Sigma;</mi> <mi>j</mi> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mrow> <msub> <mi>iK</mi> <mi>j</mi> </msub> </mrow> <mi>d</mi> </msubsup> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

则交叉熵损失函数表示为：

<mrow> <munder> <mrow> <mi>arg</mi> <mi>min</mi> </mrow> <mrow> <mi>&Phi;</mi> <mo>,</mo> <mi>W</mi> </mrow> </munder> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>&alpha;</mi> <mi>d</mi> </msub> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>,</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>d</mi> </msubsup> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>&alpha;</mi> <mi>c</mi> </msub> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>,</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>c</mi> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

在测试阶段，首先测试输入图像是干净的还是不干净的图片；如果输入的图像无法进行相应的分类，则多任务Auto-Clean卷积神经网络模型将会输出该图像为脏图像，若输入的为干净图像，那么该模型将会输出识别的食材类别。

6.如权利要求5所述的识别清洗食材图片的模型，其特征在于，多任务Auto-Clean卷积神经网络模型的自适应权重学习包括：

α_s＝soft max(ω_sTx_i+ε_s) (7)

<mrow> <munder> <mrow> <mi>arg</mi> <mi>min</mi> </mrow> <mrow> <mi>&Theta;</mi> <mo>,</mo> <mi>W</mi> <mo>,</mo> <msub> <mi>&alpha;</mi> <mi>s</mi> </msub> </mrow> </munder> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>&alpha;</mi> <mi>d</mi> </msub> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>,</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>d</mi> </msubsup> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>&alpha;</mi> <mi>c</mi> </msub> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>,</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>c</mi> </msubsup> <mo>)</mo> </mrow> </mrow>

α_d+α_c＝1 (8)