CN108537177A

CN108537177A - 一种基于深度卷积神经网络的菜谱识别方法

Info

Publication number: CN108537177A
Application number: CN201810324775.2A
Authority: CN
Inventors: 陈钊民; 潘飞; 韩旭; 徐春蕾; 张可心; 顾旭东; 郭延文
Original assignee: Xuzhou Lojian Tianhe Health Technology Co Ltd
Current assignee: Xuzhou Lojian Tianhe Health Technology Co Ltd
Priority date: 2018-04-12
Filing date: 2018-04-12
Publication date: 2018-09-14

Abstract

本发明公开了一种基于深度卷积神经网络的菜谱识别方法，包括以下步骤：步骤1：采集N类菜谱的图像并按类进行筛选；步骤2：对筛选后的图像进行预处理；步骤3：用经过预处理后的菜谱图像训练模型；步骤4：采集待检测菜谱图像并进行预处理；步骤5：根据步骤3得到的训练好的模型用步骤4得到的预处理后的图像作为输入进行菜谱检测；步骤6：根据步骤5的检测结果就可以得到待识别菜谱图像的3‑5种相似度最高的选择菜谱。

Description

一种基于深度卷积神经网络的菜谱识别方法

技术领域

本发明属于视觉识别技术领域，涉及一种基于深度卷积神经网络的菜谱识别方法。

背景技术

随着通信技术的发展和移动设备的普及，信息的传递更加的便捷。人们活跃于各式各样的社交媒体，并在上面产生了大量的菜谱图像。在实际生活中，对于图像绚丽且没有品尝过的美食，人们有着出于本能的好奇心。但是由于地域和民族风俗的限制，人们只知道自己所在的区域内所存在的菜肴，对于在此之外的特色菜肴了解不多，在看到图像时无法知道菜肴的种类从而不便于寻找。此外随着数字健康医疗信息产业的发展，人们也越来越注意自己的日常饮食，所以菜谱识别具有很大的应用价值，但是传统的图像处理算法很难有效的识别出菜谱图像中图像的种类。

发明内容

针对现有技术的不足，本发明提供了一种基于深度卷积神经网络的菜谱识别方法，从而能够解决传统计算机视觉解决不了的菜谱识别问题。

技术方案：本发明公开了一种基于深度卷积神经网络的菜谱识别方法，其核心在与通过采集不同种类的菜谱图像，根据不同菜谱图像的特征信息来训练深度学习模型，从而达到识别菜谱的目的。具体包含以下步骤：

步骤1：采集N类菜谱的图像并按类进行筛选；

步骤2：对筛选后菜谱的图像进行预处理；

步骤3：用经过预处理后的菜谱图像训练模型；

步骤4：采集待检测菜谱图像并进行预处理；

步骤5：根据步骤3得到的训练好的模型用步骤4得到的预处理后的待检测菜谱图像作为输入进行菜谱检测；

步骤6：根据步骤5的检测结果得到待识别菜谱图像的3～5种相似度最高的选择菜谱。

步骤1包括：在网络上爬取N类菜谱图像，并对爬取到的图像进行人工筛选，去除其中与菜肴不对应的图像。

步骤2中的预处理是为了满足深度学习模型数据量的要求，从而提高识别的准确性。预处理的方式为：包括如下步骤：

步骤2-1，对长方形的图像进行裁剪，裁剪成菜品居中的正方形图像；

步骤2-2，将裁剪后的正方形图像缩放成250*250；

步骤2-3，对缩放后的正方形图像进行随机的翻转和裁剪，得到224*224的图像；

步骤2-4，对224*224图像做归一化处理(z-score标准化方法)。

5、步骤2-4包括如下步骤：

步骤2-4-1，计算所有224*224图像的均值mean和标准差std；

步骤2-4-2，将224*224图像的原始值x标准化到z，具体公式如下：

其中x为图像的像素值。

步骤3包括如下步骤：

步骤3-1，构造深度学习模型；

步骤3-2，初始化深度学习模型；使用Xavier方法初始化参数(引用文献：GlorotX,Bengio Y.Understanding the difficulty of training deep feedforward neuralnetworks[J].Journal of Machine Learning Research,2010,9:249-256.)，使每一层输出的方差相等；可以使用随机化生成参数的方式，或者使用特定的方法进行初始化，实验证明后者会更快收敛并且效果更好；

步骤3-3，用步骤2中预处理后的正方形图像数据对模型进行训练，得到训练好的模型。训练所使用到的技术是常用的神经网络训练方法，包括前向传播、反向传播等方法，使用主流都深度学习框架都可以直接使用这些技术对模型进行训练，并保存训练后的参数，不需要额外操作。

步骤3-1包括：

构造神经网络模型，该模型包含4种共33个构造块，卷积层1层，池化层2层以及softmax分类层1层，具体结构为：输入是大小为224*224*3的图像；第1层为卷积层，卷积核的大小是7*7，卷积核的数量是64；第2层为最大值池化层；接下来是3个输入为64维输出为256维的构造块；4个输入为128维输出为512维的构造块；23个输入为256维输出为1024维的构造块；3个输入为512维输出为2048维的构造块；然后为池化层，采用的池化操作是平均池化，最后一层为softmax分类层。

步骤3-1还包括：构建构造块，对于每一个构造块，使用了三个叠加层，分别是卷积核大小为1*1、3*3和1*1的卷积层，1*1的层主要负责减少然后增加(恢复)维度，剩下的3*3的层来减少输入和输出的维度。

卷积层和构造块用于提取图像的高层特征，最大值池化层的输入一般来源于上一个卷积层，主要作用是提供了很强的鲁棒性，取一小块区域中的最大值，此时若此区域中的其他值略有变化，或者图像稍有平移，池化后的结果仍不变，并且减少了参数的数量，防止过拟合现象的发生，平均池化层取一小块区域中的平均值，减少邻域大小受限所造成的估计值方差增大的误差。池化层一般没有参数，所以反向传播的时候，只需对输入参数求导，不需要进行权值更新；而softmax层主要用于分类，针对菜谱图像直接获得所属的类别进行训练。

步骤3-2包括：使每一层的权重Wⁱ满足以下条件：

其中i表示网络的层数，Var表示方差，Wⁱ表示第i层的权重，n_ii表示第i层输入的个数；

由概率统计[a,b]间的均匀分布的方差为：权重W满足下式：

其中j表示网络的层数，U表示均匀分布，n_j表示第j层输入的个数。

步骤4包括：在网络上爬取待检测菜谱图像，并采用步骤2-1～步骤2-4的方法对待检测菜谱图像进行预处理。

步骤5中，将步骤4中得到的预处理后的待检测菜谱图像作为输入，使用步骤3中训练好的模型对输入进行检测，判断输入的菜谱图像所属的类别。

步骤6中，根据步骤5的检测结果就可以得到待识别菜谱图像的3～5种相似度最高的选择菜谱，判断输入的菜谱图像所属的类别。

随着机器学习算法的发展，尤其是深度学习的发展，越来越多得深度学习模型被用来解决计算机视觉领域的问题，并且表现优异，使得很多传统计算机视觉算法难以解决的问题相继得到了很好的解决，因此，本发明尝试利用不同类别的菜谱图像对深度学习模型进行训练，再利用训练好的模型对菜谱图像进行检测，并利用GPU(图形处理器)对其进行优化，以满足应用的实时性要求。

有益效果：

本发明提供的一种基于深度卷积神经网络的菜谱识别方法有益效果在于：

1)本基于深度学习的菜谱识别的方法，通过使用不同类别的菜谱图像训练深度学习算法，然后利用训练好的深度学习算法检测识别出菜谱图像的类别，解决了传统计算机视觉算法无法解决的问题。

2)本基于深度学习的菜谱识别方法采集了大量的不同的菜谱图像并对其进行一定的预处理，将处理后的菜谱图像做为深度学习模型的输入来训练模型，大大提高了模型的识别准确率。

3)本基于深度学习的菜谱方法通过图像收集模块、图像预处理模块、菜谱检测模块协同工作，不仅精度极高，而且适用性广泛，鲁棒性好，非常有利于应用于各种场景中。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述或其他方面的优点将会变得更加清楚。

图1为基于深度卷积神经网络的菜谱识别的流程图。

图2为预处理后的训练菜谱图像。

图3为本发明中使用的构造块示意图。

图4为本发明中使用的神经网络的结果示意图。

图5为预处理后的测试菜谱图像。

图6为测试菜谱图像的置信度。

图7为30种菜谱种类的列表。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

下面将结合本发明实施例的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，在不同的实施例中，不仅可以采用菜谱的源图像作为输入，也可以采用菜谱的梯度图作为输入，同时深度学习模型，可以根据需要检测的菜谱的种类选择不同的模型，例如对模型较小复杂度较低的模型可以选择减少构造块的数量，或者构造块内的层数，对复杂度较高的可以继续增加构造块的数量，或者构造块内的层数。本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，均属于本发明的保护范围。

本发明公开了一种基于深度卷积神经网络的菜谱识别方法，其核心在与通过采集不同种类的菜谱图像，根据不同菜谱图像的特征信息来训练深度学习模型，从而达到识别菜谱的目的。具体包含以下步骤：

步骤1：采集N类菜谱的图像并按类进行筛选；

步骤2：对筛选后菜谱的图像进行预处理；

步骤3：用经过预处理后的菜谱图像训练模型；

步骤4：采集待检测菜谱图像并进行预处理；

步骤2-2，将裁剪后的正方形图像缩放成250*250；

步骤2-4，对224*224图像做归一化处理(z-score标准化方法)。

步骤2-4包括如下步骤：

步骤2-4-1，计算所有224*224图像的均值mean和标准差std；

其中x为图像的像素值。

步骤3包括如下步骤：

步骤3-1，构造深度学习模型；

步骤3-1包括：

步骤3-2包括：使每一层的权重Wⁱ满足以下条件：

由概率统计[a,b]间的均匀分布的方差为：权重W满足下式：

实施例1

参照图1所示，一种基于深度卷积神经网络的菜谱识别方法，具体包括如下步骤：

步骤1：采集30类菜谱的图像并按类进行筛选；

步骤2：对筛选后的图像进行预处理；

步骤3：用经过预处理后的菜谱图像训练模型；

步骤4：采集待检测菜谱图像并进行预处理；

步骤5：根据步骤3得到的训练好的模型，用步骤4得到的预处理后的图像作为输入进行菜谱检测；

步骤6：根据步骤5的检测结果就可以得到待识别菜谱图像的3～5种相似度最高的选择菜谱。

其中步骤1：对原始图像的采集：在网络上爬取相应的菜谱图像，并对爬取到的图像进行人工筛选，去除其中与菜肴不对应的图像

步骤2：为了满足深度学习模型数据量的要求，从而提高识别的准确性对采集到的图像进行预处理。如图2所示，预处理的方式为：对长方形的图像进行裁剪，裁剪成正方形图像，将裁剪后的正方形图像缩放，然后进行随机的翻转和裁剪做归一化处理。

步骤3：用30种不同种类的菜谱图像对模型进行训练。如图4所示的网络结构图，本神经网络包含卷积层1层，池化层2层，构造块33个以及softmax分类层1层。

图3所示是构造块的结构，其中x表示输入，F(x)表示输出，relu表示线性整流函数。图4所示共有4种构造块，上面的三个数字分别表示1*1，3*3，1*1层卷积的卷积核数。具体结构可以看到图4最上方输入为大小为224*224*3的图像image；第1层为卷积层，卷积核的大小是7*7，卷积核的数量是64；第2层为最大值池化层；接下来是3个输入为64维输出为256维的构造块；4个输入为128维输出为512维的构造块；23个输入为256维输出为1024维的构造块；3个输入为512维输出为2048维的构造块；然后为池化层，采用的池化操作是平均池化，最后一层为softmax分类层。如图4所示为神经网络示意图，每一个构造块上的3个数字代表这三层卷积层的维度，covn表示卷积层，pool表示池化层，fc表示全连接层，图3所示为构造块示意图，每一层中的数值表示卷积核的大小。

卷积层和构造块用于提取图像的高层特征，最大值池化层的输入一般来源于上一个卷积层，主要作用是提供了很强的鲁棒性，取一小块区域中的最大值，此时若此区域中的其他值略有变化，或者图像稍有平移，池化后的结果仍不变，并且减少了参数的数量，防止过拟合现象的发生，平均池化层取一小块区域中的平均值，减少邻域大小受限所造成的估计值方差增大的误差。池化层池化层一般没有参数，所以反向传播的时候，只需对输入参数求导，不需要进行权值更新；而softmax层主要用于分类，针对不同的种类进行训练。

步骤4中对待检测菜谱图像的预处理步骤二一样，在这里不再具体描述。

步骤5中，将步骤4中得到的预处理后的菜谱图像(如图5)作为输入，使用步骤3中训练好的模型对输入进行检测，得到该图像属于每一种菜谱的置信度(如图6)。

步骤6中，根据步骤5的检测结果，对照图7所示的菜谱列表，按照置信度从高到低排序可知，相似度高的前三种为红糖糍粑，香菠咕咾肉和凉拌猪耳，由此得出输入的菜谱图像所属的类别。

本发明提供了一种基于深度卷积神经网络的菜谱识别方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于深度卷积神经网络的菜谱识别方法，其特征在于，包括以下步骤：

步骤1：采集N类菜谱的图像并按类进行筛选；

步骤2：对筛选后菜谱的图像进行预处理；

步骤3：用经过预处理后的菜谱图像训练模型；

步骤4：采集待检测菜谱图像并进行预处理；

2.如权利要求1所述的方法，其特征在于，步骤1包括：在网络上爬取N类菜谱图像，并对爬取到的图像进行筛选，去除其中与菜肴不对应的图像。

3.根据权利要求2所述的方法，其特征在于，步骤2包括如下步骤：

步骤2-2，将裁剪后的正方形图像缩放成250*250；

步骤2-4，对224*224图像做归一化处理。

4.根据权利要求3所述的方法，其特征在于，步骤2-4包括如下步骤：

步骤2-4-1，计算所有224*224图像的均值mean和标准差std；

其中x为图像的像素值。

5.根据权利要求4所述的方法，其特征在于，步骤3包括如下步骤：

步骤3-1，构造神经网络模型；

步骤3-2，初始化神经网络模型的参数，使每一层输出的方差相等；

步骤3-3，用步骤2-4-2得到的z对神经网络模型进行训练，得到训练好的模型。

6.根据权利要求5所述的方法，其特征在于，步骤3-1包括：

7.根据权利要求6所述方法，其特征在于，步骤3-1还包括：

构建构造块，对于每一个构造块，使用了三个叠加层，分别是卷积核大小为1*1、3*3和1*1的卷积层。

8.根据权利要求7所述方法，其特征在于，步骤3-2包括：使每一层的权重Wⁱ满足以下条件：

其中i表示网络的层数，Var表示方差，Wⁱ表示第i层的权重，n_i表示第i层输入的个数；

由概率统计[a,b]间的均匀分布的方差为：权重W满足下式：

9.根据权利要求8所述方法，其特征在于，步骤4包括：在网络上爬取待检测菜谱图像，并采用步骤2-1～步骤2-4的方法对待检测菜谱图像进行预处理。

10.根据权利要求9所述方法，其特征在于，步骤5中，将步骤4中得到的预处理后的待检测菜谱图像作为输入，使用步骤3中训练好的模型对输入进行检测，判断输入的菜谱图像所属的类别。