CN110674845B

CN110674845B - 一种结合多感受野注意与特征再校准的菜品识别方法

Info

Publication number: CN110674845B
Application number: CN201910802205.4A
Authority: CN
Inventors: 李宏亮; 王晓朋; 罗鹏飞; 陶聚; 王强; 杨健榜
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2022-05-31
Anticipated expiration: 2039-08-28
Also published as: CN110674845A

Abstract

本发明提供一种结合多感受野注意与特征再校准的菜品识别方法，包括：提取出特征金字塔的特征谱；对特征谱进行两种不同尺度的卷积，得到两个不同感受野的特征谱；对两个不同感受野的特征谱进行相加再卷积得到融合感受野的特征谱；对融合感受野的特征谱进行softmax操作获得融合感受野的权重谱；将获得的融合感受野的权重谱与两个不同感受野特征谱相乘，得到两个不同的注意力谱；对融合感受野的特征谱通过可变形卷积进行特征校准，得到融合感受野的特征校准谱；特征金字塔的特征谱、不同注意力谱、特征校准谱都对相应的元素相加起来就得到的特征谱来进行菜品识别。处理后的特征谱能增加菜品的细节信息并让有效特征都分布在菜品位置上，能提升识别准确率。

Description

一种结合多感受野注意与特征再校准的菜品识别方法

技术领域

本发明涉及菜品图像识别技术。

背景技术

随着国家经济的发展，人们对饮食产生越来越多的关注，现在的人们不仅要求饮食健康美味，还要求辨认出餐厅中菜品的优劣，一些现代智能餐厅也要求结算时直接用机器识别菜品并结算，这样就能极大的提高餐厅效率。还有一些诸如重度视障患者等特殊人群需要一个能够指引自己就餐的智能眼镜，而这些需求的背后都需要以菜品识别技术为核心进行支撑。

具体到菜品图像识别领域，尤其是在种类和样式都十分丰富的中餐菜品识别领域，由于不同菜品之间的原材料、烹饪方式、以及厨师水平不同等因素，导致一些菜品外形相似度较高，而传统的基于图像特征手工提取方法由于表达能力的不足，训练中无法全面学习到不同菜品之间的特征，导致传统的图像识别技术难以识别相似菜品。而以卷积神经网络为核心的深度学习算法的蓬勃发展，为解决菜品图像识别问题提供一种新思路。

目前，基于深度学习的图像识别网络模型已经应用到了菜品图像识别领域，这类神经网络模型应用于菜品识别的方法主要有两类：一类是先利用目标检测算法检测出图像中是否有菜品，若有菜品则将菜品区域裁剪出来送入图像分类模型识别出菜品；另一类是利用目标检测算法如faster-rcnn、SSD、yolo等直接将菜品图像进行检测识别。这两种方法中第一种需要检测和分类两个模型分成两步进行串行计算，因而对设备的运行内存和运行时间要求较高，在实际应用中往往达不到人们的实时性要求。而第二种方法虽然运行速度比第一种方法快，但是网络模型是应用于通用目标的检测方面，通用目标之间的差异性较大，因而识别准确度较高。而不同菜品之间相似度较高，同种菜品之间由于颜色、烧制火候等不同导致类内差异大，故通用目标检测应用于菜品识别准确度不高。这就要求通用目标检测网络需要根据菜品图像的实际情况进行改进才能提高菜品的识别准确率，才能成功应用于菜品识别领域。

发明内容

本发明所要解决的技术问题是，针对现有的基于通用目标检测器应用于菜品识别时没有考虑到不同菜品的类间相似性以及类内差异性，提出了一种在通用目标检测网络的基础上增加多感受野注意以及特征再校准网络，从而提高菜品的识别准确率的方法。

本发明为解决上述技术问题所采用的技术方案是，一种结合多感受野注意与特征再校准的菜品识别方法，包括下列步骤：

第1步、提取出菜品特征金字塔的每个特征谱；

第2步、分别对每个特征谱进行两种不同尺度的卷积，得到两个不同感受野的特征谱；

第3步、对两个不同感受野的特征谱进行相加，对相加后的特征进行卷积得到融合感受野的特征谱；

第4步、对融合感受野的特征谱进行softmax操作，获得融合感受野的权重谱；

第5步、将获得的融合感受野的权重谱与第2步产生的两个不同感受野特征谱相乘，得到两个不同的注意力谱；

第6步、对第3步中得到的融合感受野的特征谱通过可变形卷积进行特征校准，得到融合感受野的特征校准谱；

第7步、将第1步中的特征谱、第5步中的两个不同注意力谱、第6步中的特征校准谱都对相应的元素相加起来就得到最终将要进行检测和分类的特征谱；

第8步，将第7步最终得到的特征谱进行检测和分类以完成菜品识别。

本发明的有益效果是，不同感受野的注意力谱以及融合特征校准过后的特征谱既能够增加菜品的细节信息也可以让有效特征都分布在菜品位置上。相比于通用目标检测方法，本方法能够有效提升菜品识别准确率，在实际应用中更具可行性。

附图说明

图1：本发明结合多感受野注意与特征再校准的流程图。

图2：本发明的菜品识别方法网络模型示意图。

具体实施方式

实施例主要在TX2嵌入式平台上进行实现，主要包括以下几个步骤：

步骤S1、构建菜品图像数据集

针对菜品识别问题，目前并没有公开的一张图像中包含多个中餐菜品的数据集，只有一些分类的菜品数据集，因此首先要从网络上收集符合要求的多菜品图像构建数据集，并对其中的图像进行归一化。在训练的时候训练集与验证集保持4:1的比例。

步骤S2、构建菜品识别算法网络模型

菜品识别网络结构如图2所示，实施例的整个网络是基于RefineDet通用目标检测网络进行改进来实现菜品识别，其中RefineDet网络模型具体可参考文献《S.Zhang,L.Wen,X.Bian,Z.Lei,S.Z.Li.Single-Shot Refinement Neural Network for ObjectDetection.In CVPR,2018》，菜品识别网络主要包括：特征提取部分、锚框改进部分ARM、特征转换连接部分TCB、结合多感受野注意与特征再校准的特征生成部分CMFR、目标检测部分ODM。其中特征提取部分、锚框改进部分ARM、特征转换连接部分TCB和目标检测部分ODM均可为现有目标目标检测网络的结构。结合多感受野注意与特征再校准的特征生成部分CMFR为本发明新增。

特征提取部分主要应用基础网络VGG16，将VGG16的fc6层由全连接层转变成3*3的卷积，将fc7层转变成1*1的卷积层，删除dropout层和fc8层，这样就可以利用VGG16在ImageNet数据集训练出的模型作为菜品识别的预训练模型。

锚框改进部分ARM主要是由3个不同尺寸的特征谱构成的特征金字塔，其中第一个特征谱是VGG16的conv5_3层，其尺寸大小为20*20，第二个特征谱是VGG16转变成卷积层的fc7，尺寸为10*10，第三个特征谱是在fc7基础上继续用3*3卷积两次之后得到的特征谱，其尺寸大小为5*5。将得到的特征进行变换之后通过MultiboxLoss层进行训练，其中ARM部分的损失函数是：

其中i表示一个mini-batch中的第i个anchor框，

表示第i个anchor框的真实标注类别，

表示第i个真实框的位置和大小，p_i表示置信度，x_i表示ARM中anchor框的坐标，N_arm表示ARM中正样本框的数量，L_b表示二值分类(有目标\没目标)，L_r表示回归损失。当条件是真时，

返回1否则为0，如果N_arm＝0，则

和

ARM部分主要是对特征做一个有无菜品的二分类，它的作用是把识别并删除负样本框，以减少分类器的搜索空间，并且粗略调整锚框的位置和大小，为后续梯控更好的初始化和回归。

特征转换连接部分TCB主要是将ARM中的特征对应的前一个特征进行尺度为3*3，步长为2的卷积，本身对应特征进行尺度为3*3，步长为1的卷积和后向特征进行尺度为2*2，步长为2的反卷积，再将上述三个特征融合起来即为TCB。TCB的主要作用是将ARM中的特征传输到ODM中用以进一步预测位置、大小和类别，这部分是做特征转换操作。

目标检测部分ODM主要是将上述TCB部分的特征进行一个3*3卷积得到的相应的三个特征金字塔，然后对特征金字塔通过MultiboxLoss层进行检测和分类训练。

步骤S3、应用结合多感受野注意与特征再校准的特征生成部分CMFR执行的步骤，如图1所示：

由于输入至ODM菜品特征是粗略的没有包含过多的细粒度信息，因此，需要对菜品特征作进一步的操作以使它包含丰富的细节信息。而应用本发明提出的结合多感受野注意与特征再校准的方法就可以有效提高菜品特征谱的细粒度信息。具体步骤为：

步骤S301：对待输入CMFR的特征谱分别进行3*3和5*5的卷积，得到两个不同感受野的特征谱X1和X2，其中X1＝W1*X，X2＝W2*X，X为输入CMFR的特征谱，需要说明的是这里不同尺度感受野考虑到模型的参数和大小，可以只进行两个卷积，也可以进行更多卷积；

步骤S302：对两个不同感受野的特征谱按每个元素逐个相加即X1+X2，然后对相加的特征谱进行一个3*3的卷积，得到一个融合了两个不同尺度感受野的融合特征谱X3＝W3*(X1+X2)；

步骤S303：对融合的特征谱X3进行softmax操作，获得融合感受野的权重谱Z＝F(X3)，F为softmax函数；

步骤S304：将获得的融合感受野权重谱Z与步骤S301产生的两个不同感受野特征谱X1和X2按相应的元素进行逐个相乘，得到两个不同的注意力谱A1＝X1*Z，A2＝X2*Z，A1、A2主要是增加菜品特征谱的细节信息；

步骤S305：对步骤S302中得到的融合感受野的特征谱X3运用尺度为3*3的可变形卷积进行特征的校准，得到融合感受野的特征校准谱X4＝W_deform*X3，可变形卷积操作主要是让融合特征谱的有效信息重新分布在菜品位置上，即特征的再校准；W_deform为3*3尺度可形变卷积学习的权重；

步骤S306：将输入CMFR的特征谱X、步骤S304中的两个不同注意力谱A1和A2、步骤S305中的特征校准谱X4都将对相应的元素逐个相加起来就得到最终将要输入至ODM中进行检测和分类的特征谱S，其中S＝X+A1+A2+X4；

步骤S4、将特征谱S输入至ODM进行最终的检测和分类。其中ODM的训练损失函数是：

其中i表示一个mini-batch中的第几个anchor框，

表示第i个anchor框的真实标注类别，

表示第i个真实框的位置和大小，c_i表示预测类别，t_i表示ODM中预测框的坐标信息，N_odm表示ODM中正样本框的数量，L_m表示多类别分类(即预测每个类别概率)，L_r表示回归损失。当条件是真时，

返回1否则为0，如果N_odm＝0，则

和

因此菜品识别模型的最终训练损失函数是L_arm与L_odm的和，即：

L({p_i}，{x_i}，{c_i}，{t_i})＝L_arm({p_i}，{x_i})+L_odm({c_i}，{t_i}) (3)

其中L_arm是步骤S2中ARM部分进行训练的损失函数，L_odm是应用ODM部分应用步骤S3后进行训练的损失函数。

Claims

1.一种结合多感受野注意与特征再校准的菜品识别方法，其特征在于，包括下列步骤：

第1步、菜品识别网络提取出菜品特征金字塔的每个特征谱；