CN113313149B

CN113313149B - 一种基于注意力机制和度量学习的菜品识别方法

Info

Publication number: CN113313149B
Application number: CN202110529177.0A
Authority: CN
Inventors: 康文雄; 周泳鑫; 张�雄; 骆杰豪
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2022-11-18
Anticipated expiration: 2041-05-14
Also published as: CN113313149A

Abstract

本发明提供了一种基于注意力机制和度量学习的菜品识别方法，包括以下步骤：S1、建立模板特征检索库，经过训练后的度量学习网络模型提取每个类别模板图片的特征向量；S2、输入单个菜品图像，切割出菜品图像中所有单个菜品子图，存放在特征检索库中；S3、通过度量学习模型提取单个菜品图像的特征向量，与模板特征检索库的所有特征向量进行余弦相似度计算，比较两两特征向量的距离，取其中与输入图像相似度最高的模板类作为当前菜品的类别。采用度量学习的框架，使网络能够开放式的识别新菜品，只需要事先在模板特征库中增加新菜品类别模板图片的特征，就能够识别新菜品，而不需要增加训练来微调网络模型，减少操作。

Description

一种基于注意力机制和度量学习的菜品识别方法

技术领域

本发明涉及图像处理与分析技术领域，具体地说，涉及一种基于注意力机制和度量学习的菜品识别方法。

背景技术

随着社会的快速发展，为了方便快捷，现有的餐厅很多都采用自主挑选菜品，排队进行结账的方式。结账分为人工计价和自动计价。随着人员增加，在一些大型场所如医院，学校等地，使用人工计价效率低，时间长了会出错。随着人工智能的发展，也越来越多的食堂采用自动计价的方法。

一种是基于餐具检测的方法进行计价，如给每个餐具定制检测磁条或内嵌芯片，每次结算时，机器会自动识别磁条和芯片信息来获得菜品价格来结算，缺点是每个餐具的成本较高，会存在磁条消磁或芯片损失问题。如采用机器视觉的方法对餐具进行识别，根据不同餐具对应的价格来结算。缺点是需要对餐具进行定制不同的形状，不能很好的兼容已有的餐具。

二是基于计算机视觉的方法直接检测菜品进行计价。一种是直接采用目标检测网络方法对图片中的待识别菜品目标进行检测和识别。缺点是这种方法通用性差，扩展性弱。一旦有新的菜品类别加入，网络模型需要重新训练，训练过程麻烦，操作复杂。另一种是将定位和识别分别处理，使用目标检测网络对图片待识别菜品进行定位，但不进行分类。目标检测网络会分割出若干个菜品子图送到分类网络，然后使用分类网络对菜品子图分类，根据菜品类别进行计价结算(Jiang,S.,Weiqing Min,Linhu Liu and Zhengdong Luo.“Multi-Scale Multi-View Deep Feature Aggregation for Food Recognition.”2020.)，该方法缺点是一旦有新的菜品加入，分类网络仍然要重新训练。

发明内容

本发明的目的在于克服现有技术中的缺点与不足，提供一种基于基于注意力机制的度量学习菜品识别方法；该方法不会受到餐具形状的限制，还解决了目标检测和分类方法只能识别固定菜品类别的问题，能够随意增加新类别而不用重新训练模型；增加的注意力机制模块能够使网络更加关注于对于分类有用的特征；多尺度特征融合能够得到富有语义和浅层问题的特征，提高识别准确度。

本发明至少通过如下技术方案之一实现。

一种基于注意力机制和度量学习的菜品识别方法，包括以下步骤：

S1、建立模板特征检索库，经过训练后的度量学习网络模型提取每个类别模板图片的特征向量，存放在特征检索库中；

S2、输入菜品图像，切割出菜品图像中所有单个菜品子图，存放在特征检索库中；

S3、通过度量学习模型提取单个菜品图像的特征向量，与模板特征检索库的所有特征向量进行余弦相似度计算，比较两两特征向量的距离，取其中与输入图像相似度最高的模板类作为当前菜品的类别。

优选的，所述度量学习网络模型包括视觉几何网络Vgg16，并在Vgg16的基础上增加注意力机制和多尺度特征融合。

优选的，所述增加注意力机制和多尺度特征融合是在vgg16的基础上去掉全连接层，然后在第1、2个卷积块后接入通道注意力SE模块，在第3、4、5卷积块的输出后分别接入bn卷积层，将每一层输出空间平均后拼接一起，接入一个全连接层，降维输出最终的1*c维特征向量。

优选的，所述度量学习网络模型的主干网络基本结构为ResNet或者InceptionNet。

优选的，所述度量学习网络模型训练过程包括以下步骤：

S1.1、在训练阶段epoch，在训练集的每个类别中随机采样N张图片，每个图片缩放到统一的大小，再进行预处理；

S1.2、每个图片都输入到所述度量学习网络模型，得到对应的1*c维特征向量；

S1.3、所述特征向量组成多个三元组，分别计算锚点anchor和正类positive，锚点anchor和负类negative的余弦相似度，损失函数采用三元损失Triplet loss:

L_Tri＝max(d(x,p)-d(x,n)+margin,0)

其中x指anchor图片的特征向量，p指positive图片和a同类的特征向量，n指negative图片和a不同类的特征向量；d(.,.)指余弦距离，Triplet loss能够优化网络，拉近同一类别的菜品图像之间的类内距离，拉远不同类的菜品图像之间的类间距离；通过超参数margin来调整类间距离和类内距离之间的差值；

S1.4、每个epoch都计算当前更新的度量学习网络模型，保存历次准确度最高的网络模型参数。

优选的，所述测试集和训练集均来自于同一个数据集，训练集和测试集之间的类别label没有重复的类别。

优选的，所述损失函数替换为多重相似损失MS loss或者圆损失Circle loss。

优选的，所述预处理包括随机反转、随机旋转。

优选的，步骤S2是通过餐具识别算法或目标检测算法切割出菜品图像中所有单个菜品子图。

优选的，所述特征向量通过字典的形式保存，字典的key关键值为菜品类别名称，字典的val值为数组，保存key对应类别的特征向量：

foods＝{′r：[m₁，....，mn]，...}

其中，foods为字典名；′r为字典key关键值；m₁，....，m_n均为度量学习网络模型根据米饭的模板图片提取的n个特征向量。

与现有技术相比，本发明具有如下优点与有益效果：

本发明提出的基于注意力机制和度量学习的菜品识别方法，能够离线识别菜品类别；有新的类别加入，只需要在模板特征库中加入1-3张该类别的模板图片，就可以直接识别该类别，不需要增加训练来微调网络模型。在浅层网络增加的通道注意力SE模块能够使网络关注菜品的细节纹理，多尺度特征融合能够得到富有语义和浅层纹理信息的特征向量，提高识别率。

本发明提出的度量学习网络模型还可以动态替换卷积神经网络或损失函数，便于根据实际情况提升识别效果，模型易于维护或升级。

附图说明

图1是本发明实施例一种基于注意力机制和度量学习的菜品识别方法的流程示意图；

图2是本发明实施例中卷积神经网络提取特征流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本部分将详细描述本发明的具体实施例，本发明之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案，但其不能理解为对本发明保护范围的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

如图1、图2所示的一种基于注意力机制和度量学习的菜品识别方法，包括以下步骤：

S1、建立模板特征检索库：对各种类别的菜品采集N个图片作为模板，一般N＝3，按照餐具-类别或者类别保存，经过训练后的度量学习网络模型提取所有模板图片提取特征向量，通过字典的形式保存这些特征向量，字典的key关键值为菜品类别名称，字典的val值为数组，保存key对应类别的特征向量：

foods＝{′rice′：[m₁，....，mn]，...}

其中，foods为字典名；′rice′为字典key关键值：米饭；m₁，....，m_n均为度量学习网络模型根据米饭的模板图片提取的n个特征向量。

作为一种优选的实施例，度量学习网络模型是在视觉几何网络Vgg16(visualgeometry group)的基础上增加注意力机制和多尺度特征融合。

原版的Vgg16网络包括13个卷积层和3个全连接层，13个卷积层按照maxpooling最大池化层分成5个卷积块。

本发明度量学习网络模型首先在原版vgg16的基础上去掉全连接层，然后在第1、2个卷积块后接入通道注意力SE模块，在第3、4、5卷积块的输出后分别接入bn卷积层(conv-bn)，将每一层输出空间平均后拼接(concate)一起，接入一个全连接层(fc)，降维输出最终的1*c维特征向量，c取512。

作为一种优选的实施例，可以将度量学习网络模型的主干网络vgg16替换成ResNet残差网络、InceptionNet初始网络等基础网络结构。

度量学习网络模型训练过程包括以下步骤：

S1.1、一个epoch(训练阶段)中，在训练集中，每个类别随机采样6张图片，每个图片缩放到128*128大小，再进行随机反转，随机旋转等数据增强的预处理；

S1.2、每个图片都输入到度量学习网络模型，得到对应的1*512维特征向量；

S1.3、这些特征向量组成多个三元组，分别计算锚点anchor和正类positive，锚点anchor和负类negative的余弦相似度，从而计算三元损失Triplet loss：

L_Tri＝max(d(x，p)-d(x，n)+margin，0)

其中x指anchor图片的特征向量，p指positive图片和a同类的特征向量，n指negative图片和a不同类的特征向量；d(.，.)指余弦距离，Triplet loss能够优化网络，拉近同一类别的菜品图像之间的类内距离，拉远不同类的菜品图像之间的类间距离；通过超参数margin来调整类间距离和类内距离之间的差值；

S1.4、每个epoch都计算当前更新后的度量学习网络模型在测试集的正确分类的准确度，保存历次准确度最高的网络模型参数，一共50epoch。测试集和训练集是来自于同一个公开数据集或自构建数据集，按照数据集类别70％，30％划分训练集和测试集，训练集和测试集之间的类别label没有重复的类别。

自构建数据集构建步骤：

1、对于要采集的菜品类别，每个类别分别选10张经典图片作为模板。使用预先在公开训练集训练过的所述度量学习网络模型提取模板图片的特征向量，取每个类别10个特征向量的平均值作为模板特征向量。

2、从获得授权的菜品网站上爬虫多个菜品图像，或者人工拍摄多个菜品图像。分别使用所述的度量学习网络模型对这些菜品图像进行特征向量提取，然后分别与各个类别的模板特征向量计算余弦相似度，比较两两的余弦相似度，取相似度最大的模板的类别作为该菜品图像的类别，划分该菜品图像到对应类别的文件夹中。

3、待所有图像都用所述的度量学习网络模型初步划分类别后，人工筛选所有类别，去掉错误分类的菜品图像。得到最终的自构建数据集。

作为一种优选的实施例，可以将损失函数三元损失Triplet loss替换成多重相似损失Ms loss、圆损失Circle loss等相似性度量损失。

S2、推理阶段，给定菜品图像，通过现有的餐具识别算法或目标检测算法分割出若干个单个菜品图像，然后向度量学习网络模型输入单个菜品图像，输入的菜品图像要缩放到128*128大小。

经过训练的目标检测算法分割单个菜品图像步骤：

(1)、将一个任意尺寸大小的菜品图像缩放到N*N大小，送入目标检测网络；

(2)、目标检测网络能够识别出图像中菜品类别并用框框住菜品目标，目标检测网络输出若干个菜品目标中心以及框的长宽(cx,cy,w,h),cx、cy为菜品目标的中心点的横纵坐标，w、h为以(cx,cy)为中心的框的长宽。

(3)、根据(cx,cy,w,h)，在原图上切割出单个菜品子图像，用于S3步骤。

餐具识别算法分割单个菜品图像步骤：

1)、将菜品彩色图像转化为灰度图，设置好分割阈值，将像素值超过阈值的像素点的像素值设,255，像素值低于阈值的像素点的像素值设为0。就可以得到含环状白边的黑白图。

2)、将黑白图进一步膨胀和腐蚀处理，图像膨胀操作能扩大白色色块的面积，减小黑色色块面积，图像腐蚀操作能减小白色色块面积，扩大黑色色块面积。

通过一系列膨胀和腐蚀操作，能将环状白边内的黑色色块去掉，又保留环边缘不变。由此得到跟餐具形状大小一致的白色色块，设定面积阈值，舍弃面积小于面积阈值的白色色块，然后计算剩下的白色色块的长宽，以及中心点(cx,cy,w,h)。

3)、根据(cx,cy,w,h)，在原图上切割出单个菜品子图像，用于S3步骤。

S3、通过度量学习模型提取单个菜品图像1*512维特征向量，与模板特征检索库的所有特征向量进行余弦相似度计算，比较两两特征向量的距离，取其中与输入图像相似度最高的模板类作为当前菜品的类别。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制和度量学习的菜品识别方法，其特征在于：包括以下步骤：

S1、建立模板特征检索库，经过训练后的度量学习网络模型提取每个类别模板图片的特征向量，存放在特征检索库中；具体包括：对各种类别的菜品采集N个图片作为模板，按照餐具-类别或者类别保存，经过训练后的度量学习网络模型提取所有模板图片提取特征向量；

所述度量学习网络模型的主干网络基本结构为ResNet或者InceptionNet，度量学习网络模型包括视觉几何网络Vgg16，并在Vgg16的基础上增加注意力机制和多尺度特征融合；所述增加注意力机制和多尺度特征融合是在vgg16的基础上去掉全连接层，然后在第1、2个卷积块后接入通道注意力SE模块，在第3、4、5卷积块的输出后分别接入bn卷积层，将每一层输出空间平均后拼接一起，接入一个全连接层，降维输出最终的1*c维特征向量；

所述度量学习网络模型训练过程包括以下步骤：

L_Tri＝max(d(x,p)-d(x,h)+margin,0)

其中x指anchor图片的特征向量，p指positive图片和anchor同类的特征向量，h指negative图片和anchor不同类的特征向量；d(.,.)指余弦距离，Triplet loss能够优化网络，拉近同一类别的菜品图像之间的类内距离，拉远不同类的菜品图像之间的类间距离；通过超参数margin来调整类间距离和类内距离之间的差值；

S1.4、每个epoch都计算当前更新的度量学习网络模型，保存历次准确度最高的网络模型参数；

S3、通过度量学习模型提取单个菜品图像的特征向量，与模板特征检索库的所有特征向量进行余弦相似度计算，比较两两特征向量的距离，取其中与输入图像相似度最高的模板类作为当前菜品的类别；

所述特征向量通过字典的形式保存，字典的key关键值为菜品类别名称，字典的val值为数组，保存key对应类别的特征向量：

foods＝{′r:[m₁,…,m_n],…}

其中，foods为字典名；′r为字典key关键值；m₁,…,m_n均为度量学习网络模型根据米饭的模板图片提取的n个特征向量；测试集和训练集均来自于同一个数据集，训练集和测试集之间的类别label没有重复的类别。

2.根据权利要求1所述的一种基于注意力机制和度量学习的菜品识别方法，其特征在于：所述损失函数替换为多重相似损失MSloss或者圆损失Circleloss。

3.根据权利要求1或2所述的一种基于注意力机制和度量学习的菜品识别方法，其特征在于：所述预处理包括随机反转、随机旋转。

4.根据权利要求3所述的一种基于注意力机制和度量学习的菜品识别方法，其特征在于：步骤S2是通过餐具识别算法或目标检测算法切割出菜品图像中所有单个菜品子图。