CN115187972A

CN115187972A - 基于特征对比的菜品识别方法

Info

Publication number: CN115187972A
Application number: CN202210223171.5A
Authority: CN
Inventors: 彭浩宇; 张宇航; 王灿; 王勋
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2022-03-07
Filing date: 2022-03-07
Publication date: 2022-10-14

Abstract

本发明公开了一种基于特征对比的菜品识别方法，包含以下步骤：通过摄像头采集待识别的图片；通过深度学习算法检测图片中的托盘、饮料和餐盘；根据菜品的坐标进行逻辑判断，过滤干扰区域获得待识别区域；判断待识别区域是否为静止状态；在待识别区域为静止状态时使用深度学习算法识别待识别区域获得对应菜品名称；根据菜品名称从数据库中匹配出菜品对应的菜品信息。本发明所提供的基于特征对比的菜品识别方法，提高了菜品的识别效率和识别精度，极大的改善了餐厅的智能化程度。

Description

基于特征对比的菜品识别方法

技术领域

本发明属于图像处理领域，具体涉及一种基于特征对比的菜品识别方法。

背景技术

智能餐饮管理是世界餐饮管理领域最前沿的研究课题。近年来，其成果逐渐深入社会生活各个领域，为提高工作效率、便利餐饮流程和维护餐饮秩序安全发挥着积极作用。智能餐饮管理普遍使用传统RFID和深度学习技术对餐饮领域的菜品图像与视频进行目标采集、对象识别。其中当前餐饮行业中菜品的识别大多数使用的是传统的RFID模式，其技术相对成熟，已经广泛在餐厅人员流量监测、支付监控、菜品收费等具体应用中发挥作用，取得了良好的社会经济效益。但传统的RFID识别技术通过预设于结算区底部的天线来识别内嵌于餐盘底部的芯片，从而达到对餐盘的识别。这种方法实施成本较高，需要订制内嵌芯片的盘子。且只能识别盘子，无法对菜品进行识别。因此在需要精准定位菜品的情况下，RFID方案需要采购大量的盘子来做到一菜一盘，实施成本高，难度大。

而在深度学习技术中，菜品的定位是菜品识别的第一步，对于后续菜品识别的效率和准确率有至关重要的影响。目前在良好的光照条件和拍摄环境下，菜品定位与识别具有较高的准确率。其次菜品定位区域的识别是菜品识别的关键一步，现有的算法都只能在一定程度上解决特定条件下的菜品识别问题，无法解决餐厅不停上新的同时保证识别准确率。为了提高餐具识别算法的适应性和准确率，研究复杂环境条件下的菜品识别方法具有十分重要的意义。

发明内容

本发明提供了一种基于特征对比的菜品识别方法，采用如下的技术方案：

一种基于特征对比的菜品识别方法，包含以下步骤：

步骤S1：通过摄像头采集待识别的图片；

步骤S2：通过深度学习算法检测图片中的托盘、饮料和餐盘；

步骤S3：根据菜品的坐标进行逻辑判断，过滤干扰区域获得待识别区域；

步骤S4：判断待识别区域是否为静止状态；

步骤S5：在待识别区域为静止状态时使用深度学习算法识别待识别区域获得对应菜品名称；

步骤S6：根据菜品名称从数据库中匹配出菜品对应的菜品信息。

进一步地，通过深度学习算法检测图片中的托盘、饮料和餐盘的具体步骤为：

步骤S21：将摄像头采集到的图片缩放至第一尺寸，并填充黑色素以保持缩放后的图片的比例不变，并记录缩放比例R；

步骤S22：通过基于YOLO算法训练好的菜品检测模型对缩放后的图片进行预测得到第一预测框S；

步骤S23：使用NMS算法对第一预测框S进行过滤得到第二预测框S'。

进一步地，使用NMS算法对第一预测框S进行过滤得到第二预测框S'的具体步骤为：

步骤S231：将第一预测框S中的所有的框按照置信从大到小进行排序，将其中最高分框 B从第一预测框S删除并添加到第二预测框S'；

步骤S232：遍历第一预测框S中剩余的框，将和该最高分框B的IoU大于一定阈值的框也从第一预测框S中删除；

步骤S233：重复步骤S231和步骤S232，直至第一预测框S没有剩余的框从而得到最终的第二预测框S'。

进一步地，根据菜品的坐标进行逻辑判断，过滤干扰区域获得待识别区域的具体步骤为：

步骤S31：从第二预测框S'中获取对应的托盘、餐盘以及饮料的坐标；

步骤S32：将托盘的数量处理为1；

步骤S33：计算餐盘和饮料所对应的坐标的中心点坐标；

步骤S34：将中心点坐标位于托盘的坐标之外的餐盘和饮料对应的候选框删除得到待识别区域Can。

进一步地，在将托盘的数量处理为1的过程中，若托盘的数量本身为1，则无需进行任何处理；

若托盘的数量大于1，则首先删除被其他托盘包含在内的托盘；

若此时托盘的数量仍大于1，则只保留面积最大的托盘。

进一步地，判断待识别区域是否为静止状态的具体步骤为：

步骤S41：获取连续3次采集图片的待识别区域Can₁,Can₂,Can₃；

步骤S42：判断待识别区域Can₂与Can₁,Can₃的坐标点数量是否相同；

步骤S43：在待识别区域Can₂与Can₁,Can₃的坐标点数量相同的情况下，再判断待识别区域Can₂与Can₁,Can₃的位置差异，如果位置差异小于阈值则判断待识别区域Can₂为静止状态。

进一步地，在待识别区域为静止状态时使用深度学习算法识别待识别区域获得对应菜品名称的具体步骤为：

步骤S51：将待识别区域Can中的所有坐标映射回原图得到原图坐标；

步骤S52：根据原图坐标从原图中裁剪出没有压缩损失的待识别区域reInput并缩放至第二尺寸，填充黑色素保持图像比例不变；

步骤S53：使用预训练的菜品识别模型识别待识别区域reInput获得菜品名称。

进一步地，预训练的菜品识别模型为ResNet50-Cut模型；

搭建ResNet50-Cut模型的具体方法为：

使用预先采集的数据对ResNet50网络进行训练，获得预训练的ResNet50模型，再对 ResNet50深度学习模型进行剪枝操作，去除ResNet50最底部的平均池化层和全连接层得到 ResNet50-Cut模型。

进一步地，基于特征对比的菜品识别方法还包含：

步骤S7：当添加新菜品时，对新菜品进行训练以对菜品识别模型进行更新。

进一步地，对新菜品进行训练以对菜品识别模型进行更新的具体方法为：

步骤S71：拍摄新菜品的照片，经过步骤S2、步骤S3与步骤S4之后获得待识别区域Can；

步骤S72：将待识别区域Can经过步骤S51和S52处理后获得没有压缩损失的待识别区域reInput；

步骤S73：将待识别区域reInput送入ResNet50-Cut模型获得特征图F_new；

步骤S74：计算该特征图F_new和特征库中的特征图F′的相似度Sim(F_new,F′)；

步骤S75：当相似度Sim(F_new,F')大于阈值Th时，根据loss使用梯度下降算法更新ResNet50-Cu模型参数；

步骤S76：重复步骤S74和S75直至相似度Sim(F_new,F')小于阈值Th。

本发明的有益之处在于所提供的基于特征对比的菜品识别方法，提高了菜品的识别效率和识别精度，极大的改善了餐厅的智能化程度。

附图说明

图1是本发明的基于特征对比的菜品识别方法的示意图；

图2是本发明的图像检测的示意图；

图3是本发明的图像识别的示意图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

图1所示为本申请的一种基于特征对比的菜品识别方法，运行于餐厅专门定制的结算一体机上。结算一体机实时录像并截取视频帧，通过视频帧对菜品进行检测定位及识别，获得相关菜品信息并返回给结算一体机，由其他程序调用来实现餐厅智能结算。具体地，基于特征对比的菜品识别方法主要包含以下步骤：步骤S1：通过摄像头采集待识别的图片。步骤S2：通过深度学习算法检测图片中的托盘、饮料和餐盘。步骤S3：根据菜品的坐标进行逻辑判断，过滤干扰区域获得待识别区域。步骤S4：判断待识别区域是否为静止状态。步骤S5：在待识别区域为静止状态时使用深度学习算法识别待识别区域获得对应菜品名称。步骤S6：根据菜品名称从数据库中匹配出菜品对应的菜品信息。通过本申请的识别方法，提高了菜品的识别效率和识别精度，极大的改善了餐厅的智能化程度。以下具体介绍上述步骤。

对于步骤S1：通过摄像头采集待识别的图片。

首先，通过摄像头采集待识别的图片，图片中包含了托盘、饮料和餐盘。

对于步骤S2：通过深度学习算法检测图片中的托盘、饮料和餐盘。

具体而言，通过深度学习算法检测图片中的托盘、饮料和餐盘的具体步骤为：

步骤S21：将摄像头采集到的图片缩放至第一尺寸，并填充黑色素以保持缩放后的图片的比例不变，并记录缩放比例R。本申请中，第一尺寸为640*640。

步骤S22：通过基于YOLO算法训练好的菜品检测模型对缩放后的图片进行预测得到第一预测框S。

步骤S23：使用NMS(Non-Maximum Suppression，非极大值抑制算法)算法对第一预测框S进行过滤得到第二预测框S'。

其中，对于步骤S23，使用NMS算法对第一预测框S进行过滤得到第二预测框S'的具体步骤为：

步骤S231：将第一预测框S中的所有的框按照置信从大到小进行排序，将其中最高分框 B从第一预测框S删除并添加到第二预测框S'。

步骤S232：遍历第一预测框S中剩余的框，将和该最高分框B的IoU(Intersection-over-Union，交并比)大于一定阈值的框也从第一预测框S中删除。

具体的，如下式所示：

其中，area(var)表示area(var)所属的区域，∩为取两区域的交集，∪为取两区域的并集。 IoU的值越接近1，两个框就越接近重合。

对于步骤S3：根据菜品的坐标进行逻辑判断，过滤干扰区域获得待识别区域。

优选地，根据菜品的坐标进行逻辑判断，过滤干扰区域获得待识别区域的具体步骤为：

步骤S31：从第二预测框S'中获取对应的托盘、餐盘以及饮料的坐标。托盘、餐盘以及饮料的坐标分别为Tray[(x₁,y₁),(x₂,y₂)]、Dp[(x₁,y₁),(x₂,y₂)]和Dr[(x₁,y₁),(x₂,y₂)]。

步骤S32：将托盘的数量处理为1。具体而言，若托盘的数量本身为1，则无需进行任何处理。若托盘的数量大于1，则首先删除被其他托盘包含在内的托盘。若此时托盘的数量仍大于1，则只保留面积最大的托盘。

步骤S33：计算餐盘和饮料所对应的坐标的中心点坐标CenPo。计算公式如下：

对于步骤S4：判断待识别区域是否为静止状态。

在本申请中，判断待识别区域是否为静止状态的具体步骤为：

步骤S41：获取连续3次采集图片的待识别区域Can₁,Can₂,Can₃。

步骤S42：判断待识别区域Can₂与Can₁,Can₃的坐标点数量是否相同。具体地，所谓的判断待识别区域Can₂与Can₁,Can₃的坐标点数量是否相同是指分别判断托盘对应的坐标点是否相同、餐盘对应的坐标点是否相同以及饮料的坐标点是否相同，只有当托盘、餐盘和饮料所对应的坐标点均相同时，才表示待识别区域Can₂与Can₁,Can₃的坐标点数量相同。

步骤S43：在待识别区域Can₂与Can₁,Can₃的坐标点数量相同的情况下，再判断待识别区域Can₂与Can₁,Can₃的位置差异，如果位置差异小于阈值则判断待识别区域Can₂为静止状态。该待识别区域Can₂即为步骤S5中的待识别区域Can。其中，位置差异通过下述公式计算：

其中len(Can₂)为待识别区域Can₂中坐标点的数量，x_1,i和y_1,i表示待识别区域Can₁中第i 个点的x坐标值和y坐标值，x_2,i和y_2,i表示待识别区域Can₂中第i个点的x坐标值和y坐标值。

对于步骤S5：在待识别区域为静止状态时使用深度学习算法识别待识别区域获得对应菜品名称。

具体而言，在待识别区域为静止状态时使用深度学习算法识别待识别区域获得对应菜品名称的具体步骤为：

步骤S51：将待识别区域Can中的所有坐标映射回原图得到原图坐标oriCor(x,y)。计算公式如下：

其中，R为前述的缩放比例。

步骤S52：根据原图坐标oriCor(x,y)从原图中裁剪出没有压缩损失的待识别区域reInput 并缩放至第二尺寸，填充黑色素保持图像比例不变。在本申请中，第二尺寸为256*256。

在步骤S53中，预训练的菜品识别模型为ResNet50-Cut模型。

搭建ResNet50-Cut模型的具体方法为：

在构建好菜品识别模型后，再建立菜品特征库Lib。

具体地，将待识别区域reInput送入ResNet50-Cut模型获得reInput对应的特征图F，其中 F的维度为7*7*2048。根据不同reInput对应的特征图F建立菜品特征库Lib。可以理解的是，每个菜品vd可对应多个特征图F。

使用ResNet50-Cut模型进行菜品识别的具体方法为：

将待识别区域reInput送入ResNet50-Cut模型获得reInput对应的特征图F。计算特征图F 与特征库Lib中特征图F′的相似度Sim(F,F′)，与F相似度最高的F′所对应的菜品即为识别结果 res。计算公式如下：

res＝max(Sim(F,F′_i)),F′_i∈Lib

其中，F,F′_i是一个矩阵，在此维度为7*7。n为矩阵F最后一个维度的值，在此取2048。 m为矩阵F的维度，在此取7。

对于步骤S6：根据菜品名称从数据库中匹配出菜品对应的菜品信息。

具体地，菜品信息包含菜品售价和菜品包含的营养物质(蛋白质、热量、脂肪等)。如图 2所示为图像检测的示意图，图3是图像识别的示意图。

如图1所示，基于特征对比的菜品识别方法还包含：

优选地，对新菜品进行训练以对菜品识别模型进行更新的具体方法为：

步骤S71：拍摄新菜品的照片，经过步骤S2、步骤S3与步骤S4之后获得待识别区域Can。

步骤S72：将待识别区域Can经过步骤S51和S52处理后获得没有压缩损失的待识别区域reInput。

步骤S73：将待识别区域reInput送入ResNet50-Cut模型获得特征图F_new。

步骤S74：计算该特征图F_new和特征库中的特征图F′的相似度Sim(F_new,F′)。

步骤S75：当相似度Sim大于阈值Th时，根据loss使用梯度下降算法更新ResNet50-Cu模型参数。其中，

其中，N为特征库Lib中特征图F′的个数，vd为特征库Lib中包含的菜品。

步骤S76：重复步骤S74和S75直至相似度Sim小于阈值Th。其中，Th大，模型训练的时间久但性能更好，Th小，模型训练的时间短但性能稍差

最后，再将F_new添加到菜品特征库Lib里的菜品vd中。

对于本申请的基于特征对比的菜品识别方法通过一定时间的试运行，对不同时间段、不同光照条件、不同菜系、不同烹饪风格、不同餐厅所采集的近五万张图像的测试证明，采用本发明方法能适应不同时间段、不同光照条件、不同菜系、不同烹饪风格、不同餐厅等条件下的菜品检测识别。在相机过度曝光、灯光反射严重等严厉条件下的准确率99.5％，而综合条件下定位准确率达到99.8％。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于特征对比的菜品识别方法，其特征在于，包含以下步骤：

步骤S1：通过摄像头采集待识别的图片；

步骤S4：判断待识别区域是否为静止状态；

2.根据权利要求1所述的基于特征对比的菜品识别方法，其特征在于，

所述通过深度学习算法检测图片中的托盘、饮料和餐盘的具体步骤为：

3.根据权利要求2所述的基于特征对比的菜品识别方法，其特征在于，

所述使用NMS算法对第一预测框S进行过滤得到第二预测框S'的具体步骤为：

步骤S231：将第一预测框S中的所有的框按照置信从大到小进行排序，将其中最高分框B从第一预测框S删除并添加到第二预测框S'；

4.根据权利要求3所述的基于特征对比的菜品识别方法，其特征在于，

所述根据菜品的坐标进行逻辑判断，过滤干扰区域获得待识别区域的具体步骤为：

步骤S32：将托盘的数量处理为1；

步骤S33：计算餐盘和饮料所对应的坐标的中心点坐标；

5.根据权利要求4所述的基于特征对比的菜品识别方法，其特征在于，

在所述将托盘的数量处理为1的过程中，若托盘的数量本身为1，则无需进行任何处理；

若此时托盘的数量仍大于1，则只保留面积最大的托盘。

6.根据权利要求4所述的基于特征对比的菜品识别方法，其特征在于，

所述判断待识别区域是否为静止状态的具体步骤为：

7.根据权利要求6所述的基于特征对比的菜品识别方法，其特征在于，

所述在待识别区域为静止状态时使用深度学习算法识别待识别区域获得对应菜品名称的具体步骤为：

8.根据权利要求7所述的基于特征对比的菜品识别方法，其特征在于，

预训练的菜品识别模型为ResNet50-Cut模型；

搭建ResNet50-Cut模型的具体方法为：

使用预先采集的数据对ResNet50网络进行训练，获得预训练的ResNet50模型，再对ResNet50深度学习模型进行剪枝操作，去除ResNet50最底部的平均池化层和全连接层得到ResNet50-Cut模型。

9.根据权利要求8所述的基于特征对比的菜品识别方法，其特征在于，

所述基于特征对比的菜品识别方法还包含：

10.根据权利要求9所述的基于特征对比的菜品识别方法，其特征在于，

所述对新菜品进行训练以对菜品识别模型进行更新的具体方法为：

步骤S75：当相似度Sim(F_new,F′)大于阈值Th时，根据loss使用梯度下降算法更新ResNet50-Cu模型参数；

步骤S76：重复步骤S74和S75直至相似度Sim(F_new,F′)小于阈值Th。