CN114627279B

CN114627279B - 一种快餐菜品定位方法

Info

Publication number: CN114627279B
Application number: CN202210531521.4A
Authority: CN
Inventors: 李大鹏
Original assignee: Shandong Weiliang Linkage Network Technology Co ltd
Current assignee: Shandong Weiliang Linkage Network Technology Co ltd
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-10-04
Anticipated expiration: 2042-05-17
Also published as: CN114627279A

Abstract

本发明提供一种快餐菜品定位方法，涉及图像识别技术领域，其技术方案要点是：基于菜品与餐盘的颜色差异，采用改进的分水岭方法在待定位菜品图像中确定菜品分割框，并对确定的菜品分割框进行尺寸筛选和颜色筛选得到准确的菜品分割框集合；基于餐盘与托盘的颜色差异，从待定位菜品图像中分割出餐盘边缘图像，并利用深度学习模型在餐盘边缘图像上拟合出不同餐盘部位分割框；根据菜品分割框与不同餐盘部位餐盘分割框的交并比确定更准确的目标分割框，将目标分割框合并为菜品定位框，从而实现菜品的定位。本发明方案将传统图像算法与深度学习方法进行融合来实现菜品定位，弥补两种方法的缺点，达到泛用性好，精准度高的效果。

Description

一种快餐菜品定位方法

技术领域

本发明涉及图像识别技术领域，尤其涉及一种快餐菜品定位方法。

背景技术

现阶段大部分的餐厅都采用了自主挑选菜品，排队进行结账，随着人工智能的快速发展，人们对于“智能化”的需求越来越大，而人工计价存在效率低，正确率无法得到保障等缺点。因此，越来越多许高校以及大型企业的食堂，引入菜品智能识别与结算设备。

在菜品识别技术中，菜品定位是重中之重。现有菜品定位技术大致为两种技术：第一，通过传统图像算法进行定位，例如“分水岭”，阈值分割等；第二，深度学习方法进行定位，如卷积神经网络等。这两种方案都各有它们的优点缺点。

然而，传统图像算法根本上是通过色彩变化程度，以若干的阈值进行控制来定位餐盘位置，当图像光照环境复杂，很容易造成定位不准确。深度学习方法是通过梯度下降拟合出结果，那么必然会出现误差，实际应用经常出现虽然能比较准确的定位，但是依然存在误差，物体检测框存在不同程度移位的情况。

因此，如何通过传统图像算法与深度学习方法进行融合，弥补两种方法的缺点，达到泛用性好，精准度高的效果，成为解决快餐菜品定位的关键。

发明内容

本发明提供一种快餐菜品定位方法，将传统图像算法与深度学习方法进行融合，分别对放置在托盘上的餐盘及餐盘中的菜品进行定位，既有深度学习的稳定，又有传统图像算法的精度优势。

本发明提供一种快餐菜品定位方法，包括：

获取托盘图像和待定位菜品图像；其中，所述托盘图像和待定位菜品图像是摄像头俯视拍摄得到的；

以20*20正方形为单位遍历所述托盘图像的RGB像素值计算每个单位的RGB像素平均值，并对所述每个单位的RGB像素平均值进行K=15的K聚类得到15个聚类RGB像素值；

将所述待定位菜品图像转换为菜品灰度图像，并根据预设的像素值变换规则对所述菜品灰度图像进行二值变换，得到菜品二值图像；

将所述菜品二值图像沿长度方向和宽度方向平均分成100份得到10000个菜品二值图像块，并计算每个菜品二值图像块中像素值为1的像素点所占的比例；

获取像素值为1的像素点所占的比例大于预设比例阈值的菜品二值图像块，并将获取的菜品二值图像块中互相连通的菜品二值图像块进行合并得到菜品分割框集合；

对所述菜品分割框集合中的各菜品分割框依次进行尺寸筛选和颜色筛选，得到筛选后的菜品分割框集合；

将所述待定位菜品图像分割成多个61*61的菜品图像块，以20*20正方形为单位遍历每个菜品图像块的RGB像素值计算每个单位的RGB像素平均值，判断每个单位的RGB像素平均值与15个聚类RGB像素值差值的绝对值最小值是否大于第一预设差值阈值，若是则将该单位中各像素点置为1，否则置为0，得到多个61*61的二值菜品图像块；

对所述多个61*61的二值菜品图像块进行池化处理得到多个30*30的二值菜品图像块，并根据置信度对所述多个30*30的二值菜品图像块进行筛选得到30*30的二值餐盘边缘图像块；

利用预先训练完毕的餐盘拟合网络模型对所述30*30的二值餐盘边缘图像块中的餐盘进行拟合，得到不同餐盘部位分割框集合；

计算所述筛选后的菜品分割框集合中每个菜品分割框与所述不同餐盘部位分割框集合中每个餐盘分割框的交并比，并将计算得到的交并比大于预设交并比阈值的菜品分割框与餐盘分割框归为同一类，得到不同类别的框簇；

若每一类框簇中包含有菜品分割框，则将面积最大的菜品分割框作为目标分割框，否则，将每一类框簇中的餐盘分割框作为目标分割框；

将每一类框簇中确定的目标分割框进行合并，得到最终菜品定位框。

可选实施例中，所述根据预设的像素值变换规则对所述菜品灰度图像进行二值变换，得到菜品二值图像，包括：

去除所述菜品灰度图像中灰度值超出预设灰度值范围的像素点，并从剩余像素点中去除RGB像素值与15个聚类RGB像素值差值的绝对值最小值小于第二预设像素值差值阈值的像素点，得到潜在菜品像素点；

从（0,0）位置开始获取潜在菜品像素点作为目标点，获取目标点周围8个位置的潜在菜品像素点的灰度值，将灰度值最低且灰度值低于目标点的潜在菜品像素点作为最新目标点，继续从最新目标点周围8个位置的潜在菜品像素点中查找下一个最新目标点，直至最新目标点周围8个位置的潜在菜品像素点的灰度值均高于最新目标点，则确定当前最新目标点为最终目标点，按照同样的方法依次确定其他潜在菜品像素点的最终目标点，已被确定为最终目标点的潜在菜品像素点不再重复判定为其他潜在菜品像素点的最终目标点，得到全部最终目标点；

将所述菜品灰度图像中的全部最终目标点的灰度值置为1，其他像素点的灰度值置为0，得到菜品二值图像。

可选实施例中，所述对所述菜品分割框集合中的菜品分割框依次进行尺寸筛选和颜色筛选，得到筛选后的菜品分割框集合，包括：

根据预设长度阈值和宽度阈值对所述菜品分割框集合中的菜品分割框进行筛选，得到符合尺寸要求的菜品分割框集合；

利用RGB聚类方法对所述符合尺寸要求的菜品分割框集合进行颜色划分，得到颜色分类后的菜品分割框集合；

利用预先训练好的菜品识别网络模型对所述颜色分类后的菜品分割框集合进行菜品识别，并去除被识别为托盘的菜品分割框，得到筛选后的菜品分割框集合。

进一步地，所述利用预先训练好的菜品识别网络模型对所述颜色分类后的菜品分割框集合进行菜品识别之前，还包括：

获取多张训练菜品图像，并利用RGB聚类方法将所述训练菜品图像进行颜色划分得到多组训练菜品图像；

在每组训练菜品图像中加入训练托盘图像得到训练菜品识别图像，并对每组训练菜品识别图像进行标注得到菜品标注数据；

利用所述训练菜品识别图像以及对应的菜品标注数据对构建的菜品识别网络模型进行训练，获得所述训练完毕的菜品识别网络模型。

可选实施例中，所述利用预先训练完毕的餐盘拟合网络模型对所述30*30的二值餐盘边缘图像块中的餐盘进行拟合之前，包括：

获取多张垫着托盘的餐盘图像；其中，所述垫着托盘的餐盘图像是对托盘上方放置的餐盘进行俯视拍摄得到的；

将每张垫着托盘的餐盘图像分割成多个61*61的餐盘图像块；

从全部61*61的餐盘图像块中选取包含餐盘和托盘的餐盘图像块作为训练餐盘图像块，并对所述训练餐盘图像块进行标注得到餐盘标注数据；其中，餐盘标注数据包括餐盘长度、餐盘宽度、训练餐盘图像块左上角距离餐盘中心的X轴距离和训练餐盘图像块左上角距离餐盘中心的Y轴距离；

以20*20正方形为单位遍历每个训练餐盘图像块的RGB像素值计算每个单位的RGB像素平均值，判断每个单位的RGB像素平均值与15个聚类RGB像素值差值的绝对值最小值是否大于第一预设差值阈值，若是则将该单位置中各像素点置为1，否则置为0，得到二值训练餐盘图像块；

利用所述二值训练餐盘图像块以及对应的餐盘标注数据对构建的餐盘拟合网络模型进行训练，获得所述训练完毕的餐盘拟合网络模型。

采用上述技术方案后，本发明至少具有如下有益效果：

1、基于菜品与餐盘的颜色差异，采用改进的分水岭方法在待定位菜品图像中确定菜品分割框，并对确定的菜品分割框进行尺寸筛选和颜色筛选，能够得到更准确的菜品分割框；

2、基于餐盘与托盘的颜色差异，从待定位菜品图像中分割出餐盘边缘图像，并利用深度学习模型在餐盘边缘图像上拟合出不同餐盘部位分割框，根据菜品分割框与不同餐盘部位餐盘分割框的交并比将菜品分割框与不同餐盘部位分割框进行融合，能够得到更准确的菜品定位框，从而实现菜品的定位。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1本公开实施例提供的一种快餐菜品定位方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本公开实施例提供的一种快餐菜品定位方法的流程示意图。如图1所示，本公开实施例提供的一种快餐菜品定位方法包括：

S1、获取托盘图像和待定位菜品图像；其中，所述托盘图像和待定位菜品图像是摄像头俯视拍摄得到的。

在菜品定位前，预先将托盘置于摄像头下方，摄像头俯拍托盘图像，在进行菜品定位时，用户使用托盘托举餐盘及菜品置于摄像头下方，摄像头俯拍包含托盘、餐盘及菜品的图像。

S2、以20*20正方形为单位遍历所述托盘图像的RGB像素值计算每个单位的RGB像素平均值，并对所述每个单位的RGB像素平均值进行K=15的K聚类得到15个聚类RGB像素值。

计算得到15个聚类RGB像素值用于后续将菜品与托盘、餐盘与托盘进行区分。

S3、将所述待定位菜品图像转换为菜品灰度图像，并根据预设的像素值变换规则对所述菜品灰度图像进行二值变换，得到菜品二值图像。

从本步骤开始，基于菜品与餐盘的颜色差异，采用改进的分水岭方法在待定位菜品图像中确定菜品分割框，首先将待定位菜品图像变换为二值图像，更易于将菜品区域分割出来。

具体来说，去除所述菜品灰度图像中灰度值超出预设灰度值范围的像素点，并从剩余像素点中去除RGB像素值与15个聚类RGB像素值差值的绝对值最小值小于第二预设像素值差值阈值的像素点，得到潜在菜品像素点；从（0,0）位置开始获取潜在菜品像素点作为目标点，获取目标点周围8个位置的潜在菜品像素点的灰度值，将灰度值最低且灰度值低于目标点的潜在菜品像素点作为最新目标点，继续从最新目标点周围8个位置的潜在菜品像素点中查找下一个最新目标点，直至最新目标点周围8个位置的潜在菜品像素点的灰度值均高于最新目标点，则确定当前最新目标点为最终目标点，按照同样的方法依次确定其他潜在菜品像素点的最终目标点，已被确定为最终目标点的潜在菜品像素点不再重复判定为其他潜在菜品像素点的最终目标点，得到全部最终目标点；将所述菜品灰度图像中的全部最终目标点的灰度值置为1，其他像素点的灰度值置为0，得到菜品二值图像。

在一种可能的实施方式中，预设灰度值范围设置为10/255~160/255时，实际效果较为理想。

也就是说，可先去除菜品灰度图像中的高亮像素点、低亮像素点以及判定为托盘像素点，剩余的像素点即为潜在菜品像素点，这些潜在菜品像素点中存在仍然存在一些噪声像素点，需要进一步优化，因此从（0,0）位置开始，选取第一个潜在菜品像素点，将第一个潜在菜品像素点与其周围8个位置的潜在菜品像素点进行灰度值比较，从中选择灰度值最低且灰度值低于第一个潜在菜品像素点的潜在菜品像素点，按照同样的方式继续选择下一个潜在菜品像素点，直至选择的潜在菜品像素点的灰度值低于其周围8个位置的潜在菜品像素点的灰度值，则该点被认为是一个菜品像素点，再从（0,1）位置选取第二个潜在菜品像素点，按照同样的方式确定下一个菜品像素点，依次类推，而潜在菜品像素点周围8个位置的潜在菜品像素点中已被确定为菜品像素点的像素点不再重复判定为菜品像素点，需要从其余位置的潜在菜品像素点中确定菜品像素点，最终得到菜品像素点集。

S4、将所述菜品二值图像沿长度方向和宽度方向平均分成100份得到10000个菜品二值图像块，计算每个菜品二值图像块中像素值为1的像素点所占的比例，获取像素值为1的像素点所占的比例大于预设比例阈值的菜品二值图像块，并将获取的菜品二值图像块中互相连通的菜品二值图像块进行合并得到菜品分割框集合。

本步骤将菜品二值图像按照预设的参数分割成图像块，并将图像块中菜品的比例大于预设比例阈值的图像块认定为菜品图像块，并将连通的菜品图像块合并，则合并后的图像块的所在的包围框即为菜品分割框。

在一种可能的实施方式中，预设比例阈值设置为0.2时，实际效果较为理想。

S5、对所述菜品分割框集合中的各菜品分割框依次进行尺寸筛选和颜色筛选，得到筛选后的菜品分割框集合。

本步骤对一些尺寸明显不符合实际的菜品分割框以及由于与菜品颜色相近而被错误判定为菜品的托盘分割框进行筛选，对尺寸明显不符合实际的菜品分割框采用长度阈值和宽度阈值进行筛选，对托盘分割框采用深度学习方法进行筛选，最终得到符合标准的菜品分割框。

具体来说，根据预设长度阈值和宽度阈值对所述菜品分割框集合中的菜品分割框进行筛选，得到符合尺寸要求的菜品分割框集合；利用RGB聚类方法对所述符合尺寸要求的菜品分割框集合进行颜色划分，得到颜色分类后的菜品分割框集合；利用预先训练好的菜品识别网络模型对所述颜色分类后的菜品分割框集合进行菜品识别，并去除被识别为托盘的菜品分割框，得到筛选后的菜品分割框集合。

也就是说，只有长宽在设置范围内的菜品分割框才保留，其余都舍弃这里的目的是进行合法筛选，让一些不可能大小的菜品分割框直接过滤掉，由于菜品与托盘颜色可能非常相近，一些菜品分割框其实包围的是托盘而不是菜品，需要将这些错误的菜品分割框滤除，利用RGB聚类方法先将明显不是托盘的菜品分割框滤除，然后将归类为同一颜色的菜品分割框输入预先训练好的菜品识别网络模型中进行识别，若得出菜品分割框包围的区域为托盘，则将菜品分割框去除。

在一种可能的实施方式中，预设长度阈值范围和宽度阈值范围均设置为100~400，实际效果较为理想。

此外，在利用预先训练好的菜品识别网络模型对所述颜色分类后的菜品分割框集合进行菜品识别之前，还包括菜品识别网络模型训练过程，训练过程包括：获取多张训练菜品图像，并利用RGB聚类方法将所述训练菜品图像进行颜色划分得到多组训练菜品图像；在每组训练菜品图像中加入训练托盘图像得到训练菜品识别图像，并对每组训练菜品识别图像进行标注得到菜品标注数据；利用所述训练菜品识别图像以及对应的菜品标注数据对构建的菜品识别网络模型进行训练，获得所述训练完毕的菜品识别网络模型。

在获取菜品分割框的同时，同步对待定位菜品图像进行餐盘拟合得到不同餐盘部位分割框。

S6、将所述待定位菜品图像分割成多个61*61的菜品图像块，以20*20正方形为单位遍历每个菜品图像块的RGB像素值计算每个单位的RGB像素平均值，判断每个单位的RGB像素平均值与15个聚类RGB像素值差值的绝对值最小值是否大于第一预设差值阈值，若是则将该单位中各像素点灰度值置为1，否则置为0，得到多个61*61的二值菜品图像块；

S7、对所述多个61*61的二值菜品图像块进行池化处理得到多个20*20的二值菜品图像块，并根据置信度对所述多个20*20的二值菜品图像块进行筛选得到20*20的二值餐盘边缘图像块；

S8、利用预先训练完毕的餐盘拟合网络模型对所述20*20的二值餐盘边缘图像块中的餐盘进行拟合，得到不同餐盘部位分割框集合。

步骤S6的目的是将待定位菜品图像进行二值化，即托盘区域置为0，餐盘区域置为1，步骤S7将二值化后的菜品图像进行分割池化得到多个20*20的二值菜品图像块，并根据置信度判定20*20的二值菜品图像块是否为餐盘边缘，步骤S8将判定为餐盘边缘的20*20的二值菜品图像块输入餐盘拟合网络模型进行拟合，得到不同餐盘部位分割框集合。

此外，在利用预先训练完毕的餐盘拟合网络模型对所述20*20的二值餐盘边缘图像块中的餐盘进行拟合之前，还包括餐盘拟合网络模型训练过程，训练过程包括：获取多张垫着托盘的餐盘图像；其中，所述垫着托盘的餐盘图像是对托盘上方放置的餐盘进行俯视拍摄得到的；将每张垫着托盘的餐盘图像分割成多个61*61的餐盘图像块；从全部61*61的餐盘图像块中选取包含餐盘和托盘的餐盘图像块作为训练餐盘图像块，并对所述训练餐盘图像块进行标注得到餐盘标注数据；其中，餐盘标注数据包括餐盘长度、餐盘宽度、训练餐盘图像块左上角距离餐盘中心的X轴距离和训练餐盘图像块左上角距离餐盘中心的Y轴距离；以20*20正方形为单位遍历每个训练餐盘图像块的RGB像素值计算每个单位的RGB像素平均值，判断每个单位的RGB像素平均值与15个聚类RGB像素值差值的绝对值最小值是否大于第一预设差值阈值，若是则将该单位中各像素点灰度值置为1，否则置为0，得到二值训练餐盘图像块；利用所述二值训练餐盘图像块以及对应的餐盘标注数据对构建的餐盘拟合网络模型进行训练，获得所述训练完毕的餐盘拟合网络模型。

得到菜品分割框集合和不同餐盘部位分割框集合后，进一步根据菜品分割框和不同餐盘部位分割框的交并比，选择更准确的框来表示菜品位置。

S9、计算所述筛选后的菜品分割框集合中每个菜品分割框与所述不同餐盘部位分割框集合中每个餐盘分割框的交并比，并将计算得到的交并比大于预设交并比阈值的菜品分割框与餐盘分割框归为同一类，得到不同类别的框簇；

S10、若每一类框簇中包含有菜品分割框，则将面积最大的菜品分割框作为目标分割框，否则，将每一类框簇中的餐盘分割框作为目标分割框；

S11、将每一类框簇中确定的目标分割框进行合并，得到最终菜品定位框。

不同餐盘部位分割框是深度学习获得的结果，必然都框在餐盘上，但因为有误差，部分框会产生偏移，此时将上述方法得到的菜品分割框与不同餐盘部位分割框分别做交并比对比，菜品分割框集合中的框凡是与任意一个不同餐盘部位分割框集合中的框的交并比超过预设交并比阈值，则归为同一类框，将所有菜品分割框集合中的框分簇完毕，每一类框簇中选择面积最大的一个菜品分割框作为目标分割框，若没有菜品分割框归为该类框簇，则将餐盘分割框作为目标分割框。

在一种可能的实施方式中，预设交并比阈值设置为0.2，实际效果较为理想。

这样的目的就是让精准的菜品分割框代替拟合的餐盘分割框，餐盘分割框作用是作为分簇的依据，并在菜品分割框没有包含菜品时，保底结果。因为菜品分割框是通过阈值分割得到的，那么就有分割框过大和分割框过小的风险，直接选择框簇中面积最大的菜品分割框可以排除掉多切的噪音。如果有一类框簇中没有菜品分割框，通常是因为高亮被过滤掉了，此时用餐盘分割框保底，形成双保险。

虽然本发明已以实施例揭示如上，然其并非用以限定本发明，任何所属技术领域中技术人员，在不脱离本发明的精神和范围内，当可作些许的更改与润饰，故本发明的保护范围当视权利要求所界定的为准。

Claims

1.一种快餐菜品定位方法，其特征在于，包括：

以20*20正方形为单位遍历所述托盘图像的RGB像素值计算每个单位的RGB像素平均值，并对所述每个单位的RGB像素平均值进行K＝15的K聚类得到15个聚类RGB像素值；

根据所述菜品分割框集合中的菜品分割框的尺寸对所述菜品分割框集合进行尺寸筛选，以及根据所述菜品分割框集合中的菜品分割框包围的图像区域的颜色对所述菜品分割框集合进行颜色筛选，得到筛选后的菜品分割框集合；

将每一类框簇中确定的目标分割框进行合并，得到最终菜品定位框；

所述根据预设的像素值变换规则对所述菜品灰度图像进行二值变换，得到菜品二值图像，包括：

从(0,0)位置开始获取潜在菜品像素点作为目标点，获取目标点周围8个位置的潜在菜品像素点的灰度值，将灰度值最低且灰度值低于目标点的潜在菜品像素点作为最新目标点，继续从最新目标点周围8个位置的潜在菜品像素点中查找下一个最新目标点，直至最新目标点周围8个位置的潜在菜品像素点的灰度值均高于最新目标点，则确定当前最新目标点为最终目标点，按照同样的方法依次确定其他潜在菜品像素点的最终目标点，已被确定为最终目标点的潜在菜品像素点不再重复判定为其他潜在菜品像素点的最终目标点，得到全部最终目标点；

2.根据权利要求1所述的快餐菜品定位方法，其特征在于，所述对所述菜品分割框集合中的菜品分割框依次进行尺寸筛选和颜色筛选，得到筛选后的菜品分割框集合，包括：

3.根据权利要求2所述的快餐菜品定位方法，其特征在于，所述利用预先训练好的菜品识别网络模型对所述颜色分类后的菜品分割框集合进行菜品识别之前，还包括：

4.根据权利要求1所述的快餐菜品定位方法，其特征在于，所述利用预先训练完毕的餐盘拟合网络模型对所述30*30的二值餐盘边缘图像块中的餐盘进行拟合之前，包括：

将每张垫着托盘的餐盘图像分割成多个61*61的餐盘图像块；

以20*20正方形为单位遍历每个训练餐盘图像块的RGB像素值计算每个单位的RGB像素平均值，判断每个单位的RGB像素平均值与15个聚类RGB像素值差值的绝对值最小值是否大于第一预设差值阈值，若是则将该单位中各像素点置为1，否则置为0，得到二值训练餐盘图像块；