CN118038444A

CN118038444A - 一种基于级联特征融合网络的菜品识别方法

Info

Publication number: CN118038444A
Application number: CN202311863278.7A
Authority: CN
Inventors: 孙杰; 林文; 吴巍; 陈永识
Original assignee: Hangzhou Zhengyue Information Technology Co ltd
Current assignee: Hangzhou Zhengyue Information Technology Co ltd
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-05-14

Abstract

本发明公开了一种基于级联特征融合网络的菜品识别方法，涉及菜品识别技术领域，获取菜品图像；标注菜品图像得到菜品图像信息；基于菜品图像信息训练级联卷积神经网络模型得到目标级联卷积神经网络模型；基于二维摄像标定技术获取待识别的菜品图像以及待识别的菜品图像信息；将待识别的菜品图像以及待识别的菜品图像信息通过目标级联卷积神经网络模型输出得到菜品识别信息。本发明能够更准确的获取待识别菜品图像的信息，提高了菜品图像的采集质量，避免因为菜品图像质量的采集影响到菜品的识别，可提高后续级联卷积神经网络模型对菜品的识别的准确度。

Description

一种基于级联特征融合网络的菜品识别方法

技术领域

本发明涉及菜品识别技术领域，具体涉及一种基于级联特征融合网络的菜品识别方法。

背景技术

在当今数字化时代，图像识别技术在各个领域都发挥着重要作用，其中食品图像识别作为一个重要的应用领域，受到了广泛的关注。随着人们对饮食健康和美食文化的关注不断增加，开发一种高效准确的菜品识别方法变得愈发迫切；

在饭店经营的过程中需要进行菜品获取以及价格等菜品信息，尤其是快餐行业在菜品信息获取结账时大多还是通过人工操作，容易导致菜品判断错误以及价格判断错误，且判断菜品价格和品类的过程也难以提高识别菜品的效率。

发明内容

本发明的目的是提供一种基于级联特征融合网络的菜品识别方法，以解决背景技术中不足。

为了实现上述目的，本发明提供如下技术方案：一种基于级联特征融合网络的菜品识别方法，包括以下步骤：

获取菜品图像；

标注菜品图像得到菜品图像信息，其中，所述菜品图像信息包括菜品基础信息与菜品图像特征信息；

基于菜品图像信息训练级联卷积神经网络模型得到目标级联卷积神经网络模型；

基于二维摄像标定技术获取待识别的菜品图像以及待识别的菜品图像信息；

将待识别的菜品图像以及待识别的菜品图像信息通过目标级联卷积神经网络模型输出得到菜品识别信息。

在一个优选的实施方式中，所述标注菜品图像得到菜品图像信息的步骤，包括：

基于菜品图像对应标注菜品及食材名称、菜品烹饪方式、菜系、菜品价格作为菜品基础信息；

获取菜品图像中的餐具特征，其中，餐具特征包括餐具形状和餐具颜色；

切除菜品图像中餐具特征的图像画面得到菜品部分画面；

获取菜品部分画面的中心点，确定菜品部分画面的测量方向，基于中心点建立菜品部分画面的二维坐标系；

基于二维坐标系获取菜品图像的包围框坐标与每个食材的包围框坐标作为菜品图像特征信息；

将菜品图像特征信息与菜品基础信息作为菜品图像信息。

在一个优选的实施方式中，所述基于菜品图像信息训练级联卷积神经网络模型得到目标级联卷积神经网络模型步骤，包括：

将菜品图像信息划分为训练集和验证集；

将训练集输入至级联卷积神经网络模型中通过不同的卷积核大小和步幅提取菜品图像不同尺度的特征；

基于特征融合基础将菜品图像不同尺度的特征深度融合得到多尺度特征；

基于卷积层将多尺度特征映射到目标空间，生成最终的输出结果得到待验证的级联卷积神经网络模型；

基于验证集对待验证的级联卷积神经网络模型进行验证得到目标级联卷积神经网络模型。

在一个优选的实施方式中，所述基于二维摄像标定技术获取待识别的菜品图像以及待识别的菜品图像信息的步骤，包括：

获取待拍摄图像的画面信息，其中，画面信息包括颜色信息与形状信息；

基于待拍摄图像的画面信息确定待拍摄图像中的餐具；

基于待拍摄图像中的餐具获取餐具中菜品所在的图像画面；

获取菜品所在的图像画面的中心点，基于二维摄像标定技术将二维坐标中心点对应菜品所在的图像画面的中心点得到待识别的菜品图像；

基于二维摄像标定技术获取待识别的菜品图像的包围框坐标；

提取待识别的菜品图像中的多个食材的颜色信息与形状信息作为食材特征信息；

基于二维摄像标定技术测量食材特征信息得到每个食材的包围框坐标；

将菜品图像的包围框坐标与每个食材的包围框坐标作为待识别的菜品图像信息。

在一个优选的实施方式中，所述基于待拍摄图像的画面信息确定待拍摄图像中的餐具的步骤，包括：

网格划分待拍摄图像的画面得到若干个单元网格，提取画面中和餐具颜色具有相同颜色的多个单元网格；

根据餐具形状在多个单元网格中确定待拍摄图像中餐具所在的画面。

在一个优选的实施方式中，所述将待识别的菜品图像以及待识别的菜品图像信息通过目标级联卷积神经网络模型输出得到菜品识别信息的步骤，包括：

将待识别的菜品图像以及待识别的菜品图像信息输入至目标级联卷积神经网络模型得到输出结果；

基于输出结果对应获取菜品识别信息，其中，菜品识别信息为菜品基础信息。

一种基于级联特征融合网络的菜品识别系统，包括：

第一获取模块，用于获取菜品图像；

标注模块，与获取模块连接，用于标注菜品图像得到菜品图像信息，其中，所述菜品图像信息包括菜品基础信息与菜品图像特征信息；

构建模块，与标注模块连接，用于基于菜品图像信息训练级联卷积神经网络模型得到目标级联卷积神经网络模型；

第二获取模块，基于二维摄像标定技术获取待识别的菜品图像以及待识别的菜品图像信息；

识别模块，与构建模块和第二获取模块连接，用于将待识别的菜品图像以及待识别的菜品图像信息通过目标级联卷积神经网络模型输出得到菜品识别信息。

在一个优选的实施方式中，所述第二获取模块包括：

获取单元，用于获取待拍摄图像的画面信息，其中，画面信息包括颜色信息与形状信息；

拍摄单元，与获取单元连接，用于基于待拍摄图像的画面信息确定待拍摄图像中的餐具；

采集单元，与拍摄单元连接，用于基于待拍摄图像中的餐具获取餐具中菜品所在的图像画面；

对应单元，与采集单元连接，用于获取菜品所在的图像画面的中心点，基于二维摄像标定技术将二维坐标中心点对应菜品所在的图像画面的中心点得到待识别的菜品图像；

识别单元，与对应单元连接，用于基于二维摄像标定技术获取待识别的菜品图像的包围框坐标；

提取单元，与识别单元连接，用于提取待识别的菜品图像中的多个食材的颜色信息与形状信息作为食材特征信息；

标定单元，与提取单元连接，用于基于二维摄像标定技术测量食材特征信息得到每个食材的包围框坐标。

本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行上述方法的步骤。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

在上述技术方案中，本发明提供的技术效果和优点：

1、本发明将菜品图像的包围框坐标与每个食材的包围框坐标作为待识别的菜品图像信息，能够更准确的获取待识别菜品图像的信息，提高了菜品图像的采集质量，避免因为菜品图像质量的采集影响到菜品的识别，能够提高后续识别的准确度，通过上述方法可完成能够更准确的获取待识别菜品图像的信息，提高了菜品图像的采集质量，避免因为菜品图像质量的采集影响到菜品的识别，可提高后续级联卷积神经网络模型对菜品的识别的准确度；

2、本发明通过子卷积层与卷积层之间的级联融合，能够提高对特征获取的准确度，进而提高该模型最终的输出结果，具有较好的识别作用，通过引入级联阶段来生成多尺度特征，并在每个阶段中使用轻量级的过渡网络模块进行特征集成；这种设计不仅能够更有效地融合多尺度特征，还可以适应多样性菜品的复杂特征。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提出的方法流程示意图；

图2为本申请一实施例提出的一种基于级联特征融合网络的菜品识别系统示意图；

图3为本申请一实施例提出的一种基于级联特征融合网络的菜品识别系统中第二获取模块示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1，请参阅图1所示，本实施例所述一种基于级联特征融合网络的菜品识别方法，包括以下步骤：

S1、获取菜品图像；

S2、标注菜品图像得到菜品图像信息，其中，所述菜品图像信息包括菜品基础信息与菜品图像特征信息；

S3、基于菜品图像信息训练级联卷积神经网络模型得到目标级联卷积神经网络模型；

S4、基于二维摄像标定技术获取待识别的菜品图像以及待识别的菜品图像信息；

S5、将待识别的菜品图像以及待识别的菜品图像信息通过目标级联卷积神经网络模型输出得到菜品识别信息。

如上述步骤S1-S6所述，能够更准确的获取待识别菜品图像的信息，提高了菜品图像的采集质量，避免因为菜品图像质量的采集影响到菜品的识别，可提高后续级联卷积神经网络模型对菜品的识别的准确度；

通过引入级联阶段来生成多尺度特征，并在每个阶段中使用轻量级的过渡网络模块进行特征集成；这种设计不仅能够更有效地融合多尺度特征，还可以适应多样性菜品的复杂特征；

在一个实施例中，所述标注菜品图像得到菜品图像信息的步骤S2，包括：

S21、基于菜品图像对应标注菜品及食材名称、菜品烹饪方式、菜系、菜品价格作为菜品基础信息；

S22、获取菜品图像中的餐具特征，其中，餐具特征包括餐具形状和餐具颜色；

S23、切除菜品图像中餐具特征的图像画面得到菜品部分画面；

S24、获取菜品部分画面的中心点，确定菜品部分画面的测量方向，基于中心点建立菜品部分画面的二维坐标系；

S25、基于二维坐标系获取菜品图像的包围框坐标与每个食材的包围框坐标作为菜品图像特征信息；

S26、将菜品图像特征信息与菜品基础信息作为菜品图像信息；

如上述步骤S21-S26所述，针对成品菜的情况，识别的菜品信息包含了食材信息和菜系信息；食材信息不仅仅涵盖了必要的食材名称以满足基本的食材识别要求，还额外加入了烹饪方式信息。通过在标注的食材信息中加入烹饪方式，不仅有助于提高食材识别的准确度，还能够区分经过不同烹饪方式处理后的食材，从而更精确地分析菜品的营养成分。这些烹饪方式具体可以涵盖炒、炸、煎、焗、烤、蒸、煮、炖等至少一种，而涵盖的烹饪方式越多，则对于提高识别的准确性更加有益。需要理解的是，在食材信息中引入烹饪方式的目的在于，一方面，对于同一种食材，可以根据不同的外形进行区分，从而提高识别的准确性；另一方面，可以更准确地分析食材的营养成分，也能够提高后续识别的准确性，在这里通过对菜品信息的采集能够准确的得到菜品的形状问题，进而也有利于后续对菜品的识别；

在一个实施例中，所述基于菜品图像信息训练级联卷积神经网络模型得到目标级联卷积神经网络模型步骤S3，包括：

S31、将菜品图像信息划分为训练集和验证集；

S32、将训练集输入至级联卷积神经网络模型中通过不同的卷积核大小和步幅提取菜品图像不同尺度的特征；

S33、基于特征融合基础将菜品图像不同尺度的特征深度融合得到多尺度特征；

S34、基于卷积层将多尺度特征映射到目标空间，生成最终的输出结果得到待验证的级联卷积神经网络模型；

S35、基于验证集对待验证的级联卷积神经网络模型进行验证得到目标级联卷积神经网络模型；

如上述步骤S31-S35所述，输入的菜品图像通过主骨干网络进行特征提取，生成高层次的特征。骨干可以采用各种现有的分类骨干，例如ResNet50，主骨干的输出特征图具有较高的分辨率和语义信息，但缺乏多尺度信息；特征扩展。在该步骤中，包含多个网络模块，其中每个网络模块具备相同的网络架构。对于每一个子网络模块，包括一个子特征提取模块和一个特征融合模块。子特征提取模块用于提取多尺度特征，特征融合模块用于将这些特征聚合到一起。在每个子网络模块中，特征提取模块可以采用不同的尺度和分辨率，以便生成多尺度特征。这些子网络模块构成了联级特征融合网络；子特征提取模块可以采用不同的卷积核大小和步幅，以便提取不同尺度的特征。例如，可以使用较小的卷积核和较大的步幅来提取低分辨率的特征，使用较大的卷积核和较小的步幅来提取高分辨率的特征。特征融合模块可以采用不同的融合策略，例如加权平均、级联融合等，以便将多尺度特征集成到一起；特征集成操作被融入到主骨干网络中，以便更深层次地融合多尺度特征；具体来说，特征集成操作将联级融合网络中获取的多尺度特征与主骨干网络中的特征进行深度融合，从而生成更具表征能力的菜品食材特征。特征集成操作可以采用不同的融合策略，例如加权平均、级联融合等。与现有的多尺度特征融合方法不同；预测输出，通过全连接层或卷积层将特征映射到目标空间，生成最终的预测输出；可以采用不同的输出层结构，例如全连接层、卷积层等，以便生成不同类型的预测输出。例如，在目标检测任务中，可以采用全连接层和softmax层来生成类别概率和边界框坐标，通过子卷积层与卷积层之间的级联融合，能够提高对特征获取的准确度，进而提高该模型最终的输出结果，具有较好的识别作用；

在一个实施例中，所述基于二维摄像标定技术获取待识别的菜品图像以及待识别的菜品图像信息的步骤S4，包括：

S41、获取待拍摄图像的画面信息，其中，画面信息包括颜色信息与形状信息；

S42、基于待拍摄图像的画面信息确定待拍摄图像中的餐具；

S43、基于待拍摄图像中的餐具获取餐具中菜品所在的图像画面；

S44、获取菜品所在的图像画面的中心点，基于二维摄像标定技术将二维坐标中心点对应菜品所在的图像画面的中心点得到待识别的菜品图像；

S45、基于二维摄像标定技术获取待识别的菜品图像的包围框坐标；

S46、提取待识别的菜品图像中的多个食材的颜色信息与形状信息作为食材特征信息；

S47、基于二维摄像标定技术测量食材特征信息得到每个食材的包围框坐标；

S48、将菜品图像的包围框坐标与每个食材的包围框坐标作为待识别的菜品图像信息；

如上述步骤S41-S48所述，例如在使用的过程中，需要通过采集图像的设备临时进行菜品的识别，因此在采集的过程中，需要对菜品拍摄图像进行处理，首先是动态获取菜品所在位置的图像，对应获取待拍摄图像的画面信息，其中，画面信息包括颜色信息与形状信息，此时并未确定该画面为最终的拍摄图像，之后需要区别餐具和菜品，在待拍摄图像中得到菜品所在的图像画面之后进行立即截取拍摄，之后获取菜品所在的图像画面的中心点，基于二维摄像标定技术将二维坐标中心点对应菜品所在的图像画面的中心点得到待识别的菜品图像，该合格的菜品图像即完成了采集并根据二维摄像标定技术进行标定，那么此时只需要采集菜品图像的包围框坐标，以及根据菜品图像中的多个食材的颜色信息与形状信息作为食材特征信息，基于二维摄像标定技术测量食材特征信息得到每个食材的包围框坐标，便得到了每个食材的包围框坐标，将菜品图像的包围框坐标与每个食材的包围框坐标作为待识别的菜品图像信息，能够更准确的获取待识别菜品图像的信息，提高了菜品图像的采集质量，避免因为菜品图像质量的采集影响到菜品的识别，能够提高后续识别的准确度；

在一个实施例中，所述基于待拍摄图像的画面信息确定待拍摄图像中的餐具的步骤S42，包括：

S421、网格划分待拍摄图像的画面得到若干个单元网格，提取画面中和餐具颜色具有相同颜色的多个单元网格；

S422、根据餐具形状在多个单元网格中确定待拍摄图像中餐具所在的画面；

如上述步骤S51和S52所述，能够准确的判断餐具的形状，能够对画面中的整个菜品的外框架进行获取，能够划分为若干个单元网格进行同步的识别颜色和形状进行餐具的提取，划分为多个单元网格能够提高分析的效率，同时也能够提高颜色分析的准确性，进而提高了菜品特征提取的准确性，为通过级联卷积神经网络模型的识别做了较好的准备工作，提高了菜品识别的效率；

在一个实施例中，所述将待识别的菜品图像以及待识别的菜品图像信息通过目标级联卷积神经网络模型输出得到菜品识别信息的步骤S5，包括：

S51、将待识别的菜品图像以及待识别的菜品图像信息输入至目标级联卷积神经网络模型得到输出结果；

S52、基于输出结果对应获取菜品识别信息，其中，菜品识别信息为菜品基础信息；

如上述步骤S51和S52所述，将识别的菜品图像以及待识别的菜品图像信息输入至目标级联卷积神经网络模型得到输出结果，该输出结果对应菜品及食材名称，通过菜品及食材名称牵连获取得到菜品基础信息，菜品基础信息包括菜品及食材名称、菜品烹饪方式、菜系、菜品价格等信息，菜品图像信息识别的准确度直接影响后续级联卷积神经网络模型对菜品的识别准确度，因此采用准确的菜品图像信息的获取手段也大大提高了对菜品后续的识别准确度，能够更有效地融合多尺度特征，还可以适应多样性菜品的复杂特征，值得注意的是，我们在网络中采用了残差连接和GELU激活函数，这些元素有助于加快网络的收敛速度，提高训练效率；最终，Block4网络架构输出了经过多层次特征提取的特征张量，Block4网络架构的引入使得我们的模型能够在更深的层次上进行特征提取，从而能够捕获更加抽象和高级的特征，提升了模型的识别能力。其次，残差连接和GELU激活函数的运用不仅提高了模型的收敛速度，还增强了模型的稳定性和泛化能力。最后，融合网络的设计使得不同模块的特征能够得到充分的整合，从而提高了模型对于全局和局部特征的感知能力。整体而言，这些优点都有助于提高我们的方法在菜品识别任务中的性能表现。

融合网络的功能是将Block1-4的特征进行整合，以便更好地捕捉全局和局部的特征信息。通过卷积操作和上采样操作，我们统一了特征张量的维度，为后续的特征融合做好准备。最终，通过concatenate操作，我们将来自4个不同模块的特征融合在一起，并将融合后的特征作为网络的输出；

通过上述方法可完成能够更准确的获取待识别菜品图像的信息，提高了菜品图像的采集质量，避免因为菜品图像质量的采集影响到菜品的识别，可提高后续级联卷积神经网络模型对菜品的识别的准确度；

请参阅图2所示，本申请还提供了一种基于级联特征融合网络的菜品识别系统，本系统可在手机、pad等电子产品上运行，包括：

第一获取模块101，用于获取菜品图像；

标注模块102，与获取模块连接，用于标注菜品图像得到菜品图像信息，其中，所述菜品图像信息包括菜品基础信息与菜品图像特征信息；

构建模块103，与标注模块连接，用于基于菜品图像信息训练级联卷积神经网络模型得到目标级联卷积神经网络模型；

第二获取模块104，基于二维摄像标定技术获取待识别的菜品图像以及待识别的菜品图像信息；

识别模块105，与构建模块和第二获取模块连接，用于将待识别的菜品图像以及待识别的菜品图像信息通过目标级联卷积神经网络模型输出得到菜品识别信息；

请参阅图3所示，在一个实施例中，所述第二获取模块包括：

获取单元1041，用于获取待拍摄图像的画面信息，其中，画面信息包括颜色信息与形状信息；

拍摄单元1042，与获取单元连接，用于基于待拍摄图像的画面信息确定待拍摄图像中的餐具；

采集单元1043，与拍摄单元连接，用于基于待拍摄图像中的餐具获取餐具中菜品所在的图像画面；

对应单元1044，与采集单元连接，用于获取菜品所在的图像画面的中心点，基于二维摄像标定技术将二维坐标中心点对应菜品所在的图像画面的中心点得到待识别的菜品图像；

识别单元1045，与对应单元连接，用于基于二维摄像标定技术获取待识别的菜品图像的包围框坐标；

提取单元1046，与识别单元连接，用于提取待识别的菜品图像中的多个食材的颜色信息与形状信息作为食材特征信息；

标定单元1047，与提取单元连接，用于基于二维摄像标定技术测量食材特征信息得到每个食材的包围框坐标；

进一步说明，通过安装在装置上的摄像头，采集连续的菜品图像数据。获取大量的不同的菜品图像数据后，对这些图像进行标注，标注内容包括菜品中包含的食材名称(比如青菜肉丝中包含青菜和肉丝两种食材)、烹饪方式，第二获取模块设置在采集菜品的装置上，通道位于结账是被菜品的位置。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于级联特征融合网络的菜品识别方法，其特征在于，包括以下步骤：

获取菜品图像；

2.根据权利要求1所述的一种基于级联特征融合网络的菜品识别方法，其特征在于：所述标注菜品图像得到菜品图像信息的步骤，包括：

切除菜品图像中餐具特征的图像画面得到菜品部分画面；

将菜品图像特征信息与菜品基础信息作为菜品图像信息。

3.根据权利要求所述的一种基于级联特征融合网络的菜品识别方法，其特征在于：所述基于菜品图像信息训练级联卷积神经网络模型得到目标级联卷积神经网络模型步骤，包括：

将菜品图像信息划分为训练集和验证集；

4.根据权利要求1所述的一种基于级联特征融合网络的菜品识别方法，其特征在于：所述基于二维摄像标定技术获取待识别的菜品图像以及待识别的菜品图像信息的步骤，包括：

基于待拍摄图像的画面信息确定待拍摄图像中的餐具；

基于待拍摄图像中的餐具获取餐具中菜品所在的图像画面；

5.根据权利要求4所述的一种基于级联特征融合网络的菜品识别方法，其特征在于：所述基于待拍摄图像的画面信息确定待拍摄图像中的餐具的步骤，包括：

6.根据权利要求1所述的一种基于级联特征融合网络的菜品识别方法，其特征在于：所述将待识别的菜品图像以及待识别的菜品图像信息通过目标级联卷积神经网络模型输出得到菜品识别信息的步骤，包括：

7.一种基于级联特征融合网络的菜品识别系统，其特征在于，包括：

第一获取模块，用于获取菜品图像；

8.根据权利要求7所述的一种基于级联特征融合网络的菜品识别系统，其特征在于：所述第二获取模块包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述智能菜谱搭配方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述智能菜谱搭配方法的步骤。