CN111274986A

CN111274986A - 一种基于图像分析的菜品识别分类方法

Info

Publication number: CN111274986A
Application number: CN202010083962.3A
Authority: CN
Inventors: 纪刚; 周粉粉; 周萌萌
Original assignee: Qingdao Lianhe Chuangzhi Technology Co ltd
Current assignee: Qingdao Lianhe Chuangzhi Technology Co ltd
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2020-06-12
Anticipated expiration: 2040-02-10
Also published as: CN111274986B

Abstract

本发明公开了一种基于图像分析的菜品识别分类方法，包括如下步骤：(1)利用摄像机对盛有不同菜品的餐盘进行图像拍摄；(2)对图像中的不同菜品进行检测分割，得到不同菜品的分割框；(3)对菜品的分割框进行边界定位；(4)菜品特征识别模型的训练与推断，得到菜品特征图像；(5)建立菜品特征分类网络，将菜品特征图像输入菜品特征分类网络进行菜品的分类，并将新菜品添加到数据库中。本发明所公开的方法能够自动进行识别分类，识别效率高，结果准确，更加智能。

Description

一种基于图像分析的菜品识别分类方法

技术领域

本发明涉及一种菜品识别分类方法，特别涉及一种基于图像分析的菜品识别分类方法。

背景技术

随着人工智能和大数据时代的到来，传统食堂或者自助餐厅中人工结算不可避免的会造成结算错误、排队等候、工作效率低等多种问题，亟待一些先进技术应用在生活中并更好的用于服务行业。而市场上存在的菜品识别大多数采用特定的用餐工具，如圆形或者方形等餐具、或采用专门标记的餐具来区分菜品来达到识别菜品的目的，智能化程度低，且菜品识别的依赖性强，泛性差。

发明内容

为解决上述技术问题，本发明提供了一种基于图像分析的菜品识别分类方法，以达到更加智能、准确、高效地进行菜品识别分类的目的。

为达到上述目的，本发明的技术方案如下：

一种基于图像分析的菜品识别分类方法，包括如下步骤：

(1)利用摄像机对盛有不同菜品的餐盘进行图像拍摄；

(2)对图像中的不同菜品进行检测分割，得到不同菜品的分割框；

(3)对菜品的分割框进行边界定位；

(4)菜品特征识别模型的训练与推断，得到菜品特征图像；

(5)建立菜品特征分类网络，将菜品特征图像输入菜品特征分类网络进行菜品的分类，并将新菜品添加到数据库中。

上述方案中，所述步骤(2)具体如下：

设餐盘中的菜品数量为a，对给定的菜品目标o，用φ(υ_o)∈R^2×d×1×1来表示菜品目标特征集合，其中，υ_o表示菜品目标的特征，d代表维度，2代表图像的背景和前景；

将整幅图像的像素特征集合表示为ψ(U)∈R^1×d×h×w，其中，U表示像素的特征，d代表维度，h和w代表图像ψ(U)的高度和宽度；

将图像中表示前景的像素拉向特征空间中对应表示的某一菜品的类别，实现菜品的分割，相关操作定义如下：

M_o＝soft max(Ψ(U)*φ(υ_o)) (1)

其中，*表示卷积操作，相似映射图M_o∈R^2×1×h×w，M₀中包含两个通道，分别代表菜品目标o中每个像素的前景概率和背景概率。

上述方案中，所述步骤(3)具体如下：

将检测到的菜品分割框坐标看作一个离散的随机变量，菜品边界位置是边界所在坐标概率的自变量点集argmax，即：

其中，X是分割框边界水平坐标的离散随机变量，M′∈R^h×w代表公式(1)中M_o的前景通道概率，i表示边界上的点，P(X＝i|M′)表示M′的后验概率；

以左边界的推导为例；

根据贝叶斯定理，可以得到：

其中，P(X＝i)和P(M′|X＝i)分别代表先验概率和似然概率；

假设某一菜品的分割框仅与M′中每一行的最大值有关，仅影响它的邻域像素，似然概率定义为：

其中，

s是超参数，描述菜品边界对其相邻像素的影响范围，理想情况下，边界上的像素只影响其最近的两个像素，边界框外的像素概率为0，边界内的像素概率为1；

对P(X＝i)采用离散高斯分布：

其中，α代表归一化系数，μ表示高斯分布的均值，σ_x表示分布的方差，边界位置的分布与对象分割实例尺寸有关，设置为：

μ＝x_r，σ_x＝γ·w_b，其中，w_b表示边界框的宽度，x_r表示左边界的横坐标，γ表示回归边界的权重；

将公式(4)和公式(5)代入公式(3)中，得到P(X＝i|M′)，再将其代入公式(2)得到菜品的左边界，然后用同样的方法得到菜品的其它边界。

上述方案中，所述步骤(4)具体如下：

菜品特征识别模型是通过以下多任务损失函数进行训练的：

L＝λ_rL_reg+λ_mL_mask (6)

其中，L_reg采用均方误差MSE作为回归损失函数；

其中，s∈{±1}，表示像素点是否属于边界内，若像素点在边界框内，s＝1；p∈[0,1]表示当s＝1时菜品识别的概率；

其中，L表示总的损失函数，L_reg表示对象回归检测器损失函数，L_mask表示像素方向交叉熵损失，与实际标注的边界框相匹配的边界框输入相关操作模块生成菜品对象的实例掩模，从扩展的实际标注的边界框裁剪得到的掩模用来计算L_mask；λ_r和λ_m代表损失函数L_reg和L_mask权重的系数；

在推断时，首先根据获得的目标边界框和像素实例掩模，然后经过非极大值抑制处理之后的边界框经公式(1)相关的卷积操作，之后用目标检测器获得的扩展框裁剪实例分割的掩码，为了获得准确的边界框，得到的实例分割掩码上采样得到与输入图像相同的尺寸w×h，然后输入到实例掩码的边界细化模块中，最后采用阈值为0.4大小进行二值化处理，得到菜品特征图像。

上述方案中，所述步骤(5)中，菜品特征分类网络采用神经架构搜索NAS的方法，具体实现方法如下：NASNet架构递归神经网络RNN作为控制器生成神经网络模型。

进一步的技术方案中，控制器RNN从搜索空间S＝{hidden_layer,select_operate,select_comb}中以概率p预测网络结构A的单元模块，通过学习单元得到准确性奖励R，最终将梯度p*R传递给RNN控制器进行梯度更新，当满足控制器RNN的目标函数J(θ_c)最大化时，终止学习，可选组合；

J(θ_c)＝E_p(a_1:T；θ_c)[R] (8)

其中，a_1:T作为控制器RNN预测出的网络结构A的单元模块，p为a_1:T被选中的概率，θ_c为控制器的权重数组，初始化为0，当RNN收敛时，单元a_1:T会获得最终的准确性奖励R。

上述方案中，得到菜品分类网络后，新菜品自添加步骤为：

(a)将采集到的拟添加菜品多张图片添加到菜品库；

(b)根据设定的训练步长，步长不大于5000，调整菜品分类网络参数；

(c)完成菜品分类网络调整后，将添加菜品图像作为网络的输入进行识别测试，经过3～5次多角度测试后，最终得到菜品识别结果即为添加菜品名称，说明添加成功，如果识别不理想，将失败测试图像添加到菜品库中进一步调整网络，完成菜品自添加和识别功能。

通过上述技术方案，本发明提供的基于图像分析的菜品识别分类方法不会受餐具的选择以及菜品所处餐具的位置的影响，一旦菜品的种类确定，本方法直接对菜品图像进行分析，采用智能识别算法提取各个菜品的特征，并与数据库中的菜品种类进行对比，自动进行识别分类，识别效率高，结果准确，更加智能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为Normal layer网络单元结构示意图；

图2为Reduction Cell网络单元结构示意图；

图3为菜品特征分类网络示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供了一种基于图像分析的菜品识别分类方法，包括如下步骤：

(1)利用摄像机对盛有不同菜品的餐盘进行图像拍摄；

(2)对图像中的不同菜品进行检测分割，得到不同菜品的分割框，具体如下：

M_o＝soft max(Ψ(U)*φ(υ_o)) (1)

(3)对菜品的分割框进行边界定位；

以左边界的推导为例；

根据贝叶斯定理，可以得到：

其中，P(X＝i)和P(M′|X＝i)分别代表先验概率和似然概率；

其中，

对P(X＝i)采用离散高斯分布：

(4)菜品特征识别模型的训练与推断，得到菜品特征图像；

菜品特征识别模型是通过以下多任务损失函数进行训练的：

L＝λ_rL_reg+λ_mL_mask (6)

其中，L_reg采用均方误差MSE作为回归损失函数；

菜品特征分类网络采用神经架构搜索NAS的方法，具体实现方法如下：NASNet架构递归神经网络RNN作为控制器生成神经网络模型。

控制器RNN从搜索空间S＝{hidden_layer,select_operate,select_comb}中以概率p预测网络结构A的单元模块，通过学习单元得到准确性奖励R，最终将梯度p*R传递给RNN控制器进行梯度更新，当满足控制器RNN的目标函数J(θ_c)最大化时，终止学习，可选组合；

J(θ_c)＝E_p(a_1:T；θ_c)[R] (8)

据此，我们可以通过控制器RNN优化组合出两种类型的网络单元模块：即正常层Normal layer和还原层Reduction layer，规定：

Normal layer：输出和输入称为Feature Map且尺寸相同；

Reduction layer：输出和输入称为Feature Map，输出Feature Map对输入Feature Map进行一次降采样，在Reduction Cell中，对使用输入Feature Map作为输入的操作，默认步长为2，两个网络单元模块的示意图如图1和图2所示。

其中，hidden_layer为搜索空间S中的隐含层，add与concat为搜索空间S中的select_comb，其他为S中的select_operate。

最终得到基于网络单元模块的分类网络结构，示意图如图3所示。

上述方案中，得到菜品分类网络后，新菜品自添加步骤为：

(a)将采集到的拟添加菜品多张图片添加到菜品库；

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于图像分析的菜品识别分类方法，其特征在于，包括如下步骤：

(1)利用摄像机对盛有不同菜品的餐盘进行图像拍摄；

(3)对菜品的分割框进行边界定位；

(4)菜品特征识别模型的训练与推断，得到菜品特征图像；

2.根据权利要求1所述的一种基于图像分析的菜品识别分类方法，其特征在于，所述步骤(2)具体如下：

M_o＝soft max(Ψ(U)*φ(υ_o)) (1)

其中，*表示卷积操作，相似映射图M_o∈R^2×1×h×w，M_o中包含两个通道概率，分别代表菜品目标o中每个像素的前景概率和背景概率。

3.根据权利要求2所述的一种基于图像分析的菜品识别分类方法，其特征在于，所述步骤(3)具体如下：

以左边界的推导为例；

根据贝叶斯定理，可以得到：

其中，P(X＝i)和P(M′|X＝i)分别代表先验概率和似然概率；

其中，

对P(X＝i)采用离散高斯分布：

4.根据权利要求3所述的一种基于图像分析的菜品识别分类方法，其特征在于，所述步骤(4)具体如下：

菜品特征识别模型是通过以下多任务损失函数进行训练的：

L＝λ_rL_reg+λ_mL_mask (6)

其中，L_reg采用均方误差MSE作为回归损失函数；

5.根据权利要求1所述的一种基于图像分析的菜品识别分类方法，其特征在于，所述步骤(5)中，菜品特征分类网络采用神经架构搜索NAS的方法，具体实现方法如下：NASNet架构递归神经网络RNN作为控制器生成神经网络模型。

6.根据权利要求5所述的一种基于图像分析的菜品识别分类方法，其特征在于，控制器RNN从搜索空间S＝{hidden_layer,select_operate,select_comb}中以概率p预测网络结构A的单元模块，通过学习单元得到准确性奖励R，最终将梯度p*R传递给RNN控制器进行梯度更新，当满足控制器RNN的目标函数J(θ_c)最大化时，终止学习，可选组合；

J(θ_c)＝E_p(a_1:T；θ_c)[R] (8)

7.根据权利要求1所述的一种基于图像分析的菜品识别分类方法，其特征在于，得到菜品分类网络后，新菜品自添加步骤为：

(a)将采集到的拟添加菜品多张图片添加到菜品库；