CN111274972A - 基于度量学习的菜品识别方法及装置 - Google Patents

基于度量学习的菜品识别方法及装置 Download PDF

Info

Publication number
CN111274972A
CN111274972A CN202010070065.9A CN202010070065A CN111274972A CN 111274972 A CN111274972 A CN 111274972A CN 202010070065 A CN202010070065 A CN 202010070065A CN 111274972 A CN111274972 A CN 111274972A
Authority
CN
China
Prior art keywords
image
dish
detected
neural network
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010070065.9A
Other languages
English (en)
Other versions
CN111274972B (zh
Inventor
常德杰
孔飞
刘邦长
李荣华
姜鹏
刘朝振
刘红霞
张航飞
季科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Miaoyijia Health Technology Group Co Ltd
Original Assignee
Beijing Miaoyijia Health Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Miaoyijia Health Technology Group Co Ltd filed Critical Beijing Miaoyijia Health Technology Group Co Ltd
Priority to CN202010070065.9A priority Critical patent/CN111274972B/zh
Publication of CN111274972A publication Critical patent/CN111274972A/zh
Application granted granted Critical
Publication of CN111274972B publication Critical patent/CN111274972B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/68Food, e.g. fruit or vegetables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种基于度量学习的菜品识别方法及装置,涉及图像识别和处理的技术领域,包括:先获取待检测图像;若待检测图像为菜品图像,则对待检测图像进行裁剪,得到包含菜品信息的目标图像;然后将目标图像输入至目标卷积神经网络中,得到目标图像的特征信息;目标卷积神经网络为基于度量学习训练的网络;再利用最近邻方法从预设数据库中选择与目标图像的特征信息相似的图像特征信息;最后将图像特征信息对应的菜品信息作为待检测图像的菜品信息。本发明基于度量学习训练好的卷积神经网络模型对菜品图像的识别粒度小,进而可以区分特征相似的菜品。度量学习还可以通过优化特征空间,实现对类内距离大的菜品图像的识别。

Description

基于度量学习的菜品识别方法及装置
技术领域
本发明涉及图像识别和处理技术领域,尤其是涉及一种基于度量学习的菜品识别方法及装置。
背景技术
目前卷积神经网络已经应用于菜品识别中,但是传统的卷积神经网络对类内距离大的菜品图像无法进行类别聚类,对类间距离较小的菜品图像无法进行区分,例如:无法将煮好的面条和包装袋内的面条认定为同一类别,无法区分清蒸鱼和红烧鱼。
发明内容
本发明的目的在于提供一种基于度量学习的菜品识别方法及装置,可以保证对菜品图像的识别粒度小,进而可以区分特征相似的菜品;可以最小化类内距离,进而实现对类内距离大的菜品图像的有效识别。
本发明提供的一种基于度量学习的菜品识别方法,其中,包括:获取待检测图像;若所述待检测图像为菜品图像,则对所述待检测图像进行裁剪,得到包含菜品信息的目标图像;将所述目标图像输入至目标卷积神经网络中,得到所述目标图像的特征信息;所述目标卷积神经网络为基于度量学习训练的网络;利用最近邻方法从预设数据库中选择与所述目标图像的特征信息相似的图像特征信息;将所述图像特征信息对应的菜品信息作为待检测图像的菜品信息。
进一步的,通过以下方式判断所述待检测图像是否为菜品图像,具体包括:利用训练好的二分类模型对所述待检测图像进行二分类判断,得到类别判断结果;基于所述类别判断结果判断所述待检测图像是否为菜品图像。
进一步的,在利用训练好的二分类模型对所述待检测图像进行二分类判断之前,包括:训练初始二分类模型,得到所述训练好的二分类模型。
进一步的,训练初始二分类模型,得到所述训练好的二分类模型包括:获取二分类训练样本;基于所述二分类训练样本,利用交叉熵损失函数优化所述初始二分类模型的参数,确定最优参数;将最优参数的初始二分类模型确定为所述训练好的二分类模型。
进一步的,在将所述目标图像输入至目标卷积神经网络中,得到所述目标图像的特征信息之前,包括:利用度量学习中的损失函数Triplet Loss训练初始卷积神经网络,得到所述目标卷积神经网络。
进一步的,利用度量学习中的损失函数Triplet Loss训练初始卷积神经网络,得到所述目标卷积神经网络包括:获取菜品图像训练样本,其中,所述菜品图像训练样本满足预设尺寸规格;将所述菜品图像训练样本输入至初始卷积神经网络中,以根据所述卷积神经网络提取菜品图像的特征信息;基于所述菜品图像的特征信息和度量学习的损失函数Triplet Loss,计算所述损失函数的函数值;将所述函数值最小时对应的初始卷积神经网络确定为所述目标卷积神经网络。
本发明提供的一种基于度量学习的菜品识别装置,其中,包括:获取模块,用于获取待检测图像;裁剪模块,用于若所述待检测图像为菜品图像,则对所述待检测图像进行裁剪,得到包含菜品信息的目标图像;输入模块,用于将所述目标图像输入至目标卷积神经网络中,得到所述目标图像的特征信息;所述目标卷积神经网络为基于度量学习训练的网络;选择模块,用于利用最近邻方法从预设数据库中选择与所述目标图像的特征信息相似的图像特征信息;确定模块,用于将所述图像特征信息对应的菜品信息作为待检测图像的菜品信息。
进一步的,所述装置还包括判断模块,其中,所述判断模块用于通过以下方式判断所述待检测图像是否为菜品图像,具体包括:二分类判断单元,用于利用训练好的二分类模型对所述待检测图像进行二分类判断,得到类别判断结果;判断单元,用于基于所述类别判断结果判断所述待检测图像是否为菜品图像。
本发明还提供一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其中,所述处理器执行计算机程序时实现所述的基于度量学习的菜品识别方法。
本发明还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,其中,所述程序代码使所述处理器执行所述的基于度量学习的菜品识别方法。
本发明提供的一种基于度量学习的菜品识别方法及装置,包括:先获取待检测图像;若待检测图像为菜品图像,则对待检测图像进行裁剪,得到包含菜品信息的目标图像;然后将目标图像输入至目标卷积神经网络中,得到目标图像的特征信息;目标卷积神经网络为基于度量学习训练的网络;再利用最近邻方法从预设数据库中选择与目标图像的特征信息相似的图像特征信息;最后将图像特征信息对应的菜品信息作为待检测图像的菜品信息。本发明中的度量学习具有最大化类间距离同时最小化类内距离的特性,因此基于度量学习训练好的卷积神经网络模型对菜品图像的识别粒度小,进而可以区分特征相似的菜品。此外,度量学习可以最小化类内距离,并且基于最近邻方法可以确定与所述裁剪后的待检测图像的特征相似的同类别图像特征的菜品信息,进而实现对类内距离大的菜品图像的识别。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于度量学习的菜品识别方法的流程图;
图2为训练初始二分类模型的流程图;
图3为训练初始卷积神经网络的流程图;
图4为本发明实施例提供的一种基于度量学习的菜品识别装置的结构示意图。
图标:
11-获取模块;12-裁剪模块;13-输入模块;14-选择模块;15-确定模块。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着社会的发展,健康管理受到人们越来越多的关注,因此饮食作为健康管理中的关键环节也受到更多的关注。智能化健康管理除了监控普通人的饮食健康,还可以监控慢性疾病患者的饮食,以通过饮食更好的控制其病情。由于菜品识别是智能化健康管理的基础步骤,因此在菜品识别通过拍照的方式对食品类别进行识别之后,还可以根据食品类别计算对应的营养价值及卡路里,从而进一步推荐个性化饮食方案和健康管理方案。
随着深度学习的发展,基本的分类网络VGG、GoogleNet、ResNet、DenseNet、SENet等已具有较强的特征表示能力,因此在常规的图像分类任务中能取得很好的成绩。若直接采用上述基本的分类网络解决数量庞大的食品类别的识别问题,则容易产生以下缺陷:缺陷1:类间距离较大。缺陷2:菜品识别算法基于UCEFOOD256、iFOOD、FOOD101分别可以识别出256种类别、251种类别、101种类别。从类别数量上来说,识别几百种菜品属于视觉任务中简单的分类任务。缺陷3:现有的菜品识别方法为了达到较高的准确率,结合ResNet、Inception、SENet等多种网络结构,并且综合数据增广、知识蒸馏、集成学习、标签平滑等方法,导致模型非常复杂,不易部署于手机端。缺陷4:在食品类别繁多的情况下,若输入图像为未经训练的类别,则查找不到对应的标签,泛化能力差。
针对上述缺陷1进行详细描述,目前卷积神经网络已经应用于菜品识别中,但是传统的卷积神经网络对类内距离大的菜品图像无法进行类别聚类,对类间距离较小的菜品图像无法进行区分,例如:无法将煮好的面条和包装袋内的面条认定为同一类别,无法区分清蒸鱼和红烧鱼。基于此,本发明基于度量学习训练好的卷积神经网络模型对菜品图像的识别粒度小,进而可以区分特征相似的菜品。度量学习还可以通过优化特征空间,实现对类内距离大的菜品图像的识别。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种基于度量学习的菜品识别方法进行详细介绍。
实施例一:
参照图1,本发明实施例提供的一种基于度量学习的菜品识别方法包括以下步骤:
步骤S101,获取待检测图像。
在本发明实施例中,待检测图像可以是菜品图像,也可以是非菜品图像。同时获取一个或多个都是可以的,本发明实施例对同时获取的个数不作具体限定。上述菜品可以指食品。
步骤S102,若待检测图像为菜品图像,则对待检测图像进行裁剪,得到包含菜品信息的目标图像。
本发明实施例对菜品图像裁剪为预设尺寸规格,其中,预设尺寸规格可以为224*224。本发明实施例对预设尺寸规格的大小不做具体限制。
步骤S103,将目标图像输入至目标卷积神经网络中,得到目标图像的特征信息。
其中,目标卷积神经网络为基于度量学习训练的网络。度量学习可以降低类间相似性和类内多样性的影响。本发明实施例中的目标卷积神经网络针对具有差异的同一类别的菜品仍然可以做到准确识别。具体分析如下:不同形态的同一类别的菜品具有比较大的相似度,本发明实施例基于上述相似度和度量学习的特征提取能力,利用目标卷积神经网络可以准确识别具有差异的同一类别的菜品。也就是说,基于度量学习建立的目标卷积神经网络可以根据目标图像的特征信息找到同一类别的菜品图像,从而准确识别出菜品图像对应的菜品类别。
度量学习的损失函数Triplet Loss具有优化能力,优化的目的在于拉远不同类别的菜品图像之间的距离(或称为:类间距离),拉近同一类别的菜品图像之间的距离(或称为:类内距离)。类内距离与类间距离之间的差值可以通过一个超参数margin进行控制。在训练目标卷积神经网络的过程中,本发明实施例可以通过调节margin超参数来确定使损失函数最快速度收敛的数值。
目标卷积神经网络可以指ResNet50结构的卷积神经网络。Resnet50结构用于提取特征信息。度量学习主要是指在建立框架之后的优化过程,传统的分类模型的优化过程采用Softmax Loss,而本发明实施例采用损失函数Triplet Loss。
步骤S104,利用最近邻方法从预设数据库中选择与目标图像的特征信息相似的图像特征信息。
具体的,预设数据库中的特征信息与菜品信息一一对应。
步骤S105,将图像特征信息对应的菜品信息作为待检测图像的菜品信息。
目前已有的菜品识别方法只能识别数百种至数千种的食物,这些种类的食物只占所有可食用菜品的一部分。而本发明实施例可以基于度量学习的目标卷积神经网络并结合最近邻方法准确识别出数万种食品,涵盖常见的主食、烹饪好的菜品、未经加工的食材、带包装的食品等。由于本发明实施例可以识别出数万种食品,因此属于细粒度识别的范畴,细粒度识别具有较大的类内差异和较小的类间差异。本发明实施例通过目标卷积神经网络可以捕捉到有效的细节信息,上述细节信息指特征信息。因此,本发明实施例提供的基于度量学习的菜品识别方法可以支持上万种类别食品的识别,具有强大的识别功能。
本发明实施例提供的一种基于度量学习的菜品识别方法,包括:先获取待检测图像;若待检测图像为菜品图像,则对待检测图像进行裁剪,得到包含菜品信息的目标图像;然后将目标图像输入至目标卷积神经网络中,得到目标图像的特征信息;目标卷积神经网络为基于度量学习训练的网络;再利用最近邻方法从预设数据库中选择与目标图像的特征信息相似的图像特征信息;最后将图像特征信息对应的菜品信息作为待检测图像的菜品信息。本发明实施例中的度量学习具有最大化类间距离同时最小化类内距离的特性,因此基于度量学习训练好的卷积神经网络模型对菜品图像的识别粒度小,进而可以区分特征相似的菜品。此外,度量学习可以最小化类内距离,并且基于最近邻方法可以确定与所述裁剪后的待检测图像的特征相似的同类别图像特征的菜品信息,进而实现对类内距离大的菜品图像的识别。
在步骤S102之前,通过以下方式判断待检测图像是否为菜品图像,具体包括:利用训练好的二分类模型对待检测图像进行二分类判断,得到类别判断结果;基于类别判断结果判断待检测图像是否为菜品图像。
在利用训练好的二分类模型对待检测图像进行二分类判断之前,包括:训练初始二分类模型,得到训练好的二分类模型。参照图2,训练初始二分类模型的步骤如下:
步骤S201,获取二分类训练样本。
在本发明实施例中,二分类训练样本包括作为输入的图像样本和作为输出的真实类别结果,其中类别结果包括:菜品类和非菜品类。
步骤S202,基于二分类训练样本,利用交叉熵损失函数优化初始二分类模型的参数,确定最优参数。
交叉熵损失函数如下所示:
Figure BDA0002376719170000081
其中,loss为交叉熵损失函数的损失值,由于本发明实施例是二分类训练样本,因此n=2,yi为指示变量0或1,如果该类别与样本的类别相同则为1,否则为0,Pti为预测为该类别结果的概率。
步骤S203,将最优参数的初始二分类模型确定为训练好的二分类模型。
在本发明实施例中,二分类训练样本中的每张图像样本都会参与这个使loss变小的优化过程。当loss不再下降,且测试样本的准确率不再上升,二者都趋于平稳时,表示初始二分类模型已经优化好。已经优化好的二分类模型的参数固定,此时的参数为最优参数。在训练好初始二分类模型之后,输入待检测图像至训练好的二分类模型中,即可得到待检测图像所对应的类别结果。
进一步的,在步骤S103之前,方法包括:利用度量学习中的损失函数Triplet Loss训练初始卷积神经网络,得到目标卷积神经网络。
本发明实施例的初始卷积神经网络可以采用InceptionV3结构。由于InceptionV3结构为现有技术,因此本发明实施例不再对InceptionV3结构作详细的介绍。总的来说,初始卷积神经网络的卷积层及池化层共同完成了299×299×3到1×1×2048的特征映射,也就是说,将作为输入的图像样本映射为2048维的特征向量,因此初始卷积神经网络的卷积层及池化层可以自动完成特征提取的工作。其次,初始卷积神经网络的Inception结构可以自动学习出滤波器的类型。最后初始卷积神经网络的全连接层利用特征向量对菜品图像样本进行分类。
参照图3,训练初始卷积神经网络的步骤包括以下步骤:
步骤S301,获取菜品图像训练样本,其中,菜品图像训练样本满足预设尺寸规格。
步骤S302,将菜品图像训练样本输入至初始卷积神经网络中,以根据卷积神经网络提取菜品图像的特征信息。
步骤S303,基于菜品图像的特征信息和度量学习的损失函数Triplet Loss,计算损失函数的函数值。
在本发明实施例中初始卷积神经网络模型简单,可以动态替换不同的基础网络或损失函数以提升识别效果,因此模型易于维护或升级。
步骤S304,将函数值最小时对应的初始卷积神经网络确定为目标卷积神经网络。
将菜品图像训练样本的数据称之为Feed数据,Feed数据包括:锚(Anchor)示例、正(Positive)示例和负(Negative)示例。通过优化锚示例与正示例之间的距离、锚示例与负示例之间的距离,实现目标卷积神经网络参数的优化。
本发明实施例将N个菜品图像训练样本作为一个Batch输入至初始卷积神经网络,得到N个菜品图像训练样本的embedding,其中embedding为菜品图像训练样本的特征。将所有的embedding以三元组的形式送入损失函数Triplet Loss,三元组的组合方式最多可以达到N的三次方,其中包含很多无效的三元组,例如:包括三个负示例的三元组、包括三个正示例的三元组。然而有效的三元组具有以下格式:三元组(N_i,N_j,N_k),其中,两个菜品图像训练样本具有相同的标记,另一个具有不同的标记,例如:菜品图像训练样本i和菜品图像训练样本j具有相同的标记,而菜品图像训练样本k具有不同的标记。
基于有效的三元组可以计算损失函数的函数值,损失函数Triplet Loss为现有技术,在本发明实施例中不作具体描述。损失函数Triplet Loss最终优化的目的是拉近锚示例与正示例的距离,拉远锚示例与负示例的距离。本发明实施例根据距离的远近可以分为三种不同情况的菜品图像:第一种是很容易区分的菜品图像,第二种是很难区分的菜品图像,第三种是半困难区分的菜品图像。无论是上述哪种菜品图像,本发明实施例均基于距离的远近映射菜品图像的类别。
第一种情况,d(Anchor,Positive)+margin<d(Anchor,Negative),这种情况无需优化,且锚示例与正示例之间的距离足够近,锚示例与负示例之间的距离足够远。第二种情况,d(Anchor,Positive)>d(Anchor,Negative),即锚示例与正示例的距离很远。第三种情况,d(Anchor,Positive)<d(Anchor,Negative)<d(Anchor,Positive)+margin,即锚示例与正示例之间的距离较近,但是存在margin,使d(Anchor,Negative)<d(Anchor,Positive)+margin。
在训练初始卷积神经网络的过程中,可以选择所有很容易区分的菜品图像作为菜品图像训练样本,也可以只选择很难区分的菜品图像或半困难区分的菜品图像作为菜品图像训练样本。
在得到目标卷积神经网络之后,将菜品图像训练样本输入至训练好的目标卷积神经网络,可以得到搜索库(或称为:gallery库),即本发明实施例中的预设数据库。将待检测图像输入至训练好的目标卷积神经网络,可以得到待搜索库(或称为:query库)。利用最近临(KNN)方法在gallery库中搜索与query库距离最近的S个特征向量,然后对特征向量进行去重操作,最后获取类别不同的前3个特征向量对应的类别作为最后的分类结果。该方法充分考虑了菜品图像的特征信息,可以提高准确率,即使输入的待检测图像的特征向量在搜索库中不存在,也能返回非常相近的分类结果,因此体验也更好。
本发明实施例的基础网络只采用ResNet50结构,因此本发明实施例具有模型简单的优势。本发明实施例没有使用非常复杂的框架,因此可以部署在手机端。
由于传统的分类模型输出类别的数量是固定的,如果有新类别的加入,只能重新训练。而在本发明实施例中,若存在新类别的识别需求,只需要利用训练好的特征提取器提取新类别的特征,并将新类别的特征加入gallery库中即可,无需再训练,因此本发明实施例具有泛化能力强的优势。
本发明实施例将度量学习应用于菜品识别中,可以结合预设数据库中的图像特征信息识别目标图像的特征信息,可以区分特征相似的菜品且可以确定同类别图像特征的其他菜品信息,进而实现对类内距离大的菜品图像的识别,可以增强客户使用体验。
实施例二:
参照图4,本发明实施例提供的一种基于度量学习的菜品识别装置,其中,包括:
获取模块11,用于获取待检测图像;
裁剪模块12,用于若待检测图像为菜品图像,则对待检测图像进行裁剪,得到包含菜品信息的目标图像;
输入模块13,用于将目标图像输入至目标卷积神经网络中,得到目标图像的特征信息;目标卷积神经网络为基于度量学习训练的网络;
选择模块14,用于利用最近邻方法从预设数据库中选择与目标图像的特征信息相似的图像特征信息;
确定模块15,用于将图像特征信息对应的菜品信息作为待检测图像的菜品信息。
本发明实施例提供的一种基于度量学习的菜品识别装置,先利用获取模块获取待检测图像;若待检测图像为菜品图像,则利用裁剪模块对待检测图像进行裁剪,得到包含菜品信息的目标图像;然后利用输入模块将目标图像输入至目标卷积神经网络中,得到目标图像的特征信息;再利用最近邻方法从预设数据库中利用选择模块选择与目标图像的特征信息相似的图像特征信息;最后利用确定模块将图像特征信息对应的菜品信息作为待检测图像的菜品信息。本发明实施例中的度量学习具有最大化类间距离同时最小化类内距离的特性,因此基于度量学习训练好的卷积神经网络模型对菜品图像的识别粒度小,进而可以区分特征相似的菜品。此外,度量学习可以最小化类内距离,并且基于最近邻方法可以确定与所述裁剪后的待检测图像的特征相似的同类别图像特征的菜品信息,进而实现对类内距离大的菜品图像的识别。
进一步的,基于度量学习的菜品识别装置,还包括判断模块,其中,判断模块用于通过以下方式判断待检测图像是否为菜品图像,判断模块具体包括:
二分类判断单元,用于利用训练好的二分类模型对待检测图像进行二分类判断,得到类别判断结果;
判断单元,用于基于类别判断结果判断待检测图像是否为菜品图像。
进一步的,基于度量学习的菜品识别装置,还包括第一训练模块:
第一训练模块,用于训练初始二分类模型,得到训练好的二分类模型。
进一步的,第一训练模块包括:
第一获取单元,用于获取二分类训练样本;
优化单元,用于基于二分类训练样本,利用交叉熵损失函数优化初始二分类模型的参数,确定最优参数;
第一确定单元,用于将最优参数的初始二分类模型确定为训练好的二分类模型。
进一步的,基于度量学习的菜品识别装置,还包括:第二训练模块,其中,第二训练模块,用于利用度量学习中的损失函数Triplet Loss训练初始卷积神经网络,得到目标卷积神经网络。
进一步的,第二训练模块包括:
第二获取单元,用于获取菜品图像训练样本,其中,菜品图像训练样本满足预设尺寸规格;
输入单元,用于将菜品图像训练样本输入至初始卷积神经网络中,以根据卷积神经网络提取菜品图像的特征信息;
计算单元,用于基于菜品图像的特征信息和度量学习的损失函数Triplet Loss,计算损失函数的函数值;
第二确定单元,用于将函数值最小时对应的初始卷积神经网络确定为目标卷积神经网络。
在本发明的又一实施例中,还提供一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法实施例所述方法的步骤。
在本发明的又一实施例中,还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行方法实施例所述方法。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于度量学习的菜品识别方法,其特征在于,包括:
获取待检测图像;
若所述待检测图像为菜品图像,则对所述待检测图像进行裁剪,得到包含菜品信息的目标图像;
将所述目标图像输入至目标卷积神经网络中,得到所述目标图像的特征信息;所述目标卷积神经网络为基于度量学习训练的网络;
利用最近邻方法从预设数据库中选择与所述目标图像的特征信息相似的图像特征信息;
将所述图像特征信息对应的菜品信息作为待检测图像的菜品信息。
2.根据权利要求1所述的基于度量学习的菜品识别方法,其特征在于,通过以下方式判断所述待检测图像是否为菜品图像,具体包括:
利用训练好的二分类模型对所述待检测图像进行二分类判断,得到类别判断结果;
基于所述类别判断结果判断所述待检测图像是否为菜品图像。
3.根据权利要求2所述的基于度量学习的菜品识别方法,其特征在于,在利用训练好的二分类模型对所述待检测图像进行二分类判断之前,包括:
训练初始二分类模型,得到所述训练好的二分类模型。
4.根据权利要求3所述的基于度量学习的菜品识别方法,其特征在于,训练初始二分类模型,得到所述训练好的二分类模型包括:
获取二分类训练样本;
基于所述二分类训练样本,利用交叉熵损失函数优化所述初始二分类模型的参数,确定最优参数;
将最优参数的初始二分类模型确定为所述训练好的二分类模型。
5.根据权利要求1所述的基于度量学习的菜品识别方法,其特征在于,在将所述目标图像输入至目标卷积神经网络中,得到所述目标图像的特征信息之前,包括:
利用度量学习中的损失函数Triplet Loss训练初始卷积神经网络,得到所述目标卷积神经网络。
6.根据权利要求5所述的基于度量学习的菜品识别方法,其特征在于,利用度量学习中的损失函数Triplet Loss训练初始卷积神经网络,得到所述目标卷积神经网络包括:
获取菜品图像训练样本,其中,所述菜品图像训练样本满足预设尺寸规格;
将所述菜品图像训练样本输入至初始卷积神经网络中,以根据所述卷积神经网络提取菜品图像的特征信息;
基于所述菜品图像的特征信息和度量学习的损失函数Triplet Loss,计算所述损失函数的函数值;
将所述函数值最小时对应的初始卷积神经网络确定为所述目标卷积神经网络。
7.一种基于度量学习的菜品识别装置,其特征在于,包括:
获取模块,用于获取待检测图像;
裁剪模块,用于若所述待检测图像为菜品图像,则对所述待检测图像进行裁剪,得到包含菜品信息的目标图像;
输入模块,用于将所述目标图像输入至目标卷积神经网络中,得到所述目标图像的特征信息;所述目标卷积神经网络为基于度量学习训练的网络;
选择模块,用于利用最近邻方法从预设数据库中选择与所述目标图像的特征信息相似的图像特征信息;
确定模块,用于将所述图像特征信息对应的菜品信息作为待检测图像的菜品信息。
8.根据权利要求7所述的基于度量学习的菜品识别装置,其特征在于,还包括判断模块,其中,所述判断模块用于通过以下方式判断所述待检测图像是否为菜品图像,具体包括:
二分类判断单元,用于利用训练好的二分类模型对所述待检测图像进行二分类判断,得到类别判断结果;
判断单元,用于基于所述类别判断结果判断所述待检测图像是否为菜品图像。
9.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现如权利要求1至6任一项所述的方法。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行如权利要求1至6任一项所述的方法。
CN202010070065.9A 2020-01-21 2020-01-21 基于度量学习的菜品识别方法及装置 Active CN111274972B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010070065.9A CN111274972B (zh) 2020-01-21 2020-01-21 基于度量学习的菜品识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010070065.9A CN111274972B (zh) 2020-01-21 2020-01-21 基于度量学习的菜品识别方法及装置

Publications (2)

Publication Number Publication Date
CN111274972A true CN111274972A (zh) 2020-06-12
CN111274972B CN111274972B (zh) 2023-08-29

Family

ID=70997492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010070065.9A Active CN111274972B (zh) 2020-01-21 2020-01-21 基于度量学习的菜品识别方法及装置

Country Status (1)

Country Link
CN (1) CN111274972B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783590A (zh) * 2020-06-24 2020-10-16 西北工业大学 一种基于度量学习的多类别小目标检测方法
CN112115906A (zh) * 2020-09-25 2020-12-22 广州市派客朴食信息科技有限责任公司 基于深度学习目标检测和度量学习的开放性菜品识别方法
CN112784822A (zh) * 2021-03-08 2021-05-11 口碑(上海)信息技术有限公司 对象识别方法、装置、电子设备、存储介质及程序产品
CN114638980A (zh) * 2022-03-04 2022-06-17 支付宝(杭州)信息技术有限公司 菜品种类识别处理方法及装置
CN115761729A (zh) * 2022-10-24 2023-03-07 湖北公众信息产业有限责任公司 一种基于深度学习的菜品精准识别方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256555A (zh) * 2017-12-21 2018-07-06 北京达佳互联信息技术有限公司 图像内容识别方法、装置及终端
CN108256474A (zh) * 2018-01-17 2018-07-06 百度在线网络技术(北京)有限公司 用于识别菜品的方法和装置
CN108537181A (zh) * 2018-04-13 2018-09-14 盐城师范学院 一种基于大间距深度度量学习的步态识别方法
CN108897791A (zh) * 2018-06-11 2018-11-27 云南师范大学 一种基于深度卷积特征和语义相似度量的图像检索方法
US20190096135A1 (en) * 2017-09-26 2019-03-28 Aquifi, Inc. Systems and methods for visual inspection based on augmented reality
CN110148120A (zh) * 2019-05-09 2019-08-20 四川省农业科学院农业信息与农村经济研究所 一种基于cnn与迁移学习的病害智能识别方法及系统
CN110674845A (zh) * 2019-08-28 2020-01-10 电子科技大学 一种结合多感受野注意与特征再校准的菜品识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190096135A1 (en) * 2017-09-26 2019-03-28 Aquifi, Inc. Systems and methods for visual inspection based on augmented reality
CN108256555A (zh) * 2017-12-21 2018-07-06 北京达佳互联信息技术有限公司 图像内容识别方法、装置及终端
CN108256474A (zh) * 2018-01-17 2018-07-06 百度在线网络技术(北京)有限公司 用于识别菜品的方法和装置
CN108537181A (zh) * 2018-04-13 2018-09-14 盐城师范学院 一种基于大间距深度度量学习的步态识别方法
CN108897791A (zh) * 2018-06-11 2018-11-27 云南师范大学 一种基于深度卷积特征和语义相似度量的图像检索方法
CN110148120A (zh) * 2019-05-09 2019-08-20 四川省农业科学院农业信息与农村经济研究所 一种基于cnn与迁移学习的病害智能识别方法及系统
CN110674845A (zh) * 2019-08-28 2020-01-10 电子科技大学 一种结合多感受野注意与特征再校准的菜品识别方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783590A (zh) * 2020-06-24 2020-10-16 西北工业大学 一种基于度量学习的多类别小目标检测方法
CN112115906A (zh) * 2020-09-25 2020-12-22 广州市派客朴食信息科技有限责任公司 基于深度学习目标检测和度量学习的开放性菜品识别方法
CN112784822A (zh) * 2021-03-08 2021-05-11 口碑(上海)信息技术有限公司 对象识别方法、装置、电子设备、存储介质及程序产品
CN114638980A (zh) * 2022-03-04 2022-06-17 支付宝(杭州)信息技术有限公司 菜品种类识别处理方法及装置
CN115761729A (zh) * 2022-10-24 2023-03-07 湖北公众信息产业有限责任公司 一种基于深度学习的菜品精准识别方法及系统

Also Published As

Publication number Publication date
CN111274972B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN111274972A (zh) 基于度量学习的菜品识别方法及装置
WO2020164282A1 (zh) 基于yolo的图像目标识别方法、装置、电子设备和存储介质
CN110674866B (zh) 迁移学习特征金字塔网络对X-ray乳腺病灶图像检测方法
JP6843086B2 (ja) 画像処理システム、画像においてマルチラベル意味エッジ検出を行う方法、および、非一時的コンピューター可読記憶媒体
CN106845510B (zh) 基于深度层级特征融合的中国传统视觉文化符号识别方法
US10163227B1 (en) Image file compression using dummy data for non-salient portions of images
CN108052966A (zh) 基于卷积神经网络的遥感图像场景自动提取和分类方法
JP2010504593A (ja) 分類手法を用いて画像からドミナントカラーを抽出する方法
CN109685765B (zh) 一种基于卷积神经网络的x光片肺炎结果预测装置
CN111476319B (zh) 商品推荐方法、装置、存储介质和计算设备
CN110738132B (zh) 一种具备判别性感知能力的目标检测质量盲评价方法
CN109903339B (zh) 一种基于多维融合特征的视频群体人物定位检测方法
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN111222546B (zh) 一种多尺度融合的食品图像分类模型训练及图像分类方法
CN115457332A (zh) 基于图卷积神经网络和类激活映射的图像多标签分类方法
WO2023014789A1 (en) System and method for pathology image analysis using a trained neural network and active learning framework
Chapaneri et al. Plant disease detection: A comprehensive survey
Zheng et al. Stripe segmentation of oceanic internal waves in SAR images based on SegNet
CN113327238A (zh) 一种胃镜图像分类模型构建方法及胃镜图像分类方法
Wu et al. RGBD co-saliency detection via multiple kernel boosting and fusion
CN117371511A (zh) 图像分类模型的训练方法、装置、设备及存储介质
Zhu et al. Scene text relocation with guidance
CN114676279B (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN116612386A (zh) 基于分级检测双任务模型的辣椒病虫害识别方法及系统
AU2022221413A1 (en) Domo v2: on-device object detection and instance segmentation for object selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant