CN106874913A - 一种菜品检测方法 - Google Patents

一种菜品检测方法 Download PDF

Info

Publication number
CN106874913A
CN106874913A CN201611243913.1A CN201611243913A CN106874913A CN 106874913 A CN106874913 A CN 106874913A CN 201611243913 A CN201611243913 A CN 201611243913A CN 106874913 A CN106874913 A CN 106874913A
Authority
CN
China
Prior art keywords
region
vegetable
image
feature
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611243913.1A
Other languages
English (en)
Inventor
吴斌
欧烈川
刘潇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Jiangnan High Tech Research Institute Co Ltd
Original Assignee
Nanjing Jiangnan High Tech Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Jiangnan High Tech Research Institute Co Ltd filed Critical Nanjing Jiangnan High Tech Research Institute Co Ltd
Priority to CN201611243913.1A priority Critical patent/CN106874913A/zh
Publication of CN106874913A publication Critical patent/CN106874913A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/36Image preprocessing, i.e. processing the image information without deciding about the identity of the image
    • G06K9/46Extraction of features or characteristics of the image
    • G06K9/4671Extracting features based on salient regional features, e.g. Scale Invariant Feature Transform [SIFT] keypoints
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/62Methods or arrangements for recognition using electronic means
    • G06K9/6267Classification techniques
    • G06K9/6268Classification techniques relating to the classification paradigm, e.g. parametric or non-parametric approaches
    • G06K9/6269Classification techniques relating to the classification paradigm, e.g. parametric or non-parametric approaches based on the distance between the decision surface and training patterns lying on the boundary of the class cluster, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computer systems based on biological models
    • G06N3/02Computer systems based on biological models using neural network models
    • G06N3/04Architectures, e.g. interconnection topology
    • G06N3/0454Architectures, e.g. interconnection topology using a combination of multiple neural nets
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K2209/00Indexing scheme relating to methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K2209/17Recognition of food, fruit, vegetables

Abstract

本发明提出了一种菜品检测方法,包括以下步骤:1)输入待检测的图像;2)使用预先训练的卷积神经网络提取图像特征;3)以特征图中每个元素在原图中对应位置为中心,给出提议区域;4)根据每个提议区域中心对应的特征向量判断该区域是否为物体;5)如果提议区域是物体,则使用SPPNET提取该区域的特征;6)根据区域特征做回归,计算更准确的bounding box,同时判断该区域是否为菜品。本发明的方法可以有效降低输出的错误率,获得更好的使用体验。

Description

一种菜品检测方法
技术领域
[0001]本发明属于计算机图像处理领域,具体来说涉及一种快速检测图像中的菜品区域 的技术。 <
背景技术
[0002]在使用图像识别菜品种类的任务中,通常识别系统的返回结果只限定于菜品种 类,并且局限于菜品这一大类,对于并不包含菜品的图片其返回结果也仅限于识别程序所 包含的种类。如果提交给识别系统的图像并不包含菜品,系统并不能对图像是否包含菜品 做出判断,仍会返回最有可能的菜品种类,从而产生错误的结果。
发明内容
[0003]因此,本发明提供一种从图像中检测菜品所在区域的方案,可检测出图像中包含 的一个或多个菜品,并分别给出每个菜品所在区域的左上角坐标x,y以及宽度*和高度h,在 图像中不包含菜品的情况下则无返回结果。
[0004]具体来说,本发明采用了以下技术方案: 一种菜品检测方法,其特征在于,所述方法包括以下步骤:D输入待检测的图像;2)使 用预先训练的卷积神经网络提取图像特征;3)以特征图中每个元素在原图中对应位置为中 心,给出提议区域;4)根据每个提议区域中心对应的特征向量判断该区域是否为物体;5)如 果提议区域是物体,则使用SPPNET提取该区域的特征;6)根据区域特征做回归,计算更准确 的bounding box,同时判断该区域是否为菜品。
[000S]在以上方法中,步骤2)提取图像特征的步骤包括:首先将待检测图像转换为224* 2M像素作为特征提取网络的输入,然后做5层卷积,每层卷积核分别为7*7、5*5、3*3、3*3、 3*3,并且对每层提取的特征图的局部区域做最大值池化,得到大小为51*39,每个位置256 维的特征图,该256维向量即为该位置对应原图局部区域的特征向量。
[0006]进一步,步骤3)给出提议区域的步骤包括:以特征图中每个元素在原图中的对应 位置为中心,以原图大小为1000*600为标准,给出三种尺度128、256、512,三种比例1:1、1: 2、2:1,共九个提议区域。
[0007]更进一步,步骤4)判断是否为物体的步骤包括:如果原图中的bounding box和提 议区域重合部分超过70%则认为该区域包含物体,否则认为不包含,对图像作标签;使用提 议区域中心对应的特征向量作为特征;使用特征和标签训练一个全连接的神经网络来判断 该区域是否为物体。
[0008]接着,步骤5)包括:在提议区域是物体的情况下,在特征图上找到待提取特征的局 部图像对应的区域,将该区域分别以4*4、2*2、1 *1三种比例将特征图进行分割,对分割好的 每一块做最大值池化,提取该区块的25e维特征,将各区块提取出的特征连接到一起,最终 得到4*4*256+2*2*256+1*1*256=5376维特征。
[0009]更进一步,步骤6)包括:将通过SPPNET提取出的区域特征向量作为输入,以该区域 属于采品和背景的可能性作为输出,训练一个神经网络,通过该神经网络进行判断。在以上 步骤时,判断是否属于菜品时,当为菜品的可能性为90%时将该物体判断为菜品。
附图说明
[0010]图1为本发明方法的流程示意图; 图2为本发明方法步骤中所用到的提议区域示意图。
具体实施方式
[0011]在使用图像识别菜品种类的任务中,通常识别系统的返回结果只限定于菜品种 类。如果提交给识别系统的图像并不包含菜品,系统并不能对图像是否包含菜品做出判断, 仍会返回最有可能的菜品种类,从而产生错误的结果。
[0012]因此,本发明提供一种从图像中检测菜品所在区域的方案,可检测出图像中包含 的一个或多个菜品,并分别给出每个菜品所在区域的左上角坐标X,y以及宽度w和高度h,在 图像中不包含菜品的情况下则无返回结果。
[0013] 在本文采用的技术之前,传统的物体检测领域的主流方法是DPM (Deformable parts models) qDPM在VOC2007数据集上达到了43%的mAP (Mean Average Precision,平均 正确率均值,在物体检测领域为多个不同物体的检测的准确率的平均值),运算效率可以接 近实时(30fps〜lOOfps)。
[00M] 随后出现的RCNN引入了卷积神经网络作为特征提取方法,并提出了一套物体检测 框架,即提议区域—特征提取—分类和bounding box调整。该方法在准确率上有所突破,在 V0C2007上达到了 53 • 5%的mAP。然而由于需要对每个提议区域做特征提取,该算法非常耗 时,根据提议区域数量的不同,该算法需要几十秒到上百秒不等的运算时间。
[0015]由于RCNN提取的提议区域存在大量重叠部分,因此提议区域的特征提取存在大量 重复计算。针对这一点,fast RCNN引入了SPPNET,使得只需要对原图像整体提取一次特征, 就可以计算出所有提议区域的特征向量。该算法极大地降低了运行时间,处理一张图片需 要的时间被缩短到2s左右,并且检测的mAP也被提高到了 70%。
[0016] fast RCNN虽然降低了RCNN的运行时间,但仍然难以满足实时性的要求,而其运行 效率的瓶颈在于提议可能为物体的区域这一步骤。本发明最终采用的faster RCNN在这一 方面做出了改进,提出了RPN (region proposal network)来给出提议区域,结合fast RCNN 的方法,在保证准确率不受影响的情况下,将运行时间压缩至可以满足实时性的要求。根据 faster RCNN选取的特征提取网络的不同,其运行效率可达到5-2〇fps不等,虽然不及DPM的 运行效率,但该方法在准确率上有极大的优势,并且在本发明的应用场景,即菜品检测问题 中,faster RCNN的运行效率已经足够。
[0017]本发明提出的图像中菜品区域的检测技术是为了配合菜品识别技术而开发。常见 的菜品识别技术可分类的种类有限,并且局限于菜品这一大类,对于并不包含菜品的图片 其返回结果也仅限于识别程序所包含的种类。也就是对于并不包含菜品的图片,识别程序 仍然会返回某个菜品的名称,从而造成令人费解的结果。本发明提出的菜品检测方法可以 在识别程序执行之前判断图像中是否包含菜品,筛选掉不包含菜品的图像;同时可以给出 菜品所在区域的bounding box,可以让菜品识别程序针对更准确的菜品区域进行识别,提 尚识别的准确率。
[0018] 本发明解决的技术问题属于计算机视觉中的物体检测问题。物体检测问题的主要 任务是在图像中求出指定物体所在区域的bounding box。本发明采用的技术方案即为物体 检测领域的RCNN技术。
[0019] RCNN经历了三个阶段的发展,即RCNN,fast RCNN,faster RCNN三个发展阶段。 三个发展阶段均采用RCNN的技术框架,逐步将各模块的功能使用神经网络实现,期间算法 的准确率和运行效率都有明显提升。
[0020] RCNN主要由四个功能模块组成:使用第三方工具给出可能为物体的区域(regiori proposa 1);使用卷积神经网络提取提议区域的图像特征;使用SVM,根据提取出的提议区域 的特征向量判断该区域的分类;同时使用提议区域的特征向量对物体的bounding box做回 归,得出更准确的bounding box。
[0021] fast RCNN对RCNN的改进主要有: (1)引入SPPNET提取提议区域的特征。SPPNET是一项用于从不同尺寸和比例的图像中 提取出相同维度特征的技术。RCNN对每个提议区域都要通过卷积神经网络提取特征,运算 量很大,非常耗时。引入SPPNET技术后,只需对整幅图像提取一次特征,然后使用SPPNET分 别对每个提议区域提取特征即可。
[0022] (2)判断提议区域的种类,使用神经网络替代SVM作为分类器。
[0023] 最后,faster RCNN将提议区域也使用神经网络实现,将整个RCNN框架都使用神经 网络技术完成。本发明采用faster RCNN作为技术框架,采用人工标注的345张包含菜品的 图像和9663张不包含菜品的图像作为训练集,训练得到一个神经网络来求出可能的菜品所 在区域。其具体检测过程如下: (1)输入待检测图像。
[0024] (2)使用预先训练的卷积神经网络提取图像特征。
[0025]首先将待检测图像转换为224*224像素作为特征提取网络的输入。
[0026] 特征提取网络具有五层结构,每层采用不同尺度的卷积核(7*7,5*5,3*3,3*3, 3*3)做卷积,并对该层提取的特征图的局部区域做最大值池化操作(max pooling,即取该 区域的极大值作为区域的特征值)。经过五层卷积和池化操作,得到大小为51*39,每个位置 256维的特征图。该256维向量即为该位置对应原图局部区域的特征向量。
[0027] (3)以特征图中每个元素在原图中的对应位置为中心,以原图大小为1〇〇〇*600为 标准,给出三种尺度(128、256、512)、三种比例(1:1、1:2、2:1),共九个提议区域。参见图1, 提议区域即可能为物体的区域,需要后续步骤来判断。本发明采用的三种尺度和比例在运 用于菜品识别时,可以涵盖大多数物体可能的大小,相比于现有技术,运算量降低,促进了 实时反馈。
[0028] (4)根据每个提议区域中心对应的特征向量判断该区域是否为物体,如果不是则 退出。具体实现方法为:如果原图中的bounding box和提议区域重合部分超过一定阈值,如 70%则认为该区域包含物体,否则认为不包含,对图像作标签;使用提议区域中心对应的特 征向量作为特征;使用特征和标签训练一个全连接的神经网络来判断该区域是否为物体。 特征向量作为该网络的输入,网络输出结果为0〜1的浮点数,即该区域包含物体的可能性。 最后设置阈值,在可能性大于阈值的情况下则认为该区域包含物体。
[0029] ⑸如果提议区域是物体,使用SPPNET提取该区域的特征。SPPNET是一种用于提 取不同尺度区域的特征的方法。具体方法为:首先在特征图上找到待提取特征的局部图像 对应的区域;将该区域分别以4*4、2*2、1*1三种比例将特征图进行分割;对分割好的每一块 做最大值池化操作,提取该区块的256维特征;将各区块提取出的特征连接到一起,最终得 到4*4*256+2*2*256+1 *1*256=5376维特征。
[0030] ⑹根据区域特征做回归,计算更准确的bounding box,同时判断该区域是否为 菜品。通过回归计算bounding box同样是通过训练一个神经网络来完成的。将(5)中SPPNET 提取出的区域特征向量作为输入,物体所在的实际位置(左上角坐标x,y以及宽度和高度^ h)作为输出,训练一个神经网络,该神经网络即可求得更准确的b〇unding box。判断采用另 一个神经网络,输入和用于回归的神经网络一样,g卩SPPNET提取出的特征,输出为该区域属 于某一类的可能性,在本项目中即为菜品和背景(非菜品)两类。实际应用时在是菜品的可 能性大于一定的阈值,如90%时才认为是菜品。
[0031] (7)如果不疋米品则结束,如果是菜品则输出更准确的bounding box作为最终结 果。
[0032]、j面结合附图和具体实施例对本发明的实施方式作了详细的说明,但是本发明不 限于上述实施方式,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离 本发明宗旨的前提下做出各种变化。

Claims (7)

1. 一种菜品检测方法,其特征在于,所述方法包括以下步骤:1)输入待检测的图像;2) 使用预先训练的卷积神经网络提取图像特征;3)以特征图中每个元素在原图中对应位置为 中心,给出提议区域;4)根据每个提议区域中心对应的特征向量判断该区域是否为物体.5) 如果提议区域是物体,则使用SPPNET提取该区域的特征;6)根据区域特征做回归,计算更准 确的bounding box,同时判断该区域是否为菜品。
2.如权利要求1所述的菜品检测方法,其特征在于,步骤2)提取图像特征的步骤包括: 首先将待检测图像转换为2M*224像素作为特征提取网络的输入,然后做5层卷积,每层卷 积核分别为7打、5*5、淋3、3«、3幻,并且对每层提取的特征图的局部区域做最大值池化,得 到大小为51*39,每个位置256维的特征图,该256维向量即为该位置对应原图局部区域的特 征向量。
3.如权利要求2所述的菜品检测方法,其特征在于,步骤3)给出提议区域的步骤包括: 以特征图中每个元素在原图中的对应位置为中心,以原图大小为1000*600为标准,给出三 种尺度128、256、512,三种比例1:1、1: 2、2:1,共九个提议区域。
4.如权利要求3所述的菜品检测方法,其特征在于,步骤4)判断是否为物体的步骤包 括:如果原图中的bounding box和提议区域重合部分超过70%则认为该区域包含物体,否则 认为不包含,对图像作标签;使用提议区域中心对应的特征向量作为特征;使用特征和标签 训练一个全连接的神经网络来判断该区域是否为物体。
5. 如权利要求4所述的菜品检测方法,其特征在于,步骤5)包括:在提议区域是物体的 情况下,在特征图上找到待提取特征的局部图像对应的区域,将该区域分别以4*4、2*2、1*1 三种比例将特征图进行分割,对分割好的每一块做最大值池化,提取该区块的256维特征, 将各区块提取出的特征连接到一起,最终得到4*4*256+2*2*256+1*1*256=5376维特征。
6. 如权利要求5所述的菜品检测方法,其特征在于,步骤6)包括:将通过SPPNET提取出 的区域特征向量作为输入,以该区域属于菜品和背景的可能性作为输出,训练一个神经网 络,通过该神经网络进行判断。
7.如权利要求6所述的菜品检测方法,其特征在于,判断是否属于菜品时,当为菜品的 可能性为90%时将该物体判断为菜品。
CN201611243913.1A 2016-12-29 2016-12-29 一种菜品检测方法 Pending CN106874913A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611243913.1A CN106874913A (zh) 2016-12-29 2016-12-29 一种菜品检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611243913.1A CN106874913A (zh) 2016-12-29 2016-12-29 一种菜品检测方法

Publications (1)

Publication Number Publication Date
CN106874913A true CN106874913A (zh) 2017-06-20

Family

ID=59164890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611243913.1A Pending CN106874913A (zh) 2016-12-29 2016-12-29 一种菜品检测方法

Country Status (1)

Country Link
CN (1) CN106874913A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256571A (zh) * 2018-01-16 2018-07-06 佛山市顺德区中山大学研究院 一种基于卷积神经网络的中餐食物识别方法
CN108256474A (zh) * 2018-01-17 2018-07-06 百度在线网络技术(北京)有限公司 用于识别菜品的方法和装置
CN108629279A (zh) * 2018-03-27 2018-10-09 哈尔滨理工大学 一种基于卷积神经网络的车辆目标检测的方法
CN110197189A (zh) * 2018-02-27 2019-09-03 中北大学 一种引信装配正确性检测方法和设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512676A (zh) * 2015-11-30 2016-04-20 华南理工大学 一种智能终端上的食物识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512676A (zh) * 2015-11-30 2016-04-20 华南理工大学 一种智能终端上的食物识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAIMING HE等: "Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
SHAOQING REN等: "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256571A (zh) * 2018-01-16 2018-07-06 佛山市顺德区中山大学研究院 一种基于卷积神经网络的中餐食物识别方法
CN108256474A (zh) * 2018-01-17 2018-07-06 百度在线网络技术(北京)有限公司 用于识别菜品的方法和装置
CN110197189A (zh) * 2018-02-27 2019-09-03 中北大学 一种引信装配正确性检测方法和设备
CN108629279A (zh) * 2018-03-27 2018-10-09 哈尔滨理工大学 一种基于卷积神经网络的车辆目标检测的方法

Similar Documents

Publication Publication Date Title
CN106874913A (zh) 一种菜品检测方法
CN105512638B (zh) 一种基于融合特征的人脸检测与对齐方法
CN105608456B (zh) 一种基于全卷积网络的多方向文本检测方法
CN107871124B (zh) 一种基于深度神经网络的遥感图像目标检测方法
CN106504233A (zh) 基于Faster R‑CNN的无人机巡检图像电力小部件识别方法及系统
CN105574550A (zh) 一种车辆识别方法及装置
CN108875600A (zh) 一种基于yolo的车辆信息检测和跟踪方法、装置及计算机存储介质
CN105608454B (zh) 基于文字结构部件检测神经网络的文字检测方法及系统
CN104484658A (zh) 一种基于多通道卷积神经网络的人脸性别识别方法及装置
CN107273836A (zh) 一种行人检测识别方法、装置、模型和介质
CN108229523A (zh) 图像检测、神经网络训练方法、装置和电子设备
CN105303195B (zh) 一种词袋图像分类方法
CN106682569A (zh) 一种基于卷积神经网络的快速交通标识牌识别方法
CN107871101A (zh) 一种人脸检测方法及装置
CN109598234A (zh) 关键点检测方法和装置
CN109145766A (zh) 模型训练方法、装置、识别方法、电子设备及存储介质
CN108647665A (zh) 基于深度学习的航拍车辆实时检测方法
CN107358182A (zh) 行人检测方法及终端设备
CN108776777A (zh) 一种基于Faster RCNN的遥感影像对象间空间关系的识别方法
CN110070536A (zh) 一种基于深度学习的pcb板元器件检测方法
CN110490238A (zh) 一种图像处理方法、装置及存储介质
CN109800698A (zh) 基于深度网络的图标检测方法
CN112200107A (zh) 一种发票文本检测方法
CN109685008A (zh) 一种实时的视频目标检测方法
CN110738207A (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170620