CN111860211A

CN111860211A - 餐具和参照物识别方法、装置及存储介质

Info

Publication number: CN111860211A
Application number: CN202010610354.3A
Authority: CN
Inventors: 李利明; 何伟; 石磊; 贺志晶; 刘涛
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-10-30
Anticipated expiration: 2040-06-29
Also published as: CN111860211B

Abstract

本申请公开了一种餐具和参照物识别方法、装置及存储介质。其中，该方法包括：获取待识别的图像，其中所述图像包括至少一个餐具和/或参照物；以及利用预设的餐具和参照物识别模型对所述图像进行识别，确定所述至少一个餐具和/或参照物的类别以及所述至少一个餐具和/或参照物在所述图像中的位置信息，其中所述餐具和参照物识别模型基于包括多个餐具和多个参照物的样本图像训练得到。

Description

餐具和参照物识别方法、装置及存储介质

技术领域

本申请涉及图像识别技术领域，特别是涉及一种餐具和参照物识别方法、装置及存储介质。

背景技术

随着计算机视觉技术的不断发展，如何使用计算机视觉技术识别出各类餐具在餐饮界越来越受到领域关注，尤其是在当待识别的图像中包含多个复杂状态目标(例如，包含多个餐具以及参照物)时，如何识别出其中的参照物和餐具尤为关键。目前在图像中识别多个目标时，需要首先通过各种预定义框在图像上密集采样，得到多个图像区域子图，然后分别对各个图像区域子图识别出目标的具体类别和定位出目标在图像中的位置，最后通过筛选方式只保留同一位置上识别效果和定位效果相对最好的类别和定位信息，最终输出识别结果。但是，在上述识别过程中，通过预定义框在图像上密集采样的过程中，无法准确的进行目标定位，当目标定位出现问题的情况下，将无法精准的从包含多目标的图像中切分出包含单一目标的图像区域子图，从而导致基于图像区域子图进行识别后得到的识别结果准确率低。

针对上述的现有技术中存在的目前的餐具和参照物识别方法无法准确的进行目标定位，当目标定位出现问题的情况下，基于多目标识别的后续切割图像区域子图将无法精准切分，从而导致基于图像区域子图进行识别后得到的识别结果准确率低。

发明内容

本公开的实施例提供了一种餐具和参照物识别方法、装置及存储介质，以至少解决现有技术中存在的目前的餐具和参照物识别方法无法准确的进行目标定位，当目标定位出现问题的情况下，基于多目标识别的后续切割图像区域子图将无法精准切分，从而导致基于图像区域子图进行识别后得到的识别结果准确率低。

根据本公开实施例的一个方面，提供了一种餐具和参照物识别方法，包括：获取待识别的图像，其中图像包括至少一个餐具和/或参照物；以及利用预设的餐具和参照物识别模型对图像进行识别，确定至少一个餐具和/或参照物的类别以及至少一个餐具和/或参照物在图像中的位置信息，其中餐具和参照物识别模型基于包括多个餐具和多个参照物的样本图像训练得到。

根据本公开实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时由处理器执行以上任意一项所述的方法。

根据本公开实施例的另一个方面，还提供了一种餐具和参照物识别装置，包括：图像获取模块，用于获取待识别的图像，其中图像包括至少一个餐具和/或参照物；以及识别及定位模块，用于利用预设的餐具和参照物识别模型对图像进行识别，确定至少一个餐具和/或参照物的类别以及至少一个餐具和/或参照物在图像中的位置信息，其中餐具和参照物识别模型基于包括多个餐具和多个参照物的样本图像训练得到。

根据本公开实施例的另一个方面，还提供了一种餐具和参照物识别装置，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取待识别的图像，其中图像包括至少一个餐具和/或参照物；以及利用预设的餐具和参照物识别模型对图像进行识别，确定至少一个餐具和/或参照物的类别以及至少一个餐具和/或参照物在图像中的位置信息，其中餐具和参照物识别模型基于包括多个餐具和多个参照物的样本图像训练得到。

在本公开实施例中，在对餐具和参照物识别过程中，首先获取包括至少一个餐具和/或参照物的待识别的图像，然后不再需要通过各种预定义框在图像上密集采样的方式得到多个图像区域子图，而是直接将待识别的图像输入到预先训练好的餐具和参照物识别模型，由于餐具和参照物识别模型训练时采用的训练数据包含多种餐具和参照物的样本图像，对应标记数据为样本图像所对应的类别和位置，因此将待识别的图像输入到餐具和参照物识别模型之后，餐具和参照物识别模型会同时识别出图像中所有的餐具和参照物，即同时确定图像中的不同的餐具和参照物的类别，并且确定它们在图像中的位置信息。通过这种方式，可以对一张图像中的多个目标进行同时识别，并且定位精准，提高了对餐具和参照物的识别准确度。此外，利用概率密度模型对所确定的位置信息进行精准度评估，能够有效提高定位准确率。进而解决了有技术中存在的目前的餐具和参照物识别方法无法准确的进行目标定位，当目标定位出现问题的情况下，基于多目标识别的后续切割图像区域子图将无法精准切分，从而导致基于图像区域子图进行识别后得到的识别结果准确率低。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本申请的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图；

图2是根据本公开实施例1所述的餐具和参照物识别方法的流程示意图；

图3是根据本公开实施例1所述的包括多个餐具和参照物的待识别的图像的示意图；

图4是根据本公开实施例1所述的餐具和参照物识别模型的网络结构示意图；

图5是根据本公开实施例2所述的餐具和参照物识别装置的示意图；以及

图6是根据本公开实施例3所述的餐具和参照物识别装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开的技术方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本实施例，提供了一种餐具和参照物识别方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例所提供的方法实施例可以在服务器或者类似的计算设备中执行。图1示出了一种用于实现餐具和参照物识别方法的计算设备的硬件结构框图。如图1所示，计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器可用于存储应用软件的软件程序以及模块，如本公开实施例中的餐具和参照物识别方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的餐具和参照物识别方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算设备的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算设备中的部件的类型。

在上述运行环境下，根据本实施例的第一个方面，提供了一种餐具和参照物识别方法，该方法例如可以应用到图像识别的系统，通过该方法可以对包含餐具和参照物的图像进行识别分类。图2示出了该方法的流程示意图，参考图2所示，该方法包括：

S202：获取待识别的图像，其中图像包括至少一个餐具和/或参照物；以及

S204：利用预设的餐具和参照物识别模型对图像进行识别，确定至少一个餐具和/或参照物的类别以及至少一个餐具和/或参照物在图像中的位置信息，其中餐具和参照物识别模型基于包括多个餐具和多个参照物的样本图像训练得到。

正如背景技术中所述的，现有的餐具和参照物识别方法，通过预定义框在图像上密集采样的过程中，无法准确的进行目标定位，当目标定位出现问题的情况下，将无法精准的从包含多目标的图像中切分出包含单一目标的图像区域子图，从而导致基于图像区域子图进行识别后得到的识别结果准确率低。

针对背景技术中存在的技术问题，根据本实施例的第一个方面提供的餐具和参照物识别方法，首先获取包括至少一个餐具和/或参照物的待识别的图像。其中，待识别的图像中可以包括盛有膳食的各种餐具和参照物。盛有膳食的各种餐具是指在餐具中装有原生食材，烹饪组合菜的餐具，部分常见预包装食物等。参照物是指在实际生活中常见的尺寸固定的物体，比如一元硬币，银行卡，标尺等，本申请实例可以用于对各种餐具和有固定尺寸的参照物的识别。例如，参照图3所示，待识别的图像中包括碗，杯子，硬币，即该图像中有装粥和馒头的碗，装有牛奶的杯子，以及一枚硬币。

进一步地，在本申请实施例中，不再需要通过各种预定义框在图像上密集采样从而得到多个图像区域子图，而是直接将待识别的图像输入到预先训练好的餐具和参照物识别模型。其中餐具和参照物识别模型基于包括多个餐具和多个参照物的样本图像训练得到，用于训练餐具和参照物识别模型的数据由包含各种餐具和参照物的图像以及图像中各个餐具和参照物本身对应的类别数据和位置数据组成。由于餐具和参照物识别模型训练时采用的训练数据包含多种餐具和参照物的样本图像，对应标记数据为样本图像所对应的类别和位置，因此将待识别的图像输入到餐具和参照物识别模型之后，餐具和参照物识别模型会同时识别出图像中所有的餐具和参照物，而不需要提前对图像进行其他高级语义处理。从而，餐具和参照物识别模型能够对图像中的多个餐具和参照物进行识别，而不需要对目标进行单独处理，同时确定图像中的不同的餐具和参照物的类别，并且确定它们在图像中的位置信息。通过这种方式，可以对一张图像中的多个目标进行同时识别，并且定位精准，提高了对餐具和参照物的识别准确度。进而解决了有技术中存在的目前的餐具和参照物识别方法无法准确的进行目标定位，当目标定位出现问题的情况下，基于多目标识别的后续切割图像区域子图将无法精准切分，从而导致基于图像区域子图进行识别后得到的识别结果准确率低。

可选地，利用预设的餐具和参照物识别模型对图像进行识别，确定至少一个餐具和/或参照物的类别以及至少一个餐具和/或参照物在图像中的位置信息的操作，包括：利用包括多个卷积层的卷积模型，生成与图像对应的第一图像特征；利用包括多个残差单元的残差网络模型，对第一图像特征进行特征提取，生成第二图像特征；利用包括识别层的识别模型，对第二图像特征进行识别，确定至少一个餐具和/或参照物的类别；以及利用包括位置建模层的位置建模模型，对第二图像特征进行位置建模，确定至少一个餐具和/或参照物在图像中的位置信息。

具体地，参照图4所示，餐具和参照物识别模型是一种由残差单元组成的深度卷积网络结构，包括：卷积层、残差单元、识别层以及位置建模层。那么，餐具和参照物识别模型相当于由包括多个卷积层的卷积模型、包括多个残差单元的残差网络模型、包括识别层的识别模型以及包括位置建模层的位置建模模型组成。因此，在利用预设的餐具和参照物识别模型对图像进行识别，确定至少一个餐具和/或参照物的类别以及至少一个餐具和/或参照物在图像中的位置信息的操作过程中，首先利用卷积模型，生成与图像对应的第一图像特征，然后利用包括多个残差单元的残差网络模型，对第一图像特征进一步进行特征提取，生成第二图像特征。从而能够更好的提取更多的有用信息，减少信息损失。其次，利用包括识别层的识别模型，对第二图像特征进行识别，确定至少一个餐具和/或参照物的类别。最后，利用位置建模模型，对第二图像特征进行位置建模，确定至少一个餐具和/或参照物在图像中的位置信息。从而，使得餐具和参照物识别模型最终输出的结果包括图像中包含的各个餐具和参照物的类别以及在图像中的位置信息。其中，餐具和参照物的类别可以用数字表示，参照图3所示，碗的类别可以用数字1表示，硬币的类别用数字2表示，杯子的类别用数字3表示。并且，经过大量实验证明，当残差单元在5-8个，效果较好，利用该模型识别餐具和参照物的识别准确率较高，定位效果良好。

可选地，该方法还包括：利用预设的概率密度模型，评估所确定的至少一个餐具和/或参照物在图像中的位置信息的精准度。利用概率密度模型对所确定的位置信息进行精准度评估，有效提高定位准确率。

可选地，利用包括位置建模层的位置建模模型，对第二图像特征进行位置建模，确定至少一个餐具和/或参照物在图像中的位置信息的操作，包括：利用位置建模模型，确定至少一个餐具和/或参照物的中心点在图像中的中心点位置信息；利用位置建模模型，确定至少一个餐具和/或参照物的宽高信息；以及根据中心点位置信息和宽高信息，确定至少一个餐具和/或参照物在图像中的位置信息。

具体地，在利用包括位置建模层的位置建模模型，对第二图像特征进行位置建模，确定至少一个餐具和/或参照物在图像中的位置信息的过程中，首先确定各个餐具和参照物的中心点在图像中的中心点位置信息。以图3为例，举例说明：图3中包含装有馒头的碗，装有粥的碗，装有牛奶的杯子，一个一元硬币的图像。装有粥的碗的中心点落在图像中的(280，41)像素点处，装有馒头的碗的中心点落在图像中的(220，323)像素点处，硬币的中心点落在图像中的(204，139)像素点处，装有牛奶的杯子的中心点落在图像中的(204，139)像素点处。

进一步地，利用位置建模模型，确定至少一个餐具和/或参照物的宽高信息。其中，参照图3所示，装有粥的碗的宽为254，高281，装有馒头的碗的宽为487，高为598，硬币的宽为249，高为184，装有牛奶的杯子的宽为235，高为394。最后，根据中心点位置信息和宽高信息，确定至少一个餐具和/或参照物在图像中的位置信息。即，根据各个餐具和参照物的中心点位置信息和宽高信息，确定各个餐具和参照物在图像中的位置信息。通过这种方式，能够准确的确定各个餐具和参照物在图像中的位置信息，定位准确率高。

综上，本申请实施例利用带有残差单元的深度卷积网络识别和定位出图像中的多个餐具和参照物，再利用概率密度模型对所确定的位置信息进行精准度评估，使得类别准确率和定位准确率都有效提高。

此外，参考图1所示，根据本实施例的第二个方面，提供了一种存储介质。存储介质包括存储的程序，其中，在程序运行时由处理器执行以上任意一项所述的方法。

从而根据本实施例，在对餐具和参照物识别过程中，首先获取包括至少一个餐具和/或参照物的待识别的图像，然后不再需要通过各种预定义框在图像上密集采样的方式得到多个图像区域子图，而是直接将待识别的图像输入到预先训练好的餐具和参照物识别模型，由于餐具和参照物识别模型训练时采用的训练数据包含多种餐具和参照物的样本图像，对应标记数据为样本图像所对应的类别和位置，因此将待识别的图像输入到餐具和参照物识别模型之后，餐具和参照物识别模型会同时识别出图像中所有的餐具和参照物，即同时确定图像中的不同的餐具和参照物的类别，并且确定它们在图像中的位置信息。通过这种方式，可以对一张图像中的多个目标进行同时识别，并且定位精准，提高了对餐具和参照物的识别准确度。此外，利用概率密度模型对所确定的位置信息进行精准度评估，能够有效提高定位准确率。进而解决了有技术中存在的目前的餐具和参照物识别方法无法准确的进行目标定位，当目标定位出现问题的情况下，基于多目标识别的后续切割图像区域子图将无法精准切分，从而导致基于图像区域子图进行识别后得到的识别结果准确率低。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

图5示出了根据本实施例所述的餐具和参照物识别装置500，该装置500与根据实施例1的第一个方面所述的方法相对应。参考图5所示，该装置500包括：图像获取模块510，用于获取待识别的图像，其中图像包括至少一个餐具和/或参照物；以及识别及定位模块520，用于利用预设的餐具和参照物识别模型对图像进行识别，确定至少一个餐具和/或参照物的类别以及至少一个餐具和/或参照物在图像中的位置信息，其中餐具和参照物识别模型基于包括多个餐具和多个参照物的样本图像训练得到。

可选地，识别及定位模块520，包括：第一生成子模块，用于利用包括多个卷积层的卷积模型，生成与图像对应的第一图像特征；第二生成子模块，用于利用包括多个残差单元的残差网络模型，对第一图像特征进行特征提取，生成第二图像特征；识别子模块，用于利用包括识别层的识别模型，对第二图像特征进行识别，确定至少一个餐具和/或参照物的类别；以及定位子模块，用于利用包括位置建模层的位置建模模型，对第二图像特征进行位置建模，确定至少一个餐具和/或参照物在图像中的位置信息。

可选地，装置500还包括：准确度评估模块，用于利用预设的概率密度模型，评估所确定的至少一个餐具和/或参照物在图像中的位置信息的精准度。

可选地，识别子模块，包括：第一确定单元，用于利用位置建模模型，确定至少一个餐具和/或参照物的中心点在图像中的中心点位置信息；第二确定单元，用于利用位置建模模型，确定至少一个餐具和/或参照物的宽高信息；以及第三确定单元，用于根据中心点位置信息和宽高信息，确定至少一个餐具和/或参照物在图像中的位置信息。

从而根据本实施例，装置500在对餐具和参照物识别过程中，首先通过图像获取模块510获取包括至少一个餐具和/或参照物的待识别的图像，然后不再需要通过各种预定义框在图像上密集采样的方式得到多个图像区域子图，而是直接将待识别的图像输入到识别及定位模块520中的预先训练好的餐具和参照物识别模型，由于餐具和参照物识别模型训练时采用的训练数据包含多种餐具和参照物的样本图像，对应标记数据为样本图像所对应的类别和位置，因此将待识别的图像输入到餐具和参照物识别模型之后，餐具和参照物识别模型会同时识别出图像中所有的餐具和参照物，即同时确定图像中的不同的餐具和参照物的类别，并且确定它们在图像中的位置信息。通过这种方式，可以对一张图像中的多个目标进行同时识别，并且定位精准，提高了对餐具和参照物的识别准确度。此外，利用概率密度模型对所确定的位置信息进行精准度评估，能够有效提高定位准确率。进而解决了有技术中存在的目前的餐具和参照物识别方法无法准确的进行目标定位，当目标定位出现问题的情况下，基于多目标识别的后续切割图像区域子图将无法精准切分，从而导致基于图像区域子图进行识别后得到的识别结果准确率低。

实施例3

图6示出了根据本实施例的餐具和参照物识别装置600，该装置600与根据实施例1的第一个方面的方法相对应。参考图6所示，该装置600包括：处理器610；以及存储器620，与处理器610连接，用于为处理器610提供处理以下处理步骤的指令：获取待识别的图像，其中图像包括至少一个餐具和/或参照物；以及利用预设的餐具和参照物识别模型对图像进行识别，确定至少一个餐具和/或参照物的类别以及至少一个餐具和/或参照物在图像中的位置信息，其中餐具和参照物识别模型基于包括多个餐具和多个参照物的样本图像训练得到。

可选地，存储器620还用于为处理器610提供处理以下处理步骤的指令：利用预设的概率密度模型，评估所确定的至少一个餐具和/或参照物在图像中的位置信息的精准度。

从而根据本实施例，装置600在对餐具和参照物识别过程中，首先获取包括至少一个餐具和/或参照物的待识别的图像，然后不再需要通过各种预定义框在图像上密集采样的方式得到多个图像区域子图，而是直接将待识别的图像输入到预先训练好的餐具和参照物识别模型，由于餐具和参照物识别模型训练时采用的训练数据包含多种餐具和参照物的样本图像，对应标记数据为样本图像所对应的类别和位置，因此将待识别的图像输入到餐具和参照物识别模型之后，餐具和参照物识别模型会同时识别出图像中所有的餐具和参照物，即同时确定图像中的不同的餐具和参照物的类别，并且确定它们在图像中的位置信息。通过这种方式，可以对一张图像中的多个目标进行同时识别，并且定位精准，提高了对餐具和参照物的识别准确度。此外，利用概率密度模型对所确定的位置信息进行精准度评估，能够有效提高定位准确率。进而解决了有技术中存在的目前的餐具和参照物识别方法无法准确的进行目标定位，当目标定位出现问题的情况下，基于多目标识别的后续切割图像区域子图将无法精准切分，从而导致基于图像区域子图进行识别后得到的识别结果准确率低。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种餐具和参照物识别方法，其特征在于，包括：

获取待识别的图像，其中所述图像包括至少一个餐具和/或参照物；以及

利用预设的餐具和参照物识别模型对所述图像进行识别，确定所述至少一个餐具和/或参照物的类别以及所述至少一个餐具和/或参照物在所述图像中的位置信息，其中所述餐具和参照物识别模型基于包括多个餐具和多个参照物的样本图像训练得到。

2.根据权利要求1所述的方法，其特征在于，利用预设的餐具和参照物识别模型对所述图像进行识别，确定所述至少一个餐具和/或参照物的类别以及所述至少一个餐具和/或参照物在所述图像中的位置信息的操作，包括：

利用包括多个卷积层的卷积模型，生成与所述图像对应的第一图像特征；

利用包括多个残差单元的残差网络模型，对所述第一图像特征进行特征提取，生成第二图像特征；

利用包括识别层的识别模型，对所述第二图像特征进行识别，确定所述至少一个餐具和/或参照物的类别；以及

利用包括位置建模层的位置建模模型，对所述第二图像特征进行位置建模，确定所述至少一个餐具和/或参照物在所述图像中的位置信息。

3.根据权利要求1所述的方法，其特征在于，还包括：利用预设的概率密度模型，评估所确定的所述至少一个餐具和/或参照物在所述图像中的位置信息的精准度。

4.根据权利要求2所述的方法，其特征在于，利用包括位置建模层的位置建模模型，对所述第二图像特征进行位置建模，确定所述至少一个餐具和/或参照物在所述图像中的位置信息的操作，包括：

利用所述位置建模模型，确定所述至少一个餐具和/或参照物的中心点在所述图像中的中心点位置信息；

利用所述位置建模模型，确定所述至少一个餐具和/或参照物的宽高信息；以及

根据所述中心点位置信息和所述宽高信息，确定所述至少一个餐具和/或参照物在所述图像中的位置信息。

5.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行权利要求1至4中任意一项所述的方法。

6.一种餐具和参照物识别装置，其特征在于，包括：

图像获取模块，用于获取待识别的图像，其中所述图像包括至少一个餐具和/或参照物；以及

识别及定位模块，用于利用预设的餐具和参照物识别模型对所述图像进行识别，确定所述至少一个餐具和/或参照物的类别以及所述至少一个餐具和/或参照物在所述图像中的位置信息，其中所述餐具和参照物识别模型基于包括多个餐具和多个参照物的样本图像训练得到。

7.根据权利要求6所述的装置，其特征在于，所述识别及定位模块，包括：

第一生成子模块，用于利用包括多个卷积层的卷积模型，生成与所述图像对应的第一图像特征；

第二生成子模块，用于利用包括多个残差单元的残差网络模型，对所述第一图像特征进行特征提取，生成第二图像特征；

识别子模块，用于利用包括识别层的识别模型，对所述第二图像特征进行识别，确定所述至少一个餐具和/或参照物的类别；以及

定位子模块，用于利用包括位置建模层的位置建模模型，对所述第二图像特征进行位置建模，确定所述至少一个餐具和/或参照物在所述图像中的位置信息。

8.根据权利要求6所述的装置，其特征在于，还包括：准确度评估模块，用于利用预设的概率密度模型，评估所确定的所述至少一个餐具和/或参照物在所述图像中的位置信息的精准度。

9.根据权利要求7所述的装置，其特征在于，所述识别子模块，包括：

第一确定单元，用于利用所述位置建模模型，确定所述至少一个餐具和/或参照物的中心点在所述图像中的中心点位置信息；

第二确定单元，用于利用所述位置建模模型，确定所述至少一个餐具和/或参照物的宽高信息；以及

第三确定单元，用于根据所述中心点位置信息和所述宽高信息，确定所述至少一个餐具和/或参照物在所述图像中的位置信息。

10.一种餐具和参照物识别装置，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：