CN113465251A

CN113465251A - 智能冰箱及食材识别方法

Info

Publication number: CN113465251A
Application number: CN202010469443.0A
Authority: CN
Inventors: 曲磊; 高雪松; 陈维强; 高桢; 高语函; 孙菁; 赵启东; 李正义; 谢飞学
Original assignee: Hisense Co Ltd
Current assignee: Hisense Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2021-10-01
Anticipated expiration: 2040-05-28
Also published as: CN113465251B

Abstract

本申请公开了一种智能冰箱及食材识别方法。在本申请实施例中，通过预置的特征库，将食材的特征提取以及食材的检索识别分为不同的阶段。第一阶段实现对食材的特征提取，第二阶段基于预置的特征库对食材进行特征检索识别。由此，用于提取特征的方法可以不进行变更，而通过维护预置的特征库即可实现对新增食材种类的适应性调整。此外，本申请实施例中，为了能够简化需要识别的食材种类，提高食材的识别效果，实现了动态的食材识别，也即，在存取食材的过程中将会对存取的食材进行识别。此外，本申请中还能够根据人机交互，实现由用户动态的更新预置的特征库，来实现实时的动态学习食材种类和特征。

Description

智能冰箱及食材识别方法

技术领域

本申请涉及人工智能技术领域，特别涉及一种智能冰箱及食材识别方法。

背景技术

智能冰箱已成为人们生活不可或缺的家用电器。随着人工智能技术的发展，基于图像的食材识别方案在智能冰箱领域越发流行。

相关技术中的食材识别方法大多基于神经网络来进行。相关方法中，需要收集大量的食材样本，并对样本进行标注训练，方可得到能够识别食材信息的神经网络模型。

然而，当食材种类发送更新时，需要重新耗费大量时间与算力对神经网络模型重新进行训练。

发明内容

本申请的目的是提供一种智能冰箱及食材识别方法，以减轻新增食材种类时要重新耗费大量时间与算力对神经网络模型重新进行训练的问题。

根据示例性的实施方式中的一个方面，提供一种智能冰箱，包括：摄像头模组、控制器、存储器以及输入输出单元；

所述摄像头模组用于对目标食材进行图像采集，所述目标食材为存入所述智能冰箱或从所述智能冰箱取出的食材；

输入输出单元，用于进行信息交互；

所述存储器，用于存储可被所述控制器执行的计算机程序；

所述控制器，分别与所述摄像头模组、所述输入输出单元和所述存储器连接，被配置为：

从所述摄像头模组采集的图像中识别所述目标食材的特征；

根据所述目标食材的特征和预置的特征库确定所述目标食材的食材描述信息；

控制所述输入输出单元输出所述食材描述信息。

在一些可能的实施例中，所述控制器还被配置为：

若在所述预置的特征库中未检索到与所述目标食材的特征匹配的特征，则控制所述输入输出单元输出食材信息录入请求；

响应于对所述目标食材的食材描述信息的录入操作，将所述目标食材的特征以及所述目标食材的食材描述信息对应存储到所述预置的特征库。

在一些可能的实施例中，所述控制器还被配置为：

在所述控制所述输入输出单元输出所述食材描述信息之后，若接收到对所述食材描述信息的更正指示，则根据所述目标食材的特征与更正后的食材描述信息更新所述预置的特征库。

在一些可能的实施例中，所述控制器在执行所述从所述摄像头模组采集的图像中识别所述目标食材的特征时，被配置为：

从所述图像中提取出多种图像特征；

对所述多种图像特征进行特征聚合，得到所述目标食材的特征。

在一些可能的实施例中，所述处理器在执行所述从所述图像中提取出多种图像特征时，被配置为：

采用神经网络对所述图像进行特征提取，得到由不同的特征提取层得到的多种图像特征；

其中，训练所述神经网络所采用的样本图片的类别包括多种类别，且所述多种类别中包括非食材类别的图片。

采用多种特征描述子从所述图像中提取出多种图像特征；和/或，

采用神经网络对所述图像进行特征提取，得到由不同的特征提取层得到的多种图像特征。

在一些可能的实施例中，所述神经网络包括依次串联的多个卷积层和多个全连接层；所述处理器在执行所述采用神经网络对所述图像进行特征提取，得到由不同的特征提取层得到的多种图像特征时，被配置为：

分别获取最后两层卷积层得到的图像特征，并获取指定全连接层提取的图像特征；

所述处理器在执行所述对所述多种图像特征进行特征聚合，得到所述目标食材的特征时，被配置为：

将所述两层卷积层得到的图像特征，以及所述指定全连接层提取的图像特征输入给所述指定全连接层之后的一层全连接层进行特征聚合，得到所述目标食材的特征。

在一些可能的实施例中，所述处理器还被配置为：

控制所述输入输出单元输出所述食材描述信息时，输出所述目标食材的图像。

根据本申请实施例的另一方面，提供一种食材识别方法，所述方法包括：

从采集的图像中识别所述目标食材的特征；所述目标食材为存入智能冰箱或从所述智能冰箱取出的食材；

输出所述食材描述信息。

在一些可能的实施例中，所述方法还包括：

在所述输出所述食材描述信息之后，若接收到对所述食材描述信息的更正指示，则根据所述目标食材的特征与更正后的食材描述信息更新所述预置的特征库。

在一些可能的实施例中，所述从采集的图像中识别所述目标食材的特征，包括：

从所述图像中提取出多种图像特征；

在一些可能的实施例中，所述从所述图像中提取出多种图像特征，包括：

在一些可能的实施例中，所述神经网络包括依次串联的多个卷积层和多个全连接层；所述采用神经网络对所述图像进行特征提取，得到由不同的特征提取层得到的多种图像特征，包括：

所述对所述多种图像特征进行特征聚合，得到所述目标食材的特征，包括：

在一些可能的实施例中，所述方法还包括：

在本申请实施例中，通过预置的特征库，将食材的特征提取以及食材的检索识别分为不同的阶段。第一阶段实现对食材的特征提取，第二阶段基于预置的特征库对食材进行检索识别。由此，用于提取特征的方法可以不进行变更，而通过维护预置的特征库即可实现对新增食材种类的适应性调整。此外，本申请实施例中，为了能够简化需要识别的食材种类，提高食材的识别效果，本申请实施例实现了动态的食材识别，也即，在存取食材的过程中将会对存取的食材进行识别。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本申请一个实施例的应用场景示意图；

图2a-图2b为根据本申请一个实施例的智能冰箱的结构示意图；

图3为根据本申请一个实施例的控制器的一种结构示意图；

图4为根据本申请一个实施例的网络结构示意图；

图5为根据本申请一个实施例的食材识别方法的流程示意图；

图6为根据本申请一个实施例的用于特征提取和特征聚合的神经网络结构示意图；

图7为根据本申请一个实施例的构建预置的特征库的流程示意图；

图8-图9为根据本申请实施例的用户界面示意图；

图10为根据本申请另一个实施例的食材识别方法的流程示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。其中，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

并且，在本申请实施例的描述中，除非另有说明，″/″表示或的意思，例如，A/B可以表示A或B；文本中的″和/或″仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，″多个″是指两个或多于两个。

以下，术语″第一″、″第二″、″第三″、″第四″仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐合指明所指示的技术特征的数量。由此，限定有″第一″、″第二″、″第三″、″第四″的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，″多个″的含义是两个或两个以上。

发明人发现，随着食材研究和培育技术的发展，食材的种类也不断的更新。如果新增食材种类，相关技术中的神经网络模型由于在训练时未能够对新增食材种类进行学习，故此难以识别出新增食材。为了让神经网络模型能够兼容新增食材，往往需要将以前训练过的食材种类以及新增食材种类都进行训练。这样，随着新增食材种类的增加，训练的任务将会越来越艰巨。

有鉴于此，本申请实施例提出了一种智能冰箱，用于解决上述问题。在本申请实施例中，增设了食材特征库(下文成为预置的特征库)。在本申请实施例中，通过预置的特征库，将食材的特征提取以及食材的检索识别分为不同的阶段。第一阶段实现对食材的特征提取，第二阶段基于预置的特征库对食材进行检索识别。由此，用于提取特征的方法可以不进行变更，而通过维护预置的特征库即可实现对新增食材种类的适应性调整。此外，本申请实施例中，为了能够简化需要识别的食材种类，提高食材的识别效果，本申请实施例实现了动态的食材识别。也即，后文将要提及的在存取食材的过程中将会对存取的食材进行识别，然后在此基础上可以实现对食材的进一步管理。例如取出食材时，可以记录智能冰箱内剩余食材，存入食材时，可以记录智能冰箱内新增的食材。

如图1所示示出了本申请实施例提供的智能冰箱的应用场景示意图。在该应用场景中，包括智能冰箱1-100、用户1-200、预置的特征库1-300。冰箱1-100上设置有相机(图中未示出)，当用户1-200打开冰箱门体从冰箱内取出食材或将食材放入冰箱内时，相机能够捕捉食材的图像。冰箱1-100对该图像进行分析，获取到食材的特征，然后与预置的特征库1-300进行比对，得到该食材的种类并输出。输出的方式可以是语音播报也可以是显示屏显示，当然也可以语音播报的同时进行显示。用户可以对识别的结果进行确认，当用户1-200指示识别的种类有误时，用户1-200可以通过语音控制或触屏对食材的种类进行更新，以便于智能冰箱下一次能够正确的识别食材。

图2a和图2b示例性示出了本申请实施例提供的一种智能冰箱的结构。

如图2a所示，智能冰箱包括箱体10、制冷部(未在图中示出)以及其他附件(比如箱体内可设置照明灯、温度计等，未在图中示出)。制冷系统中主要组成有压缩机、冷凝器、蒸发器和毛细管节流器等部件，自成一个封闭的循环系统。其中，蒸发器可安装在智能冰箱内部的上方，其他部件安装在智能冰箱的背面。

箱体10安装有门体20，门体20上可进一步设置有显示屏50，显示屏50与控制器耦接(如通过电路连接)。

在箱体10上还可设置摄像头模组30，该摄像头模组30可采集箱体10前侧区域内的图像，以便能够采集用户向冰箱中存入的食材的图像或采集用户从冰箱中取出的食材的图像。其中，以冰箱门所在平面为第一平面，箱体10前侧区域至少包括以第一平面为基准，向冰箱外方向扩展一定距离的区域，摄像头模组可采集该区域的图像，即能够拍摄到用户打开门体20后进行食材存取过程中的手部动作图像以及所存取的食材的图像。

在一些实施例中，摄像头模组30可设置在箱体10的上部靠近门体20的位置，以便能够拍摄箱体10前侧区域内的图像。

如图2b所示，智能冰箱的箱体10中可包括多个隔层(如图中的隔层50a至隔层50e)，以方便用户对不同食材进行分类存储。其中有些隔层为半开放式(如图中的隔层50a至50c)有些隔层为封闭式(如图中的50d至50e)。本申请实施例中，还可以在隔层设置重量传感器(未在图中示出)，以用来检测所在隔层中的食材的重量。

需要说明的是，图2a和图2b所示的智能冰箱的结构仅为一种示例，本申请实施例对智能冰箱的大小、以及对门体的数量(比如可以是单个门体，也可以是多个门体)以及其他附件的数量和类型等不做限制。比如，在一些实施例中，智能冰箱中设置有射频识别(Radio Frequency Identification，RFID)读写器，可用来读取食材包装上的RFID标签，以获取食材的种类和数量等信息。在另一些实施例中，智能冰箱还具有语音功能，能够识别输入的语音，以获取用户通过语音方式输入的食材的种类和数量等信息。

图3示例性示出了本申请实施例适用的网络架构图。如图3所示，智能冰箱101通过网络102与服务器103连接。服务器103还可以通过移动通信网络104与用户的移动终端105进行通信连接。在一些应用场景中，智能终端通过局域网络连接到网关106，网关106可通过互联网与服务器连接，实现智能冰箱101与服务器103之间的通信。

基于图3所示的系统架构，在一些实施例中，智能冰箱101可实现对存取食材的识别。在另一些实施例中，智能冰箱101可将存取食材的图像发送给服务器103，由服务器103进行食材识别。进一步地，服务器103还可食材识别结果发送给智能冰箱101，以使智能冰箱101将该规划结果显示在显示屏上或者通过其他方式输出(比如通过语音方式播报)，服务器103也可以将食材识别结果通过移动通信网络104发送到用户的移动终端105上，以方便用户通过移动终端105查看食材识别结果，并对识别结果进行确认。

图4示例性示出了一种智能冰箱中的控制器的结构示意图，该控制器能够实现食材识别功能。如图4所示，该控制器400可包括：

特征识别模块401，用于从采集的图像中识别所述目标食材的特征；如，可包括特征提取单元4011和特征聚合单元4012，其中特征提取单元4011，用于从所述图像中提取出多种图像特征；特征聚合单元4012，用于对所述多种图像特征进行特征聚合，得到所述目标食材的特征。其中，特征提取单元4011，可采用不同的特征描述子从所述图像中提取出多种图像特征；和/或，采用神经网络对所述图像进行特征提取，得到由不同的特征提取层得到的多种图像特征。所述神经网络包括依次串联的多个卷积层和多个全连接层，可以分别获取最后两层卷积层得到的图像特征，并获取指定全连接层提取的图像特征作为待进行特征聚合的图像特征，然后采用将所述两层卷积层得到的图像特征，以及所述指定全连接层提取的图像特征输入给所述指定全连接层之后的一层全连接层进行特征聚合，得到所述目标食材的特征。

食材描述信息获取模块402，用于根据所述目标食材的特征和预置的特征库确定所述目标食材的食材描述信息；即根据目标食材的特征在预置的特征库中进行特征检索与匹配，并基于检索与匹配结果确定目标食材的描述信息。

输出模块403，用于输出所述食材描述信息；该输出模块，还用于若在所述预置的特征库中未检索到与所述目标食材的特征匹配的特征，则输出食材信息录入请求；此外，在输入食材描述信息时，还可以同时输出目标食材的图像；

更新模块404，用于响应前述录入操作，将所述目标食材的特征以及所述目标食材的食材描述信息对应存储到所述预置的特征库。此外，更新模块404，还可用于在所述输出所述食材描述信息之后，若接收到对所述食材描述信息的更正指示，则根据所述目标食材的特征与更正后的食材描述信息更新所述预置的特征库。

图5示例性示出了本申请实施例提供的食材识别流程的示意图，该流程可由智能冰箱执行，也可由服务器执行。如图5所示，该流程可包括如下步骤：

步骤501：从采集的图像中识别所述目标食材的特征；所述目标食材为存入智能冰箱或从所述智能冰箱取出的食材；

步骤502：根据所述目标食材的特征和预置的特征库确定所述目标食材的食材描述信息；

步骤503：输出所述食材描述信息。

在一个实施例中，食材描述信息中可包括以下信息中的至少一种：食材种类、食材名称、加工方式以及食用禁忌等信息，具体实施时，可以根据实际需求在预置的特征库中存入食材描述信息。此外，如前文所述，食材描述信息可以通过语音方式和/或显示方式输出。

在一个实施例中，对图像的特征识别，不局限于神经网络，可以采用任何的特征提取器进行特征提取。可采用多种特征描述子从所述图像中提取出多种图像特征；和/或，采用神经网络对所述图像进行特征提取，得到由不同的特征提取层得到的多种图像特征。

例如特征提取方法可包括：

(1)、HOG(Histogram of Oriented Gradient，HOG，方向梯度直方图)特征，该特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。HOG特征通过计算和统计图像局部区域的梯度方向直方图来构成特征。

(2)、LBP(Local Binary Patterns，局部二值模式)，一种有效的纹理描述算子，度量和提取图像局部的纹理信息，对光照具有不变性。LBP有很多变种或说改进。单纯的LBP记录像素点与其周围像素点的对比信息或说差异。

(3)、SIFT(Scale-invariant feature transform，尺度不变特征变换)，是用于图像处理领域的一种描述。这种描述具有尺度不变性，可在图像中检测出关键点，是一种局部特征描述子。

SIFT算法具有如下特点：

a、SIFT特征是图像的局部特征，其对旋转、尺度缩放、亮度变化保持不变性，对视角变化、仿射变换、噪声也保持一定程度的稳定性；

b、区分性(Distinctiveness)好，信息量丰富，适用于在海量特征数据库中进行快速、准确的匹配；

c、多量性，即使少数的几个物体也可以产生大量的SIFT特征向量；

d、高速性，经优化的SIFT匹配算法甚至可以达到实时的要求；

e、可扩展性，可以很方便的与其他形式的特征向量进行联合。

(4)、使用深度学习方法进行训练，典型的图像分类网络例如ResNet网络模型、VGG(Oxford Visual Geometry Group)网络模型均适用于本申请实施例。

需要说明的是，实施时，图片的任何统计量都可以作为图片的特征，甚至图像的像素值通过归一化之后得到特征也可以作为图片的特征。归一化的一种简单实现方式为将图像各点的数值减去各点的均值。当然，其他归一化的方式也适用于本申请实施例。

在另一个实施例中，为了能够保持识别的稳定性，可以采用多种特征提取方法从所述图像中提取出多种图像特征；然后对所述多种图像特征进行特征聚合，得到所述目标食材的特征。可以理解为将多个″弱″特征，进行抽象/编码，得到食材的″强″特征，即食材的本质特征。

特征聚合是将多个特征矢量聚合成一个统一维度的矢量表示的方法，可包括以下方法：

(1)、BOW(Bag of Words，词袋法)：例如输入训练图像为2幅，那么每一幅图像提取128维的SIFT特征向量后融合得到共计256维特征向量，之后采用K-means方法对得到的特征向量进行聚类得到真正无冗余的特征表示视觉词袋，随后结合视觉词袋和词频概念得到每个待分类图像的词袋直方图模型对图像进行表示。

(2)、SPM(Spatial Pyramid Matching，空间金字塔模型)，它是在不同分辨率上统计图像特征点分布，从而获取图像的局部信息。

(3)、VLAD(vector of locally aggregated descriptors，基于特征描述算子的特征编码算法)。一个实施例中，VLAD算法可以分为如下几步：

1-1、提取图像的SIFT描述子；

1-2、利用提取到的SIFT描述子(是所有训练图像的SIFT)训练一本码书，训练方法是K-means；

1-3、把一副图像所有的SIFT描述子按照最近邻原则分配到码书上(也即分配到K个聚类中心)；

1-4、对每个聚类中心做残差和(即属于当前聚类中心的所有SIFT减去聚类中心然后求和)；

1-5、对这个残差和做L2归一化，然后拼接成一个K＊128的长向量。128是单条SIFT的长度。

(4)、Fisher Vector，其本质上是用似然函数的梯度vector来表达一幅图像。

除了上述方法，还可以采用其他方法对实现特征聚合，均适用于本申请实施例。

综上而言，特征提取方法所得到的特征可以统称为″弱特征″，其对物体的表征能力有限，特征聚合的目的就是通过对多种″弱特征″进行融合、编码与池化等，抽象出更能刻画物体的″强特征″，特征的聚合过程本质上是对特征的加工，它既没有创造新的特征，也没有用新的分类器，重点在于如何将现有特征抽象出图像更本质特征。

特征提取与特征聚合，可实施为将网络的某层或多层的特征提取进行组合。可以采用卷积神经网络的多个卷积层与其他层的组合作为特征提取与特征聚合。可以提取图片的颜色、梯度、纹理等底层、中层和高层语义特征。其中，较低的层得到的是图像的底层特征，而较高层及层间组合得到的是图像的高层语义特征。实施时，可采用卷积网络，该卷积网络可以是图像分类网络，也可以是图像检测网络，两者区别为是否对图像中的食材位置进行检测。常见卷积网络模型如VGG、ResNet、Faster-CNN、YOLO、MobileNet、ShuffleNet等均适用于本申请实施例。当然，也可以只采用卷积层作为特征提取器，或者采用其他类型的神经网络层(例如池化层、连接层等)作为特征提取器。基于卷积神经网络的特征提取的具体设计方案多样，网络结构、层间组合方式、训练数据等对特征效果产生影响，即便是同一个网络的同一层特征，不同的训练方式对最后的特征效果也会有很大的影响，实施时可根据实际需求选择神经网络和训练方式。但采用多(单)个卷积层与(或)其他层的组合作为基于图像检索的食材特征提取与聚合的方法，都应视为适用于本申请实施例。

在一个实施例中，用于特征提取和特征聚合的神经网络包括依次串联的多个卷积层和多个全连接层；可以分别获取最后两层卷积层得到的图像特征，并获取指定全连接层提取的图像特征作为需要进行特征聚合的图像特征，然后，将所述两层卷积层得到的图像特征，以及所述指定全连接层提取的图像特征输入给所述指定全连接层之后的一层全连接层进行特征聚合，得到所述目标食材的特征。例如，采用的卷积网络可如图6所示：包括5个卷积层(c1～c5)和3个全连接层(fc1～fc3)，采用预先收集的图片库及其种类标注作为训练集和测试集，对卷积网络进行训练。采用c4、c5、fc2层提取的特征进行聚合后输出指定维度(如256维)的浮点型特征向量，作为食材图像的特征。在图6中，连接层fc2获取高层特征，c4、c5获取中低层特征。应理解的是，本申请实施例虽然也需要对卷积网络进行训练，但是预先收集的图片库及标注无需涵盖所有要识别的食材种类，甚至，该训练模型无需采用食材图片进行训练，而是采用一般性的物体(人、车、动物、植物等)的图片进行训练。也即，本申请实施例中进行特征提取的神经网络模型训练时，训练目的是使得该神经网络模型能够适用于多种类别(不限于食材类别)的特征提取，针对不同类别(不限于食材类别)可产生不同特征即可，并不需要训练的时候一定要使用食材图片，这也是本申请与传统基于深度学习的食材识别方案的不同，即神经网络的训练可摆脱食材种类变动的限制。

此外，具体实施时，不限于对c4、c5、f3这三个层进行特征聚合。可以采用更多或2层进行特征聚合。采用多层时可以兼容底层、中层、高层特征信息。

实施时，特征聚合方法也可以多种多样，例如BOW/SPM等也能够实现特征聚合，例如一种简单的BOW方法可以是：对每个fc层，按照0-255值划分为256维度直方图，然后将fc中每个点的值向256维中的某一个相同值的维度内投票计数，从而统计了fc层在256维直方图上数值分布，这个分布就是256维的浮点(或整数)型特征可作为食材的最终特征。

在介绍完特征提取和聚合之后，下面对本申请实施例采用的预置的特征库进行说明。

在一个实施例中，预置的特征库的构建分为2种，一种是事先构建特征，另一种是无需实现构建特征：

方式一：事先构建特征

可由智能冰箱厂家或厂家之外的第三方软件开发商在预置的特征库存入一些特征。如图7所示，可实施为先收集一个足够规模的图片库，然后对每张图片进行特征提取与聚合，得到不同食材的特征。将特征与对应的食材描述信息存储到预置的特征库中，这种方式的优点是在通过事先构建的特征，预置的特征库中预先具备了一定的食材辨识能力。在用户使用时，既具备动态学习能力，也具备了预置的辨识能力。同时，该部分收集的图片库还可用于后续的特征提取器的训练。

方式二：无需事先构建特征

无需收集图片库进行特征存储，即一开始预置的特征库为空，一开始时无相应的特征信息。在用户使用时，只具备动态学习能力，不具备预置的辨识能力，需要用户通过食材信息的交互修改进行特征存储，从而不断充实预置的特征库中的数据，使得系统不断增长食材辨识能力。应该明确的是采用哪种数据库构建方式，并不影响本申请实施例提供的方案的实质。

例如，所述根据所述目标食材的特征和预置的特征库确定所述目标食材的食材描述信息，可实施为：基于所述目标食材的特征在所述预置的特征库中进行特征检索；若检索到与所述目标食材的特征匹配的特征，则在所述预置的特征库中查找检索到的所述特征对应的食材描述信息。由此，基于简单的检索操作，即可确定出食材描述信息，实施起来比较方便。

在另一个实施例中，若未检索到与所述目标食材的特征匹配的特征，则控制所述输入输出单元输出食材信息录入请求；并，响应于对所述目标食材的食材描述信息的录入操作，将所述目标食材的特征以及所述目标食材的食材描述信息对应存储到所述预置的特征库。

例如，如图8所示，在用户向冰箱存入食材后，在智能冰箱的显示器上显示出用户界面。该用户界面中提示″您刚放入的食材为百合，请确认″。用户可以通过″确认正确″按钮进行确认，也可以通过″进行更正″按钮进行更正。例如，若用户实际存入的食材为″大蒜″，却被误识别为″百合″，在用户更正后，可以提示更正的结果。一种可能的实施方式为，如图8所示，可以将识别结果和更正结果采用较为直观的方式进行展示，例如图8可以将″百合″和″大蒜″采用加粗的方式显示，以引起用户注意。还可以图文结合的方式以便于用户识别。

当然，在另一个实施例中，图文输出时，显示的图像为目标食材的实际图像，而不是识别结果对应的图像，也适用于本申请实施例。

在另一个实施例中，若接收到对所述食材描述信息的更正指示，则可以进一步根据所述目标食材的特征与更正后的食材描述信息更新所述预置的特征库。例如：

1)、当预置的特征库中存储有目标食材的特征时：

若预置的特征库中，对同一目标食材可以存储多种特征，例如同一目标食材的不同状态的特征。那么当一目标食材的特征被错误识别后，可以将提取的特征存储到正确的目标食材的特征集合中，即增加目标食材的特征，以便于下一次能够正确的识别出目标食材。例如，同一目标食材在不同光照、视角等情况下差异较大，则可以保存多个特征，例如某食材在侧视和俯视角度时，特征差异较大，因此需要同时保存侧视及俯视角度下的特征。

2)、当预置的特征库中未存储有目标食材的特征时：

一开始，在获取到目标食材的特征时，由于预置的特征库为空，将无法识别该目标食材的种类，可以输出表达未知食材的信息，用于提示用户输入食材描述信息。由此，通过与用户的交互可以获取到目标食材的食材描述信息。

例如，如图9所示，可以提供目标食材的图片，供用户进行选择对应的分类。当用户选择对应的分类后，在预置的特征库中建立提取的特征和对应的分类的对应关系，由该分类可以查找到目标食材的其他信息，如使用方法、饮食禁忌等。

其中，在一个实施例中，可以采用最似最近邻检索(ANN)方法进行特征的检索与匹配。该方法可以在很短的时间内找到近似的top K个最近邻食材信息，即排序最靠前的K个，K为整数。ANN的方法分为三大类：基于树的方法(比如KD树)、哈希方法(典型代表局部敏感度哈希LSH)、矢量量化PQ及其变种方法。这方面有较多的开源工具包，包括FLANN(FastApproximateNearestNeighborSearchLibrary，快速最近邻逼近搜索函数库)、LSHash(locality-sensitive hashing，局部敏感哈希)、FALCONN(FAst Lookups of Cosine andOther Nearest Neighbors，)、FAISS(苹果AI研究院研发的一个高维向量快速相似性检索与聚类的库)等。一般而言，在空间维度比较低的时候，KD树是比较高效的，当空间维度较高时，可以采用下面的哈希方法或者矢量量化方法。采用何种食材特征检索与匹配方法或工具等并不影响本申请提供方案的实质。

在另一个实施例中，本申请实施例可以基于FAISS库进行特征检索与匹配，获取1或多个最相似食材特征，采用倒排PQ(Product Quantization，乘积量化)或者，IVFPQ(索引倒排乘积量化)提升检索速度，在数据库十万级别，特征维度256维时，实时搜索可以做到几毫秒的响应时间。

如图10所示，为本申请实施例提供的食材识别方法的流程图，包括以下步骤：

步骤1001：采集样本图片，构成图片库。

步骤1002：基于图片库对用于特征提取的神经网络模型进行训练，得到不同种类食材的特征。

其中，该神经网络模型可以提取低层、中层以及高层的特征并进行特征聚合得到食材的特征。

步骤1003：基于得到的不同种类的食材的特征，构建预置的特征库。

步骤1004：在检测到用户存取食材的操作时，采集目标食材的图像。

步骤1005：采用训练后的神经网络模型对目标食材的图像进行特征提取，得到目标食材的特征。

步骤1006：在预置的特征库中对目标食材的特征进行特征检索和匹配，得到最匹配的特征。

步骤1007：在预置的特征库中获取最匹配的特征对应的食材描述信息，并进行语音播报和展示。

步骤1008：若接收到对食材描述信息的更正指示，则根据目标食材的特征与更正后的食材描述信息更新预置的特征库，并输入更新后的食材描述信息。

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims

1.一种智能冰箱，其特征在于，包括：摄像头模组、控制器、存储器以及输入输出单元；

输入输出单元，用于进行信息交互；

所述存储器，用于存储可被所述控制器执行的计算机程序；

从所述摄像头模组采集的图像中识别所述目标食材的特征；

控制所述输入输出单元输出所述食材描述信息。

2.根据权利要求1所述的智能冰箱，其特征在于，所述控制器还被配置为：

3.根据权利要求1或2所述的智能冰箱，其特征在于，所述控制器还被配置为：

4.根据权利要求1所述的智能冰箱，其特征在于，所述控制器在执行所述从所述摄像头模组采集的图像中识别所述目标食材的特征时，被配置为：

从所述图像中提取出多种图像特征；

5.根据权利要求4所述的智能冰箱，其特征在于，所述处理器在执行所述从所述图像中提取出多种图像特征时，被配置为：

6.根据权利要求4所述的智能冰箱，其特征在于，所述处理器在执行所述从所述图像中提取出多种图像特征时，被配置为：

7.根据权利要求6所述的智能冰箱，其特征在于，所述神经网络包括依次串联的多个卷积层和多个全连接层；所述处理器在执行所述采用神经网络对所述图像进行特征提取，得到由不同的特征提取层得到的多种图像特征时，被配置为：

8.根据权利要求1-2，4-7中任一所述的智能冰箱，其特征在于，所述处理器还被配置为：

9.一种食材识别方法，其特征在于，所述方法包括：

输出所述食材描述信息。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

若在所述预置的特征库中未检索到与所述目标食材的特征匹配的特征，则输出食材信息录入请求；