CN116740639A - 冰箱内置摄像头监控系统及其方法 - Google Patents
冰箱内置摄像头监控系统及其方法 Download PDFInfo
- Publication number
- CN116740639A CN116740639A CN202310704278.6A CN202310704278A CN116740639A CN 116740639 A CN116740639 A CN 116740639A CN 202310704278 A CN202310704278 A CN 202310704278A CN 116740639 A CN116740639 A CN 116740639A
- Authority
- CN
- China
- Prior art keywords
- food
- feature
- feature map
- classification
- refrigerator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims abstract description 46
- 235000013305 food Nutrition 0.000 claims abstract description 363
- 238000010606 normalization Methods 0.000 claims abstract description 77
- 238000012545 processing Methods 0.000 claims abstract description 69
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 57
- 238000001514 detection method Methods 0.000 claims abstract description 45
- 238000005457 optimization Methods 0.000 claims abstract description 42
- 238000009826 distribution Methods 0.000 claims abstract description 17
- 230000036961 partial effect Effects 0.000 claims description 80
- 239000013598 vector Substances 0.000 claims description 44
- 238000010586 diagram Methods 0.000 claims description 37
- 230000004927 fusion Effects 0.000 claims description 35
- 238000000354 decomposition reaction Methods 0.000 claims description 32
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 241000820057 Ithone Species 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 2
- 238000005520 cutting process Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 235000016709 nutrition Nutrition 0.000 description 2
- 230000035764 nutrition Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000003756 stirring Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/68—Food, e.g. fruit or vegetables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Cold Air Circulating Systems And Constructional Details In Refrigerators (AREA)
Abstract
公开了一种冰箱内置摄像头监控系统及其方法。其首先将监控图像通过食物目标检测网络得到的食物目标感兴趣区域图像通过卷积神经网络模型以得到食物特征图,接着,对对所述食物特征图进行切分得到的第一部分食物特征图和第二部分食物特征图分别进行批归一化处理和卷积处理并进行通道数调整以得到批归一化后第一部分食物特征图和第三部分食物特征图,然后,将对所述第三部分食物特征图进行批归一化处理得到的批归一化后第三部分食物特征图和所述批归一化后第一部分食物特征图进行级联以得到分类特征图,最后,将所述分类特征图进行特征分布优化后通过分类器以得到用于表示食物类型标签的分类结果。这样,可以实现食物的智能化管理。
Description
技术领域
本申请涉及智能化监控领域,且更为具体地,涉及一种冰箱内置摄像头监控系统及其方法。
背景技术
随着智能家居、物联网等技术的逐渐发展,冰箱内置摄像头监控系统成为了一项备受瞩目的智能化技术。冰箱内置摄像头监控系统,是一种利用图像识别技术,实现对冰箱内部食物智能管理的功能。
随着人们生活水平的不断提高,家庭中关于食品安全、营养等方面的需求也日益增长,因此冰箱内置摄像头监控系统的应用前景十分广泛。然而,传统的冰箱内置摄像头监控系统通常只能提供图像实时监控,无法对冰箱内的食物进行有效识别和分析。
因此,期望一种优化的冰箱内置摄像头监控系统,以智能地识别出冰箱内各种食物的相关信息,实现食物的智能化管理。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种冰箱内置摄像头监控系统及其方法。其首先将监控图像通过食物目标检测网络得到的食物目标感兴趣区域图像通过卷积神经网络模型以得到食物特征图,接着,对对所述食物特征图进行切分得到的第一部分食物特征图和第二部分食物特征图分别进行批归一化处理和卷积处理并进行通道数调整以得到批归一化后第一部分食物特征图和第三部分食物特征图,然后,将对所述第三部分食物特征图进行批归一化处理得到的批归一化后第三部分食物特征图和所述批归一化后第一部分食物特征图进行级联以得到分类特征图,最后,将所述分类特征图进行特征分布优化后通过分类器以得到用于表示食物类型标签的分类结果。这样,可以实现食物的智能化管理。
根据本申请的一个方面,提供了一种冰箱内置摄像头监控系统,其包括:
图像采集模块,用于获取由冰箱内置摄像头采集的监控图像;
食物目标框定模块,用于将所述监控图像通过食物目标检测网络以得到食物目标感兴趣区域图像;
深浅特征融合编码模块,用于将所述食物目标感兴趣区域图像通过包含深浅特征融合模块的卷积神经网络模型以得到食物特征图;
特征图划分模块,用于对所述食物特征图沿着通道维度进行切分以得到第一部分食物特征图和第二部分食物特征图;
第一批归一化模块,用于对所述第一部分食物特征图进行批归一化处理以得到批归一化后第一部分食物特征图;
卷积模块,用于对所述第二部分食物特征图进行卷积处理并通过点卷积进行通道数调整以得到第三部分食物特征图;
第二批归一化模块,用于对所述第三部分食物特征图进行批归一化处理以得到批归一化后第三部分食物特征图;
级联融合模块,用于将所述批归一化后第一部分食物特征图和所述批归一化后第三部分食物特征图进行级联以得到分类特征图;
特征优化模块,用于将所述分类特征图进行特征分布优化以得到优化分类特征图;以及
食物类型检测模块,用于将所述优化分类特征图通过分类器以得到分类结果,所述分类结果用于表示食物类型标签。
在上述的冰箱内置摄像头监控系统中,所述食物目标检测网络为基于锚窗的目标检测网络,所述基于锚窗的目标检测网络为Fast R-CNN、Faster R-CNN或RetinaNet。
在上述的冰箱内置摄像头监控系统中,所述深浅特征融合编码模块,包括:
深浅特征提取单元,用于将所述食物目标感兴趣区域图像输入所述卷积神经网络模型以从所述卷积神经网络模型的浅层提取浅层特征图以及从所述卷积神经网络模型的深层提取深层特征图;以及
深浅融合单元,用于使用所述深浅特征融合模块来将所述浅层特征图和所述深层特征图进行级联以得到所述食物特征图。
在上述的冰箱内置摄像头监控系统中,所述卷积模块,用于:
对所述第二部分食物特征图进行二维卷积处理、基于特征矩阵的均值池化处理、非线性激活处理和通道数调整以得到所述第三部分食物特征图。
在上述的冰箱内置摄像头监控系统中,所述特征优化模块,包括:
优化因数计算单元,用于计算所述分类特征图沿通道维度的各个分类特征矩阵的基于凸分解的特征几何度量的逐片近似因数以得到多个基于凸分解的特征几何度量的逐片近似因数;
加权优化单元,用于以所述多个基于凸分解的特征几何度量的逐片近似因数作为加权系数对所述各个分类特征矩阵进行加权优化以得到多个优化后分类特征矩阵;以及
维度重构单元,用于将所述多个优化后分类特征矩阵进行维度重构以得到所述优化分类特征图。
在上述的冰箱内置摄像头监控系统中,所述优化因数计算单元,用于:
以如下优化公式计算所述分类特征图沿通道维度的各个分类特征矩阵的基于凸分解的特征几何度量的逐片近似因数以得到所述多个基于凸分解的特征几何度量的逐片近似因数;
其中,所述优化公式为:
其中,Vij是第i个所述分类特征矩阵的第j个行向量或者列向量,Sigmoid(·)表示Sigmoid函数,LogSumExp(·)表示LogSumExp函数,[:V:]表示将各个向量级联,且表示向量的二范数的平方,wi表示所述多个基于凸分解的特征几何度量的逐片近似因数中第i个基于凸分解的特征几何度量的逐片近似因数。
在上述的冰箱内置摄像头监控系统中,所述食物类型检测模块,包括:
特征图展开单元,用于将所述优化分类特征图按照行向量或者列向量展开为优化分类特征向量;
全连接编码单元,用于使用所述分类器的全连接层对所述优化分类特征向量进行全连接编码以得到编码分类特征向量;以及
分类单元,用于将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。
根据本申请的另一个方面,提供了一种冰箱内置摄像头监控方法,其包括:
获取由冰箱内置摄像头采集的监控图像;
将所述监控图像通过食物目标检测网络以得到食物目标感兴趣区域图像;
将所述食物目标感兴趣区域图像通过包含深浅特征融合模块的卷积神经网络模型以得到食物特征图;
对所述食物特征图沿着通道维度进行切分以得到第一部分食物特征图和第二部分食物特征图;
对所述第一部分食物特征图进行批归一化处理以得到批归一化后第一部分食物特征图;
对所述第二部分食物特征图进行卷积处理并通过点卷积进行通道数调整以得到第三部分食物特征图;
对所述第三部分食物特征图进行批归一化处理以得到批归一化后第三部分食物特征图;
将所述批归一化后第一部分食物特征图和所述批归一化后第三部分食物特征图进行级联以得到分类特征图;
将所述分类特征图进行特征分布优化以得到优化分类特征图;以及
将所述优化分类特征图通过分类器以得到分类结果,所述分类结果用于表示食物类型标签。
在上述的冰箱内置摄像头监控方法中,所述食物目标检测网络为基于锚窗的目标检测网络,所述基于锚窗的目标检测网络为Fast R-CNN、Faster R-CNN或RetinaNet。
在上述的冰箱内置摄像头监控方法中,将所述食物目标感兴趣区域图像通过包含深浅特征融合模块的卷积神经网络模型以得到食物特征图,包括:
将所述食物目标感兴趣区域图像输入所述卷积神经网络模型以从所述卷积神经网络模型的浅层提取浅层特征图以及从所述卷积神经网络模型的深层提取深层特征图;以及
使用所述深浅特征融合模块来将所述浅层特征图和所述深层特征图进行级联以得到所述食物特征图。
与现有技术相比,本申请提供的冰箱内置摄像头监控系统及其方法,其首先将监控图像通过食物目标检测网络得到的食物目标感兴趣区域图像通过卷积神经网络模型以得到食物特征图,接着,对对所述食物特征图进行切分得到的第一部分食物特征图和第二部分食物特征图分别进行批归一化处理和卷积处理并进行通道数调整以得到批归一化后第一部分食物特征图和第三部分食物特征图,然后,将对所述第三部分食物特征图进行批归一化处理得到的批归一化后第三部分食物特征图和所述批归一化后第一部分食物特征图进行级联以得到分类特征图,最后,将所述分类特征图进行特征分布优化后通过分类器以得到用于表示食物类型标签的分类结果。这样,可以实现食物的智能化管理。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员而言,在没有做出创造性劳动的前提下,还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制,重点在于示出本申请的主旨。
图1为根据本申请实施例的冰箱内置摄像头监控系统的应用场景图。
图2为根据本申请实施例的冰箱内置摄像头监控系统的框图示意图。
图3为根据本申请实施例的冰箱内置摄像头监控系统中的所述深浅特征融合编码模块的框图示意图。
图4为根据本申请实施例的冰箱内置摄像头监控系统中的所述特征优化模块的框图示意图。
图5为根据本申请实施例的冰箱内置摄像头监控系统中的所述食物类型检测模块的框图示意图。
图6为根据本申请实施例的冰箱内置摄像头监控方法的流程图。
图7为根据本申请实施例的冰箱内置摄像头监控方法的系统架构的示意图。
具体实施方式
下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述,显而易见地,所描述的实施例仅仅是本申请的部分实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,也属于本申请保护的范围。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
如上所述,随着人们生活水平的不断提高,家庭中关于食品安全、营养等方面的需求也日益增长,因此冰箱内置摄像头监控系统的应用前景十分广泛。然而,传统的冰箱内置摄像头监控系统通常只能提供图像实时监控,无法对冰箱内的食物进行有效识别和分析。因此,期望一种优化的冰箱内置摄像头监控系统,以智能地识别出冰箱内各种食物的相关信息,实现食物的智能化管理。
相应地,考虑到在实际对冰箱内食物进行识别检测的过程中,关键在于对摄像头采集的监控图像进行分析,以识别出冰箱内的各种食物,并提取相关信息,例如食物类型标签等,以此来进行冰箱内食物的有效管理,保障食品安全。但是,由于所述监控图像中存在着较多的背景干扰信息,而关于冰箱内食物的特征信息在图像中为小尺度的隐含特征,并不能够基于传统的特征提取方式进行充分地捕捉刻画,导致对于食物类型识别的精准度较低。因此,在此过程中,难点在于如何进行所述监控图像中关于冰箱内食物的隐含特征分布信息的充分表达,以此来对于食物的类型进行准确检测,从而进行冰箱内食物的有效管理,保障食品安全。
近年来,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。深度学习以及神经网络的发展为挖掘所述监控图像中关于冰箱内食物的隐含特征分布信息提供了新的解决思路和方案。
具体地,在本申请的技术方案中,首先,获取由冰箱内置摄像头采集的监控图像。然后,考虑到在对于所述冰箱内食物的类型进行检测时,应聚焦于所述冰箱内食物的隐含特征,因此,若能够在对于所述冰箱内食物的隐含特进行挖掘时滤除掉其余无用的背景干扰特征信息,显然能够提高食物类型检测的准确性。基于此,在本申请的技术方案中,进一步将所述监控图像通过食物目标检测网络以得到食物目标感兴趣区域图像。具体地,使用所述食物目标检测网络的目标锚定层以锚框B来进行滑动对所述监控图像进行处理,以对于所述食物目标感兴趣区域进行框定,从而得到所述食物目标感兴趣区域图像。特别地,这里,所述食物目标检测网络为基于锚窗的目标检测网络,且所述基于锚窗的目标检测网络为Fast R-CNN、Faster R-CNN或RetinaNet。
接着,再使用在图像的隐含特征提取方面具有优异表现的卷积神经网络模型来进行所述食物目标感兴趣区域图像的特征挖掘,特别地,考虑到在对于所述食物目标感兴趣区域图像的隐藏特征进行提取时,为了能够更准确地检测出所述冰箱内食物的类型,应关注于所述食物目标感兴趣区域的形状、轮廓、颜色和纹理等浅层特征,这些所述浅层特征对于所述冰箱内食物的类型检测具有重要意义。而卷积神经网络在编码时,随着其深度的加深,浅层特征会变得模糊甚至被噪声所淹没。因此,在本申请的技术方案中,使用包含深浅特征融合模块的卷积神经网络模型来对所述食物目标感兴趣区域图像进行处理以得到食物特征图。相较于标准卷积神经网络模型,根据本申请的所述卷积神经网络模型能够保留所述食物目标感兴趣区域的浅层特征和深层特征,以不仅使得特征信息更为丰富,且不同深度的特征能得以保留,以提高所述冰箱内食物检测的精度。
进一步地,考虑到由于食品的类型复杂多样,而关于食品的类型特征在图像中为小尺度的隐含特征分布信息,因此,为了提高对于食品类型检测的精准度,在本申请的技术方案中,进一步对所述食物特征图沿着通道维度进行切分以得到第一部分食物特征图和第二部分食物特征图。应可以理解,通过对所述食物特征图进行通道维度的切分,可以将食品的不同隐含特征信息分别进行提取和分析,包括冰箱内食物的细粒度和深层次特征信息,以更好地发掘所述食物特征图中关于食物的隐含特征信息,同时利用这些信息来提高不同食物类型检测的准确性和稳定性。
应可以理解,批归一化是一种常见的神经网络优化方法,通过对网络输入进行标准化处理,可以加速神经网络收敛速度、提高模型鲁棒性和泛化能力。具体地,在本申请的技术方案中,对所述第一部分食物特征图进行批归一化处理以得到批归一化后第一部分食物特征图,可以使模型在训练过程中更加稳定和鲁棒,从而使得模型具有更好的分类能力和较好的精度表现。此外,由于食品本身的成分和数量有时会存在差异,因此需要通过对每个批次数据进行标准化来避免数据偏移,保持数据的一致性和稳定性,进而提高整个模型的精度和可靠性
然后,为了能够提取出所述冰箱内食物的深层隐含特征信息,在本申请的技术方案中,进一步对所述第二部分食物特征图进行卷积处理并通过点卷积进行通道数调整以得到第三部分食物特征图,这样,能够提取更高级别且更丰富的特征表示,实现更准确和细致的搅拌状态分析。应可以理解,通过卷积操作可以逐步获取不同位置和通道上的特征表示,获得更丰富的混合状态特征信息。在卷积处理后,由于所述第三部分食品特征图与所述分类器将用于食品类型标签的生成,需要将卷积处理后的所述第二部分食品特征图的通道数调整至符合分类器要求。这可以通过所述点卷积来实现通道数的调整,以便得到所述满足后续处理要求的第三部分食品特征图。这个过程中,点卷积可看作是一种轻量级的卷积操作,其参数数量相对较少,执行速度相对较快,而又能够兼顾保持特征图尺寸和通道数的完整性。
接着,同样地,进一步对所述第三部分食物特征图进行批归一化处理以得到批归一化后第三部分食物特征图,以提高模型的泛化能力和鲁棒性。应可以理解,在深度神经网络中,由于参数数量巨大,为了避免过拟合和提高模型效果,常常需要加入一些规范化方法来约束模型复杂度。批归一化就是一种常见的规范化方法,其可以对数据进行标准化处理,使其满足一定的均值和方差要求,并将其应用到模型的全局及局部层面上,从而使得模型更具泛化能力。因此,在本申请的技术方案中,期望对所述第三部分食物特征图进行批归一化处理,有利于提高模型训练的稳定性,减少数据的过拟合,进而提高模型的精度和鲁棒性。
进一步地,将所述批归一化后第一部分食物特征图和所述批归一化后第三部分食物特征图进行级联以得到分类特征图,以此来表示融合了所述冰箱内食物的细粒度特征和深层特征的多尺度关联特征信息。也就是说,将所述批归一化后第一部分食物特征图和所述批归一化后第三部分食物特征图进行级联是为了得到更全面、更有效、以及更细粒度的分类特征。
然后,将所述分类特征图通过分类器以得到分类结果,所述分类结果用于表示食物类型标签。也就是说,所述分类器的分类标签为食物的类型标签,因此,在得到所述分类结果后,可以基于所述分类结果来对于食物的类型进行检测评估,从而进行冰箱内食物的有效管理,保障食品安全。
特别地,在本申请的技术方案中,所述食物特征图的每个特征矩阵表达所述食物目标感兴趣区域图像的图像语义特征,而其沿通道维度表达包含深浅特征融合模块的卷积神经网络模型的特征提取通道关联性,这样,当对所述食物特征图沿着通道维度进行切分,并对切分后的部分特征图分别进行批归一化处理和卷积+批归一化处理后,得到的所述批归一化后第一部分食物特征图和所述批归一化后第三部分食物特征图倾向于具有互补的特征表达,从而导致在特征提取过程中,期望在通道维度下增强所述批归一化后第一部分食物特征图和所述批归一化后第三部分食物特征图的各个特征矩阵之间的特征的不一致性。由此,所述分类特征图的不同通道下的不同特征矩阵之间会具有高维特征流形的流形几何不一致性,这提升了所述分类特征图通过分类器进行分类回归时的收敛难度,从而降低了训练速度和收敛到的分类结果的准确性。
因此,本申请的申请人计算所述分类特征图的每个分类特征矩阵的基于凸分解的特征几何度量的逐片近似因数,表示为:
其中,Vij是每个分类特征矩阵Mi的第j个行向量或者列向量,[:V:]表示将各个向量级联,且表示向量的二范数的平方。
具体地,所述基于凸分解的特征几何度量的逐片近似因数可以通过LogSumExp的平滑最大函数来定义每个特征矩阵的高维特征流形的局部几何形状间的符号化距离度量,以基于高维特征流形的凸多面体(convex polytope)分解来获得每个凸多面体对象的可微的凸指示符(convex indicator),并进而以Sigmoid函数确定用于表达高维特征流形的可学习的逐片凸分解的超平面距离参数,以近似地度量特征几何。这样,通过以所述基于凸分解的特征几何度量的逐片近似因数对特征矩阵进行加权,就可以提升所述分类特征图的不同通道下的不同特征矩阵之间的高维特征流形的流形几何一致性,从而提升所述分类特征图通过分类器进行分类回归时的收敛效果,提高了模型的训练速度和分类结果的准确性。这样,能够对于食物的类型进行准确检测,从而进行冰箱内食物的有效管理,保障食品安全。
图1为根据本申请实施例的冰箱内置摄像头监控系统的应用场景图。如图1所示,在该应用场景中,首先,获取由冰箱内置摄像头(例如,图1中所示意的C)采集的监控图像(例如,图1中所示意的D),然后,将所述监控图像输入至部署有冰箱内置摄像头监控算法的服务器中(例如,图1中所示意的S),其中,所述服务器能够使用所述冰箱内置摄像头监控算法对所述监控图像进行处理以得到用于表示食物类型标签的分类结果。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
图2为根据本申请实施例的冰箱内置摄像头监控系统的框图示意图。如图2所示,根据本申请实施例的冰箱内置摄像头监控系统100,包括:图像采集模块101,用于获取由冰箱内置摄像头采集的监控图像;食物目标框定模块102,用于将所述监控图像通过食物目标检测网络以得到食物目标感兴趣区域图像;深浅特征融合编码模块103,用于将所述食物目标感兴趣区域图像通过包含深浅特征融合模块的卷积神经网络模型以得到食物特征图;特征图划分模块104,用于对所述食物特征图沿着通道维度进行切分以得到第一部分食物特征图和第二部分食物特征图;第一批归一化模块105,用于对所述第一部分食物特征图进行批归一化处理以得到批归一化后第一部分食物特征图;卷积模块106,用于对所述第二部分食物特征图进行卷积处理并通过点卷积进行通道数调整以得到第三部分食物特征图;第二批归一化模块107,用于对所述第三部分食物特征图进行批归一化处理以得到批归一化后第三部分食物特征图;级联融合模块108,用于将所述批归一化后第一部分食物特征图和所述批归一化后第三部分食物特征图进行级联以得到分类特征图;特征优化模块109,用于将所述分类特征图进行特征分布优化以得到优化分类特征图;以及,食物类型检测模块110,用于将所述优化分类特征图通过分类器以得到分类结果,所述分类结果用于表示食物类型标签。
更具体地,在本申请实施例中,所述图像采集模块101,用于获取由冰箱内置摄像头采集的监控图像。在实际对冰箱内食物进行识别检测的过程中,可以通过对摄像头采集的监控图像进行分析,以识别出冰箱内的各种食物,并提取相关信息,例如食物类型标签等,以此来进行冰箱内食物的有效管理,保障食品安全。
更具体地,在本申请实施例中,所述食物目标框定模块102,用于将所述监控图像通过食物目标检测网络以得到食物目标感兴趣区域图像。考虑到在对于所述冰箱内食物的类型进行检测时,应聚焦于所述冰箱内食物的隐含特征,因此,在对于所述冰箱内食物的隐含特进行挖掘时滤除掉其余无用的背景干扰特征信息,可以提高食物类型检测的准确性。
相应地,在一个具体示例中,所述食物目标检测网络为基于锚窗的目标检测网络,所述基于锚窗的目标检测网络为Fast R-CNN、Faster R-CNN或RetinaNet。
更具体地,在本申请实施例中,所述深浅特征融合编码模块103,用于将所述食物目标感兴趣区域图像通过包含深浅特征融合模块的卷积神经网络模型以得到食物特征图。使用在图像的隐含特征提取方面具有优异表现的卷积神经网络模型来进行所述食物目标感兴趣区域图像的特征挖掘,特别地,考虑到在对于所述食物目标感兴趣区域图像的隐藏特征进行提取时,为了能够更准确地检测出所述冰箱内食物的类型,应关注于所述食物目标感兴趣区域的形状、轮廓、颜色和纹理等浅层特征,这些所述浅层特征对于所述冰箱内食物的类型检测具有重要意义。而卷积神经网络在编码时,随着其深度的加深,浅层特征会变得模糊甚至被噪声所淹没。因此,在本申请的技术方案中,使用包含深浅特征融合模块的卷积神经网络模型来对所述食物目标感兴趣区域图像进行处理以得到食物特征图。相较于标准卷积神经网络模型,根据本申请的所述卷积神经网络模型能够保留所述食物目标感兴趣区域的浅层特征和深层特征,以不仅使得特征信息更为丰富,且不同深度的特征能得以保留,以提高所述冰箱内食物检测的精度。
应可以理解,卷积神经网络是一种人工神经网络,在图像识别等领域有着广泛的应用。卷积神经网络可以包括输入层、隐藏层和输出层,其中,隐藏层可以包括卷积层、池化(pooling)层、激活层和全连接层等,上一层根据输入的数据进行相应的运算,将运算结果输出给下一层,输入的初始数据经过多层的运算之后得到一个最终的结果。
相应地,在一个具体示例中,如图3所示,所述深浅特征融合编码模块103,包括:深浅特征提取单元1031,用于将所述食物目标感兴趣区域图像输入所述卷积神经网络模型以从所述卷积神经网络模型的浅层提取浅层特征图以及从所述卷积神经网络模型的深层提取深层特征图;以及,深浅融合单元1032,用于使用所述深浅特征融合模块来将所述浅层特征图和所述深层特征图进行级联以得到所述食物特征图。
更具体地,在本申请实施例中,所述特征图划分模块104,用于对所述食物特征图沿着通道维度进行切分以得到第一部分食物特征图和第二部分食物特征图。由于食品的类型复杂多样,而关于食品的类型特征在图像中为小尺度的隐含特征分布信息,因此,为了提高对于食品类型检测的精准度,在本申请的技术方案中,进一步对所述食物特征图沿着通道维度进行切分。应可以理解,通过对所述食物特征图进行通道维度的切分,可以将食品的不同隐含特征信息分别进行提取和分析,包括冰箱内食物的细粒度和深层次特征信息,以更好地发掘所述食物特征图中关于食物的隐含特征信息。
更具体地,在本申请实施例中,所述第一批归一化模块105,用于对所述第一部分食物特征图进行批归一化处理以得到批归一化后第一部分食物特征图。批归一化是一种常见的神经网络优化方法,通过对网络输入进行标准化处理,可以加速神经网络收敛速度、提高模型鲁棒性和泛化能力。
更具体地,在本申请实施例中,所述卷积模块106,用于对所述第二部分食物特征图进行卷积处理并通过点卷积进行通道数调整以得到第三部分食物特征图。为了能够提取出所述冰箱内食物的深层隐含特征信息,在本申请的技术方案中,进一步对所述第二部分食物特征图进行卷积处理并通过点卷积进行通道数调整以得到第三部分食物特征图,这样,能够提取更高级别且更丰富的特征表示,实现更准确和细致的搅拌状态分析。
应可以理解,通过卷积操作可以逐步获取不同位置和通道上的特征表示,获得更丰富的混合状态特征信息。在卷积处理后,由于所述第三部分食品特征图与所述分类器将用于食品类型标签的生成,需要将卷积处理后的所述第二部分食品特征图的通道数调整至符合分类器要求。这可以通过所述点卷积来实现通道数的调整,以便得到所述满足后续处理要求的第三部分食品特征图。这个过程中,点卷积可看作是一种轻量级的卷积操作,其参数数量相对较少,执行速度相对较快,而又能够兼顾保持特征图尺寸和通道数的完整性。
相应地,在一个具体示例中,所述卷积模块106,用于:对所述第二部分食物特征图进行二维卷积处理、基于特征矩阵的均值池化处理、非线性激活处理和通道数调整以得到所述第三部分食物特征图。
更具体地,在本申请实施例中,所述第二批归一化模块107,用于对所述第三部分食物特征图进行批归一化处理以得到批归一化后第三部分食物特征图。在深度神经网络中,由于参数数量巨大,为了避免过拟合和提高模型效果,常常需要加入一些规范化方法来约束模型复杂度。批归一化就是一种常见的规范化方法,其可以对数据进行标准化处理。因此,对所述第三部分食物特征图进行批归一化处理,有利于提高模型训练的稳定性,减少数据的过拟合,进而提高模型的精度和鲁棒性。
更具体地,在本申请实施例中,所述级联融合模块108,用于将所述批归一化后第一部分食物特征图和所述批归一化后第三部分食物特征图进行级联以得到分类特征图。以此来表示融合了所述冰箱内食物的细粒度特征和深层特征的多尺度关联特征信息,以得到更全面、更有效、以及更细粒度的分类特征。
更具体地,在本申请实施例中,所述特征优化模块109,用于将所述分类特征图进行特征分布优化以得到优化分类特征图。
相应地,在一个具体示例中,如图4所示,所述特征优化模块109,包括:优化因数计算单元1091,用于计算所述分类特征图沿通道维度的各个分类特征矩阵的基于凸分解的特征几何度量的逐片近似因数以得到多个基于凸分解的特征几何度量的逐片近似因数;加权优化单元1092,用于以所述多个基于凸分解的特征几何度量的逐片近似因数作为加权系数对所述各个分类特征矩阵进行加权优化以得到多个优化后分类特征矩阵;以及,维度重构单元1093,用于将所述多个优化后分类特征矩阵进行维度重构以得到所述优化分类特征图。
特别地,在本申请的技术方案中,所述食物特征图的每个特征矩阵表达所述食物目标感兴趣区域图像的图像语义特征,而其沿通道维度表达包含深浅特征融合模块的卷积神经网络模型的特征提取通道关联性,这样,当对所述食物特征图沿着通道维度进行切分,并对切分后的部分特征图分别进行批归一化处理和卷积+批归一化处理后,得到的所述批归一化后第一部分食物特征图和所述批归一化后第三部分食物特征图倾向于具有互补的特征表达,从而导致在特征提取过程中,期望在通道维度下增强所述批归一化后第一部分食物特征图和所述批归一化后第三部分食物特征图的各个特征矩阵之间的特征的不一致性。由此,所述分类特征图的不同通道下的不同特征矩阵之间会具有高维特征流形的流形几何不一致性,这提升了所述分类特征图通过分类器进行分类回归时的收敛难度,从而降低了训练速度和收敛到的分类结果的准确性。因此,本申请的申请人计算所述分类特征图的每个分类特征矩阵的基于凸分解的特征几何度量的逐片近似因数。
相应地,在一个具体示例中,所述优化因数计算单元1091,用于:以如下优化公式计算所述分类特征图沿通道维度的各个分类特征矩阵的基于凸分解的特征几何度量的逐片近似因数以得到所述多个基于凸分解的特征几何度量的逐片近似因数;其中,所述优化公式为:
其中,Vij是第i个所述分类特征矩阵的第j个行向量或者列向量,Sigmoid(·)表示Sigmoid函数,LogSumExp(·)表示LogSumExp函数,[:V:]表示将各个向量级联,且表示向量的二范数的平方,wi表示所述多个基于凸分解的特征几何度量的逐片近似因数中第i个基于凸分解的特征几何度量的逐片近似因数。
所述基于凸分解的特征几何度量的逐片近似因数可以通过LogSumExp的平滑最大函数来定义每个特征矩阵的高维特征流形的局部几何形状间的符号化距离度量,以基于高维特征流形的凸多面体分解来获得每个凸多面体对象的可微的凸指示符,并进而以Sigmoid函数确定用于表达高维特征流形的可学习的逐片凸分解的超平面距离参数,以近似地度量特征几何。这样,通过以所述基于凸分解的特征几何度量的逐片近似因数对特征矩阵进行加权,就可以提升所述分类特征图的不同通道下的不同特征矩阵之间的高维特征流形的流形几何一致性,从而提升所述分类特征图通过分类器进行分类回归时的收敛效果,提高了模型的训练速度和分类结果的准确性。这样,能够对于食物的类型进行准确检测,从而进行冰箱内食物的有效管理,保障食品安全。
更具体地,在本申请实施例中,所述食物类型检测模块110,用于将所述优化分类特征图通过分类器以得到分类结果,所述分类结果用于表示食物类型标签。在得到所述分类结果后,可以基于所述分类结果来对于食物的类型进行检测评估,从而进行冰箱内食物的有效管理,保障食品安全。
应可以理解,分类器的作用是利用给定的类别、已知的训练数据来学习分类规则和分类器,然后对未知数据进行分类(或预测)。逻辑回归(logistics)、SVM等常用于解决二分类问题,对于多分类问题(multi-class classification),同样也可以用逻辑回归或SVM,只是需要多个二分类来组成多分类,但这样容易出错且效率不高,常用的多分类方法有Softmax分类函数。
相应地,在一个具体示例中,如图5所示,所述食物类型检测模块110,包括:特征图展开单元1101,用于将所述优化分类特征图按照行向量或者列向量展开为优化分类特征向量;全连接编码单元1102,用于使用所述分类器的全连接层对所述优化分类特征向量进行全连接编码以得到编码分类特征向量;以及,分类单元1103,用于将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。
综上,基于本申请实施例的冰箱内置摄像头监控系统100被阐明,其首先将监控图像通过食物目标检测网络得到的食物目标感兴趣区域图像通过卷积神经网络模型以得到食物特征图,接着,对对所述食物特征图进行切分得到的第一部分食物特征图和第二部分食物特征图分别进行批归一化处理和卷积处理并进行通道数调整以得到批归一化后第一部分食物特征图和第三部分食物特征图,然后,将对所述第三部分食物特征图进行批归一化处理得到的批归一化后第三部分食物特征图和所述批归一化后第一部分食物特征图进行级联以得到分类特征图,最后,将所述分类特征图进行特征分布优化后通过分类器以得到用于表示食物类型标签的分类结果。这样,可以实现食物的智能化管理。
如上所述,根据本申请实施例的基于本申请实施例的冰箱内置摄像头监控系统100可以实现在各种终端设备中,例如具有基于本申请实施例的冰箱内置摄像头监控算法的服务器等。在一个示例中,基于本申请实施例的冰箱内置摄像头监控系统100可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该基于本申请实施例的冰箱内置摄像头监控系统100可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该基于本申请实施例的冰箱内置摄像头监控系统100同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该基于本申请实施例的冰箱内置摄像头监控系统100与该终端设备也可以是分立的设备,并且该冰箱内置摄像头监控系统100可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
图6为根据本申请实施例的冰箱内置摄像头监控方法的流程图。如图6所示,根据本申请实施例的冰箱内置摄像头监控方法,其包括:S101,获取由冰箱内置摄像头采集的监控图像;S102,将所述监控图像通过食物目标检测网络以得到食物目标感兴趣区域图像;S103,将所述食物目标感兴趣区域图像通过包含深浅特征融合模块的卷积神经网络模型以得到食物特征图;S104,对所述食物特征图沿着通道维度进行切分以得到第一部分食物特征图和第二部分食物特征图;S105,对所述第一部分食物特征图进行批归一化处理以得到批归一化后第一部分食物特征图;S106,对所述第二部分食物特征图进行卷积处理并通过点卷积进行通道数调整以得到第三部分食物特征图;S107,对所述第三部分食物特征图进行批归一化处理以得到批归一化后第三部分食物特征图;S108,将所述批归一化后第一部分食物特征图和所述批归一化后第三部分食物特征图进行级联以得到分类特征图;S109,将所述分类特征图进行特征分布优化以得到优化分类特征图;以及,S110,将所述优化分类特征图通过分类器以得到分类结果,所述分类结果用于表示食物类型标签。
图7为根据本申请实施例的冰箱内置摄像头监控方法的系统架构的示意图。如图7所示,在所述冰箱内置摄像头监控方法的系统架构中,首先,获取由冰箱内置摄像头采集的监控图像;接着,将所述监控图像通过食物目标检测网络以得到食物目标感兴趣区域图像;然后,将所述食物目标感兴趣区域图像通过包含深浅特征融合模块的卷积神经网络模型以得到食物特征图;接着,对所述食物特征图沿着通道维度进行切分以得到第一部分食物特征图和第二部分食物特征图;然后,对所述第一部分食物特征图进行批归一化处理以得到批归一化后第一部分食物特征图;接着,对所述第二部分食物特征图进行卷积处理并通过点卷积进行通道数调整以得到第三部分食物特征图;然后,对所述第三部分食物特征图进行批归一化处理以得到批归一化后第三部分食物特征图;接着,将所述批归一化后第一部分食物特征图和所述批归一化后第三部分食物特征图进行级联以得到分类特征图;然后,将所述分类特征图进行特征分布优化以得到优化分类特征图;最后,将所述优化分类特征图通过分类器以得到分类结果,所述分类结果用于表示食物类型标签。
在一个具体示例中,在上述冰箱内置摄像头监控方法中,所述食物目标检测网络为基于锚窗的目标检测网络,所述基于锚窗的目标检测网络为Fast R-CNN、Faster R-CNN或RetinaNet。
在一个具体示例中,在上述冰箱内置摄像头监控方法中,将所述食物目标感兴趣区域图像通过包含深浅特征融合模块的卷积神经网络模型以得到食物特征图,包括:将所述食物目标感兴趣区域图像输入所述卷积神经网络模型以从所述卷积神经网络模型的浅层提取浅层特征图以及从所述卷积神经网络模型的深层提取深层特征图;以及,使用所述深浅特征融合模块来将所述浅层特征图和所述深层特征图进行级联以得到所述食物特征图。
在一个具体示例中,在上述冰箱内置摄像头监控方法中,对所述第二部分食物特征图进行卷积处理并通过点卷积进行通道数调整以得到第三部分食物特征图,包括:对所述第二部分食物特征图进行二维卷积处理、基于特征矩阵的均值池化处理、非线性激活处理和通道数调整以得到所述第三部分食物特征图。
在一个具体示例中,在上述冰箱内置摄像头监控方法中,将所述分类特征图进行特征分布优化以得到优化分类特征图,包括:计算所述分类特征图沿通道维度的各个分类特征矩阵的基于凸分解的特征几何度量的逐片近似因数以得到多个基于凸分解的特征几何度量的逐片近似因数;以所述多个基于凸分解的特征几何度量的逐片近似因数作为加权系数对所述各个分类特征矩阵进行加权优化以得到多个优化后分类特征矩阵;以及,将所述多个优化后分类特征矩阵进行维度重构以得到所述优化分类特征图。
在一个具体示例中,在上述冰箱内置摄像头监控方法中,计算所述分类特征图沿通道维度的各个分类特征矩阵的基于凸分解的特征几何度量的逐片近似因数以得到多个基于凸分解的特征几何度量的逐片近似因数,包括:以如下优化公式计算所述分类特征图沿通道维度的各个分类特征矩阵的基于凸分解的特征几何度量的逐片近似因数以得到所述多个基于凸分解的特征几何度量的逐片近似因数;其中,所述优化公式为:
其中,Vij是第i个所述分类特征矩阵的第j个行向量或者列向量,Sigmoid(·)表示Sigmoid函数,LogSumExp(·)表示LogSumExp函数,[:V:]表示将各个向量级联,且表示向量的二范数的平方,wi表示所述多个基于凸分解的特征几何度量的逐片近似因数中第i个基于凸分解的特征几何度量的逐片近似因数。
在一个具体示例中,在上述冰箱内置摄像头监控方法中,将所述优化分类特征图通过分类器以得到分类结果,所述分类结果用于表示食物类型标签,包括:将所述优化分类特征图按照行向量或者列向量展开为优化分类特征向量;使用所述分类器的全连接层对所述优化分类特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。
这里,本领域技术人员可以理解,上述冰箱内置摄像头监控方法中的各个步骤的具体操作已经在上面参考图1到图5的冰箱内置摄像头监控系统100的描述中得到了详细介绍,并因此,将省略其重复描述。
根据本申请的另一方面,还提供了一种非易失性的计算机可读存储介质,其上存储有计算机可读的指令,当利用计算机执行所述指令时可以执行如前所述的方法。
技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”,通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如,各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。
本申请使用了特定词语来描述本申请的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
上面是对本发明的说明,而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解,上面是对本发明的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。
Claims (10)
1.一种冰箱内置摄像头监控系统,其特征在于,包括:
图像采集模块,用于获取由冰箱内置摄像头采集的监控图像;
食物目标框定模块,用于将所述监控图像通过食物目标检测网络以得到食物目标感兴趣区域图像;
深浅特征融合编码模块,用于将所述食物目标感兴趣区域图像通过包含深浅特征融合模块的卷积神经网络模型以得到食物特征图;
特征图划分模块,用于对所述食物特征图沿着通道维度进行切分以得到第一部分食物特征图和第二部分食物特征图;
第一批归一化模块,用于对所述第一部分食物特征图进行批归一化处理以得到批归一化后第一部分食物特征图;
卷积模块,用于对所述第二部分食物特征图进行卷积处理并通过点卷积进行通道数调整以得到第三部分食物特征图;
第二批归一化模块,用于对所述第三部分食物特征图进行批归一化处理以得到批归一化后第三部分食物特征图;
级联融合模块,用于将所述批归一化后第一部分食物特征图和所述批归一化后第三部分食物特征图进行级联以得到分类特征图;
特征优化模块,用于将所述分类特征图进行特征分布优化以得到优化分类特征图;以及
食物类型检测模块,用于将所述优化分类特征图通过分类器以得到分类结果,所述分类结果用于表示食物类型标签。
2.根据权利要求1所述的冰箱内置摄像头监控系统,其特征在于,所述食物目标检测网络为基于锚窗的目标检测网络,所述基于锚窗的目标检测网络为FastR-CNN、Faster R-CNN或RetinaNet。
3.根据权利要求2所述的冰箱内置摄像头监控系统,其特征在于,所述深浅特征融合编码模块,包括:
深浅特征提取单元,用于将所述食物目标感兴趣区域图像输入所述卷积神经网络模型以从所述卷积神经网络模型的浅层提取浅层特征图以及从所述卷积神经网络模型的深层提取深层特征图;以及
深浅融合单元,用于使用所述深浅特征融合模块来将所述浅层特征图和所述深层特征图进行级联以得到所述食物特征图。
4.根据权利要求3所述的冰箱内置摄像头监控系统,其特征在于,所述卷积模块,用于:
对所述第二部分食物特征图进行二维卷积处理、基于特征矩阵的均值池化处理、非线性激活处理和通道数调整以得到所述第三部分食物特征图。
5.根据权利要求4所述的冰箱内置摄像头监控系统,其特征在于,所述特征优化模块,包括:
优化因数计算单元,用于计算所述分类特征图沿通道维度的各个分类特征矩阵的基于凸分解的特征几何度量的逐片近似因数以得到多个基于凸分解的特征几何度量的逐片近似因数;
加权优化单元,用于以所述多个基于凸分解的特征几何度量的逐片近似因数作为加权系数对所述各个分类特征矩阵进行加权优化以得到多个优化后分类特征矩阵;以及
维度重构单元,用于将所述多个优化后分类特征矩阵进行维度重构以得到所述优化分类特征图。
6.根据权利要求5所述的冰箱内置摄像头监控系统,其特征在于,所述优化因数计算单元,用于:
以如下优化公式计算所述分类特征图沿通道维度的各个分类特征矩阵的基于凸分解的特征几何度量的逐片近似因数以得到所述多个基于凸分解的特征几何度量的逐片近似因数;
其中,所述优化公式为:
其中,Vij是第i个所述分类特征矩阵的第j个行向量或者列向量,Sigmoid(·)表示Sigmoid函数,LogSumExp(·)表示LogSumExp函数,[:V:]表示将各个向量级联,且表示向量的二范数的平方,wi表示所述多个基于凸分解的特征几何度量的逐片近似因数中第i个基于凸分解的特征几何度量的逐片近似因数。
7.根据权利要求6所述的冰箱内置摄像头监控系统,其特征在于,所述食物类型检测模块,包括:
特征图展开单元,用于将所述优化分类特征图按照行向量或者列向量展开为优化分类特征向量;
全连接编码单元,用于使用所述分类器的全连接层对所述优化分类特征向量进行全连接编码以得到编码分类特征向量;以及
分类单元,用于将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。
8.一种冰箱内置摄像头监控方法,其特征在于,包括:
获取由冰箱内置摄像头采集的监控图像;
将所述监控图像通过食物目标检测网络以得到食物目标感兴趣区域图像;
将所述食物目标感兴趣区域图像通过包含深浅特征融合模块的卷积神经网络模型以得到食物特征图;
对所述食物特征图沿着通道维度进行切分以得到第一部分食物特征图和第二部分食物特征图;
对所述第一部分食物特征图进行批归一化处理以得到批归一化后第一部分食物特征图;
对所述第二部分食物特征图进行卷积处理并通过点卷积进行通道数调整以得到第三部分食物特征图;
对所述第三部分食物特征图进行批归一化处理以得到批归一化后第三部分食物特征图;
将所述批归一化后第一部分食物特征图和所述批归一化后第三部分食物特征图进行级联以得到分类特征图;
将所述分类特征图进行特征分布优化以得到优化分类特征图;以及
将所述优化分类特征图通过分类器以得到分类结果,所述分类结果用于表示食物类型标签。
9.根据权利要求8所述的冰箱内置摄像头监控方法,其特征在于,所述食物目标检测网络为基于锚窗的目标检测网络,所述基于锚窗的目标检测网络为FastR-CNN、Faster R-CNN或RetinaNet。
10.根据权利要求9所述的冰箱内置摄像头监控方法,其特征在于,将所述食物目标感兴趣区域图像通过包含深浅特征融合模块的卷积神经网络模型以得到食物特征图,包括:
将所述食物目标感兴趣区域图像输入所述卷积神经网络模型以从所述卷积神经网络模型的浅层提取浅层特征图以及从所述卷积神经网络模型的深层提取深层特征图;以及
使用所述深浅特征融合模块来将所述浅层特征图和所述深层特征图进行级联以得到所述食物特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310704278.6A CN116740639A (zh) | 2023-06-14 | 2023-06-14 | 冰箱内置摄像头监控系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310704278.6A CN116740639A (zh) | 2023-06-14 | 2023-06-14 | 冰箱内置摄像头监控系统及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116740639A true CN116740639A (zh) | 2023-09-12 |
Family
ID=87909274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310704278.6A Withdrawn CN116740639A (zh) | 2023-06-14 | 2023-06-14 | 冰箱内置摄像头监控系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116740639A (zh) |
-
2023
- 2023-06-14 CN CN202310704278.6A patent/CN116740639A/zh not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Multiscale feature-clustering-based fully convolutional autoencoder for fast accurate visual inspection of texture surface defects | |
CN108171209B (zh) | 一种基于卷积神经网络进行度量学习的人脸年龄估计方法 | |
Che et al. | Hybrid multimodal fusion with deep learning for rolling bearing fault diagnosis | |
CN107636693B (zh) | 针对人工神经网络的相关性分数指派 | |
Lu et al. | Improved deep convolutional embedded clustering with re-selectable sample training | |
CN117040917A (zh) | 一种具有监测预警功能的智慧型交换机 | |
Zhou et al. | Semi-supervised fabric defect detection based on image reconstruction and density estimation | |
Rabiee et al. | Crowd behavior representation: an attribute-based approach | |
Ahmed et al. | Detection and classification of the behavior of people in an intelligent building by camera | |
Li et al. | Statistical thresholding method for infrared images | |
CN117123131B (zh) | 石油助剂的生产设备及其方法 | |
Li et al. | Semi-supervised process fault classification based on convolutional ladder network with local and global feature fusion | |
Yang et al. | Unsupervised images segmentation via incremental dictionary learning based sparse representation | |
Kumar et al. | An adaptive transformer model for anomaly detection in wireless sensor networks in real-time | |
Saqib et al. | Intelligent dynamic gesture recognition using CNN empowered by edit distance | |
Siddalingappa et al. | Anomaly detection on medical images using autoencoder and convolutional neural network | |
Wang et al. | Representation learning with deconvolution for multivariate time series classification and visualization | |
Younis et al. | Multivariate time series analysis: An interpretable cnn-based model | |
CN117951646A (zh) | 一种基于边缘云的数据融合方法及系统 | |
CN112836755B (zh) | 基于深度学习的样本图像生成方法及其系统 | |
Al-Shakarchy et al. | Detecting abnormal movement of driver's head based on spatial-temporal features of video using deep neural network DNN | |
Kheradpisheh et al. | Combining classifiers using nearest decision prototypes | |
Zhuang et al. | Multi-component attention-based convolution network for color difference recognition with wavelet entropy strategy | |
Ye et al. | Monitoring and diagnosis of multi-channel profile data based on uncorrelated multilinear discriminant analysis | |
CN116740639A (zh) | 冰箱内置摄像头监控系统及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230912 |
|
WW01 | Invention patent application withdrawn after publication |