CN117746304B

CN117746304B - 基于计算机视觉的冰箱食材识别定位方法及系统

Info

Publication number: CN117746304B
Application number: CN202410190626.7A
Authority: CN
Inventors: 崔国靖; 王勇; 张峰; 朱邱悦; 公茂强; 吴辉
Original assignee: Inspur Software Technology Co Ltd
Current assignee: Inspur Software Technology Co Ltd
Priority date: 2024-02-21
Filing date: 2024-02-21
Publication date: 2024-05-14
Anticipated expiration: 2044-02-21
Also published as: CN117746304A

Abstract

本发明公开了基于计算机视觉的冰箱食材识别定位方法及系统，属于图像处理技术领域，要解决的技术问题为：如何实现遮挡情况下冰箱内食材的实时识别及定位。包括如下步骤：采集食材进出冰箱的过程，将得到的视频按照帧率切割为多个图像；基于融合CNN网络和Transformer网络的目标检测模型进行目标检测，得到预测框信息；基于食材样本库中样本图像对应的真实食材类别对通过目标检测模型预测的食材类别进行优化；对于图像序列对应的预测框，基于卡尔曼滤波预测食材的预定轨迹、并结合级联匹配和IOU匹配前后帧图像中食材的关联关系，得到每种食材的运动轨迹；将每种食材对应的预测框位置信息以及运动轨迹与冰箱内区域进行绑定。

Description

基于计算机视觉的冰箱食材识别定位方法及系统

技术领域

本发明涉及图像处理技术领域，具体地说是基于计算机视觉的冰箱食材识别定位方法及系统。

背景技术

目前智能冰箱的食材分类方法主要分为基于RFID和基于目标检测两种。其中RFID技术主要借助于磁场或者是电磁场原理，通过无线射频方式实现设备之间的双向通信，从而实现交换数据的功能。RFID设备主要分为读写器、天线和标签三部分，标签同食材绑定，天线通过电磁波和标签进行通信，读写器负责记录信号强度。一般来说标签距离天线越近则信号越强，因此可以根据信号强度判断食材位置，之后将读写器采集的信号强度数据分为训练集和测试集，在训练阶段对训练集数据根据实际所在位置进行标注，然后送入卷积神经网络进行训练，通过一次次的迭代调整网络参数，使得模型具备定位的能力；在测试阶段，将采集的数据送入训练好的模型，完成定位任务。而基于目标检测的食材识别和定位算法主要借助冰箱内固定的摄像头对冰箱环境进行拍摄，通过对比开冰箱前后时刻的图像差异判定食材的变动情况，从而实现食材的识别和定位功能，目标检测模型需要使用大量的食材图片进行预训练，使得模型能够拟合，能够准确的识别食材的类别，而通过食材所在的冰箱层级确定食材位置信息。

基于RFID的食材识别和定位技术存在如下缺点：

（1）需要人工设置标签，使食材和标签相绑定；

（2）点磁波传输存在材料的透射、反射和吸收等问题。各物体之间，由于材质不同，射频环境也会有很大的差别，这就会对识别结果产生影响；

（3）隐私泄密的问题。

基于目标检测的食材识别和定位技术在冰箱环境较为复杂，遮挡情况严重的情况下，存在识别率低的问题。

如何实现遮挡情况下冰箱内食材的实时识别及定位，是需要解决的技术问题。

发明内容

本发明的技术任务是针对以上不足，提供基于计算机视觉的冰箱食材识别定位方法及系统，来解决如何实现遮挡情况下冰箱内食材的实时识别及定位的技术问题。

本发明一种基于计算机视觉的冰箱食材识别定位方法，包括如下步骤：

图像采集：通过固定于冰箱内的广角摄像头采集食材进出冰箱的过程，将得到的视频按照帧率切割为多个图像，得到图像序列；

图像预处理：对每个图像进行预处理，通过预处理对图像进行缩放并对图像中空白区域进行填充，得到预处后图像；

目标检测：对于每个预处理后图像，基于融合CNN网络和Transformer网络的目标检测模型进行目标检测，得到包含目标食材的预测框，并输出预测框信息，预测框信息包括预测框的位置信息以及食材类别，预测框的位置信息用于表示预测框相对于其所在对应图像的位置；

识别优化：对于每个预测框，计算预测框与食材样本库中样本图像的相似度，基于相似度判断目标检测模型预测的食材类别是否正确，如果不正确，基于食材样本库中样本图像对应的真实食材类别对通过目标检测模型预测的食材类别进行优化，得到优化后预测框信息；

多目标追踪：对于图像序列对应的预测框，基于卡尔曼滤波预测食材的轨迹、并结合级联匹配和IOU匹配计算前后帧图像中食材的关联关系，得到每种食材的运动轨迹；

目标定位：基于优化后预测框信息以及每种食材的运动轨迹，将每种食材对应的预测框位置信息以及运动轨迹与冰箱内区域进行绑定，得到食材的定位信息。

作为优选，图像预处理时，通过灰白条对图像中空白区域进行填充。

作为优选，所述目标检测模型基于CNN网络构建基础模型，基础模型包括输入端、主干网络、颈部、头部和输出端，并引入Transformer模型替换基础模型中颈部；

其中，输入端用于输入图像；

主干网络为Mobilenet v2结构，包括多个卷积模块，用于对输入的图像进行特征提取，输出N个不同尺度的特征图；

所述颈部包括N个卷积模块，N个卷积模块与主干网络输出的N个不同尺度的特征图一一对应，引入Transformer网络模型替换最小尺度特征图对应的卷积模块，所述颈部用于对主干网络输出的N个特征图进行融合，输出融合后的特征图；

所述头部用于以颈部输出的特征图为输入，从特征图中提取目标食材的位置和食材类别，生成预测框；

所述输出端用于对头部生成的预测框进行筛选和调整，得到最终的目标检测结果。

作为优选，基于卡尔曼滤波预测食材的预定轨迹、并结合级联匹配和IOU匹配计算前后帧图像中食材的关联关系，包括如下步骤：

L100、对于第N帧图像，以前N-1帧具有预测框的图像为输入、通过卡尔曼滤波预测预测框中目标食材的移动轨迹，得到目标食材的轨迹以及目标食材在第N帧图像中的跟踪框，并输出每个跟踪框的位置信息，其中N大于等于4；

L200、对于第N帧图像，通过匈牙利算法对预测框和跟踪框进行级联匹配，得到匹配结果，匹配结果包括未匹配的检测结果、匹配的轨迹、以及未匹配的轨迹，对于未匹配的检测结果以及未匹配的轨迹，执行步骤L300，对于匹配的轨迹，得到确认的轨迹以及食材类别，并执行步骤L500，其中，未匹配的检测结果表示在前N-1帧图像中未出现、但在第N帧图像中出现的食材，匹配的轨迹表示预测框与跟踪框相匹配、通过卡尔曼滤波预测的轨迹是确定的，未匹配的轨迹表示预测框和跟踪框不匹配、通过卡尔曼滤波预测的轨迹是未确定的；

L300、对预测框和跟踪框进行IOU匹配、并计算代价矩阵，以代价矩阵为输入、通过匈牙利算法进行匹配，得到匹配结果，匹配结果包括未匹配的检测结果、未匹配的轨迹以及匹配的轨迹，对于匹配的轨迹，执行步骤L500，对于未匹配的轨迹，执行步骤L400，对于未匹配的检测结果，执行步骤L700；

L400、对于未匹配的轨迹，确定是否为确认态且小于预定的阈值max_age，

如果对应预测框为确认态、且小于预定的阈值max_age，执行步骤L500，如果对应预测框是为确认态、但大于预定的阈值max_age，将预测框删除、未匹配的轨迹删除，如果对应预测框不是确认态，将预测框删除、未匹配的轨迹删除；

L500、通过目标检测模型预测的位置信息对卡尔曼滤波预测的位置信息进行更新，并执行步骤L600；

L600、对于第N+1帧图像，以前N帧具有预测框的图像为输入、通过卡尔曼滤波预测预测框中目标食材的移动轨迹，得到目标食材的轨迹以及目标食材在第N帧图像中的跟踪框，输出每个跟踪框的位置信息，并执行步骤L800；

L700、创建新轨迹，并基于新轨迹、通过卡尔曼滤波预测预测预测框中目标食材的移动轨迹，得到目标食材的轨迹以及目标食材在第N+1帧图像中的跟踪框，输出每个跟踪框的位置信息，并执行步骤L800；

L800、对于第N+1帧图像对应预测框，判断预测框是否为确认态，如果是，执行步骤L200，如果不是，执行步骤L300；

其中，确认态判断方式为：基于步骤L300对连续三帧图像的预测框和跟踪框进行匹配，如果均为匹配的轨迹，则判断轨迹为确认态；

与预定的阈值max_age进行比较的方式为：基于步骤L300对连续max_age帧图像的预测框和跟踪框进行匹配，如果均为未匹配的轨迹，则判定大于预定的阈值max_age。

作为优选，通过匈牙利算法对预测框和跟踪框进行级联匹配，包括如下步骤：

对于预测框和跟踪框，通过预配置的特征提取模型进行特提取；

计算预测框和对应位置跟踪框之间的马氏距离，并基于通过特征提取模型提取的特征、计算预测框和跟踪框之间的余弦距离；

对马氏距离和余弦距离进行加权计算，得到代价矩阵；

以代价矩阵作为输入、通过匈牙利算法进行匹配，得到匹配结果。

第二方面，本发明一种基于计算机视觉的冰箱食材识别定位系统，用于通过如第一方面任一项所述的基于计算机视觉的冰箱食材识别定位方法对冰箱内食材进行识别定位，所述系统包括图像采集模块、图像预处理模块、目标检测模块、识别优化模块以及多目标追踪模块；

图像采集模块用于执行如下：通过固定于冰箱内的广角摄像头采集食材进出冰箱的过程，将得到的视频按照帧率切割为多个图像，得到图像序列；

图像预处理模块用于执行如下：对每个图像进行预处理，通过预处理对图像进行缩放并对图像中空白区域进行填充，得到预处后图像；

目标检测模块用于执行如下：对于每个预处理后图像，基于融合CNN网络和Transformer网络的目标检测模型进行目标检测，得到包含目标食材的预测框，并输出预测框信息，预测框信息包括预测框的位置信息以及食材类别，预测框的位置信息用于表示预测框相对于其所在对应图像的位置；

识别优化模块用于执行如下：对于每个预测框，计算预测框与食材样本库中样本图像的相似度，基于相似度判断目标检测模型预测的食材类别是否正确，如果不正确，基于食材样本库中样本图像对应的真实食材类别对通过目标检测模型预测的食材类别进行优化，得到优化后预测框信息；

多目标追踪模块用于执行如下：对于图像序列对应的预测框，基于卡尔曼滤波预测食材的预定轨迹、并结合级联匹配和IOU匹配计算前后帧图像中食材的关联关系，得到每种食材的运动轨迹；

目标定位模块用于执行如下：基于优化后预测框信息以及每种食材的运动轨迹，将每种食材对应的预测框位置信息以及运动轨迹与冰箱内区域进行绑定，得到食材的定位信息。

作为优选，所述图像预处理模块用于通过灰白条对图像中空白区域进行填充。

其中，输入端用于输入图像；

作为优选，基于卡尔曼滤波预测食材的预定轨迹、并结合级联匹配和IOU匹配计算前后帧图像中食材的关联关系时，所述多目标追踪模块用于执行如下：

作为优选，所述多目标追踪模块用于执行如下以实现通过匈牙利算法对预测框和跟踪框进行级联匹配：

对马氏距离和余弦距离进行加权计算，得到代价矩阵；

本发明的基于计算机视觉的冰箱食材识别定位方法及系统具有以下优点：使用冰箱内的摄像头采集食材运动信息，目标检测模型对食材进行识别，考虑到部分食材外观较为相似，为了降低误识别率，使用相似度匹配算法对食材种类进行二次判断，并基于将判断结果、通过多目标追踪跟踪食材运动轨迹，通过轨迹对食材位置进行实时定位，实现了遮挡和复杂的冰箱环境内食材的识别定位。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图对本发明进一步说明。

图1为实施例1一种基于计算机视觉的冰箱食材识别定位方法的流程框图；

图2为实施例1一种基于计算机视觉的冰箱食材识别定位方法中多目标追踪的流程框图；

图3为实施例1一种基于计算机视觉的冰箱食材识别定位方法中级联匹配的流程框图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

本发明实施例提供基于计算机视觉的冰箱食材识别定位方法及系统，用于解决如何实现遮挡情况下冰箱内食材的实时识别及定位的技术问题。

实施例1：

本发明一种基于计算机视觉的冰箱食材识别定位方法，包括图像采集、图像预处理、目标检测、识别优化、多目标追踪以及目标定位六个步骤。

步骤S100图像采集：通过固定于冰箱内的广角摄像头采集食材进出冰箱的过程，将得到的视频按照帧率切割为多个图像，得到图像序列。

本实施例步骤S100将广角摄像头放置于冰箱固定位置，通过广角摄像头采集食材放入和拿出冰箱的过程，将此视频序列按照帧率切割成单张图像。

步骤S200图像预处理：对每个图像进行预处理，通过预处理对图像进行缩放并对图像中空白区域进行填充，得到预处后图像。

本实施例步骤S200图像预处理时，对图像进行缩放操作，为避免失真，通过灰白条对图像中空白区域进行填充。

步骤S300目标检测：对于每个预处理后图像，基于融合CNN网络和Transformer网络的目标检测模型进行目标检测，得到图像中包含后目标食材的预测框，并输出预测框信息，预测框信息包括预测框的位置信息以及食材类别，预测框的位置信息用于表示预测框相对于其所在对应图像的位置。

本实施例中目标检测模型基于CNN网络构建基础模型，基础模型包括输入端、主干网络、颈部、头部和输出端，并引入Transformer模型替换基础模型中颈部。

其中，输入端用于输入图像；主干网络为Mobilenet v2结构，包括多个卷积模块，用于对输入的图像进行特征提取，输出N个不同尺度的特征图；颈部包括N个卷积模块，N个卷积模块与主干网络输出的N个不同尺度的特征图一一对应，引入Transformer网络模型替换最小尺度特征图对应的卷积模块，颈部用于对主干网络输出的N个特征图进行融合，输出融合后的特征图；头部用于以颈部输出的特征图为输入，从特征图中提取目标食材的位置和食材类别，生成预测框；输出端用于对头部生成的预测框进行筛选和调整，得到最终的目标检测结果。

该结构的目标检测模型能在尽可能不影响准确率的基础上极大的降低计算量提升检测速度，之后使用Transformer编码器结构将感受野的范围提升到整个特征层，分离区最显著的上下文特征，之后对预测框进行非极大值抑制从而获得预测结果。

步骤S400识别优化：对于每个预测框，计算预测框与食材样本库中样本图像的相似度，基于相似度判断目标检测模型预测的食材类别是否正确，如果不正确，基于食材样本库中样本图像对应的真实食材类别对通过目标检测模型预测的食材类别进行优化，得到优化后预测框信息。

在冰箱场景中，部分食材之间特征较为相似，容易造成食材种类误识别，对于识别置信度不高的部分食材，在确定其类别之前，基于特征匹配的样本相似度计算方法、将图片和食材样本库中的图片依次进行相似度计算，以对目标检测模型的输出进行优化。

作为具体实施，本实施例采用Surf算法进行特征匹配。且基于相似度判断目标检测模型预测的食材类别是否正确时，对于每个食材类别，选择从食材类别库中选择易混淆的其他食材类别，将图片与食材样本库中的易混淆食材类别的图像依次进行相似度计算，若最大相似度大于指定阈值则、纠正通过目标检测模型输出的食材类别，否则输出目标检测模型输出的食材类别。

步骤S500多目标追踪：对于图像序列对应的预测框，基于卡尔曼滤波预测食材的轨迹、并结合级联匹配和IOU匹配计算前后帧图像中食材的关联关系，得到每种食材的运动轨迹。

如图2所示，本实施例中，基于卡尔曼滤波预测食材的预定轨迹、并结合级联匹配和IOU匹配计算前后帧图像中食材的关联关系，包括如下步骤：

L800、对于第N+1帧图像对应预测框，判断预测框是否为确认态，如果是，执行步骤L200，如果不是，执行步骤L300。

作为具体实施，如图3所示，通过匈牙利算法对预测框和跟踪框进行级联匹配，包括如下步骤：

（1）对于预测框和跟踪框，通过预配置的特征提取模型进行特提取；

（2）计算预测框和对应位置跟踪框之间的马氏距离，并基于通过特征提取模型提取的特征、计算预测框和跟踪框之间的余弦距离；

（3）对马氏距离和余弦距离进行加权计算，得到代价矩阵；

（4）以代价矩阵作为输入、通过匈牙利算法进行匹配，得到匹配结果。

本实施例该步骤为了能够在食材运动的过程中实时定位目标，引入了基于改进DeepSORT的多目标追踪算法。该算法主要分为改进的级联匹配、IOU匹配和卡尔曼滤波三部分，将通过目标检测模型输出的预测框和使用卡尔曼滤波得到的当前帧图像的目标区域进行级联匹配。因为在视频第一帧中还没有确定的追踪器，所有的检测结果就无法匹配，所以要用检测框去创建其对应的追踪器，第二、三帧也是如此，第四帧之后才会有确定状态的追踪器，这时才能进行级联匹配。级联匹配主要使用外观的余弦距离和马氏距离作为代价矩阵，外观矩阵就是把预测框送入卷积神经网络中得到一个特征向量，通过余弦距离就可以得到每个轨迹和每个检测结果的相似性。接着对每个轨迹和检测结果计算其位置的马氏距离，来排除掉特征相似但是距离很远的匹配，之后把两个矩阵按照一定的权重进行相加，作为最终的代价矩阵，进行后续的匈牙利算法的二分匹配。针对匹配成功的，通过目标检测模型输出的位置信息去更新相应的卡尔曼滤波检测的位置信息，未匹配成功的轨迹和检测结果进行后续IOU匹配。

将上述未匹配的轨迹、检测结果和卡尔曼滤波未确认的轨迹以IOU为代价，通过匈牙利算法进行匹配，通过匹配可以得到匹配的轨迹和检测，未匹配的轨迹，未匹配的检测。后续会把很久没匹配到的确认的轨迹和匹配到的不确认的轨迹删除，为没有匹配到的食材类别创建新的轨迹，匹配成功后，通过目标检测模型输出的位置信息更新卡尔曼滤波输出的位置信息。

步骤S600目标定位：基于优化后预测框信息以及每种食材的运动轨迹，将每种食材对应的预测框位置信息以及运动轨迹与冰箱内区域进行绑定，得到食材的定位信息。

本实施例中，结合目标检测模型输出的预测框信息与多目标追踪得到运动轨迹，将轨迹与不同的冰箱区域绑定，实现定位功能。

实施例2：

本发明一种基于计算机视觉的冰箱食材识别定位系统，包括图像采集模块、图像预处理模块、目标检测模块、识别优化模块以及多目标追踪模块，该系统执行实施例1公开的方法对冰箱内食材进行识别定位。

图像采集模块用于执行如下：通过固定于冰箱内的广角摄像头采集食材进出冰箱的过程，将得到的视频按照帧率切割为多个图像，得到图像序列。

本实施例将广角摄像头放置于冰箱固定位置，图像采集模块用于通过广角摄像头采集食材放入和拿出冰箱的过程，并将此视频序列按照帧率切割成单张图像。

图像预处理模块用于执行如下：对每个图像进行预处理，通过预处理对图像进行缩放并对图像中空白区域进行填充，得到预处后图像。

本实施例图像预处理模块用于对图像进行缩放操作，为避免失真，通过灰白条对图像中空白区域进行填充。

目标检测模块用于执行如下：对于每个预处理后图像，基于融合CNN网络和Transformer网络的目标检测模型进行目标检测，得到包含目标食材的预测框，并输出预测框信息，预测框信息包括预测框的位置信息以及食材类别，预测框的位置信息用于表示预测框相对于其所在对应图像的位置。

识别优化模块用于执行如下：对于每个预测框，计算预测框与食材样本库中样本图像的相似度，基于相似度判断目标检测模型预测的食材类别是否正确，如果不正确，基于食材样本库中样本图像对应的真实食材类别对通过目标检测模型预测的食材类别进行优化，得到优化后预测框信息。

多目标追踪模块用于执行如下：对于图像序列对应的预测框，基于卡尔曼滤波预测食材的轨迹、并结合级联匹配和IOU匹配计算前后帧图像中食材的关联关系，得到每种食材的运动轨迹。

本实施例中，多目标追踪模块用于执行如下以实现基于卡尔曼滤波预测食材的预定轨迹、并结合级联匹配和IOU匹配计算前后帧图像中食材的关联关系：

其中，确认态判断方式为：基于步骤L300对连续三帧图像的预测框和跟踪框进行匹配，如果均为匹配的轨迹，则判断轨迹为确认态。

作为具体实施，多目标追踪模块用于执行如下以实现通过匈牙利算法对预测框和跟踪框进行级联匹配：

（3）对马氏距离和余弦距离进行加权计算，得到代价矩阵；

为了能够在食材运动的过程中实时定位目标，本实施例的多目标追踪模块中引入了基于改进DeepSORT的多目标追踪算法。该算法主要分为改进的级联匹配、IOU匹配和卡尔曼滤波三部分，将通过目标检测模型输出的预测框和使用卡尔曼滤波得到的当前帧图像的目标区域进行级联匹配。因为在视频第一帧中还没有确定的追踪器，所有的检测结果就无法匹配，所以要用检测框去创建其对应的追踪器，第二、三帧也是如此，第四帧之后才会有确定状态的追踪器，这时才能进行级联匹配。级联匹配主要使用外观的余弦距离和马氏距离作为代价矩阵，外观矩阵就是把预测框送入卷积神经网络中得到一个特征向量，通过余弦距离就可以得到每个轨迹和每个检测结果的相似性。接着对每个轨迹和检测结果计算其位置的马氏距离，来排除掉特征相似但是距离很远的匹配，之后把两个矩阵按照一定的权重进行相加，作为最终的代价矩阵，进行后续的匈牙利算法的二分匹配。针对匹配成功的，通过目标检测模型输出的位置信息去更新相应的卡尔曼滤波检测的位置信息，未匹配成功的轨迹和检测结果进行后续IOU匹配。

本实施例中，目标定位模块用于结合目标检测模型输出的预测框信息与多目标追踪得到运动轨迹，将轨迹与不同的冰箱区域绑定，实现定位功能。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.一种基于计算机视觉的冰箱食材识别定位方法，其特征在于，包括如下步骤：

目标定位：基于优化后预测框信息以及每种食材的运动轨迹，将每种食材对应的预测框位置信息以及运动轨迹与冰箱内区域进行绑定，得到食材的定位信息；

基于卡尔曼滤波预测食材的预定轨迹、并结合级联匹配和IOU匹配计算前后帧图像中食材的关联关系，包括如下步骤：

L800、对于第N+1帧图像对应预测框，判断预测框是否为为确认态，如果是，执行步骤L200，如果不是，执行步骤L300；

2.根据权利要求1所述的基于计算机视觉的冰箱食材识别定位方法，其特征在于，图像预处理时，通过灰白条对图像中空白区域进行填充。

3.根据权利要求1所述的基于计算机视觉的冰箱食材识别定位方法，其特征在于，所述目标检测模型基于CNN网络构建基础模型，基础模型包括输入端、主干网络、颈部、头部和输出端，并引入Transformer模型替换基础模型中颈部；

其中，输入端用于输入图像；

4.根据权利要求1所述的基于计算机视觉的冰箱食材识别定位方法，其特征在于，通过匈牙利算法对预测框和跟踪框进行级联匹配，包括如下步骤：

对马氏距离和余弦距离进行加权计算，得到代价矩阵；

5.一种基于计算机视觉的冰箱食材识别定位系统，其特征在于，用于通过如权利要求1-4任一项所述的基于计算机视觉的冰箱食材识别定位方法对冰箱内食材进行识别定位，所述系统包括图像采集模块、图像预处理模块、目标检测模块、识别优化模块以及多目标追踪模块；

目标定位模块用于执行如下：基于优化后预测框信息以及每种食材的运动轨迹，将每种食材对应的预测框位置信息以及运动轨迹与冰箱内区域进行绑定，得到食材的定位信息；

基于卡尔曼滤波预测食材的预定轨迹、并结合级联匹配和IOU匹配计算前后帧图像中食材的关联关系时，所述多目标追踪模块用于执行如下：

6.根据权利要求5所述的基于计算机视觉的冰箱食材识别定位系统，其特征在于，所述图像预处理模块用于通过灰白条对图像中空白区域进行填充。

7.根据权利要求5所述的基于计算机视觉的冰箱食材识别定位系统，其特征在于，所述目标检测模型基于CNN网络构建基础模型，基础模型包括输入端、主干网络、颈部、头部和输出端，并引入Transformer模型替换基础模型中颈部；

其中，输入端用于输入图像；

8.根据权利要求5所述的基于计算机视觉的冰箱食材识别定位系统，其特征在于，所述多目标追踪模块用于执行如下以实现通过匈牙利算法对预测框和跟踪框进行级联匹配：

对马氏距离和余弦距离进行加权计算，得到代价矩阵；