CN117542031A

CN117542031A - 一种基于智能购物车的商品识别方法、装置、设备及介质

Info

Publication number: CN117542031A
Application number: CN202410032627.9A
Authority: CN
Inventors: 孙晓刚; 陈健斌
Original assignee: Chengdu Agaxi Intelligent Technology Co ltd
Current assignee: Chengdu Agaxi Intelligent Technology Co ltd
Priority date: 2024-01-10
Filing date: 2024-01-10
Publication date: 2024-02-09

Abstract

本申请提供一种基于智能购物车的商品识别方法、装置、设备及介质，涉及智能购物技术领域，该方法包括：将新增商品图像和预设关键词输入至训练好的商品识别模型中进行识别，输出新增商品图像对应的第一坐标列表；其中，训练好的商品识别模型是基于开放集对象检测算法Grounding DINO获得的；将第一坐标列表与前景图像对应的第二坐标列表进行匹配，确定出新增商品的坐标组；根据新增商品的坐标组，从新增商品图像中获得新增商品截图；根据新增商品截图对应的新增商品特征，从本地索引库中匹配出新增商品名称。本申请与现有技术相比，可以大大提高智能购物车的商品识别准确率。

Description

一种基于智能购物车的商品识别方法、装置、设备及介质

技术领域

本申请涉及智能购物技术领域，提供一种基于智能购物车的商品识别方法、装置、设备及介质。

背景技术

目前，在现有技术中，常采用图像处理的方式来进行智能购物，其中，主要采用背景差分或目标检测算法来获取前景目标。然而，基于背景差分来获取前景目标，由于受光照影响比较大，所以，容易产生误检，进而，导致商品识别的准确率较低；基于目标检测算法，例如，YOLO（You Only Look Once）算法或DETR（Detection Transformer）目标检测算法，由于均需要依赖于训练样本的数量、分布和类别，所以，一旦部署时数据的分布和训练时不一致，则容易出现召回率严重降低、不能检测出新增的类别以及需要采集大量训练数据等现象，从而，导致商品识别的准确率较低。

因此，如何提高智能购物车的商品识别准确率成了目前亟待解决的问题。

发明内容

本申请提供一种基于智能购物车的商品识别方法、装置、设备及介质，用于解决智能购物车的商品识别准确率较低的问题。

一方面，提供一种基于智能购物车的商品识别方法，所述方法包括：

若确定所述智能购物车内商品重量的变化值大于预设重量值，则对所述智能购物车内的商品进行拍摄，获得新增商品图像；

将所述新增商品图像以及预设关键词输入至训练好的商品识别模型中进行识别，输出所述新增商品图像对应的第一坐标列表；其中，所述训练好的商品识别模型是基于开放集对象检测算法Grounding DINO获得的；所述第一坐标列表中包括所述新增商品图像中的各个商品各自对应的坐标组；所述坐标组包括商品的坐标、宽和高；

将所述第一坐标列表与前景图像对应的第二坐标列表进行匹配，确定出新增商品的坐标组；

根据所述新增商品的坐标组，从所述新增商品图像中，获得新增商品截图；

根据所述新增商品截图对应的新增商品特征，从本地索引库中匹配出新增商品名称。

可选的，所述将所述第一坐标列表与前景图像对应的第二坐标列表进行匹配，确定出新增商品的坐标组的步骤，包括：

针对所述第一坐标列表中的任一个第一坐标组，以及，所述第二坐标列表中的任一个第二坐标组，将所述第一坐标组中的x坐标组中的x坐标、y坐标、宽和高，与所述第二坐标组中的x坐标、y坐标、宽和高一一对应进行作差求绝对值，分别获得x坐标绝对差值、y坐标绝对差值、宽绝对差值和高绝对差值；

确定所述x坐标绝对差值与所述y坐标绝对差值的和是否小于第一预设差值，以及，确定所述宽绝对差值与所述高绝对差值的和是否小于第二预设差值；

若确定所述x坐标绝对差值与所述y坐标绝对差值的和小于第一预设差值，以及，确定所述宽绝对差值与所述高绝对差值的和小于第二预设差值，则所述第一坐标组对应的商品与所述第二坐标组对应的商品为同一个商品，且将所述第一坐标组从所述第一坐标列表中进行删除。

可选的，所述若确定所述x坐标绝对差值与所述y坐标绝对差值的和小于第一预设差值，以及，确定所述宽绝对差值与所述高绝对差值的和小于第二预设差值，则所述第一坐标组对应的商品与所述第二坐标组对应的商品为同一个商品，且将所述第一坐标组从所述第一坐标列表中进行删除的步骤，包括：

根据所述第一坐标组，从所述新增商品图像中，获得第一商品截图；

根据所述第二坐标组，从所述前景图像中，获得第二商品截图；

将所述第一商品截图与所述第二商品截图输入至第一特征提取模型中，输出所述第一商品截图对应的第一商品特征和所述第二商品截图对应的第二商品特征；

确定所述第一商品特征与所述第二商品特征之间的相似度值是否大于预设相似度阈值；

若确定所述第一商品特征与所述第二商品特征之间的相似度值大于预设相似度阈值，则所述第一坐标组对应的商品与所述第二坐标组对应的商品是同一个商品，且将所述第一坐标组从所述第一坐标列表中进行删除。

可选的，在将所述新增商品图像以及预设关键词输入至训练好的商品识别模型中进行识别，输出所述新增商品图像对应的第一坐标列表之前，所述方法还包括：

响应用户在购物系统上针对第三商品进行的点击操作，对所述第三商品进行拍摄，获得第三商品图像；

将所述第三商品图像和预设关键词输入至所述训练好的商品识别模型中进行识别，输出所述第三商品对应的第三坐标组；

将根据所述第三坐标组所获得的第三商品截图输入至数据增强模块中进行数据增强，获取多张数据增强后的第三商品截图；其中，所述数据增强模块是基于ControlNet模型和Stable Diffusion扩散模型获得的；

将所述多张数据增强后的第三商品截图输入至第二特征提取模型中进行特征提取，获得多个商品特征；

在所述购物系统中，将所述多个商品特征与所述第三商品的ID进行关联。

可选的，所述将根据所述第三坐标组所获得的第三商品截图输入至数据增强模块中进行数据增强，获取多张数据增强后的第三商品截图的步骤，包括：

采用所述ControlNet模型中的预处理器对所述第三商品截图进行二值化，获得二值化后的第三商品截图；

对用户输入的第一提示词进行分词，获得第一词向量；

将第一词向量输入到第三特征提取模型中进行词编码，获得第二词向量；

将所述二值化后的第三商品截图、所述第二词向量和一张随机噪声图输入至所述Stable Diffusion扩散模型中，输出所述第三商品截图对应的压缩信息；

将所述压缩信息输入至变分自编码网络中，生成一张数据增强后的第三商品截图。

根据预设的商品数据集以及预设关键词，对初始商品识别模型进行训练，获得模型预测结果；

根据所述模型预测结果，获得多个交叉熵损失函数值；

根据所述多个交叉熵损失函数值，对所述初始商品识别模型中的不同阶段的学习权重进行更新，获得训练好的商品识别模型。

可选的，所述第一特征提取模型包括输入层、中间层和输出层；其中，所述输入层用于对128×128×3大小的RGB图像进行输入，中间层包括依次连接的3个卷积模块、注意力SE层、1个卷积模块、池化层AdaptiveAvgPool2D以及全连接层；其中，所述卷积模块包括依次连接的多个卷积层、批标准化层和激活函数层。

一方面，提供一种基于智能购物车的商品识别装置，所述装置包括：

新增商品图像获得单元，用于若确定所述智能购物车内商品重量的变化值大于预设重量值，则对所述智能购物车内的商品进行拍摄，获得新增商品图像；

坐标列表输出单元，用于将所述新增商品图像以及预设关键词输入至训练好的商品识别模型中进行识别，输出所述新增商品图像对应的第一坐标列表；其中，所述训练好的商品识别模型是基于开放集对象检测算法Grounding DINO获得的；所述第一坐标列表中包括所述新增商品图像中的各个商品各自对应的坐标组；所述坐标组包括商品的坐标、宽和高；

坐标组确定单元，用于将所述第一坐标列表与前景图像对应的第二坐标列表进行匹配，确定出新增商品的坐标组；

新增商品截图获得单元，用于根据所述新增商品的坐标组，从所述新增商品图像中，获得新增商品截图；

新增商品名称匹配单元，用于根据所述新增商品截图对应的新增商品特征，从本地索引库中匹配出新增商品名称。

一方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一种方法。

一方面，提供一种计算机存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现上述任一种方法。

与现有技术相比，本申请的有益效果为：

在本申请实施例中，在基于智能购物车进行商品识别时，首先，若确定智能购物车内商品重量的变化值大于预设重量值，则可以对智能购物车内的商品进行拍摄，获得新增商品图像；然后，可以将新增商品图像以及预设关键词输入至训练好的商品识别模型中进行识别，来输出新增商品图像对应的第一坐标列表；其中，训练好的商品识别模型是基于开放集对象检测算法Grounding DINO获得的；第一坐标列表中包括新增商品图像中的各个商品各自对应的坐标组；坐标组包括商品的坐标、宽和高；接下来，可以将第一坐标列表与前景图像对应的第二坐标列表进行匹配，来确定出新增商品的坐标组；然后，可以根据新增商品的坐标组，从新增商品图像中，来获得新增商品截图；最后，可以根据新增商品截图对应的新增商品特征，来从本地索引库中匹配出新增商品名称。因此，在本申请实施例中，由于训练好的商品识别模型是基于开放集对象检测算法Grounding DINO获得的，所以，相比于现有技术，本申请可以通过理解和关联新增商品图像与预设关键词之间的关系，来有效提高检测的召回率，从而，达到提高智能购物车的商品识别准确率的目的。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种应用场景示意图；

图2为本申请实施例提供的基于智能购物车的商品识别方法的一种流程示意图；

图3为本申请实施例提供的商品相似度判定的一种结构示意图；

图4为本申请实施例提供的商品注册的一种流程示意图；

图5为本申请实施例提供的训练商品识别模型的一种示意图；

图6为本申请实施例提供的基于智能购物车的商品识别装置的一种示意图。

图中标记：10-基于智能购物车的商品识别设备，101-处理器，102-存储器，103-I/O接口，104-数据库，60-基于智能购物车的商品识别装置，601-新增商品图像获得单元，602-坐标列表输出单元，603-坐标组确定单元，604-新增商品截图获得单元，605-新增商品名称匹配单元，606-商品注册单元，607-模型训练单元。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

基于此，本申请实施例提供一种基于智能购物车的商品识别方法，在该方法中，首先，若确定智能购物车内商品重量的变化值大于预设重量值，则可以对智能购物车内的商品进行拍摄，获得新增商品图像；然后，可以将新增商品图像以及预设关键词输入至训练好的商品识别模型中进行识别，来输出新增商品图像对应的第一坐标列表；其中，训练好的商品识别模型是基于开放集对象检测算法Grounding DINO获得的；第一坐标列表中包括新增商品图像中的各个商品各自对应的坐标组；坐标组包括商品的坐标、宽和高；接下来，可以将第一坐标列表与前景图像对应的第二坐标列表进行匹配，来确定出新增商品的坐标组；然后，可以根据新增商品的坐标组，从新增商品图像中，来获得新增商品截图；最后，可以根据新增商品截图对应的新增商品特征，来从本地索引库中匹配出新增商品名称。因此，在本申请实施例中，由于训练好的商品识别模型是基于开放集对象检测算法Grounding DINO获得的，所以，相比于现有技术，本申请可以通过理解和关联新增商品图像与预设关键词之间的关系，来有效提高检测的召回率，从而，达到提高智能购物车的商品识别准确率的目的。

在介绍完本申请实施例的设计思想之后，下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

如图1所示，为本申请实施例提供的一种应用场景示意图。该应用场景中可以包括基于智能购物车的商品识别设备10。

其中，基于智能购物车的商品识别设备10可以用于对智能购物车中的商品进行智能识别，例如，可以为个人计算机（Personal Computer，PC）、服务器与手提电脑等。基于智能购物车的商品识别设备10可包括一个或者多个处理器101、存储器102、I/O接口103以及数据库104。具体的，处理器101可以为中央处理单元（Central Processing Unit，CPU），或者为数字处理单元等等。存储器102可以是易失性存储器（volatile memory），例如随机存取存储器（random-access memory，RAM）；存储器102也可以是非易失性存储器（non-volatile memory），例如只读存储器，快闪存储器（flash memory），硬盘（hard diskdrive，HDD）或固态硬盘（solid-state drive，SSD）；或者存储器102是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器102可以是上述存储器的组合。存储器102中可以存储本申请实施例提供的基于智能购物车的商品识别方法的部分程序指令，这些程序指令被处理器101执行时能够用以实现本申请实施例提供的基于智能购物车的商品识别方法的步骤，以解决智能购物车的商品识别准确率较低的问题。数据库104可以用于存储本申请实施例提供的方案中涉及到的新增商品图像、前景图像、新增商品截图、第一坐标列表、第二坐标列表、训练好的商品识别模型和新增商品名称等数据。

在本申请实施例中，基于智能购物车的商品识别设备10可以通过I/O接口103获取新增商品图像，然后，基于智能购物车的商品识别设备10的处理器101会按照存储器102中本申请实施例提供的基于智能购物车的商品识别方法的程序指令来提高智能购物车的商品识别准确率。此外，还可以将新增商品图像、前景图像、新增商品截图、第一坐标列表、第二坐标列表、训练好的商品识别模型和新增商品名称等数据存储于数据库104中。

当然，本申请实施例提供的方法并不限用于图1所示的应用场景中，还可以用于其他可能的应用场景，本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。下面，将结合附图对本申请实施例的方法进行介绍。

如图2所示，为本申请实施例提供的基于智能购物车的商品识别方法的一种流程示意图，该方法可以通过图1中的基于智能购物车的商品识别设备10来执行，具体的，该方法的流程介绍如下。

步骤201：若确定智能购物车内商品重量的变化值大于预设重量值，则对智能购物车内的商品进行拍摄，获得新增商品图像。

在本申请实施例中，可以在智能购物车的底部上安装至少一个重量传感器，基于此，便可以每隔预设的时间段来测量一次智能购物车内的重量，以及直接根据这至少一个重量传感器测得的重量的平均值，来确定智能购物车内商品重量的变化值是否大于预设重量值。此外，在本申请实施例中，摄像机被安装在智能购物车的顶部。

进而，若确定智能购物车内商品重量的变化值大于预设重量值，则重量传感器便会触发摄像机来对智能购物车内的新增商品进行拍摄，以获得新增商品图像。当然，在本申请实施例中，摄像头的启动方式，除了通过重量传感器进行触发，还可以通过其他传感器或者其他方式进行触发，例如，压力传感器、毫米波雷达+卡尔曼算法等。

步骤202：将新增商品图像以及预设关键词输入至训练好的商品识别模型中进行识别，输出新增商品图像对应的第一坐标列表。

在本申请实施例中，训练好的商品识别模型可以是基于开放集对象检测算法Grounding DINO获得的；且第一坐标列表中包括新增商品图像中的各个商品各自对应的坐标组；坐标组包括商品的坐标、宽和高。预设关键词可以为目标描述“goods”。

进而，在实际应用中，可以将新增商品图像以及目标描述“goods”输入至训练好的商品识别模型中进行识别，来输出新增商品图像对应的第一坐标列表，其中，/>表示新增商品图像中的第1个商品对应的坐标组，/>表示新增商品图像中的第2个商品对应的坐标组，以此类推。

步骤203：将第一坐标列表与前景图像对应的第二坐标列表进行匹配，确定出新增商品的坐标组。

为了确定智能购物车内是否新增了商品，在本申请实施例中，在获得了新增商品图像对应的第一坐标列表之后，还可以将第一坐标列表与前景图像对应的第二坐标列表进行匹配，来确定出新增商品的坐标组。

具体的，可采用如下公式（1）来对新增商品图像中的各个商品和前景图像中的各个商品进行匹配：

abs(curr_x-prev_x)+abs(curr_y-prev_y)<T1 and

abs(curr_w-prev_w)+abs(curr_h-prev_h)<T2（1）

其中，abs为绝对值函数，（curr_x,curr_y,curr_w,curr_h）为第一坐标列表中的第一坐标组，（prev_x,prev_y,prev_w,prev_h）为第二坐标列表/>中的第二坐标组，T1为第一预设差值，T2为第二预设差值。进而，当第一坐标组与第二坐标组满足上述公式（1）时，则可以认为第一坐标组对应的商品与第二坐标组对应的商品可能是同一物品（存在新物品放在同一位置上的情况）。

即，针对第一坐标列表中的任一个第一坐标组，以及，第二坐标列表中的任一个第二坐标组，首先，可以将第一坐标组中的x坐标组中的x坐标、y坐标、宽和高，与第二坐标组中的x坐标、y坐标、宽和高一一对应进行作差求绝对值，分别获得x坐标绝对差值、y坐标绝对差值、宽绝对差值和高绝对差值。也即是，可以将第一坐标组中的x坐标与第二坐标组中的x坐标先作差再求绝对值，获得x坐标绝对差值；将第一坐标组中的y坐标与第二坐标组中的y坐标先作差再求绝对值，获得y坐标绝对差值；将第一坐标组中的宽与第二坐标组中的宽先作差再求绝对值，获得宽绝对差值；将第一坐标组中的高与第二坐标组中的高先作差再求绝对值，获得高绝对差值。

然后，可以确定x坐标绝对差值与y坐标绝对差值的和是否小于第一预设差值，以及，确定宽绝对差值与高绝对差值的和是否小于第二预设差值。

最后，若确定x坐标绝对差值与y坐标绝对差值的和小于第一预设差值，以及，确定宽绝对差值与高绝对差值的和小于第二预设差值，则第一坐标组对应的商品与第二坐标组对应的商品为同一个商品，且为了减小后续计算量，还可以将第一坐标组从第一坐标列表中进行删除，同时，将第二坐标组从第二坐标列表中进行删除。然后，再从第一坐标列表中取出另一个第一坐标组，并继续执行上述公式（1）所示的判定操作，直至判定出新增商品的坐标组为止。

步骤204：根据新增商品的坐标组，从新增商品图像中，获得新增商品截图。

在本申请实施例中，在确定出新增商品的坐标组之后，可以直接根据该新增商品的坐标组，计算出新增商品的外接矩形，然后，根据该外接矩形，可以通过“剪切操作”，从新增商品图像中，来获得新增商品截图。

步骤205：根据新增商品截图对应的新增商品特征，从本地索引库中匹配出新增商品名称。

在本申请实施例中，在获得新增商品截图之后，首先，可以将该新增商品截图输入深度卷积神经网络中，并根据深度卷积神经网络的隐藏层，来对新增商品截图进行多层次的抽象和提取特征，以获得新增商品截图对应的新增商品特征Feature。

然后，可以将该新增商品特征与本地索引库中已注册的商品特征进行匹配（比对），并将匹配分值最高的已注册的商品特征作为客户选取的新增商品。

最后，可以修改系统购物单，并更新前景图像BackImage为新增商品图像CurrImage，更新第一坐标列表CurrDet为第二坐标列表PrevDet，从而，为下一次的新增商品识别做准备。

在一种可能的实施方式中，当第一坐标组对应的商品与第二坐标组对应的商品为同种商品的不同款式（例如，均为A牌饮料，但是第一坐标组对应的A牌饮料为桃子味，外包装为粉色；第二坐标组对应的A牌饮料为薄荷味，外包装为绿色）时，它们所对应的坐标组同样满足上述公式（1），但它们却不是同一个商品。

因此，为了进一步提高智能购物车的商品识别准确率，在本申请实施例中，在确定第一坐标组对应的商品与第二坐标组对应的商品为同一个商品时，还可以进一步对第一坐标组对应的商品与第二坐标组对应的商品进行相似度判定。如图3所示，为本申请实施例提供的商品相似度判定的一种流程示意图，该方法可以通过图1中的基于智能购物车的商品识别设备10来执行。

步骤301：根据第一坐标组，从新增商品图像中，获得第一商品截图。

在本申请实施例中，可以直接根据第一坐标组，计算出第一坐标组对应的第一商品的外接矩形，然后，根据该外接矩形，可以通过“剪切操作”，从新增商品图像中，来获得第一商品截图。

步骤302：根据第二坐标组，从前景图像中，获得第二商品截图。

在本申请实施例中，可以直接根据第二坐标组，计算出第二坐标组对应的第二商品的外接矩形，然后，根据该外接矩形，可以通过“剪切操作”，从新增商品图像中，来获得第二商品截图。

步骤303：将第一商品截图与第二商品截图输入至第一特征提取模型中，输出第一商品截图对应的第一商品特征和第二商品截图对应的第二商品特征。

在本申请实施例中，由于是1比1识别，而且前后2张图像环境变化较小，因此，可以创建一个第一特征提取模型，来进行特征识别与提取，该第一特征提取模型是一个浅层全神经网络TinyGoodsRecogModel，且，为了更好的表现图像特征，还在第一特征提取模型加入了注意力机制SE。

具体的，第一特征提取模型可以包括输入层、中间层和输出层；其中，输入层用于对128×128×3大小的RGB图像进行输入，中间层可以包括依次连接的3个卷积模块、注意力SE层、1个卷积模块、池化层AdaptiveAvgPool2D以及全连接层；其中，卷积模块包括依次连接的多个卷积层、批标准化层和激活函数层。

进而，基于创建的第一特征提取模型，可以直接将第一商品截图与第二商品截图输入至该第一特征提取模型中进行特征识别与提取，从而，输出第一商品截图对应的第一商品特征和第二商品截图对应的第二商品特征。

步骤304：确定第一商品特征与第二商品特征之间的相似度值是否大于预设相似度阈值。

在本申请实施例中，可以采用余弦相似度或欧氏距离等方法，来确定第一商品特征与第二商品特征之间的相似度值，然后，根据该相似度值是否大于预设相似度阈值，来确定第一商品截图与第二商品截图是否为同一张图，即，来进一步确定第一坐标组对应的商品与第二坐标组对应的商品是否为同一个商品。

步骤305：若确定第一商品特征与第二商品特征之间的相似度值大于预设相似度阈值，则第一坐标组对应的商品与第二坐标组对应的商品是同一个商品，且将第一坐标组从第一坐标列表中进行删除。

在本申请实施例中，若确定第一商品特征与第二商品特征之间的相似度值大于预设相似度阈值，则可以将第一坐标组对应的商品与第二坐标组对应的商品认为是同一个商品；且为了提高计算效率，还可以将第一坐标组从第一坐标列表中进行删除，以及，将第二坐标组从第二坐标列表中进行删除。

在一种可能的实施方式中，为了进一步提高智能购物车的商品识别准确率，同时大大减少拍摄注册图像的工作量，在本申请实施例中，在将新增商品图像以及预设关键词输入至训练好的商品识别模型中进行识别，输出新增商品图像对应的第一坐标列表之前，还可以对注册时的物品图像进行数据增强，以及对各类商品注册进行丰富。具体的，如图4所示，为本申请实施例提供的商品注册的一种流程示意图，该方法可以通过图1中的基于智能购物车的商品识别设备10来执行。

步骤401：响应用户在购物系统上针对第三商品进行的点击操作，对第三商品进行拍摄，获得第三商品图像。

在本申请实施例中，首先，用户可以在购物系统上输入第三商品的ID和名称，然后，可以将第三商品放在购物车上，接下来，可以点击购物系统上注册按钮，进而，响应于用户在购物系统上针对第三商品进行的点击操作，对第三商品进行拍摄，以获得第三商品图像。

步骤402：将第三商品图像和预设关键词输入至训练好的商品识别模型中进行识别，输出第三商品对应的第三坐标组。

步骤403：将根据第三坐标组所获得的第三商品截图输入至数据增强模块中进行数据增强，获取多张数据增强后的第三商品截图。

在本申请实施例中，数据增强模块可以是基于ControlNet模型和StableDiffusion扩散模型获得的。

具体的，首先，根据第三坐标组，可以计算出第三商品的外接矩形，然后，根据该外接矩形，便可以采用“剪切”的方式，从第三商品图像中，获得第三商品截图。

进而，可以采用ControlNet模型中的预处理器Canny，对第三商品截图进行二值化，获得二值化后的第三商品截图；

然后，可以对用户输入的第一提示词进行分词，获得第一词向量。其中，第一提示词可以为“亮度降低10%”、“亮度增加6%”以及“添加5%的局部光照”等，在进行分词时，具体可以采用分词器Tokenizer来直接进行分词。

接下来，可以将第一词向量输入到第三特征提取模型中的CLIPText进行词编码，获得第二词向量。

然后，可以将二值化后的第三商品截图、第二词向量和一张随机噪声图输入至Stable Diffusion扩散模型中进行处理，并循环执行多次（例如，20次）之后，输出第三商品截图对应的压缩信息。

最后，可以将压缩信息输入至变分自编码（Variational Auto-Encoder，VAE）网络中，来生成一张数据增强后的第三商品截图。

在本申请实施例中，使用多组（例如，20组）不同的提示词与第三商品截图进行搭配，并将不同搭配分别执行上述的数据增强过程，从而，便可以得到多张数据增强后的第三商品截图了。

步骤404：将多张数据增强后的第三商品截图输入至第二特征提取模型中进行特征提取，获得多个商品特征。

在本申请实施例中，可以将多张数据增强后的第三商品截图输入至第二特征提取模型中进行特征提取，来获得多个商品特征，例如，可以获得每一张数据增强后的第三商品截图的1024字节的特征向量。

步骤405：在购物系统中，将多个商品特征与第三商品的ID进行关联。

在本申请实施例中，在获取了第三商品对应的多个商品特征之后，便可以直接在购物系统中，将多个商品特征与第三商品的ID和名称进行关联。进而，相比于现有技术的“1个商品对应一张商品图像以及一个商品特征”的情况，本申请不仅通过丰富商品特征，来进一步提高了智能购物车的商品识别准确率，还大大减少了拍摄注册图像的工作量。

在一种可能的实施方式中，在将新增商品图像以及预设关键词输入至训练好的商品识别模型中进行识别，输出新增商品图像对应的第一坐标列表之前，在本申请实施例中，还可以对初始商品识别模型进行训练，来获得训练好的商品识别模型。具体的，如图5所示，为本申请实施例提供的训练商品识别模型的一种流程示意图，该方法可以通过图1中的基于智能购物车的商品识别设备10来执行，具体的，该方法的流程介绍如下。

步骤501：根据预设的商品数据集以及预设关键词，对初始商品识别模型进行训练，获得模型预测结果。

在本申请实施例中，首先，可以根据多个公开数据集（例如，AliProduct数据集、RP2K数据集以及Product10K数据集等）与超市实际购物车场景数据集，来构建一个大规模的初始商品数据集。然后，为了进一步提高智能购物车的商品识别准确率，还可以对初始商品数据集进行数据清洗，来获得清洗后的商品数据集，此时，可以将该清洗后的商品数据集作为预设的商品数据集。进而，便可以根据该预设的商品数据集与预设关键词，来对初始商品识别模型进行训练，以获得模型预测结果。

步骤502：根据模型预测结果，获得多个交叉熵损失函数值。

在本申请实施例中，在进行模型训练时，除了获得模型预测结果，还可以获得标签结果，进而，便可以直接根据模型预测结果和标签结果，来获得多个交叉熵损失函数值，以不断更新模型的权重。在这一步，可以通过计算不同的辅助损失函数来调整不同粒度的网络的学习权重。

步骤503：根据多个交叉熵损失函数值，对初始商品识别模型中的不同阶段的学习权重进行更新，获得训练好的商品识别模型。

在本申请实施例中，在初始商品识别模型的不断训练过程中，随着训练图像的逐渐增多，初始商品识别模型会根据图像的信息不断进行迭代的训练，从而，是的初始商品识别模型会学习到不同商品图像的特征信息，以有效的区分不同商品图像的商品特征。

在一种可能的实施方式中，为了进一步提高智能购物车的商品识别准确率，在获取了背景图像与新增商品图像之后，还可以对背景图像与新增商品图像进行去噪、缩放、裁剪，归一化等操作。

综上所述，在本申请实施例中，由于训练好的商品识别模型是基于开放集对象检测算法Grounding DINO获得的，因此，相比于现有技术，本申请可以通过理解和关联新增商品图像与预设关键词之间的关系，来有效提高检测的召回率，从而，达到提高智能购物车的商品识别准确率的目的。

此外，由于在进行商品注册时，还采用了基于ControlNet模型和StableDiffusion扩散模型所获得的数据增强模块，来对注册商品图像进行数据增强，因此，相比于现有技术的“1个商品对应一张商品图像以及一个商品特征”的情况，本申请不仅可以通过丰富商品特征，来进一步提高智能购物车的商品识别准确率，还可以大大减少拍摄注册图像的工作量。

基于同一发明构思，本申请实施例提供一种基于智能购物车的商品识别装置60，如图6所示，该基于智能购物车的商品识别装置60包括：

新增商品图像获得单元601，用于若确定智能购物车内商品重量的变化值大于预设重量值，则对智能购物车内的商品进行拍摄，获得新增商品图像；

坐标列表输出单元602，用于将新增商品图像以及预设关键词输入至训练好的商品识别模型中进行识别，输出新增商品图像对应的第一坐标列表；其中，训练好的商品识别模型是基于开放集对象检测算法Grounding DINO获得的；第一坐标列表中包括新增商品图像中的各个商品各自对应的坐标组；坐标组包括商品的坐标、宽和高；

坐标组确定单元603，用于将第一坐标列表与前景图像对应的第二坐标列表进行匹配，确定出新增商品的坐标组；

新增商品截图获得单元604，用于根据新增商品的坐标组，从新增商品图像中，获得新增商品截图；

新增商品名称匹配单元605，用于根据新增商品截图对应的新增商品特征，从本地索引库中匹配出新增商品名称。

可选的，坐标组确定单元603，还用于：

针对第一坐标列表中的任一个第一坐标组，以及，第二坐标列表中的任一个第二坐标组，将第一坐标组中的x坐标组中的x坐标、y坐标、宽和高，与第二坐标组中的x坐标、y坐标、宽和高一一对应进行作差求绝对值，分别获得x坐标绝对差值、y坐标绝对差值、宽绝对差值和高绝对差值；

确定x坐标绝对差值与y坐标绝对差值的和是否小于第一预设差值，以及，确定宽绝对差值与高绝对差值的和是否小于第二预设差值；

若确定x坐标绝对差值与y坐标绝对差值的和小于第一预设差值，以及，确定宽绝对差值与高绝对差值的和小于第二预设差值，则第一坐标组对应的商品与第二坐标组对应的商品为同一个商品，且将第一坐标组从第一坐标列表中进行删除。

可选的，坐标组确定单元603，还用于：

根据第一坐标组，从新增商品图像中，获得第一商品截图；

根据第二坐标组，从前景图像中，获得第二商品截图；

将第一商品截图与第二商品截图输入至第一特征提取模型中，输出第一商品截图对应的第一商品特征和第二商品截图对应的第二商品特征；

确定第一商品特征与第二商品特征之间的相似度值是否大于预设相似度阈值；

若确定第一商品特征与第二商品特征之间的相似度值大于预设相似度阈值，则第一坐标组对应的商品与第二坐标组对应的商品是同一个商品，且将第一坐标组从第一坐标列表中进行删除。

可选的，该基于智能购物车的商品识别装置60还包括商品注册单元606，商品注册单元606，用于：

响应用户在购物系统上针对第三商品进行的点击操作，对第三商品进行拍摄，获得第三商品图像；

将第三商品图像和预设关键词输入至训练好的商品识别模型中进行识别，输出第三商品对应的第三坐标组；

将根据第三坐标组所获得的第三商品截图输入至数据增强模块中进行数据增强，获取多张数据增强后的第三商品截图；其中，数据增强模块是基于ControlNet模型和Stable Diffusion扩散模型获得的；

将多张数据增强后的第三商品截图输入至第二特征提取模型中进行特征提取，获得多个商品特征；

在购物系统中，将多个商品特征与第三商品的ID进行关联。

可选的，商品注册单元606，还用于：

采用ControlNet模型中的预处理器对第三商品截图进行二值化，获得二值化后的第三商品截图；

对用户输入的第一提示词进行分词，获得第一词向量；

将二值化后的第三商品截图、第二词向量和一张随机噪声图输入至StableDiffusion扩散模型中，输出第三商品截图对应的压缩信息；

将压缩信息输入至变分自编码网络中，生成一张数据增强后的第三商品截图。

可选的，该基于智能购物车的商品识别装置60还包括模型训练单元607，模型训练单元607，用于：

根据模型预测结果，获得多个交叉熵损失函数值；

根据多个交叉熵损失函数值，对初始商品识别模型中的不同阶段的学习权重进行更新，获得训练好的商品识别模型。

该基于智能购物车的商品识别装置60可以用于执行图2-图5所示的实施例中所执行的方法，因此，对于该基于智能购物车的商品识别装置60的各功能模块所能够实现的功能等可参考图2-图5所示的实施例的描述，不多赘述。

在一些可能的实施方式中，本申请提供的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤，例如，所述计算机设备可以执行如图2-图5所示的实施例中所执行的方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于智能购物车的商品识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述将所述第一坐标列表与前景图像对应的第二坐标列表进行匹配，确定出新增商品的坐标组的步骤，包括：

3.如权利要求2所述的方法，其特征在于，所述若确定所述x坐标绝对差值与所述y坐标绝对差值的和小于第一预设差值，以及，确定所述宽绝对差值与所述高绝对差值的和小于第二预设差值，则所述第一坐标组对应的商品与所述第二坐标组对应的商品为同一个商品，且将所述第一坐标组从所述第一坐标列表中进行删除的步骤，包括：

4.如权利要求1所述的方法，其特征在于，在将所述新增商品图像以及预设关键词输入至训练好的商品识别模型中进行识别，输出所述新增商品图像对应的第一坐标列表之前，所述方法还包括：

5.如权利要求4所述的方法，其特征在于，所述将根据所述第三坐标组所获得的第三商品截图输入至数据增强模块中进行数据增强，获取多张数据增强后的第三商品截图的步骤，包括：

对用户输入的第一提示词进行分词，获得第一词向量；

6.如权利要求1所述的方法，其特征在于，在将所述新增商品图像以及预设关键词输入至训练好的商品识别模型中进行识别，输出所述新增商品图像对应的第一坐标列表之前，所述方法还包括：

根据所述模型预测结果，获得多个交叉熵损失函数值；

7.如权利要求3所述的方法，其特征在于，所述第一特征提取模型包括输入层、中间层和输出层；其中，所述输入层用于对128×128×3大小的RGB图像进行输入，中间层包括依次连接的3个卷积模块、注意力SE层、1个卷积模块、池化层AdaptiveAvgPool2D以及全连接层；其中，所述卷积模块包括依次连接的多个卷积层、批标准化层和激活函数层。

8.一种基于智能购物车的商品识别装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述设备包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行权利要求1-7中任一所述的方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行权利要求1-7中任一所述的方法。