CN113255748A

CN113255748A - 一种商品识别模型的特征底库更新方法及装置

Info

Publication number: CN113255748A
Application number: CN202110528936.1A
Authority: CN
Inventors: 宋志博; 刘思伟
Original assignee: Guangzhou Weaving Point Intelligent Technology Co ltd
Current assignee: Guangzhou Weaving Point Intelligent Technology Co ltd
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2021-08-13

Abstract

本申请公开了一种商品识别模型的特征底库更新方法及装置，本申请通过将新商品图像样本添加到原始图像数据集制作出图像特征底库，再把图像特征底库应用到商品识别模型，并利用商品识别模型对预设的商品验证样本集进行商品识别验证，将商品识别结果中的识别错误样本添加到该底库制作样本集，再利用更新后的新底库制作样本集，制作图像特征底库并进行商品识别验证，直至商品识别的准确度复核要求为止，通过本申请提供的方法可以避免重新训练模型需要的时间以及大量采集新商品数据的工作量，能够通过错误样本反馈的方式保证底库应用时特征对比的精度，使得门店商品上新的时间和上新的周期缩短，优化新零售的运行。

Description

一种商品识别模型的特征底库更新方法及装置

技术领域

本申请涉及图像处理技术领域，尤其涉及一种商品识别模型的特征底库更新方法及装置。

背景技术

随着人工智能技术的快速发展，使得基于深度学习的图像处理与识别算法性能得到极大提升，视觉图像处理与识别的应用逐渐深入到社会的各个方面，应用人工智能技术的“新零售”也逐渐从概念走向落地。

所谓“新零售”指的是运用新的技术和新的模式革新商品销售的各个环节甚至整个商业生态的无人化、智能化商品销售模式。

现有的新零售门店商品的上新普遍采用重新训练商品识别模型的策略，当商品的包装发生变化或者有少量商品需要上新时，普遍的做法是大量采取相应商品的图片进行图片的预处理，包括剔除无用照片、打标签、模型训练等，导致现有的新零售门店存在商品上新准备工作执行周期长、商品上新效率低的技术问题。

发明内容

本申请提供了一种商品识别模型的特征底库更新方法及装置，用于解决现有的新零售门店存在商品上新准备工作执行周期长、商品上新效率低的技术问题。

有鉴于此，本申请第一方面提供了一种商品识别模型的特征底库更新方法，包括：

采集新商品图像样本；

将所述新商品图像样本添加到原始图像数据集，得到第一图像数据集；

按照预设的第一抽样比例，从所述第一图像数据集中抽取商品图像样本，以所述商品图像样本作为底库制作样本集，并根据所述底库制作样本集制作图像特征底库；

将所述图像特征底库应用到商品识别模型，并利用所述商品识别模型对预设的商品验证样本集进行商品特征比对识别验证，以获得商品识别结果；

若所述商品识别结果的识别错误率不高于预设的错误上限阈值，则输出当前的图像特征底库，若所述商品识别结果的识别错误率高于预设的错误上限阈值，则将所述商品识别结果中的识别错误样本添加到所述底库制作样本集，得到更新后的底库制作样本集，并基于所述更新后的底库制作样本集制作新的图像特征底库，直至最新的图像特征底库对应的识别错误率不高于预设的错误上限阈值为止。

优选地，所述根据所述底库制作样本集制作图像特征底库的过程具体包括：

根据底库制作样本集中的商品图像样本，结合图像特征提取算法，提取所述商品图像样本的商品图像特征，其中所述图像特征提取算法与所述商品识别模型中使用的特征提取算法相对应；

通过特征聚类算法，对所述商品图像特征进行聚类处理，并基于聚类后的商品图像特征进行整合，得到图像特征底库。

优选地，所述商品验证样本集的获取过程具体包括：

按照预设的第二抽样比例，从所述第一图像数据集中抽取商品图像样本，以所述商品图像样本作为商品验证样本集。

优选地，还包括：

累计所述底库制作样本集的迭代更新次数，当所述底库制作样本集的迭代更新次数超过预设的迭代次数阈值时，输出最新的图像特征底库。

优选地，所述特征聚类算法具体为K-means聚类算法。

本申请第二方面提供了一种商品识别模型的特征底库更新装置，包括：

新商品图像采集模块，用于采集新商品图像样本；

第一数据集获取模块，用于将所述新商品图像样本添加到原始图像数据集，得到第一图像数据集；

图像特征底库生成模块，用于按照预设的第一抽样比例，从所述第一图像数据集中抽取商品图像样本，以所述商品图像样本作为底库制作样本集，并根据所述底库制作样本集制作图像特征底库；

商品识别处理模块，用于将所述图像特征底库应用到商品识别模型，并利用所述商品识别模型对预设的商品验证样本集进行商品特征比对识别验证，以获得商品识别结果；

图像特征底库更新模块，用于若所述商品识别结果的识别错误率不高于预设的错误上限阈值，则输出当前的图像特征底库，若所述商品识别结果的识别错误率高于预设的错误上限阈值，则将所述商品识别结果中的识别错误样本添加到所述底库制作样本集，得到更新后的底库制作样本集，并基于所述更新后的底库制作样本集制作新的图像特征底库，直至最新的图像特征底库对应的识别错误率不高于预设的错误上限阈值为止。

优选地，所述图像特征底库生成模块具体包括：

第一抽样子模块，用于按照预设的第一抽样比例，从所述第一图像数据集中抽取商品图像样本，以所述商品图像样本作为底库制作样本集；

特征提取子模块，用于根据底库制作样本集中的商品图像样本，结合图像特征提取算法，提取所述商品图像样本的商品图像特征，其中所述图像特征提取算法与所述商品识别模型中使用的特征提取算法相对应；

特征聚类子模块，用于通过特征聚类算法，对所述商品图像特征进行聚类处理，并基于聚类后的商品图像特征进行整合，得到图像特征底库。

优选地，还包括：

第二抽样模块，用于按照预设的第二抽样比例，从所述第一图像数据集中抽取商品图像样本，以所述商品图像样本作为商品验证样本集。

优选地，还包括：

图像特征底库更新控制模块，用于累计所述底库制作样本集的迭代更新次数，当所述底库制作样本集的迭代更新次数超过预设的迭代次数阈值时，输出最新的图像特征底库。

优选地，所述特征聚类算法具体为K-means聚类算法。

从以上技术方案可以看出，本申请具有以下优点：

本申请通过将所述新商品图像样本添加到原始图像数据集制作出图像特征底库，再把图像特征底库应用到商品识别模型，并利用所述商品识别模型对预设的商品验证样本集进行商品识别验证，将商品识别结果中的识别错误样本添加到该底库制作样本集，再利用更新后的新底库制作样本集，制作图像特征底库并进行商品识别验证，直至商品识别的准确度复核要求为止，通过本申请提供的方法可以避免重新训练模型需要的时间以及大量采集新商品数据的工作量，能够通过错误样本反馈的方式保证底库应用时特征对比的精度，使得门店商品上新的时间和上新的周期缩短，优化新零售的运行。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请提供的一种商品识别模型的特征底库更新方法的第一个实施例的流程示意图；

图2为本申请提供的一种商品识别模型的特征底库更新方法的第二个实施例的流程示意图；

图3为本申请提供的一种商品识别模型的特征底库更新装置的第一个实施例的流程示意图。

具体实施方式

目前，现有的新零售门店商品的上新普遍采用重新训练商品识别模型的策略，当商品的包装发生变化或者有少量商品需要上新时，普遍的做法是大量采取相应商品的图片进行图片的预处理，包括剔除无用照片、打标签、模型训练等，如果采用重新训练分类模型的策略，将采集的数据混入之前的分类数据集，在GTX1080上训练的话大概需要花费22小时的时长，耗费大量的时间成本来生成可用的商品分类模型。而且当只有极少数的商品外观发生改变或少量商品需要上新时，当采用重新训练商品分类模型的策略时，维护成本太高，直接影响商品零售运营的效率，因此导致了现有的新零售门店存在商品上新准备工作执行周期长、商品上新效率低的技术问题。

有鉴于此，本申请实施例提供了一种商品识别模型的特征底库更新方法及装置，用于解决现有的新零售门店存在商品上新准备工作执行周期长、商品上新效率低的技术问题。

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本申请一部分实施例，而非全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

请参阅图1，本申请第一个实施例提供了一种商品识别模型的特征底库更新方法，包括：

步骤101、采集新商品图像样本。

需要说明的是，首先，采集新商品的图像样本，门店商品上新步骤一般包括两个阶段，即数据处理阶段与底库建立阶段。其中数据处理阶段包括对上新商品图像的采集、图像样本目标标注与抠图；底库建立阶段包括底库图像的筛选、迭代聚类建立底库，输出底库投入运营。因此，在建立底库时首先需要做的是数据集的建立。数据集划分为训练集与验证集，训练集用以迭代聚类建立底库，验证集用以检验后续算法的准确性和底库的包容性。在注意事项上，由于建立的底库是用于后续商品零售场景，进行用户选购商品的识别。因此在前期采集各类上新商品图像的过程中优选商品图像为门店现场采集的商品实际效果图，并且采集的商品图像为上新商品每类的各个角度的图像，以便能够达到快速上新的目的。

步骤102、将新商品图像样本添加到原始图像数据集，得到第一图像数据集。

本实施例的步骤102紧接着步骤101，将采集到的新商品图像样本添加到原始图像数据集中，从而得到新的图像数据集，即第一图像数据集，其中，本申请提及的原始图像数据集可以选择采用该门店的商品识别模型所使用的图像数据集，以减少原始数据集的制作成本。

步骤103、按照预设的第一抽样比例，从第一图像数据集中抽取商品图像样本，以商品图像样本作为底库制作样本集，并根据底库制作样本集制作图像特征底库。

本实施例的步骤103紧接着步骤102，根据获得的第一图像数据集，按照预设的第一抽样比例从该第一图像数据集中抽取一定比例的商品图像样本，并以抽取出来的商品图像样本作为制作图像特征底库所要用到的底库制作样本集，从而制作图像特征底库。

步骤104、将图像特征底库应用到商品识别模型，并利用商品识别模型对预设的商品验证样本集进行商品特征比对识别验证，以获得商品识别结果。

本实施例的步骤104紧接着步骤103，将上一步骤得到的图像特征底库应用到商品识别模型中，通过应用了该图像特征底库的商品识别模型对商品验证样本集中包含的商品图像样本进行识别验证，从而获得相应的商品识别结果。

步骤105、若商品识别结果的识别错误率不高于预设的错误上限阈值，则输出当前的图像特征底库，若商品识别结果的识别错误率高于预设的错误上限阈值，则将商品识别结果中的识别错误样本添加到底库制作样本集，得到更新后的底库制作样本集，并基于更新后的底库制作样本集制作新的图像特征底库，直至最新的图像特征底库对应的识别错误率不高于预设的错误上限阈值为止。

本实施例的步骤105紧接着步骤104，利用特征对比的方法得到分类错误的有效样本，将其添加到原来的图像特征底库中，迭代生成新的图像特征底库，反复迭代，直到通过图像特征底库获得的商品识别结果的识别错误率不高于预设的错误上限阈值，错误上限阈值的取值最低可以为0％，这时的图像特征底库可以作为最终的图像特征底库输出。

通过本申请提供的商品识别模型的特征底库更新方法可以避免重新训练模型需要的时间以及大量采集新商品数据的工作量，能够通过错误样本反馈的方式保证底库应用时特征对比的精度，使得门店商品上新的时间和上新的周期缩短，优化新零售的运行。

以上为本申请提供的一种商品识别模型的特征底库更新方法的第一个实施例的详细说明，下面为本申请在上述第一个实施例的基础上提供的一种商品识别模型的特征底库更新方法的第二个实施例的详细说明。

请参阅图2，本申请第二个实施例提供了一种商品识别模型的特征底库更新方法，包括：

本实施例在第一个实施例的基础上，进一步地，步骤103提及的根据底库制作样本集制作图像特征底库的过程具体包括：

根据底库制作样本集中的商品图像样本，结合图像特征提取算法，提取商品图像样本的商品图像特征，其中图像特征提取算法与商品识别模型中使用的特征提取算法相对应；

通过特征聚类算法，对商品图像特征进行聚类处理，并基于聚类后的商品图像特征进行整合，得到图像特征底库。

进一步地，本实施例提及的商品验证样本集的获取过程具体包括：

步骤100、按照预设的第二抽样比例，从第一图像数据集中抽取商品图像样本，以商品图像样本作为商品验证样本集。

进一步地，还包括：

步骤106、累计底库制作样本集的迭代更新次数，当底库制作样本集的迭代更新次数超过预设的迭代次数阈值时，输出最新的图像特征底库。

进一步地，特征聚类算法具体为K-means聚类算法。

需要说明的是，为了更清楚地说明本申请的图像特征底库建立过程，本实施例提供了一个生成图像特征底库的示例，具体包括：对于一家零售商店而言，有少量商品的外观发生改变或者有少数商品需要上新(例如50类的商品)，则需要将上新的商品混入之前的分类数据集进行底库制作。在采集上新商品图像的数据集时每类商品采集50张，则共需采集2500张。

对于采集的2500张数据集，按照预设的抽样比例，按每类随机抽取30张制作训练集，剩下的每类20张用作验证集。将抽取后的数据集各自合并，遍历训练集，将图片输入门店正在使用的商品识别模型，利用该商品识别模型的特征提取算法，提取每张图片的商品特征，将所有的特征保存在json格式文件中。接着读取json文件中的特征数据，将数据输入K-Means聚类算法，按每类商品聚类到约10个特征向量，以避免特征向量的个数太多，增加后续分类时余弦距离计算量，会导致分类速度减慢的情况，接着再把聚类后的特征向量保存在json文件中，从而得到图像特征底库。

基于上述生成的图像特征底库，将该底库应用于商品验证样本集进行商品识别验证，一般情况下该图像特征底库尚不能对所有的图像数据分类都有效果，将会有部分图像的分类识别结果是错误的。

接着，将筛选出的错误的有效样本混入当前的底库制作样本集，从而组成新的底库制作样本集，将新的底库制作样本集遍历并输入上新前的模型得到提取的商品特征，将特征输入聚类网络得到每类商品10个特征向量并保存，从而得到新的图像特征底库。

然后基于该新的图像特征底库，再次结合之前的商品验证样本集进行商品识别验证，若迭代次数未超过限制阈值或识别准确度未达到预期的效果则继续将错误的有效样本混入当前的底库制作样本集，迭代生成新的图像特征底库，直至迭代次数超过限制阈值或识别准确度达到预期的效果为止，最终得到门店商品的底库。采用上述方法，可以避免重新训练模型需要的时间以及大量采集上新商品数据的工作量，能够通过错误样本反馈的方式保证底库应用时特征对比的精度，使得门店商品上新的时间和上新的周期缩短，优化新零售的运行。

以上为本申请提供的一种商品识别模型的特征底库更新方法的第二个实施例的详细说明，下面为本申请提供的一种商品识别模型的特征底库更新装置的一个实施例的详细说明。

请参阅图3，本申请第三个实施例提供了一种商品识别模型的特征底库更新装置，包括：

新商品图像采集模块201，用于采集新商品图像样本；

第一数据集获取模块202，用于将新商品图像样本添加到原始图像数据集，得到第一图像数据集；

图像特征底库生成模块203，用于按照预设的第一抽样比例，从第一图像数据集中抽取商品图像样本，以商品图像样本作为底库制作样本集，并根据底库制作样本集制作图像特征底库；

商品识别处理模块204，用于将图像特征底库应用到商品识别模型，并利用商品识别模型对预设的商品验证样本集进行商品特征比对识别验证，以获得商品识别结果；

图像特征底库更新模块205，用于若商品识别结果的识别错误率不高于预设的错误上限阈值，则输出当前的图像特征底库，若商品识别结果的识别错误率高于预设的错误上限阈值，则将商品识别结果中的识别错误样本添加到底库制作样本集，得到更新后的底库制作样本集，并基于更新后的底库制作样本集制作新的图像特征底库，直至最新的图像特征底库对应的识别错误率不高于预设的错误上限阈值为止。

进一步地，图像特征底库生成模块203具体包括：

第一抽样子模块2031，用于按照预设的第一抽样比例，从第一图像数据集中抽取商品图像样本，以所述商品图像样本作为底库制作样本集；

特征提取子模块2032，用于根据底库制作样本集中的商品图像样本，结合图像特征提取算法，提取商品图像样本的商品图像特征，其中图像特征提取算法与商品识别模型中使用的特征提取算法相对应；

特征聚类子模块2033，用于通过特征聚类算法，对商品图像特征进行聚类处理，并基于聚类后的商品图像特征进行整合，得到图像特征底库。

进一步地，还包括：

第二抽样模块200，用于按照预设的第二抽样比例，从第一图像数据集中抽取商品图像样本，以商品图像样本作为商品验证样本集。

进一步地，还包括：

图像特征底库更新控制模块206，用于累计底库制作样本集的迭代更新次数，当底库制作样本集的迭代更新次数超过预设的迭代次数阈值时，输出最新的图像特征底库。

进一步地，特征聚类算法具体为K-means聚类算法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例，例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种商品识别模型的特征底库更新方法，其特征在于，包括：

采集新商品图像样本；

2.根据权利要求1所述的一种商品识别模型的特征底库更新方法，其特征在于，所述根据所述底库制作样本集制作图像特征底库的过程具体包括：

3.根据权利要求1所述的一种商品识别模型的特征底库更新方法，其特征在于，所述商品验证样本集的获取过程具体包括：

4.根据权利要求1所述的一种商品识别模型的特征底库更新方法，其特征在于，还包括：

5.根据权利要求2所述的一种商品识别模型的特征底库更新方法，其特征在于，所述特征聚类算法具体为K-means聚类算法。

6.一种商品识别模型的特征底库更新装置，其特征在于，包括：

新商品图像采集模块，用于采集新商品图像样本；

7.根据权利要求6所述的一种商品识别模型的特征底库更新装置，其特征在于，所述图像特征底库生成模块具体包括：

8.根据权利要求6所述的一种商品识别模型的特征底库更新装置，其特征在于，还包括：

9.根据权利要求6所述的一种商品识别模型的特征底库更新装置，其特征在于，还包括：

10.根据权利要求7所述的一种商品识别模型的特征底库更新装置，其特征在于，所述特征聚类算法具体为K-means聚类算法。