CN115909358B

CN115909358B - 商品规格识别方法、装置、终端设备及计算机存储介质

Info

Publication number: CN115909358B
Application number: CN202210893427.3A
Authority: CN
Inventors: 林木兴; 丁明; 王杰; 陈应文; 徐洪亮; 许洁斌
Original assignee: Guangzhou Xuanwu Wireless Technology Co Ltd
Current assignee: Guangzhou Xuanwu Wireless Technology Co Ltd
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2024-02-13
Anticipated expiration: 2042-07-27
Also published as: CN115909358A

Abstract

本申请公开了一种商品规格识别方法、装置、终端设备及计算机存储介质，包括获取商品陈列图像，对商品规格进行划分，得到商品规格分档库；分别利用通用商品检测模型和目标商品检测模型对所述商品陈列图像进行检测，将检测后的结果进行合并，输出商品检测结果；利用场景分层模型对所述商品陈列图像进行识别和分层，输出分层检测结果；利用所述商品检测结果和所述分层检测结果，构造商品陈列图像中每一层的商品序列；根据所述商品规格分档库和所述商品序列，训练得到商品序列编码模型，利用所述商品序列编码模型进行商品规格识别。本申请能够实现商品规格的有效识别，打破现有方法的对数据要求的严苛性及对场景通用的局限性，具有较好的通用性。

Description

商品规格识别方法、装置、终端设备及计算机存储介质

技术领域

本申请涉及计算机视觉及人工智能技术领域，尤其涉及一种商品规格识别方法、装置、终端设备及计算机存储介质。

背景技术

在快消零售领域，为了更好的制定市场投放策略，需要经常对线下渠道的商店进行核查，核查各种规格的商品在货架上的占有率。传统的人工巡店方式，耗费大量人力且信息更新不及时，不能满足企业对精准、及时的数据需求。随着计算机视觉技术的发展，采用图像识别和目标检测技术来获取货架商品图片上的各个商品的信息已经成为了当前业界主流。然而，货架商品图片中各商品的成像受拍摄人的拍摄习惯和拍摄环境等主观或客观条件的影响，导致不同规格的商品所成的像差别甚微，难以从商品陈列图片中识别出与每个商品所对应的规格信息。因此如何进行商品规格识别成为业界亟需解决的难点之一。

现有技术中，通常采用文字识别技术(OCR)的方法或参照物与实际物体的比例换算的方法，实现商品陈列图片中商品规格的识别。对于OCR技术，因为物体间遮挡、拍摄距离远等原因，导致难以获取清晰的图片，通过识别商品规格相关文字的方法，难以应用，可实施性不强；而参照物比例换算的方法需要维护庞大的参照物比例库，而且现实中陈列摆放和拍摄的随机性也导致所成的图像中无参照物存在而使该方法失效。

发明内容

本申请的目的在于提供一种商品规格识别方法、装置、终端设备及计算机存储介质，以解决现有技术无法准确、有效识别商品规格的问题。

为实现上述目的，本申请提供一种商品规格识别方法，包括：

获取商品陈列图像，对商品规格进行划分，得到商品规格分档库；

分别利用通用商品检测模型和目标商品检测模型对所述商品陈列图像进行检测，将检测后的结果进行合并，输出商品检测结果；

利用场景分层模型对所述商品陈列图像进行识别和分层，输出分层检测结果；

利用所述商品检测结果和所述分层检测结果，构造商品陈列图像中每一层的商品序列；

根据所述商品规格分档库和所述商品序列，训练得到商品序列编码模型，利用所述商品序列编码模型进行商品规格识别。

进一步地，所述对所述商品规格进行划分，包括：

根据商品实物大小之间的高度差或净含量信息，对商品规格进行不同档次的划分。

进一步地，所述分别利用通用商品检测模型和目标商品检测模型对所述商品陈列图像进行检测，将检测后的结果进行合并，输出商品检测结果，包括：

分别利用通用商品检测模型和目标商品检测模型对所述商品陈列图像进行检测，生成第一结果和第二结果；其中，

所述通用商品检测模型用于检测出商品陈列图像中的所有商品，所述目标商品检测模型用于检测出商品陈列图像中的所有目标商品并进行商品分类；

计算第一结果与第二结果的交并比，判断所述交并比是否大于预设阈值；

若是，则将第二结果作为商品检测结果；

若否，则将第一结果作为商品检测结果。

进一步地，所述通用商品检测模型和所述目标商品检测模型均根据CascadeFaster RCNN网络训练得到。

进一步地，所述场景分层模型根据SOLOv2网络训练得到。

进一步地，所述利用所述商品检测结果和所述分层检测结果，构造商品陈列图像中每一层的商品序列，包括：

对分层检测结果中的分层检测框基于质心的垂直坐标在垂直方向进行排序；

遍历所有商品检测框，计算每个商品检测框的质心，并根据引射线法将商品检测框与分层检测框进行匹配；

基于每个分层检测框的商品，将质心的横坐标在水平方向进行排序，得到商品陈列图像中每一层的商品序列。

进一步地，在所述根据所述商品规格分档库和所述商品序列，训练得到商品序列编码模型之前，还包括：

确定深度学习序列编码网络，包括Encoder模块和Decoder模块；

基于所述深度学习序列编码网络，采用Transformers网络构建原始的商品序列编码模型。

本申请还提供一种商品规格识别装置，包括：

规格划分单元，用于获取商品陈列图像，对商品规格进行划分，得到商品规格分档库；

商品检测单元，用于分别利用通用商品检测模型和目标商品检测模型对所述商品陈列图像进行检测，将检测后的结果进行合并，输出商品检测结果；

分层检测单元，用于利用场景分层模型对所述商品陈列图像进行识别和分层，输出分层检测结果；

商品序列确定单元，用于利用所述商品检测结果和所述分层检测结果，构造商品陈列图像中每一层的商品序列；

商品规格识别单元，用于根据所述商品规格分档库和所述商品序列，训练得到商品序列编码模型，利用所述商品序列编码模型进行商品规格识别。

本申请还提供一种终端设备，包括：

一个或多个处理器；

存储器，与所述处理器耦接，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上任一项所述的商品规格识别方法。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的商品规格识别方法。

相对于现有技术，本申请的有益效果在于：

1)本申请不依赖与参照物，对图像质量有较好的兼容效果，不同于现有方法只对特定场景才能适用，因此本申请具有较好的通用性；

2)区别于现有的方法通常以参照物换算或OCR技术进行商品规格识别，本申请以商品序列的角度进行建模，将计算机视觉技术和数据智能技术结合，将商品规格识别问题转化成序列编码预测，因此能够更准确、有效地进行商品识别；

3)本申请在构造商品序列编码模型时提出了一种label free的训练模式，相较于现有方法，在数据量有限的情况下，可以达到较优的效果。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请某一实施例提供的商品规格识别方法的流程示意图；

图2是图1中步骤S20的子步骤的流程示意图；

图3是图1中步骤S40的子步骤的流程示意图；

图4是本申请又一实施例提供的商品规格识别方法的流程示意图；

图5是本申请某一实施例提供的基于深度学习的序列编码模型的结构示意图；

图6是本申请某一实施例提供的商品规格识别方法的步骤程序框图；

图7是本申请某一实施例提供的商品规格识别装置的结构示意图；

图8是本申请某一实施例提供的终端设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

应当理解，在本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，本申请某一实施例提供一种商品规格识别方法。如图1所示，该商品规格识别方法包括步骤S10至步骤S50。各步骤具体如下：

S10、获取商品陈列图像，对商品规格进行划分，得到商品规格分档库。

本步骤中，首先获取快销领域真实场景下的商品陈列图像，例如货架柜、冰柜、自动售货机等真实快销场景。优选地，通常要获取不同角度、不同光照强度下的商品陈列图像，以确保图片的真实性和全面性。

获取了商品陈列图像之后，需要进一步对商品规格进行划分。在一个具体地实施例中，对于商品规格的划分方法具体为：通过对商品的实物大小之间高度差异及净含量相关信息，对商品规格进行不同档次的划分，例如若商品为可乐，那么按照净含量信息可以将可乐分为：350ML、500ML、600ML、1500ML等等。如果按照实物大小的高度差异划分，可以得到500ml可乐瓶子的高度为35cm，300ml可乐瓶子的高度则为15cm等等。在划分完成之后，则可以得到一个商品规格分档库，该库记录了刚划分的所有商品种类所对应的规格。

S20、分别利用通用商品检测模型和目标商品检测模型对所述商品陈列图像进行检测，将检测后的结果进行合并，输出商品检测结果。

本步骤中，首先需要训练出一个通用商品检测模型和一个目标商品检测模型。

具体地，基于步骤S10中收集的不同角度、光照下的商品陈列图片，先训练一个通用的商品检测模型，用于检测商品陈列图像中的所有商品，但不用进行商品分类。同时，在利用上述商品陈列图片训练一个基于目标商品的目标商品检测模型，用于检测识别图片中所有目标商品，并包含商品分类功能。

在一个具体地实施方式中，所述通用商品检测模型和所述目标商品检测模型均根据Cascade Faster RCNN网络训练得到。

示例性的，例如先基于Cascade Faster RCNN网络结构，利用采集的商品陈列图像来训练该Cascade Faster RCNN网络，可以将商品陈列图像直接作为模型输入，而商品图像作为模型输出，训练至模型收敛后得到一个通用商品检测模型。而该模型的作用主要是能够识别出商品陈列图像的所有商品，无需对它们分类。

进一步地，还是基于Cascade Faster RCNN网络结构，利用采集的商品陈列图像来训练该Cascade Faster RCNN网络。为了能够使得最终的模型能够具有商品分类功能，首先确定出目标商品，然后可以将商品陈列图像直接作为模型输入，而将分类后的商品图像作为模型输出，训练至模型收敛后，得到一个目标商品检测模型。而该模型不仅能够识别出商品陈列图像的所有商品，还具有分类功能。

当得到通用商品检测模型和目标商品检测模型，接下来则进入商品检测过程。先分别利用通用商品检测模型和目标商品检测模型对商品陈列图像进行检测，将检测后的结果进行合并，输出商品检测结果。

请参阅图2，在一个具体地实施方式中，步骤S20具体包括以下内容：

S201、分别利用通用商品检测模型和目标商品检测模型对所述商品陈列图像进行检测，生成第一结果和第二结果；

S202、计算第一结果与第二结果的交并比，判断所述交并比是否大于预设阈值；

S203、若是，则将第二结果作为商品检测结果；

S204、若否，则将第一结果作为商品检测结果。

本实施例中，主要是将两个检测模型的检测框之间，两两进行交并比，也即iou计算，若iou大于预设阈值，则识别结果采用目标商品检测模型的检测结果，否则保留通用检测模型结果，作为商品检测结果。

S30、利用场景分层模型对所述商品陈列图像进行识别和分层，输出分层检测结果。

本步骤中，应用图像分割技术，训练场景分层模型，对图片中的场景进行识别并分层。具体为根据上述不同角度、光照的商品陈列图片，训练出一个场景分层模型，用于分割识别图片中货架或冰柜等场景的层数及分层框。作为优选地，该场景分层模型可以根据SOLOv2网络训练得到。

S40、利用所述商品检测结果和所述分层检测结果，构造商品陈列图像中每一层的商品序列。

在一个具体地实施例中，步骤S40又包括以下内容：

S401、对分层检测结果中的分层检测框基于质心的垂直坐标在垂直方向进行排序。优选地，通常可以在垂直方向上按照从上到下的顺序依次排序。

S402、遍历所有商品检测框，计算每个商品检测框的质心，并根据引射线法将商品检测框与分层检测框进行匹配。

具体地，将商品检测框与分层检测框进行匹配指的是，判断每个商品检测框属于哪一个分层检测框。

需要说明的是，判断一个点是否在多边形内部通常包括以下几种方法，如面积和判别法、夹角和判别法以及引射线法。其中，引射线法是指从目标点出发引一条射线，看这条射线和多边形所有边的交点数目。如果有奇数个交点，则说明在内部，如果有偶数个交点，则说明在外部。优选地，此处采用引射线法。

S403、基于每个分层检测框的商品，将质心的横坐标在水平方向进行排序，得到商品陈列图像中每一层的商品序列。

作为优选地，本步骤可以基于质心的横坐标进行从左到右排序，构造出图片中每一层的商品序列。

S50、根据所述商品规格分档库和所述商品序列，训练得到商品序列编码模型，利用所述商品序列编码模型进行商品规格识别。

请参阅图4，在某一个实施例中，在执行步骤S50之前，还包括：

S60、确定深度学习序列编码网络，包括Encoder模块和Decoder模块。其中，该深度学习序列编码网络的结构示意图如图5所示。

S70、基于所述深度学习序列编码网络，采用Transformers网络构建原始的商品序列编码模型。

本步骤中，基于步骤S40的每一层的商品序列，计算每个检测框的宽和高，然后基于检测框类别以及步骤S10得到的商品规格分档库，将每层识别的商品进行规格分档。特别地，对于没有类别的商品检测框，根据同层附近已知规格档次的商品，对比二者的检测框宽高大小来估算其规格档次。

进一步地，执行步骤S50，作为优选地实施方式，此处采用Transformers网络构建原始的商品序列编码模型。以每一层的商品档次序列，检测宽和高，以及分层框宽高为输入训练深度学习序列编码网络。特别地，一旦每一层的商品档次序列构建完成后，序列是label free的，即可以不关心其类别，基于此特性，为增强训练数据，可以随机mask掉序列中部分商品规格档次或替换其规格档次，通过序列编码网络预测mask掉或替换掉的商品的规格档次，来进行商品的规格识别训练。

最后，将训练好的商品序列编码模型应用于商品规格识别任务中，具体地，通过调用商品识别模型及场景分层识别模型，构建得到待识别图片的每一层的商品档次序列，mask掉存在规格问题的商品，输入到训练好的深度学习序列编码网络，预测mask位置的商品规格，若输入与预测不一致，则修改为预测的商品规格对应的类别。

在一个具体地实施例中，还提供了本申请的商品规格识别方法的步骤程序框图，如图6所示。基于该图，本实施例以快消零售中的饮料行业为例，对本申请提供的商品规格识别方法的具体实施过程进行阐述。可以理解的是，本申请可以应用于快销行业中包括且不限于饮料、食品、日化和酒类等行业领域。下面结合图6对各个步骤进行具体说明。

(1)获取待识别的饮料行业陈列图像，包括了货架陈列和冰柜陈列；

(2)建立商品规格分档库。具体的，通过对目标商品的实物大小之间高度差异及净含量相关信息，对商品进行的规格进行不同档次的划分；

(3)应用目标检测与识别技术，训练商品识别检测模型，识别图像中的商品。具体包括：

(3-1)收集不同角度，光照的商品陈列图片，包括了货架陈列和冰柜陈列；

(3-2)训练一个通用的商品检测模型，用于检测图片中所有商品，但不分类。本实施例中，选用Cascade Faster RCNN作为通用商品检测模型，该模型只有一个类别，标签为bottle。

(3-3)训练一个基于目标商品的商品检测识别模型，用于检测识别图片中所有目标商品，包括识别分类。本实施例中，选择用于实例分割的Cascade Mask RCNN作为目标商品的识别模型，该模型类别有982个，标签为需要建模的目标商品类别标签。

(3-4)将上述的两个检测模型的识别结果进行融合，具体的，两个检测模型的检测框之间，两两进行iou计算，本实施例的iou设置为0.8，若iou大于预设阈值(0.8)，则识别结果采用目标商品检测模型的检测结果，否则保留通用检测模型结果。

(4)应用图像分割技术，训练场景分层模型，对图片中的场景进行识别并分层。具体包括：

(4-1)收集不同角度，光照的商品陈列图片，包括了货架陈列和冰柜陈列等；

(4-2)训练一个场景分层模型，用于分割识别图片中货架或冰柜等场景的层数及分层框。本实施例中，选择实例分割模型SOLOv2作为场景分层识别模型，该模型只有一个类别，设计其标签为layer。

(5)将步骤(3)和步骤(4)中得到的商品识别结果与场景分层识别结果进行融合，构造出图片中每一层的商品序列。具体包括：

(5-1)对场景分层识别结果中的分层检测框基于质心的垂直坐标进行从上到下排序。本实施例中，SOLOv2模型分割识别得到的分层检测框是多边形，为计算每个分层检测框的质心，这里采用三角剖分法进质心计算，得到分层检测框的质心坐标然后根据每个分层框的质心垂直坐标/>进行从上到下排序，并从1开始依次编号。

(5-2)遍历商品检测框，计算每个商品检测框的质心并根据引射线法判断每个商品检测框属于哪一个分层框，特别的，对于质心不在分层检测框内部的商品检测框，通过计算其质心与所有分层检测框的质心的欧式距离，将其归属于欧式距离最小的分层检测框中；

(5-3)将分属每个分层框的商品基于质心的横坐标进行从左到右排序，构造出图片中每一层的商品序列。

(6)设计深度学习序列编码网络，并基于步骤(5)中构造的商品序列进行训练，具体包括：

(6-1)设计深度学习序列编码网络，包括Encoder模块和Decoder模块，本实施例中，输入的是序列形式，故选择当前主流的Transformers模型作为编码模型；

(6-2)基于步骤(5)的每一层的商品序列，计算每个检测框的宽和高，然后基于检测框类别以及步骤(2)中商品规格分档库，将每层识别的商品进行规格分档。

特别地，对于没有类别的商品检测框，根据同层附近已知规格档次的商品，对比二者的检测框宽高大小来估算其规格档次。本实施例中，根据建模商品的净含量及宽高分布，将商品的规格档次分层了8档；

(6-3)以(6-2)中的每一层的商品档次序列C＝(c₁,c₂,…,c_n)，检测宽W＝(w₁,w₂,…,w_n)和高H＝(h₁,h₂,…,h_n)，以及分层框宽和高/>为输入训练深度学习序列编码网络，其中序列长度seq_len＝70，为方便描述，本实施例将每一层的商品规格档次序列中的元素称为token。具体的：首先对每个商品层序列中每个商品的检测框的宽和高分别除以其对应分层框的宽和高，进行归一化处理，然后构建形式如[C,W,H]的张量输入模型，其中输入维度为(seq_len,num_features)＝(70，3)；然后通过Embedding层，对原始数据进行一个1维卷积得到512维，另外采用Transformer中的Positional Embedding对序列进行位置编码，最后相加得到最后的输入。而在训练时，序列是label free的，即可以不关心其类别，所以随机mask掉序列中部分商品规格档次或替换其规格档次，然后输入到Transformers模块进行学习，最后输入到一个softmax分类器中预测mask掉位置的商品档次，分类器输出的维度对应分档数，使用交叉熵计算loss进行优化，相当于完形填空任务。

对于一个商品档次序列S，模型通过随机掩码，mask掉S中的k个tokens得到用/>表示被遮掩的tokens，则模型目标为通过/>重建/>

(7)将步骤(6)训练好的模型应用于商品t-规格识别任务中，具体的：通过调用商品识别模型及场景分层识别模型，构建得到待识别图片的每一层的商品档次序列，mask掉存在规格问题的商品，输入到训练好的深度学习序列编码网络，预测mask位置的商品规格，若输入与预测不一致，则修改为预测的商品规格对应的类别。

综上所述，本申请实施例提供的商品规格识别方法，通过计算机视觉计算构建通用商品检测模型，目标商品检测模型及场景分层检测模型，将图像中的商品检测识别成结构化的识别结果，然后采用数据智能技术将识别结果中进行二次建模，以实现商品规格识别的效果，进而打破现有方法的对数据要求的严苛性及对场景通用的局限性，具有较好的通用性，并能够更准确、有效地进行商品识别。同时，本实施例在构造商品序列编码模型时提出了一种label free的训练模式，在数据量有限的情况下，也能够达到较优的效果。

请参阅图7，本申请某一实施例还提供一种商品规格识别装置，包括：

规格划分单元01，用于获取商品陈列图像，对商品规格进行划分，得到商品规格分档库；

商品检测单元02，用于分别利用通用商品检测模型和目标商品检测模型对所述商品陈列图像进行检测，将检测后的结果进行合并，输出商品检测结果；

分层检测单元03，用于利用场景分层模型对所述商品陈列图像进行识别和分层，输出分层检测结果；

商品序列确定单元04，用于利用所述商品检测结果和所述分层检测结果，构造商品陈列图像中每一层的商品序列；

商品规格识别单元05，用于根据所述商品规格分档库和所述商品序列，训练得到商品序列编码模型，利用所述商品序列编码模型进行商品规格识别。

可以理解的是，本实施例提供的商品规格识别装置用于执行如上述任意一项实施例所述的商品规格识别方法，并实现与其相同的效果，此处不再进一步赘述。

请参阅图8，本申请某一实施例提供一种终端设备，包括：

一个或多个处理器；

存储器，与所述处理器耦接，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的商品规格识别方法。

处理器用于控制该终端设备的整体操作，以完成上述的商品规格识别方法的全部或部分步骤。存储器用于存储各种类型的数据以支持在该终端设备的操作，这些数据例如可以包括用于在该终端设备上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

在一示例性实施例中，终端设备可以被一个或多个应用专用集成电路(Application Specific 1ntegrated Circuit，简称AS1C)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行如上述任一项实施例所述的商品规格识别方法，并达到如上述方法一致的技术效果。

在另一示例性实施例中，还提供一种包括计算机程序的计算机可读存储介质，该计算机程序被处理器执行时实现如上述任一项实施例所述的商品规格识别方法的步骤。例如，该计算机可读存储介质可以为上述包括计算机程序的存储器，上述计算机程序可由终端设备的处理器执行以完成如上述任一项实施例所述的商品规格识别方法，并达到如上述方法一致的技术效果。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本申请的保护范围。

Claims

1.一种商品规格识别方法，其特征在于，包括：

根据所述商品规格分档库和所述商品序列，训练得到商品序列编码模型，利用所述商品序列编码模型进行商品规格识别；

其中，所述根据所述商品规格分档库和所述商品序列，训练得到商品序列编码模型，利用所述商品序列编码模型进行商品规格识别，包括：

设计深度学习序列编码网络，并基于所述商品序列进行训练，具体包括：

基于所述商品序列，计算每个检测框的宽和高，然后基于检测框类别以及所述商品规格分档库，将每层识别的商品进行规格分档；对于没有类别的商品检测框，根据同层附近已知规格档次的商品，对比二者的检测框宽高大小来估算其规格档次；

对每一层的商品档次序列，检测宽和高，以及分层框宽和高为输入训练深度学习序列编码网络，其中序列长度seq_len＝70，具体的：首先对每个商品层序列中每个商品的检测框的宽和高分别除以其对应分层框的宽和高，进行归一化处理，然后构建形式如[C,W,H]的张量输入模型，其中输入维度为(seq_len,num_features)＝(70，3)；然后通过Embedding层，对原始数据进行一个1维卷积得到512维，另外采用Transformer中的PositionalEmbedding对序列进行位置编码，最后相加得到最后的输入，而在训练时，序列是labelfree的，即不关心其类别，所以随机mask掉序列中部分商品规格档次或替换其规格档次，然后输入到Transformers模块进行学习，最后输入到一个softmax分类器中预测mask掉位置的商品档次，分类器输出的维度对应分档数，使用交叉熵计算loss进行优化；

对于一个商品档次序列，模型通过随机掩码，mask掉S中的k个tokens得到，用表示被遮掩的tokens，则模型目标为通过重建/>

将训练好的模型应用于商品规格识别任务中，具体的：通过调用商品识别模型及场景分层识别模型，构建得到待识别图片的每一层的商品档次序列，mask掉存在规格问题的商品，输入到训练好的深度学习序列编码网络，预测mask位置的商品规格，若输入与预测不一致，则修改为预测的商品规格对应的类别。

2.根据权利要求1所述的商品规格识别方法，其特征在于，所述对所述商品规格进行划分，包括：

3.根据权利要求1所述的商品规格识别方法，其特征在于，所述分别利用通用商品检测模型和目标商品检测模型对所述商品陈列图像进行检测，将检测后的结果进行合并，输出商品检测结果，包括：

若是，则将第二结果作为商品检测结果；

若否，则将第一结果作为商品检测结果。

4.根据权利要求1所述的商品规格识别方法，其特征在于，所述通用商品检测模型和所述目标商品检测模型均根据Cascade Faster RCNN网络训练得到。

5.根据权利要求1所述的商品规格识别方法，其特征在于，所述场景分层模型根据SOLOv2网络训练得到。

6.根据权利要求1所述的商品规格识别方法，其特征在于，所述利用所述商品检测结果和所述分层检测结果，构造商品陈列图像中每一层的商品序列，包括：

7.一种商品规格识别装置，其特征在于，包括：

商品规格识别单元，用于根据所述商品规格分档库和所述商品序列，训练得到商品序列编码模型，利用所述商品序列编码模型进行商品规格识别；

其中，所述商品规格识别单元，用于根据所述商品规格分档库和所述商品序列，训练得到商品序列编码模型，利用所述商品序列编码模型进行商品规格识别，包括：

8.一种终端设备，其特征在于，包括：

一个或多个处理器；

存储器，与所述处理器耦接，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6任一项所述的商品规格识别方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的商品规格识别方法。