CN113344012B

CN113344012B - 物品识别方法、装置及设备

Info

Publication number: CN113344012B
Application number: CN202110796742.XA
Authority: CN
Inventors: 陈圣; 曾定衡; 吴海英; 周迅溢; 蒋宁; 王洪斌; 唐东凯
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2022-08-23
Anticipated expiration: 2041-07-14
Also published as: CN113344012A

Abstract

本发明实施例提供一种物品识别方法、装置及设备，该方法包括：获取待识别物品的目标图像；将目标图像分别输入特征检索模型和属性分类模型，以分别输出目标图像对应的目标检索特征和目标属性特征，其中目标检索特征用于表征待识别物品的类别特征、目标属性特征用于表征待识别物品的颜色特征以及形状特征；确定目标检索特征和目标属性特征与预设特征的相似度，并根据相似度确定分类结果预测分值；根据分类结果预测分值，确定待识别物品的分类结果。本发明实施例提供的物品识别方法操作方便，不需要提前给物品黏贴标签，识别效率高、且成本较低。

Description

物品识别方法、装置及设备

技术领域

本发明实施例涉及深度学习技术领域，尤其涉及一种物品识别方法、装置及设备。

背景技术

目前，在超市等场所购买物品时，需要超市工作人员来确定购买的物品的类型，从而完成计价等购买流程。目前，现有技术中，在确定购买的物品的类型时，通常采用的方式是通过扫描设备扫描物品上的识别码(例如条形码或二维码)以确定物品的类型。

然而，通过扫描识别的方式以确定物品类型的方式，需要提前准备好物品类型对应给的识别码的标签，并黏贴到对应的物品上，使得物品类型识别的效率较差、成本较高。

发明内容

本发明实施例提供一种物品识别方法、装置及设备，以解决现有技术中通过扫描识别的方式以确定物品类型的方式，需要提前准备好物品类型对应给的识别码的标签，并黏贴到对应的物品上，使得物品类型识别的效率较差、成本较高的问题。

第一方面，本发明实施例提供一种物品识别方法，包括：

获取待识别物品的目标图像；

将所述目标图像分别输入特征检索模型和属性分类模型，以分别输出所述目标图像对应的目标检索特征和目标属性特征，其中所述目标检索特征用于表征所述待识别物品的类别特征、所述目标属性特征用于表征所述待识别物品的颜色特征以及形状特征；

确定所述目标检索特征和所述目标属性特征与预设特征的相似度，并根据所述相似度确定分类结果预测分值；

根据所述分类结果预测分值，确定所述待识别物品的分类结果。

第二方面，本发明实施例还提供一种物品识别方法，包括：

获取待识别物品的目标图像；

将所述目标图像分别输入特征检索模型和属性分类模型，以分别输出所述目标图像对应的目标检索特征和目标属性特征，其中所述目标检索特征用于表征所述待识别物品的商品类别特征、所述目标属性特征用于表征所述待识别物品的颜色特征以及形状特征；

确定所述目标检索特征和目标属性特征与各预存特征的相似度，并根据所述相似度确定分类结果预测分值；

根据所述分类结果预测分值，确定所述待识别物品的分类结果；

根据所述待识别物品的分类结果对所述待识别物品进行称重。

第三方面，本发明实施例提供一种物品识别装置，包括：

图像获取模块，用于获取待识别物品的目标图像；

模型处理模块，用于将所述目标图像分别输入特征检索模型和属性分类模型，以分别输出所述目标图像对应的目标检索特征和目标属性特征，其中所述目标检索特征用于表征所述待识别物品的类别特征、所述目标属性特征用于表征所述待识别物品的颜色特征以及形状特征；

相似度处理模块，用于确定所述目标检索特征和所述目标属性特征与预设特征的相似度，并根据所述相似度确定分类结果预测分值；

分类预测模块，用于根据所述分类结果预测分值，确定所述待识别物品的分类结果。

第四方面，本发明实施例还提供一种物品识别装置，包括：

图像获取模块，用于获取待识别物品的目标图像；

分类预测模块，用于根据所述分类结果预测分值，确定所述待识别物品的分类结果；

称重处理模块，用于根据所述待识别物品的分类结果对所述待识别物品进行称重。

第五方面，本发明实施例提供一种称重设备，包括：

摄像装置，用于获取待识别物品的目标图像；

承托装置，用于放入待识别物品；

显示屏，用于显示待识别物品的分类结果；

至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的物品识别方法，或者如上第二方面以及第二方面各种可能的设计所述的物品识别方法。

第六方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能的设计所述的物品识别方法，或者如上第二方面以及第二方面各种可能的设计所述的物品识别方法。

第七方面，本发明实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时，实现如上第一方面以及第一方面各种可能的设计所述的物品识别方法，或者如上第二方面以及第二方面各种可能的设计所述的物品识别方法。

本发明实施例提供的物品识别方法、装置及设备，该方法，通过将待识别物品的图像输入特征检索模型和属性分类模型中，以分别输出识别物品的图像的检索特征和属性特征，其中检索特征用于表征待识别物品的类别特征、属性特征用于表征待识别物品的颜色特征以及形状特征；根据检索特征和属性特征计算该待识别物品的图像与已知商品的预设特征的相似度，根据相似度确定待识别物品的分类结果。这样，获取将待识别物品的图像，并通过模型对图像进行识别，即能确待识别物品的分类结果，操作方便，不需要提前给物品黏贴标签，识别效率高、且成本较低。

附图说明

图1为本发明实施例提供的物品识别方法的应用场景示意图；

图2为本发明实施例提供的物品识别方法的流程示意图一；

图3为本发明实施例提供的称重设备的架构示意图；

图4为本发明实施例提供的物品识别方法的流程示意图二；

图5为本发明实施例提供的位置检测模型的结构示意图；

图6为本发明实施例提供的密集桥接单元的一个示例示意图；

图7为本发明实施例提供的物品识别装置的结构示意图一；

图8为本发明实施例提供的物品识别装置的结构示意图二；

图9为本发明实施例提供的称重设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

当前，在超市、商场等场所的购物物品过程中，如在购买水果或蔬菜时，常常需要超市工作人员确定已购买物品的类型，目前常用的方式是，通过扫描设备扫描物品上的条形码或二维码，从而在电脑上显示物品的类型。然而这种方式，需要超市工作人员提前在物品上黏贴上附有条形码或二维码的标签，这种方式效率比较差、成本比较高。

为了解决上述问题，本发明实施例提供一种物品识别方法，通过将待识别物品的图像输入特征检索模型和属性分类模型中，以分别输出识别物品的图像的检索特征和属性特征，其中检索特征用于表征待识别物品的类别特征、属性特征用于表征待识别物品的颜色特征以及形状特征；根据检索特征和属性特征计算该待识别物品的图像与已知商品的预设特征的相似度，根据相似度确定待识别物品的分类结果。这样，获取将待识别物品的图像，并通过模型对图像进行识别，即能确待识别物品的分类结果，操作方便，不需要提前给物品黏贴标签，识别效率高、且成本较低。

图1为本发明实施例提供的物品识别方法的应用场景示意图。如图1所示，该场景中，包括：接收装置101、处理器102和显示装置103。

可以理解的是，本申请实施例示意的结构并不构成对物品识别方法的具体限定。在本申请另一些可行的实施方式中，上述架构可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置，具体可根据实际应用场景确定，在此不做限制。图1所示的部件可以以硬件，软件，或软件与硬件的组合实现。

在具体实现过程中，接收装置101可以是输入/输出接口，也可以是通信接口，可以获取待识别物品的目标图像。

处理器102，可以对待识别物品的目标图像进行处理，以确定待识别物品的分类结果。

显示装置103可以用于对上述待识别物品的分类结果等进行显示。

显示装置还可以是触摸显示屏，用于在显示的上述内容的同时接收用户指令，以实现与用户的交互。

应理解，上述处理器可以通过处理器读取存储器中的指令并执行指令的方式实现，也可以通过芯片电路实现。

另外，本申请实施例描述的网络架构以及业务场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着网络架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

下面结合具体的实施例对本申请的技术方案进行详细的说明。

图2为本发明实施例提供的物品识别方法的流程示意图一，本实施例的执行主体可以为图1所示实施例中的处理器。如图2所示，该方法包括：

S201：获取待识别物品的目标图像。

在本发明实施例中，以称重场景为例，当检测到承托装置放入待识别物品，则对待识别物品进行拍摄获取待识别物品的拍摄图像为目标图像。可选地，还可以对待识别物品的拍摄图像进行抠图或截图处理排除背景的干扰，得到目标图像。

S202：将目标图像分别输入特征检索模型和属性分类模型，以分别输出目标图像对应的目标检索特征和目标属性特征，其中目标检索特征用于表征待识别物品的类别特征、目标属性特征用于表征待识别物品的颜色特征以及形状特征。

在本发明的一个实施例中，将目标图像进行仿射变换处理，将仿射变换后的目标图像分别输入特征检索模型和属性分类模型。通过仿射变换使得目标图像是正向的、不倾斜的图像，更有利于特征检索模型和属性分类模型，更好地提取相应的特征。

在本实施例中，特征检索可以采用InceptionNet模型。

可选地，InceptionNet模型为InceptionNet-V3模型。

其中，InceptionNet-V3模型结构如表1所示所示。InceptionNet-V3模型包括：6个卷积层、3个池化层、3个Inception模块和线性层。其中，6个卷积层中前3个卷积层依次串联，3个依次串联的卷积层连接一个池化层，该池化层又连接3个依次串联的卷积层，3个依次串联的卷积层连接3个依次串联的Inception模块，3个依次串联的Inception模块连接一个池化层，此池化层又连接一个线性层。

表1InceptionNet-V3模型结构

网络层类型	尺寸/步长(或注释)	输入尺寸
			卷积层	3*3/2	2992993
卷积层	3*3/1	14914932
			卷积层	3*3/1	14714732
池化层	3*3/2	14714764
			卷积层	3*3/1	737364
卷积层	3*3/2	717180
			卷积层	3*3/1	3535192
Inception模块A	3个Inception模块A	3535288
			Inception模块B	5个Inception模块B	1717768
Inception模块C	3个Inception模块C	881280
			池化层	8*8	882048
线性层	Logits	112048

通过将目标图像输入InceptionNet-V3模型，首先将目标图像缩放至299*299的尺寸，经过InceptionNet-V3模型处理输出一个2048维的检索特征向量，即为目标检索特征。

在本实施例中，属性分类模型用于获取目标图像的颜色、形状等属性特征，该属性特征用于表征所述待识别物品的颜色特征以及形状特征。

S203：确定目标检索特征和目标属性特征与预设特征的相似度，并根据相似度确定分类结果预测分值。

具体地，预设特征包括N个检索特征和M个属性特征，各检索特征和各属性特征用于表征同一个物品的检索特征和属性特征，N和M都为正整数。其中，确定目标检索特征和目标属性特征与预设特征的相似度，并根据相似度确定分类结果预测分值，包括：

计算目标检索特征与各检索特征的第一相似度，得到第一相似度矩阵；计算目标属性特征与各属性特征的第二相似度，得到第二相似度矩阵；将第一相似度矩阵和第二相似度矩阵中表征同一个物品的各第一相似度和各第二相似度进行加权处理，得到最终相似度矩阵；对最终相似度矩阵中的各相似度按照预设规则进行筛选，得到待识别物品的至少一个分类结果预测分值。

具体地，计算目标检索特征与各检索特征的第一相似度，包括：计算目标检索特征的向量与各检索特征的向量的余弦相似度；计算目标属性特征与各属性特征的第二相似度，包括：计算目标属性特征的向量与各属性特征的向量的余弦相似度。

在本实施例中，各检索特征是由超市或商场等场所的底库中的各商品的图像中经过特征检索模型提取的特征向量组成的。各属性特征是由超市或商场等场所的底库中的各商品的图像中经过属性分类模型提取的特征向量组成的。可选地，可以将提取的各检索特征和各属性特征存储在特征库中。

具体地，将第一相似度矩阵和第二相似度矩阵中表征同一个物品的各第一相似度和各第二相似度进行加权处理，得到最终相似度矩阵，具体包括：将第一相似度矩阵和第二相似度矩阵中的中表征同一个物品的第一相似度和第二相似度进行加权，得到最终相似度分值矩阵。其计算公式具体如下：

Score＝α*score1+β*score2

其中，score1为第一相似度矩阵中的第一相似度，score2为第二相似度矩阵中的第二相似度，α和β为加权系数。

可选地，α取值0.8，β取值0.2。

具体地，对最终相似度矩阵中的各相似度按照预设规则进行筛选，得到待识别物品的至少一个分类结果预测分值，具体可以包括以下两种方式：一种方式是，对最终相似度分值矩阵中的相似度按照分值大小进行排序，排序后的相似度分值即为待识别物品的分类结果预测分值；另一种方式是，显示排序后的排序在前的前n个相似度的分值为待识别物品的分类结果预测分值。可选地，n的取值为5。

S204：根据分类结果预测分值，确定待识别物品的分类结果。

在本发明实施例中，显示待识别物品的分类结果图片可以是一个分类结果图片，也可是多个分类结果图片。具体地，对分类结果预测分值按照大小进行排序，显示排序后的分类结果预测分值对应所有待识别物品的分类结果图片，或者显示排序后的排序在前的前n个分类结果预测分值对应的n个待识别物品的分类结果图片。

从上述描述可知，通过将待识别物品的图像输入特征检索模型和属性分类模型中；根据特征检索模型和属性分类模型的处理以输出识别物品的图像的检索特征和属性特征，其中检索特征用于表征待识别物品的类别特征、属性特征用于表征待识别物品的颜色特征以及形状特征；根据检索特征和属性特征计算该待识别物品的图像与已知商品的预设特征的相似度，根据相似度确定待识别物品的分类结果。这样，称重人员既不需要称重人员记住编码，也不需要称重人员手动输入编码，即能得知待识别物品的类别，称重人员不需要具有丰富的经验即可完成称重操作，降低了成本；同时，此种方式使得称重快速不需要用户长时间等待，提升了用户体验。

在本发明的一个实施例中，在上述实施例的基础上，本实施例主要描述属性分类模型的结构以及其处理过程，具体如下：

属性分类模型包括：依次串联的K个卷积单元、第一分类卷积层和第二分类卷积层，其中K为正整数，将目标图像输入属性分类模型，以输出目标图像对应的目标属性特征，包括：

K个卷积单元提取目标图像的多维属性特征，得到目标图像的多维特征图；第一分类卷积层对目标图像的多维特征图进行分类，得到目标图像的形状属性特征；第二分类卷积层对目标图像的多维特征图进行分类，得到目标图像的颜色属性特征；将形状属性特征和颜色属性特征进行合并，得到目标图像的目标属性特征。

在本发明的一个实施例中，若所述目标图像的尺寸属于第一预设尺寸，所述各卷积单元包括特征提取卷积层和降维处理卷积层，且所述特征提取卷积层和所述降维处理卷积层交替串联连接，所述特征提取卷积层用于对所述目标图像进行属性特征提取，所述降维处理卷积层用于对所述目标图像进行降维处理。

具体地，目标图像的尺寸属于第一预设尺寸时，将目标图像输入第一卷积单元的特征提取卷积层进行属性特征提取，得到第一属性特征图，第一属性特征图输入第一卷积单元的降维处理卷积层进行降维处理，得到第一降维属性特征图；

将第一降维属性特征图输入第二卷积单元的特征提取卷积层进行属性特征提取，得到第二属性特征图，第二属性特征图输入第二卷积单元的降维处理卷积层进行降维处理，得到第二降维属性特征图；

依次类推，

将得到第K-1降维属性特征图输入第K卷积单元的特征提取卷积层进行属性特征提取，得到第K属性特征图，第K属性特征图输入第K卷积单元的降维处理卷积层进行降维处理，得到第K降维属性特征图，即为目标图像的目标属性特征。

可选地，第一预设尺寸为224*224*3。

在一个具体的实例中，属性分类模型中K个卷积单元中K取值为6，属性分类模型的结构参数如表2所示。

表2属性分类模型结构参数

参考表2，若目标图像的尺寸为224*224*3，则输入第一卷积单元的特征提取卷积层，输出尺寸为224*224*64的第一属性特征图，第一属性特征图输入第一卷积单元的降维处理卷积层，输出尺寸为112*112*64的第一降维属性特征图；

第一降维属性特征图输入第二卷积单元的特征提取卷积层，输出尺寸为112*112*128的第二属性特征图，第二属性特征图输入第二卷积单元的降维处理卷积层，输出尺寸为56*56*128的第二降维属性特征图；

第二降维属性特征图输入第三卷积单元的特征提取卷积层，输出尺寸为56*56*256的第三属性特征图，第三属性特征图输入第三卷积单元的降维处理卷积层，输出尺寸为28*28*256的第三降维属性特征图；

第三降维属性特征图输入第四卷积单元的特征提取卷积层，输出尺寸为28*28*256的第四属性特征图，第四属性特征图输入第四卷积单元的降维处理卷积层，输出尺寸为14*14*256的第四降维属性特征图；

第四降维属性特征图输入第五卷积单元的特征提取卷积层，输出尺寸为14*14*256的第五属性特征图，第五属性特征图输入第五卷积单元的降维处理卷积层，输出尺寸为7*7*256的第五降维属性特征图；

第五降维属性特征图输入第六卷积单元的特征提取卷积层，输出尺寸为7*7*256的第六属性特征图，第六属性特征图输入第六卷积单元的降维处理卷积层，输出尺寸为1*1*256的第六降维属性特征图；

第六降维属性特征图输入第一分类卷积层，输出尺寸为1*1*4的形状属性特征图，其中1*1*4的形状属性特征图用于指示长条形、圆形、正方形、锥形四类形状；第六降维属性特征图输入第二分类卷积层，输出尺寸为1*1*3的颜色属性特征图，其中1*1*3的颜色属性特征图用于指示红、蓝、绿三类颜色；

将形状属性特征和颜色属性特征进行合并，得到尺寸为1*1*7的目标属性特征图。

需要说明的是，在对属性分类模型进行训练时，第一分类卷积层连接第一损失函数层，第二分类卷积层连接第二损失函数层。可选地，第一损失函数层和第二损失函数层均采用L2损失函数。

在本发明的另一实施例中，若所述目标图像的尺寸属于第二预设尺寸，其中第二预设尺寸小于第一预设尺寸，所述各卷积单元包括特征提取卷积层，所述特征提取卷积层用于对所述目标图像进行属性特征提取。即，若目标图像的尺寸较小时，则不需要降维处理卷积层进行降维处理。

从上述描述可知，通过多个依次相接的卷积单元与第一分类卷积层和第二分类卷积层分别依次串联连接构成的属性分类模型，模型结构简单，处理效率高更高，该属性分类模型包括两个分支，一个分支用于预测目标图像的形状属性，另一个分支用于预测目标图像的颜色属性，合并后的属性类型更丰富，有利于提高模型的属性预测识别准确性。同时，该属性分类模型的结构可以根据目标图像的尺寸，确定卷积单元中是否包含降维处理卷积层，采用降维处理卷积层对所述目标图像进行降维处理，实现了对属性分类模型结构的灵活配置。

电子称重被广泛应用于超市、商场等场所的商品称重、计价中。在使用电子秤进行称重时，通常需要称重人员记住所称重商品对应的编码，通过手动输入编码的方式，找到对应商品类型，然后获取该商品类型的称重信息，进行称重操作，完成称重处理。然而，通过人工记住编码以确定商品类型的方式，需要称重人员具有一定的工作经验，能在称重时知道对应商品的对应编码，对于没有经验的人员，还需要进行专门的培训，成本较高。

图3为本发明实施例提供的称重设备的架构示意图。如图3所示，本实施例提供的称重设备至少包括称重装置301、摄像装置302和控制器303。在本发明实施例中，称重装置301、摄像装置302可以是一体集成设备，也可以是通过网络连接在一起的系统，称重装置301和摄像装置302共同组成了称重设备。控制器303可以设置在称重装置301的内部。

其中，摄像装置302可以是摄像头，用于拍摄称重装置301上待识别物品的图像。称重装置301具有称重功能(内置重力传感器)，此外，称重装置301还至少包括处理器和显示屏。其中，显示屏用于显示称重结果，包括重量和价格等。处理器，用于对待识别物品的图像进行分析处理以获取待识别物品的物品类型，并将物品类型发送至显示屏显示，使得称重人员可以点击物品类型，获取待识别物品进行称重处理的称重信息，完成称重，并将称重结果显示在显示屏。本发明实施例中，可以通过控制器303对待识别物品的图像进行分析处理以获取待识别物品的物品类型。可以理解的是，这里的控制器303的功能也可以替换为独立于电子秤之外的服务器来实现，即通过服务器对待识别物品的图像进行分析处理以获取待识别物品的物品类型，对此本发明实施例不作具体的限制，均落入本发明实施例的保护范围。

图4为本发明实施例提供的物品识别方法的流程示意图二，该物品识别方法可以应用于物品称重，具体地应用于图3所示实施例中的称重设备。如图4所示，该方法包括：

S401：获取待识别物品的目标图像。

S402：将目标图像分别输入特征检索模型和属性分类模型，以分别输出目标图像对应的目标检索特征和目标属性特征，其中目标检索特征用于表征待识别物品的商品类别特征、目标属性特征用于表征待识别物品的颜色特征以及形状特征。

S403：确定目标检索特征和目标属性特征与各预存特征的相似度，并根据相似度确定分类结果预测分值。

S404：根据分类结果预测分值，确定待识别物品的分类结果。

在本实施例中，步骤S401-S404的过程与步骤S201-S204的过程一致，具体内容请参考S201-S204的具体详述内容，这里不再赘述。

S405：根据待识别物品的分类结果对待识别物品进行称重。

在本发明实施例中，待识别物品的分类结果可以是待识别物品的分类结果图片。

在本发明的一个实施例中，若称重方法应用在无人超市等没有称重人员的场景，则根据待识别物品的分类结果图片，对待识别物品进行称重处理，具体包括：根据待识别物品的分类结果图片，匹配查询得到该分类结果图片对应的称重信息，根据称重信息计算待识别物品的重量和价格，并在显示屏上显示待识别物品的重量和价格。

在本发明的另一个实施例中，若称重方法应用在有称重人员的超市等场景，则根据所述待识别物品的分类结果图片，对所述待识别物品进行称重处理，具体包括：响应于称重人员对待识别物品的分类结果图片的操作，对待识别物品进行称重处理。具体地，当显示待识别物品的分类结果图片为一个分类结果图片时，称重人员可以触发确认操作，获取该分类结果图片对应的称重信息，完成对待识别物品的称重和计价，得到待识别物品的重量和价格，并在显示屏上显示待识别物品的重量和价格。或者，在称重人员发现待识别物品的分类结果图片均错误时，则进行取消操作，取消此次称重，并重新进行称重处理。当显示待识别物品的分类结果图片为多个分类结果图片时，称重人员可以触发选中多个分类结果图片中的一个分类结果图片为最终分类结果图片，获取该最终分类结果图片对应的称重信息，完成对待识别物品的称重和计价，得到待识别物品的重量和价格，并在显示屏上显示待识别物品的重量和价格。

从上述描述可知，根据待识别物品的分类结果，对待识别物品进行称重处理，只需要将商品放到称重设备上，不需要称重人员输入编码，称重设备上就能显示对应的重量和价格，称重人员不需要具有丰富的经验即可完成操作，也不需要用户长时间等待、用户体验良好。

在本发明的一个实施例中，上述步骤S401中，获取待识别物品的目标图像，可以具体包括：

若检测到承托装置放入待识别物品，则获取所述待识别物品的拍摄图像，并将所述拍摄图像中所述承托装置所在区域的图像作为所述待识别物品的目标图像。

在本发明实施例中，承托装置为图3所示称重设备的称重装置的托盘。

其中，获取所述待识别物品的拍摄图像，指的是通过图3所示称重设备的摄像装置拍摄的承托装置上待识别物品的图像。

其中，将所述拍摄图像中所述承托装置所在区域的图像作为所述待识别物品的目标图像，可以是通过位置检测模型自动完成抠图获取承托装置所在区域的图像为目标图像，也可以是通过人工抠图的方式手动获取承托装置所在区域的图像为目标图像。

从上述描述可知，对称重区域内待识别物品的目标图像的抠图处理，使得目标图像中仅包含待识别物品，排除了杂乱的背景图像的干扰，再将抠图处理后仅包含待识别物品的目标图像输入特征检索模型和属性分类模型进行分类识别，能够提升输出的所述待识别物品的分类结果图片的准确度，提高模型识别的准确率和鲁棒性。

在本发明的一个实施例中，在上述实施例的基础上，所述将所述拍摄图像中所述承托装置所在区域的图像作为所述待识别物品的目标图像，具体包括：

S501：根据位置检测模型获取承托装置在拍摄图像中的坐标值。

S502：根据坐标值在拍摄图像中确定承托装置所在的区域的图像。

S503：将承托装置所在区域的图像作为待识别物品的目标图像。

在本发明实施例中，将拍摄图像输入位置检测模型中处理，得到承托装置在所述拍摄图像中的坐标值；根据承托装置在拍摄图像的坐标值确定拍摄图像中所述承托装置占据的区域；从拍摄图像中扣取承托装置占据的区域的图像，得到待识别物品的目标图像。

其中，根据承托装置在拍摄图像的坐标值确定拍摄图像中所述承托装置占据的区域，可以是将承托装置在拍摄图像中四个顶点的坐标值依次连接，形成一个矩形框，该矩形框区域即为所述承托装置占据的区域。

从上述描述可知，通过位置检测模型，自动从拍摄图像中扣取承托装置占据的区域的图像，得到待识别物品的目标图像，相比较普通的人工抠图方法，提高了图像的处理效率。

图5为本发明实施例提供的位置检测模型的结构示意图。参考图5，在本发明的一个实施例中，在上述实施例的基础上，上述位置检测模型包括：纹理特征处理网络A、维度特征处理网络B和预测网络C；

其中，纹理特征处理网络A、维度特征处理网络B和预测网络C依次串联连接；

上述步骤S501中，根据位置检测模型获取承托装置在拍摄图像中的坐标值，具体包括：

纹理特征处理网络A对拍摄图像进行高频纹理特征提取，输出高频纹理特征图；维度特征处理网络B对高频纹理特征图进行不同维度的高频特征的提取，输出多维高频特征图；预测网络C对多维高频特征图进行特征处理，输出承托装置在拍摄图像中的坐标值。

在本发明实施例中，纹理特征处理网络可以由密集桥接单元和降维卷积层交替串联组成。具体地，所述纹理特征处理网络A包括L个密集桥接单元(图5中第1、3、5层所示)与L个降维卷积层(图5中2、4、6层所示)，密集桥接单元和降维卷积层交替串联连接，其中L为正整数；密集桥接单元对目标图像进行高频特征提取，降维卷积层对目标图像进行特征提取和池化处理。如图5所示，纹理特征处理网络A包括3个密集桥接单元(图5中第1、3、5层所示)与3个降维卷积层(图5中2、4、6层所示)。

其中，密集桥接单元由多层卷积层和多层融合层交替串联组成，其中各融合层用于将该融合层之前的所有卷积层的输出进行融合输入该融合层之后的卷积层。如图6所示，图6为本发明实施例提供的密集桥接单元的一个示例示意图。在该示例中，卷积层的个数5，融合层的个数为4，其中最后一层卷积层的作用是瓶颈层，用于对通道数进行降维。其中，密集桥接单元的各卷积层的最后一层的卷积层为尺寸/步长为1*1/1的卷积层，其余各卷积层为尺寸/步长为3*3/1的卷积层。

其中，降维卷积层为卷积核个数为64，卷积核的尺寸/步长为1*1/2的卷积层。降维卷积层通过采用卷积核的尺寸/步长为1*1/2的卷积层，不但可以实现降维，起到类似池化层的作用，同时还可以更好的提取特征。

在本实施例中，参考表3，纹理特征处理网络A中A包括3个密集桥接单元(图5中第1、3、5层所示)与3个降维卷积层(图5中2、4、6层所示)时，各层的参数的一个示例，如表3所示。

表3、纹理特征处理网络示例

网络层	卷积核个数	尺寸/步长	输入尺寸	输出尺寸
					1、密集桥接单元	64	4164163	41641664
2、降维卷积层	64	1*1/2	41641664	20820864
					3、密集桥接单元	64	20820864	20820864
4、降维卷积层	64	1*1/2	20820864	10410464
					5、密集桥接单元	64	10410464	10410464
6、降维卷积层	64	1*1/2	10410464	525264

从上述描述可知，通过多个密集桥接单元相互连接的网络结构，能够充分发挥密集桥接单元提取图像中的高频纹理信息的优势，进而能够最大程度地提取到图像中高频纹理信息，由于高频纹理信息是图像中纹理特征较为明显的信息，此类信息能够表征图像中物品的分类结果，所以高频纹理信息越多能够提高后续的图像识别的准确度。

在本发明实施例中，维度特征处理网络可以由多个卷积层依次串联组成。具体地，所述维度特征处理网络B包括：第一卷积单元、通道压缩卷积层、第二卷积单元、通道膨胀卷积层，所述第一卷积单元、所述通道压缩卷积层、所述第二卷积单元和所述通道膨胀卷积层依次串联连接；所述第一卷积单元对所述高频纹理特征图进行纹理特征提取和降维处理，输出第一高频纹理特征图；所述通道压缩卷积层对所述第一高频纹理特征图进行通道降维压缩，输出第二高频纹理特征图；所述第二卷积单元对所述第二高频纹理特征图进行纹理特征提取，输出第三高频纹理特征图；所述通道膨胀卷积层对所述第三高频纹理特征图进行通道增维处理，输出多维高频特征图。

在本发明的实施例中，第一卷积单元包括至少一个特征提取卷积层和至少一个降维卷积层，且所述特征提取卷积层和所述降维卷积层交替串联连接。参考图5，图5中第一卷积单元包括两个特征提取卷积层(图5中7、9层所示)，以及两个降维卷积层(图5中8、10层所示)，特征提取卷积层对所述高频纹理特征图进行纹理特征提取，降维卷积层对高频纹理特征图降维处理。

可选地，第一卷积单元中的特征提取卷积层为卷积核大小为3*3、步长为1的卷积层，用于对输入特征提取卷积层的特征图进行纹理特征提取和增大感受视野处理。卷积层的结构如此设置的作用包括两方面，一方面可以进一步特征提取，另一方面可以增大感受野，使承托装置可以完整的显示在特征提取后的特征图中。第一卷积单元中的降维卷积层为尺寸/步长为1*1/2的卷积层，降维卷积层的结构如此设置的作用不但可以实现降维，类似池化层的作用，同时还可以更好的提取特征。

在本发明的实施例中，参考图5，通道压缩卷积层(图5中11层)为卷积核大小为1*1、步长为1的卷积层，卷积核个数为64，用于将第一高频纹理特征图进行通道降维压缩至通道数为64。

在本发明实施例中，参考图5，第二卷积单元(图5中12、13层)包括两个特征提取卷积层，其卷积核大小为3*3、步长为1的卷积层，用于进一步地对输入特征提取卷积层的特征图进行纹理特征提取和增大感受视野处理。

在本发明实施例中，参考图5，通道膨胀卷积层(图5中14层)为卷积核大小为1*1、步长为1的卷积层，卷积核个数为256，用于将第一高频纹理特征图进行通道增维处理至通道数为256。

参考表4，表4为本实施例提供的维度特征处理网络一个示例，其各层参数如表4所示。

表4、维度特征处理网络示例

网络层	卷积核个数	尺寸/步长	输入尺寸	输出尺寸
					7、特征提取卷积层	128	3*3/1	525264	5252128
8、降维卷积层	128	1*1/2	5252128	2626128
					9、特征提取卷积层	256	3*3/1	2626128	2626256
10、降维卷积层	256	1*1/2	2626256	1313256
					11、通道压缩卷积层	64	1*1/1	1313256	131364
12、特征提取卷积层	64	3*3/1	131364	131364
					13、特征提取卷积层	64	3*3/1	131364	131364
14、通道膨胀卷积层	256	1*1/1	131364	1313256

从上述描述可知，通过维度特征处理网络的通道压缩卷积层与通道膨胀卷积层分别对输入的高频纹理特征图的通道数据进行先压缩后膨胀的处理，能够更好地从不同的通道维度提取到高频特征，提取不同维度的高频图像纹理信息，使得输出的多维高频特征图的维度更多、特征更明显。

参考图5，在本发明的一个实施例中，所述预测网络C包括：第一预测网络C1，第二预测网络C2和第三预测网络C3；第一预测网络C1包括第一上采样单元，第一融合层，第一特征提取单元；第二预测网络C2包括第二上采样单元，第二融合层，第二特征提取单元；第三预测网络C3包括第三特征提取单元；

上述步骤中，预测网络对多维高频特征图进行特征处理，得到承托装置在拍摄图像中的坐标值，具体包括：

S501：若所述目标图像在所述拍摄图像中的占比大于或等于第一预设比例，则所述第一上采样单元对所述多维高频特征图进行处理，输出第一高层纹理信息；所述第一融合层将所述第一高层纹理信息与所述维度特征处理网络输出的低层纹理信息进行融合，输出第一融合特征图；所述第一特征提取单元对所述第一融合特征图进行特征提取，输出所述承托装置在所述拍摄图像中的坐标值。

参考图5，在本发明实施例中，第一上采样单元包括相互串联的卷积层(图5中15层所示)和反卷积层(图5中16层所示)。可选地，卷积层的卷积核大小为1*1、步长为1。通过卷积和反卷积组成的第一上采样单元，可以更好的保护上采样过程中纹理的扭曲纹理，由于扭曲纹理表征待识别物品的边缘特征，扭曲纹理越多越能够提升识别的准确度。

在本实施例中，第一上采样单元，用于将对所述多维高频特征图进行上采样放大处理，输出第一尺寸的包含第一高层纹理信息的特征图。可选地，第一上采样单元上采样时对多维高频特征图的尺寸的放大倍数为4倍。

在本实施例中，参考图5，第一融合层接收维度特征处理网络的第一特征提取卷积层输出的低层纹理信息。具体地，第一融合层，用于接收第7层的特征提取卷积层出输出的第一尺寸的包含第一低层纹理信息的特征图，并将第一尺寸的包含第一低层纹理信息的特征图与第一上采样单元输出的第一尺寸的包含第一高层纹理信息的特征图进行融合。

在本发明的一个实施例中，所述第一特征提取单元包括依次连接的特征提取卷积层(图5中18层所示)、瓶颈卷积层(图5中19层所示)、残差运算层(图5中20层所示)和探针卷积层(图5中21层所示)。上述步骤中，所述第一特征提取单元对所述第一融合特征图进行特征提取，输出所述承托装置在所述拍摄图像中的坐标值，具体包括：所述特征提取卷积层对所述第一融合特征图进行特征提取，输出第一特征图；所述瓶颈卷积层对所述第一特征图的通道数进行处理，输出与所述维度特征处理网络输出的第一低层纹理信息的通道数相同的第一瓶颈特征图；所述残差运算层对所述第一瓶颈特征图和所述第一低层纹理信息进行残差运算补充低层纹理信息中的中高频纹理信息，输出第一残差特征图；所述探针卷积层对所述第一残差特征图进行位置识别处理，输出所述承托装置在所述拍摄图像中的坐标值。

在本发明实施例中，特征提取卷积层(图5中18层所示)为卷积核大小为3*3、步长为1的卷积层，用于进一步对第一融合特征图进行特征提取，输出第一特征图。

在本发明实施例中，瓶颈卷积层(图5中19层所示)为卷积核大小为1*1、步长为1的卷积层，用于对第一特征图的通道数进行处理，使得输出的第一瓶颈特征图与第一低层纹理信息通道数相同，为后续进行残差运算作准备。

在本发明实施例中，残差运算层(图5中20层所示)还用于接收第7层的特征提取卷积层出输出的包含第一低层纹理信息的特征图。残差运算层，用于将第一瓶颈特征图和特征提取卷积层输出的包含第一低层纹理信息的特征图进行残差运算，以补充低层纹理信息中的中高频纹理信息，同时通过残差运算可以加速整体网络的训练过程。

在本发明实施例中，探针卷积层(图5中21层所示)为卷积核大小为3*3、步长为1的卷积层，用于对第一残差特征图进行位置识别处理，输出第一先验框特征图，第一先验框特征图中显示承托装置在拍摄图像中的先验框，该先验框用于指示承托装置在拍摄图像中的坐标值。

可选地，第一先验框特征图的尺寸为52*52*18。

参考表5，表5为本实施例提供的第一预测网络的一个示例，其各层参数如表5所示。

表5、第一预测网络示例

网络层	卷积核数(或说明)	尺寸/步长	输入尺寸	输出尺寸
					15、卷积层	128	1*1/1	1313256	1313128
16、反卷积层(上采样)		X4	1313128	5252128
					17、融合层	融合7、16层			5252256
18、特征提取卷积层	256	3*3/1	5252256	5252256
					19、瓶颈卷积层	128	1*1/1	5252256	5252128
20、残差运算层	7、19层残差运算			5252128
					21、探针卷积层	18	3*3/1	5252128	525218

S502：若所述目标图像在所述拍摄图像中的占比小于第一预设比例且大于第二预设比例，则第二上采样单元对所述多维高频特征图进行采样处理，输出第二高层纹理信息；所述第二融合层将所述第二高层纹理信息与所述维度特征处理网络输出的低层纹理信息进行融合，得到第二融合特征图；所述第二特征处理单元对所述第二融合特征图进行特征处理，输出所述承托装置在所述拍摄图像中的坐标值。

参考图5，在本发明实施例中，第二上采样单元包括相互串联的卷积层(图5中22层所示)和反卷积层(图5中23层所示)。可选地，卷积层的卷积核大小为1*1、步长为1。通过卷积和反卷积组成的第二上采样单元，可以更好的保护上采样过程中纹理的扭曲纹理，由于扭曲纹理表征待识别物品的边缘特征，扭曲纹理越多越能够提升识别的准确度。

在本实施例中，第二上采样单元，用于将对所述多维高频特征图进行上采样放大处理，输出第二尺寸的包含第二高层纹理信息的特征图。可选地，第二上采样单元进行上采样时对多维高频特征图的尺寸的放大倍数为2倍。

在本实施例中，参考图5，第二融合层接收维度特征处理网络的第二特征提取卷积层输出的低层纹理信息。具体地，第二融合层，用于接收第9层的特征提取卷积层出输出的第二尺寸的包含第二低层纹理信息的特征图，并将第二尺寸的包含第二低层纹理信息的特征图与第二上采样单元输出的第二尺寸的包含第二高层纹理信息的特征图进行融合。

在本发明的一个实施例中，所述第二特征提取单元包括依次连接的特征提取卷积层(图5中25层所示)、瓶颈卷积层(图5中26层所示)、残差运算层(图5中27层所示)和探针卷积层(图5中28层所示)。所述残差运算层还与所述维度特征处理网络连接，所述维度特征处理网络向所述残差运算层输入第二低层纹理信息；所述特征提取卷积层对所述第二融合特征图进行特征提取，输出第二特征图；所述瓶颈卷积层对所述第二特征图的通道数进行处理，输出与所述第二低层纹理信息的通道数相同的第二瓶颈特征图；所述残差运算层对所述第二瓶颈特征图和所述第二低层纹理信息进行残差运算补充低层纹理信息中的中高频纹理信息，输出第二残差特征图；所述探针卷积层对所述第二残差特征图进行位置识别处理，输出所述承托装置在所述拍摄图像中的坐标值。

在本发明实施例中，特征提取卷积层(图5中25层所示)为卷积核大小为3*3、步长为1的卷积层，用于进一步对第二融合特征图进行特征提取，输出第二特征图。

在本发明实施例中，瓶颈卷积层(图5中26层所示)为卷积核大小为1*1、步长为1的卷积层，用于对第二特征图的通道数进行处理，使得输出的第二瓶颈特征图与所述第二低层纹理信息通道数相同，为后续进行残差运算作准备。

在本发明实施例中，残差运算层(图5中27层所示)还与维度特征处理网络中的另一个特征提取卷积层(图5中9层所示)的输出端连接，接收第9层的特征提取卷积层出输出的包含第二低层纹理信息的特征图。残差运算层，用于将第二瓶颈特征图和所述特征提取卷积层出输出的包含第二低层纹理信息的特征图进行残差运算，以补充低层纹理信息中的中高频纹理信息，同时通过残差运算可以加速整体网络的训练过程。

在本发明实施例中，探针卷积层(图5中28层所示)为卷积核大小为3*3、步长为1的卷积层，用于对第二残差特征图进行位置识别处理，输出第二先验框特征图，第二先验框特征图中显示承托装置在拍摄图像中的先验框，该先验框用于指示承托装置在拍摄图像中的坐标值。

可选地，第二先验框特征图的尺寸为26*26*18。

参考表6，表6为本实施例提供的第二预测网络的一个示例，其各层参数如表6所示。

表6、第二预测网络示例

网络层	卷积核数(或说明)	尺寸/步长	输入尺寸	输出尺寸
					22、卷积层	128	1*1/1	1313256	1313128
23、反卷积层(上采样)		X2	1313128	2626128
					24、融合层	融合9、23层			2626384
25、特征提取卷积层	128	3*3/1	2626384	2626128
					26、瓶颈卷积层	256	1*1/1	2626128	2626256
27、残差运算层	9、26层残差运算			2626256
					28、探针卷积层	18	3*3/1	2626256	262618

S503：若所述目标图像在所述拍摄图像中的占比小于或等于第二设定比例，所述第三特征处理单元对所述多维高频特征图进行特征处理，输出所述承托装置在所述拍摄图像中的坐标值。

在本发明的一个实施例中，第三特征处理单元依次连接的特征提取卷积层(图5中29层所示)、瓶颈卷积层(图5中30层所示)、残差运算层(图5中31层所示)和探针卷积层(图5中32层所示)。所述残差运算层还与所述维度特征处理网络连接，所述维度特征处理网络向所述残差运算层输入第三低层纹理信息；所述特征提取卷积层对所述多维高频特征图进行特征提取，输出第三特征图；所述瓶颈卷积层对所述第三特征图的通道数进行处理，输出与所述第三低层纹理信息通道数相同的第三瓶颈特征图；所述残差运算层对所述第三瓶颈特征图和所述第三低层纹理信息进行残差运算补充低层纹理信息中的中高频纹理信息，输出第三残差特征图；所述探针卷积层对所述第三残差特征图进行位置识别处理，输出所述承托装置在所述拍摄图像中的坐标值。

在本发明实施例中，特征提取卷积层(图5中29层所示)为卷积核大小为3*3、步长为1的卷积层，用于进一步对多维高频特征图进行特征提取，输出第三特征图。

在本发明实施例中，瓶颈卷积层(图5中30层所示)为卷积核大小为1*1、步长为1的卷积层，用于所述第三特征图的通道数进行处理，使得输出的第三瓶颈特征图与所述第三低层纹理信息通道数相同，为后续进行残差运算作准备。

在本发明实施例中，残差运算层(图5中31层所示)还用于接收第11层的卷积层出输出的包含第三低层纹理信息的特征图。残差运算层，用于将第三瓶颈特征图和所述卷积层出输出的包含第三低层纹理信息的特征图进行残差运算，以补充低层纹理信息中的中高频纹理信息，同时通过残差运算可以加速整体网络的训练过程。

在本发明实施例中，探针卷积层(图5中32层所示)为卷积核大小为3*3、步长为1的卷积层，用于对第三残差特征图进行位置识别处理，输出第三先验框特征图，第三先验框特征图中显示承托装置在拍摄图像中的先验框，该先验框用于指示承托装置在拍摄图像中的坐标值。

可选地，第三先验框特征图的尺寸为13*13*18。

参考表7，表7为本实施例提供的第三预测网络的一个示例，其各层参数如表7所示。

表7、第三预测网络示例

网络层	卷积核数(或说明)	尺寸/步长	输入尺寸	输出尺寸
					29、特征提取卷积层	256	3*3/1	1313256	1313256
30、瓶颈卷积层	64	1*1/1	1313256	131364
					31、残差运算层	11、30层残差运算			262664
32、探针卷积层	18	3*3/1	262664	262618

从上述描述可知，若所述目标图像在所述拍摄图像中的占比较大，通过第一预测网络的对多维高频特征图进行处理，输出承托装置在拍摄图像中的坐标值；若所述目标图像在所述拍摄图像中的占比居中时，通过第二预测网络的对多维高频特征图进行处理，输出承托装置在拍摄图像中的坐标值，若所述目标图像在所述拍摄图像中的占比较小时，通过第三预测网络的对多维高频特征图进行处理，输出承托装置在拍摄图像中的坐标值。根据承托装置在所述待称重商品的图像中的占比不同，将多维高频特征图输入不同的预测网络中，能够实现获取不同尺寸的拍摄图像中的承托装置的位置坐标。

在本发明的一个实施例中，上述各探针卷积层的过滤器个数根据预设先验框的数量、承托装置的类型数量、承托装置的位置坐标的数量和置信度分值的数量确定。

在本实施例中，根据预设先验框的数量、承托装置的类型数量、承托装置的位置坐标的数量和置信度分值的数量确定，包括：探针卷积层的过滤器个数等于所述预设先验框的数量与所述承托装置的类型数量、所述承托装置的位置坐标的数量、所述置信度分值的数量之和的乘积。

可选地，所述预设先验框的数量为3，所述承托装置的类型数量为1，所述承托装置的位置坐标的数量为4，所述置信度分值的数量为1；则所述位置检测模型的输出层的通道数＝3×(1+5)＝18。该模型结构输出层的通道数仅为18，相比一般模型中的255通道数，模型更简单，能够提高模型处理的效率。

其中，预设先验框指的是位置检测模型的anchor的数量。可以设置多尺度的anchor，便于预测不同尺度的信息。.

从上述描述可知，根据预设先验框的数量、承托装置的类型数量、承托装置的位置坐标的数量和置信度分值的数量，确定探针卷积层的过滤器个数，使得模型结构输出的通道数更少，模型更简单，能够提高模型处理的效率。

图7为本发明实施例提供的物品识别装置的结构示意图一。如图7所示，该物品识别装置60包括：图像获取模块601、模型处理模块602、相似度处理模块603和分类预测模块604。

其中，图像获取模块601，用于获取待识别物品的目标图像；

模型处理模块602，用于将所述目标图像分别输入特征检索模型和属性分类模型，以分别输出所述目标图像对应的目标检索特征和目标属性特征，其中所述目标检索特征用于表征所述待识别物品的类别特征、所述目标属性特征用于表征所述待识别物品的颜色特征以及形状特征；

相似度处理模块603，用于确定所述目标检索特征和所述目标属性特征与预设特征的相似度，并根据所述相似度确定分类结果预测分值；

分类预测模块604，用于根据所述分类结果预测分值，确定所述待识别物品的分类结果。

在一种可能的设计中，所述预设特征包括N个检索特征和M个属性特征，每个所述检索特征和每个所述属性特征用于表征同一个物品的检索特征和属性特征，N和M都为正整数，所述相似度处理模块603，具体用于计算所述目标检索特征与各所述检索特征的第一相似度，得到第一相似度矩阵；计算所述目标属性特征与各所述属性特征的第二相似度，得到第二相似度矩阵；将所述第一相似度矩阵和所述第二相似度矩阵中表征同一个物品的各所述第一相似度和各所述第二相似度进行加权处理，得到最终相似度矩阵；对所述最终相似度矩阵中的各相似度按照预设规则进行筛选，得到所述待识别物品的至少一个分类结果预测分值。

在一种可能的设计中，所述属性分类模型包括：依次串联的K个卷积单元、第一分类卷积层和第二分类卷积层，其中K为正整数，所述模型处理模块602，具体用于所述K个卷积单元提取所述目标图像的多维属性特征，得到所述目标图像的多维特征图；所述第一分类卷积层对所述目标图像的多维特征图进行分类，得到所述目标图像的形状属性特征；所述第二分类卷积层对所述目标图像的多维特征图进行分类，得到所述目标图像的颜色属性特征；将所述形状属性特征和所述颜色属性特征进行合并，得到所述目标图像的目标属性特征。

在一种可能的设计中，若所述目标图像的尺寸属于第一预设尺寸，所述各卷积层包括特征提取卷积层和降维处理卷积层，且所述特征提取卷积层和所述降维处理卷积层交替串联连接，所述特征提取卷积层用于对所述目标图像进行属性特征提取，所述降维处理卷积层用于对所述目标图像进行降维处理。

本实施例提供的装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

图8为本发明实施例提供的物品识别装置的结构示意图二。如图8所示，在图7实施例的基础上，该物品识别装置60包括：图像获取模块601、模型处理模块602、相似度处理模块603、分类预测模块604和称重处理模块605。

其中，图像获取模块601，用于获取待识别物品的目标图像；

分类预测模块604，用于根据所述分类结果预测分值，确定所述待识别物品的分类结果；

称重处理模块605，用于根据所述待识别物品的分类结果对所述待识别物品进行称重。

在一种可能的设计中，所述图像获取模块601，具体用于若检测到承托装置放入待识别物品，则获取所述待识别物品的拍摄图像，并将所述拍摄图像中所述承托装置所在区域的图像作为所述待识别物品的目标图像。

在一种可能的设计中，所述图像获取模块601，具体用于根据位置检测模型获取所述承托装置在所述拍摄图像中的坐标值；根据所述坐标值在所述拍摄图像中确定所述承托装置所在的区域的图像；将所述承托装置所在区域的图像作为所述待识别物品的目标图像。

在一种可能的设计中，所述位置检测模型包括：纹理特征处理网络、维度特征处理网络和预测网络；其中，所述纹理特征处理网络、所述维度特征处理网络和所述预测网络依次串联连接；所述根据位置检测模型获取所述承托装置在所述拍摄图像中的坐标值，包括：所述纹理特征处理网络对所述拍摄图像进行高频纹理特征提取，输出高频纹理特征图；所述维度特征处理网络对所述高频纹理特征图进行不同维度的高频特征的提取，输出多维高频特征图；所述预测网络对所述多维高频特征图进行特征处理，输出所述承托装置在所述拍摄图像中的坐标值。

在一种可能的设计中，所述纹理特征处理网络包括L个密集桥接单元与L个降维卷积层，所述密集桥接单元和所述降维卷积层交替串联连接，其中L为正整数；所述密集桥接单元对所述目标图像进行高频特征提取，所述降维卷积层对所述目标图像进行特征提取和池化处理。

在一种可能的设计中，所述维度特征处理网络包括：第一卷积单元、通道压缩卷积层、第二卷积单元、通道膨胀卷积层，所述第一卷积单元、所述通道压缩卷积层、所述第二卷积单元和所述通道膨胀卷积层依次串联连接；

所述第一卷积单元对所述高频纹理特征图进行纹理特征提取和降维处理，输出第一高频纹理特征图；所述通道压缩卷积层对所述第一高频纹理特征图进行通道降维压缩，输出第二高频纹理特征图；所述第二卷积单元对所述第二高频纹理特征图进行纹理特征提取，输出第三高频纹理特征图；所述通道膨胀卷积层对所述第三高频纹理特征图进行通道增维处理，输出多维高频特征图。

在一种可能的设计中，所述第一卷积单元包括至少一个特征提取卷积层和至少一个降维卷积层，且所述特征提取卷积层和所述降维卷积层交替串联连接。

在一种可能的设计中，所述预测网络包括：第一预测网络，第二预测网络和第三预测网络；所述第一预测网络包括第一上采样单元，第一融合层，第一特征提取单元；所述第二预测网络包括第二上采样单元，第二融合层，第二特征提取单元；第三预测网络包括第三特征提取单元；

所述预测网络对所述多维高频特征图进行特征处理，得到所述承托装置在所述拍摄图像中的坐标值，包括：

若所述目标图像在所述拍摄图像中的占比大于或等于第一预设比例，则所述第一上采样单元对所述多维高频特征图进行处理，输出第一高层纹理信息；所述第一融合层将所述第一高层纹理信息与所述维度特征处理网络输出的低层纹理信息进行融合，输出第一融合特征图；所述第一特征提取单元对所述第一融合特征图进行特征提取，输出所述承托装置在所述拍摄图像中的坐标值；

若所述目标图像在所述拍摄图像中的占比小于第一预设比例且大于第二预设比例，则第二上采样单元对所述多维高频特征图进行采样处理，输出第二高层纹理信息；所述第二融合层将所述第二高层纹理信息与所述维度特征处理网络输出的低层纹理信息进行融合，得到第二融合特征图；所述第二特征处理单元对所述第二融合特征图进行特征处理，输出所述承托装置在所述拍摄图像中的坐标值；

若所述目标图像在所述拍摄图像中的占比小于或等于第二设定比例，所述第三特征处理单元对所述多维高频特征图进行特征处理，输出所述承托装置在所述拍摄图像中的坐标值。

在一种可能的设计中，所述第一特征提取单元包括依次连接的特征提取卷积层、瓶颈卷积层、残差运算层和探针卷积层；

所述残差运算层还与所述维度特征处理网络连接，所述维度特征处理网络向所述残差运算层输入第一低层纹理信息；

所述特征提取卷积层对所述第一融合特征图进行特征提取，输出第一特征图；

所述瓶颈卷积层对所述第一特征图的通道数进行处理，输出与所述第一低层纹理信息的通道数相同的第一瓶颈特征图；

所述残差运算层对所述第一瓶颈特征图和所述第一低层纹理信息进行残差运算补充低层纹理信息中的中高频纹理信息，输出第一残差特征图；

所述探针卷积层对所述第一残差特征图进行位置识别处理，输出所述承托装置在所述拍摄图像中的坐标值。

在一种可能的设计中，所述探针卷积层的过滤器个数根据预设先验框的数量、承托装置的类型数量、承托装置的位置坐标的数量和置信度分值的数量确定。

图9为本发明实施例提供的称重设备的硬件结构示意图。如图9所示，本实施例的称重设备80包括：处理器801以及存储器802，以及摄像装置804和显示屏805；其中

摄像装置804，用于获取待识别物品的目标图像；

显示屏805，用于显示待识别物品的分类结果图片；

存储器802，用于存储计算机执行指令；

处理器801，用于执行存储器存储的计算机执行指令，以实现上述实施例中称重设备所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。

可选地，存储器802既可以是独立的，也可以跟处理器801集成在一起。

当存储器802独立设置时，该称重设备还包括总线803，用于连接所述存储器802和处理器801。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的物品识别方法。

本发明实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时，实现如上所述的物品识别方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(Central Processing Unit，简称CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，简称ISA)总线、外部设备互连(Peripheral Component Interconnect，简称PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，简称EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种物品识别方法，其特征在于，包括：

获取待识别物品的目标图像；

确定所述目标检索特征和所述目标属性特征与预设特征的相似度，并根据所述相似度确定分类结果预测分值；所述预设特征包括N个检索特征和M个属性特征，N和M都为正整数；

2.根据权利要求1所述的方法，其特征在于，各所述检索特征和各所述属性特征用于表征同一个物品的检索特征和属性特征，所述确定所述目标检索特征和目标属性特征与预设特征的相似度，并根据所述相似度确定分类结果预测分值，包括：

计算所述目标检索特征与各所述检索特征的第一相似度，得到第一相似度矩阵；

计算所述目标属性特征与各所述属性特征的第二相似度，得到第二相似度矩阵；

将所述第一相似度矩阵和所述第二相似度矩阵中表征同一个物品的各所述第一相似度和各所述第二相似度进行加权处理，得到最终相似度矩阵；

对所述最终相似度矩阵中的各相似度按照预设规则进行筛选，得到所述待识别物品的至少一个分类结果预测分值。

3.根据权利要求1所述的方法，其特征在于，所述属性分类模型包括：依次串联的K个卷积单元、第一分类卷积层和第二分类卷积层，其中K为正整数，所述将所述目标图像输入所述属性分类模型，以输出所述目标图像对应的目标属性特征，包括：

所述K个卷积单元提取所述目标图像的多维属性特征，得到所述目标图像的多维特征图；所述第一分类卷积层对所述目标图像的多维特征图进行分类，得到所述目标图像的形状属性特征；所述第二分类卷积层对所述目标图像的多维特征图进行分类，得到所述目标图像的颜色属性特征；

将所述形状属性特征和所述颜色属性特征进行合并，得到所述目标图像的目标属性特征。

4.根据权利要求3所述的方法，其特征在于，若所述目标图像的尺寸属于第一预设尺寸，所述K个卷积单元包括特征提取卷积层和降维处理卷积层，且所述特征提取卷积层和所述降维处理卷积层交替串联连接，所述特征提取卷积层用于对所述目标图像进行属性特征提取，所述降维处理卷积层用于对所述目标图像进行降维处理。

5.一种物品识别方法，应用于物品称重，其特征在于，包括：

获取待识别物品的目标图像；

确定所述目标检索特征和目标属性特征与各预设特征的相似度，并根据所述相似度确定分类结果预测分值；所述预设特征包括N个检索特征和M个属性特征，N和M都为正整数；

6.根据权利要求5所述的方法，其特征在于，所述获取所述待识别物品的目标图像，包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述拍摄图像中所述承托装置所在区域的图像作为所述待识别物品的目标图像，包括：

根据位置检测模型获取所述承托装置在所述拍摄图像中的坐标值；

根据所述坐标值在所述拍摄图像中确定所述承托装置所在的区域的图像；

将所述承托装置所在区域的图像作为所述待识别物品的目标图像。

8.根据权利要求7所述的方法，其特征在于，所述位置检测模型包括：纹理特征处理网络、维度特征处理网络和预测网络；

其中，所述纹理特征处理网络、所述维度特征处理网络和所述预测网络依次串联连接；

所述根据位置检测模型获取所述承托装置在所述拍摄图像中的坐标值，包括：

所述纹理特征处理网络对所述拍摄图像进行高频纹理特征提取，输出高频纹理特征图；所述维度特征处理网络对所述高频纹理特征图进行不同维度的高频特征的提取，输出多维高频特征图；所述预测网络对所述多维高频特征图进行特征处理，输出所述承托装置在所述拍摄图像中的坐标值。

9.根据权利要求8所述的方法，其特征在于，所述纹理特征处理网络包括L个密集桥接单元与L个降维卷积层，所述密集桥接单元和所述降维卷积层交替串联连接，其中L为正整数；

所述密集桥接单元对所述目标图像进行高频特征提取，所述降维卷积层对所述目标图像进行特征提取和池化处理。

10.根据权利要求8所述的方法，其特征在于，所述维度特征处理网络包括：第一卷积单元、通道压缩卷积层、第二卷积单元、通道膨胀卷积层，所述第一卷积单元、所述通道压缩卷积层、所述第二卷积单元和所述通道膨胀卷积层依次串联连接；

11.根据权利要求10所述的方法，其特征在于，所述第一卷积单元包括至少一个特征提取卷积层和至少一个降维卷积层，且所述特征提取卷积层和所述降维卷积层交替串联连接。

12.根据权利要求8所述的方法，其特征在于，所述预测网络包括：第一预测网络，第二预测网络和第三预测网络；所述第一预测网络包括第一上采样单元，第一融合层，第一特征提取单元；所述第二预测网络包括第二上采样单元，第二融合层，第二特征提取单元；所述第三预测网络包括第三特征提取单元；

若所述目标图像在所述拍摄图像中的占比小于第一预设比例且大于第二预设比例，则所述第二上采样单元对所述多维高频特征图进行采样处理，输出第二高层纹理信息；所述第二融合层将所述第二高层纹理信息与所述维度特征处理网络输出的低层纹理信息进行融合，得到第二融合特征图；所述第二特征提取单元对所述第二融合特征图进行特征处理，输出所述承托装置在所述拍摄图像中的坐标值；

若所述目标图像在所述拍摄图像中的占比小于或等于第二设定比例，所述第三特征提取单元对所述多维高频特征图进行特征处理，输出所述承托装置在所述拍摄图像中的坐标值。

13.根据权利要求12所述的方法，其特征在于，所述第一特征提取单元包括依次连接的特征提取卷积层、瓶颈卷积层、残差运算层和探针卷积层，所述第一特征提取单元对所述第一融合特征图进行特征提取，输出所述承托装置在所述拍摄图像中的坐标值，包括：

所述瓶颈卷积层对所述第一特征图的通道数进行处理，输出与所述维度特征处理网络输出的第一低层纹理信息的通道数相同的第一瓶颈特征图；

所述残差运算层对所述第一瓶颈特征图和所述维度特征处理网络输出的第一低层纹理信息进行残差运算，输出第一残差特征图；

14.根据权利要求13所述的方法，其特征在于，所述探针卷积层的过滤器个数根据预设先验框的数量、承托装置的类型的数量、承托装置的位置坐标的数量和置信度分值的数量确定。

15.一种物品识别装置，其特征在于，包括：

图像获取模块，用于获取待识别物品的目标图像；

相似度处理模块，用于确定所述目标检索特征和所述目标属性特征与预设特征的相似度，并根据所述相似度确定分类结果预测分值；所述预设特征包括N个检索特征和M个属性特征，N和M都为正整数；

16.一种物品识别装置，应用于物品称重，其特征在于，包括：

图像获取模块，用于获取待识别物品的目标图像；

17.一种称重设备，其特征在于，包括：

摄像装置，用于获取待识别物品的目标图像；

承托装置，用于放入待识别物品；

显示屏，用于显示待识别物品的分类结果；

至少一个处理器和存储器；所述存储器存储计算机执行指令；所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至4任一项所述的物品识别方法，或者如权利要求5至14任一项所述的物品识别方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至4任一项所述的物品识别方法，或者如权利要求5至14任一项所述的物品识别方法。