CN111340126A

CN111340126A - 物品识别方法、装置、计算机设备和存储介质

Info

Publication number: CN111340126A
Application number: CN202010140115.6A
Authority: CN
Inventors: 高斌斌; 贾佳亚; 戴宇荣
Original assignee: Tencent Cloud Computing Beijing Co Ltd
Current assignee: Tencent Cloud Computing Beijing Co Ltd
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2020-06-26
Anticipated expiration: 2040-03-03
Also published as: CN111340126B

Abstract

本申请涉及一种物品识别方法、装置、计算机设备和存储介质。所述方法包括：获取第一目标行为图像；将所述第一目标行为图像输入特征提取网络进行处理，得到所述特征提取网络中至少两个卷积网络层的特征提取结果，将所述至少两个卷积网络层的特征提取结果进行融合处理，得到第一特征信息；将所述第一特征信息输入多尺度特征提取网络进行处理，得到不同尺度的特征图；将所述不同尺度的特征图输入目标检测网络进行目标物品的检测，得到所述目标物品的类别信息以及所述目标物品在所述第一目标行为图像中的位置信息。采用本方法能够提高对目标物品识别的准确率以及检测速度。

Description

物品识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种物品识别方法、装置、计算机可读存储介质和计算机设备。

背景技术

随着人工智能技术的发展，人工智能技术逐渐渗透到各行各业，比如零售业。无人零售，比如无人超市、无人货柜，由于其便利性、智能性，是近期兴起的热门领域，拥有广阔的前景。当用户使用无人货柜时，只需扫码即可打开柜门，在选取商品后，无人货柜可对用户选取的商品自动进行结算。

传统的无人货柜一般通过静态解决方案实现自动结算。静态解决方案是指无人货柜采集其内部商品的图像，根据用户选取前后商品的变化生成结算信息。

但是，这种方式存在准确性不高的缺点，比如当无人货柜内商品的固有摆放方式被打乱时，无人货柜很难识别出商品。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高物品识别准确率的物品识别方法、装置、计算机设备和存储介质。

一种物品识别方法，包括：

获取第一目标行为图像；

将第一目标行为图像输入特征提取网络进行处理，得到特征提取网络中至少两个卷积网络层的特征提取结果，将至少两个卷积网络层的特征提取结果进行融合处理，得到第一特征信息；

将第一特征信息输入多尺度特征提取网络进行处理，得到不同尺度的特征图；

将不同尺度的特征图输入目标检测网络进行目标物品的检测，得到目标物品的类别信息以及目标物品在第一目标行为图像中的位置信息。

一种检测模型训练方法，方法包括：

获取训练样本图像以及训练样本图像对应的标记信息，训练样本图像对应的标记信息包括标记框以及类别信息标签；

将训练样本图像输入检测模型的特征提取网络进行处理，得到特征提取网络中至少两个卷积网络层的特征提取结果，将至少两个卷积网络层的特征提取结果进行融合处理，得到第一特征信息；

将第一特征信息输入检测模型的多尺度特征提取网络进行处理，得到不同尺度的特征图；

将不同尺度的特征图输入检测模型的目标检测网络进行目标物品的检测，得到目标物品的第一预测信息，第一预测信息包括：目标物品在训练样本图像中的位置信息以及目标物品的类别信息；

按照第一预测信息与训练样本图像的标记信息之间的差异，调整检测模型的参数并继续训练，直至满足训练停止条件时结束训练。

一种物品识别装置，包括：

获取模块，用于获取第一目标行为图像；

处理模块，用于将第一目标行为图像输入特征提取网络进行处理，得到特征提取网络中至少两个卷积网络层的特征提取结果，将至少两个卷积网络层的特征提取结果进行融合处理，得到第一特征信息；

处理模块，还用于将第一特征信息输入多尺度特征提取网络进行处理，得到不同尺度的特征图；

检测模块，用于将不同尺度的特征图输入目标检测网络进行目标物品的检测，得到目标物品的类别信息以及目标物品在第一目标行为图像中的位置信息。

一种检测模型训练装置，装置包括：

获取模块，用于获取训练样本图像以及训练样本图像对应的标记信息，训练样本图像对应的标记信息包括标记框以及类别信息标签；

处理模块，用于将训练样本图像输入检测模型的特征提取网络进行处理，得到特征提取网络中至少两个卷积网络层的特征提取结果，将至少两个卷积网络层的特征提取结果进行融合处理，得到第一特征信息；

处理模块，还用于将第一特征信息输入检测模型的多尺度特征提取网络进行处理，得到不同尺度的特征图；

检测模块，用于将不同尺度的特征图输入检测模型的目标检测网络进行目标物品的检测，得到目标物品的第一预测信息，第一预测信息包括：目标物品在训练样本图像中的位置信息以及目标物品的类别信息；

调整模块，用于按照第一预测信息与训练样本图像的标记信息之间的差异，调整检测模型的参数并继续训练，直至满足训练停止条件时结束训练。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

获取第一目标行为图像；

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取第一目标行为图像；

上述物品识别方法、装置、计算机设备和存储介质，获取第一目标行为图像，将第一目标行为图像输入特征提取网络进行处理，得到特征提取网络中至少两个卷积网络层的特征提取结果，将至少两个卷积网络层的特征提取结果进行融合处理，得到第一特征信息，接着，将第一特征信息输入多尺度特征提取网络进行处理，得到不同尺度的特征图，接着，将不同尺度的特征图输入目标检测网络进行目标物品的检测，得到目标物品的类别信息以及目标物品在第一目标行为图像中的位置信息。首先，将特征提取网络中至少两个卷积网络层的特征进行融合，丰富了特征提取网络提取的特征，接着，通过多尺度特征提取网络提取不同尺度的特征图，使得检测模型可对不同大小的目标物品进行检测，这样，提高了对目标物品识别的准确率。

附图说明

图1为一个实施例中物品识别方法的应用环境图；

图2为一个实施例中物品识别方法的流程示意图；

图3为一个实施例中检测模型的结构框图；

图4(a)为一个实施例中拿取信息的示意图；

图4(b)为另一个实施例中拿取信息的示意图；

图4(c)为又一个实施例中拿取信息的示意图；

图5为另一个实施例中物品识别方法的流程示意图；

图6为一个实施例中物品识别系统的结构框图；

图7为一个实施例中物品识别装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中物品识别方法的应用环境图。终端110具体可以是台式终端或移动终端，台式终端具体可以是无人货柜等。在一个实施例中，用户通过扫码等方式开启无人货柜的柜门，在用户选取物品的过程中，无人货柜通过摄像头监控、识别用户所选取的物品，当用户进行结算时，无人货柜根据对物品的识别结果，生成结算信息。具体地，终端110获取第一目标行为图像；接着，终端110将第一目标行为图像输入特征提取网络进行处理，得到特征提取网络中至少两个卷积网络层的特征提取结果，将至少两个卷积网络层的特征提取结果进行融合处理，得到第一特征信息；接着，终端110将第一特征信息输入多尺度特征提取网络进行处理，得到不同尺度的特征图；接着，终端110将不同尺度的特征图输入目标检测网络进行目标物品的检测，得到目标物品的类别信息以及目标物品在第一目标行为图像中的位置信息。

在一个实施例中，终端110通过网络与服务器进行通信，终端110以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。具体地，终端110获取第一目标行为图像；接着，终端110将第一目标行为图像发送至服务器，以使服务器输入特征提取网络进行处理，得到特征提取网络中至少两个卷积网络层的特征提取结果，将至少两个卷积网络层的特征提取结果进行融合处理，得到第一特征信息，将第一特征信息输入多尺度特征提取网络进行处理，得到不同尺度的特征图，将不同尺度的特征图输入目标检测网络进行目标物品的检测，得到目标物品的类别信息以及目标物品在第一目标行为图像中的位置信息，并将目标物品的类别信息以及目标物品在第一目标行为图像中的位置信息返回至终端110。

在一个实施例中，如图2所示，提供了一种物品识别方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤202，获取第一目标行为图像。

其中，第一目标行为图像中包括需要检测的目标物品，目标物品是从无人货柜的货架上被取下的物品。

在一个实施例中，无人货柜中设置有摄像头，通过无人货柜中设置的摄像头获取第一目标行为图像。或者，无人货柜与其它终端进行交互，接收其它终端发送的第一目标行为图像。

在一个实施例中，当检测到无人货柜的柜门被开启时，实时或者定时获取第一目标行为图像，以对无人货柜中的物品进行监控、识别。

步骤204，将第一目标行为图像输入特征提取网络进行处理，得到特征提取网络中至少两个卷积网络层的特征提取结果，将至少两个卷积网络层的特征提取结果进行融合处理，得到第一特征信息。

其中，如图3所示，检测模型可包括特征提取网络302、多尺度特征提取网络304以及目标检测网络306。特征提取网络302用于提取特征，并对提取的特征进行融合；多尺度特征提取网络304在特征提取网络302提取、融合的特征的基础上，进行多尺度特征提取，得到金字塔特征图；目标检测网络306用于根据多尺度特征提取网络提取的金字塔特征图进行目标检测，比如对目标物品的类别信息、目标物品的位置信息进行检测。

特征提取网络可包括多个卷积网络层，至少两个卷积网络层可为特征提取网络中相邻的卷积网络层，也可为特征提取网络中相隔的卷积网络层。可选地，该至少两个卷积网络层可为特征提取网络的最后三个卷积网络层。

在至少两个卷积网络层中，每一个卷积网络层提取得到一个特征图，至少两个卷积网络层全部提取得到的特征图为特征提取结果。第一特征信息是将至少两个卷积网络层提取得到的特征图进行融合得到的。

在一个实施例中，将至少两个卷积网络层的特征提取结果进行融合处理的方式可以是：直接将至少两个卷积网络层提取得到的特征图进行连接。底层特征分辨率高，包含更多位置、细节信息，但是语义性更低；顶层特征具有更强的语义信息，但是分辨率低，对细节的感知能力差，其中，底层特征经过的特征提取处理次数小于顶层特征经过的特征提取处理次数。将特征提取网络中至少两个卷积网络层的特征提取结果进行融合处理，使得将特征提取网络底层特征和顶层特征进行融合，丰富了特征提取网络提取的特征，以避免对小目标的漏检。

在一个实施例中，特征提取网络可采用轻量级模型结构，比如MobileNet-V1网络结构、MobileNet-V2网络结构、ShufflleNet网络结构等等。采用轻量级网络结构，可提高对目标物品的检测速度。

步骤206，将第一特征信息输入多尺度特征提取网络进行处理，得到不同尺度的特征图。

其中，多尺度特征提取网络可包括多个卷积网络层，在多个卷积网络层中选取预设数量的卷积网络层进行特征提取操作，该预设数量的卷积网络层的尺度不同，因此预设数量的卷积网络层提取的特征图的尺度不同，从而通过多尺度特征提取网络可得到不同尺度的特征图。可选地，预设数量可为六个。

由于物品之间存在尺度差异，而同一尺度的物品，距离摄像头位置不同，其在第一目标行为图像中的尺度可能不同。多尺度特征提取网络采用不同尺度的卷积网络层，可提取得到不同尺度的特征图，使得检测模型可对第一目标行为图像中不同大小的目标物品进行检测，提高了对目标物品的检出率。

步骤208，将不同尺度的特征图输入目标检测网络进行目标物品的检测，得到目标物品的类别信息以及目标物品在第一目标行为图像中的位置信息。

其中，每一个物品可对应唯一的类别信息，类别信息用于表征物品的身份信息。或者，具有同一属性的物品对应同一类别信息，比如相同售价的物品的类别信息相同。

在一个实施例中，目标检测网络可包括分类分支，该分类分支可包括分类函数，该分类函数用于检测得到目标物品的类别信息。可选地，该分类函数可为Softmax函数。

在一个实施例中，目标检测网络还可包括回归分支，该回归分支可包括回归函数，该回归函数用于确定目标物品在第一目标行为图像中的位置信息，位置信息用于表征目标物品在第一目标行为图像中的位置，目标物品在第一目标行为图像中的位置信息可通过包围框进行显示。

具体地，通过目标物品的类别信息以及目标物品在第一目标行为图像中的位置信息可确定选取的物品类别以及选取的物品数量。

在一个实施例中，多尺度特征提取网络和目标检测网络可采用SSD(Single ShotMultiBox Detector)目标检测框架。可选地，可降低分类分支和回归分支的卷积网络层的通道数量。可选地，可将目标检测网络的标准卷积替换为深度可分离卷积。

上述物品识别方法中，获取第一目标行为图像，将第一目标行为图像输入特征提取网络进行处理，得到特征提取网络中至少两个卷积网络层的特征提取结果，将至少两个卷积网络层的特征提取结果进行融合处理，得到第一特征信息，接着，将第一特征信息输入多尺度特征提取网络进行处理，得到不同尺度的特征图，接着，将不同尺度的特征图输入目标检测网络进行目标物品的检测，得到目标物品的类别信息以及目标物品在第一目标行为图像中的位置信息。首先，将特征提取网络中至少两个卷积网络层的特征进行融合，丰富了特征提取网络提取的特征，接着，通过多尺度特征提取网络提取不同尺度的特征图，使得检测模型可对不同大小的目标物品进行检测，这样，提高了对目标物品识别的准确率。

在一个实施例中，将至少两个卷积网络层的特征提取结果进行融合处理，得到第一特征信息的方式，包括：将至少两个卷积网络层的特征提取结果缩放至相同的尺度；将缩放后的特征提取结果的通道进行串联，得到第一特征信息。

在一个实施例中，可采用双线性差值的方式将特征提取网络中至少两个卷积网络层的特征提取结果缩放至相同的尺度。在一个实施例中，可通过通道串联的方式对特征提取结果进行融合处理。

具体地，特征提取网络中至少两个卷积网络层的特征提取结果可能为不同的尺度，先将特征提取结果缩放至相同的尺度，即可将缩放后的特征提取结果的通道进行串联，得到融合后的特征。

本实施例中，将至少两个卷积网络层的特征提取结果缩放至相同的尺度，将缩放后的特征提取结果的通道进行串联，得到第一特征信息，这样，将特征提取网络中至少两个卷积网络层的特征进行融合，丰富了特征提取网络提取的特征，避免对小目标的漏检。

在一个实施例中，将不同尺度的特征图输入目标检测网络进行目标物品的检测，得到目标物品的类别信息的方式，包括：根据修正后的分类函数获取目标物品属于各个预设类别信息的概率值；获取目标物品属于各个预设类别信息的概率值中的最大概率值；当最大概率值大于或者等于预设阈值时，将最大概率值对应的预设类别信息作为目标物品的类别信息。

其中，目标检测网络包括修正后的分类函数，修正后的分类函数是通过预设常数修正得到的。可选地，预设常数大于1。预设类别信息是预先统计的物品的类别信息，该预先统计的物品可以是检测模型训练过的物品。预设阈值的取值范围可为[0,1]。

在一个实施例中，以分类函数为Softmax函数为例：

其中，S_i是检测模型对第i个预设类别信息预测的概率值，C是预设类别信息的数量。

通过预设常数T来修正Softmax函数，具体如下：

具体地，在无人货柜的运营过程中，受季节变化、商品市场销量等因素，无人货柜的物品是不断上新的，而检测模型对没有训练过的物品，识别准确率可能不高。在传统的检测模型中，即使检测模型没有训练过一物品，在确定其分类信息时，其最大概率值也会比较高。而本实施例中引入预设常数修正分类函数，使得当检测模型没有训练过一物品时，其最大概率值会小于预设阈值，而当检测模型训练过一物品时，其最大概率值会大于或者等于预设阈值。因此，当最大概率值大于或者等于预设阈值时，说明检测模型对目标物品的类别信息识别准确，因此可将最大概率值对应的预设类别信息作为目标物品的类别信息。

本实施例中，根据修正后的分类函数获取目标物品属于各个预设类别信息的概率值，获取目标物品属于各个预设类别信息的概率值中的最大概率值，当最大概率值大于或者等于预设阈值时，将最大概率值对应的预设类别信息作为目标物品的类别信息，这样，实现对目标物品的准确识别。

在一个实施例中，该方法还包括：当最大概率值小于预设阈值时，根据第一目标行为图像获取第二目标行为图像；根据检索模型获取第二目标行为图像的第二特征信息；获取各个预设类别信息对应的类中心特征信息，并计算第二特征信息与各个预设类别信息对应的类中心特征信息之间的相似度；将满足预设条件的相似度对应的预设类别信息作为目标物品的类别信息。

其中，检索模型可为卷积神经网络模型，检索模型可包括检索特征提取网络以及检索特征比对网络，检索特征提取网络用于提取特征，检索特征比对网络用于根据检索特征提取网络提取的特征识别类别信息。在一个实施例中，检索模型可为轻量级模型，比如MobileNet-V1模型、MobileNet-V2模型、ShufflleNet模型、PleeNet模型等。

第二特征信息为：将第二目标行为图像输入检索模型，该检索模型的预定层输出的特征信息。可选地，预定层可为检索特征提取网络的最后一层卷积网络层。

在一个实施例中，第二目标行为图像可为第一目标行为图像，即当最大概率值小于预设阈值时，直接将第一目标行为图像输入检索模型来确定其类别信息。

类中心特征信息是根据属于同一预设类别信息的样本行为图像的第三特征信息融合得到的，样本行为图像是用于对检索模型进行训练的样本数据，第三特征信息为：将样本行为图像输入检索模型，该检索模型的预定层的特征信息。

在一个实施例中，预先建立各个预设类别信息与类中心特征信息之间的关联关系。

在一个实施例中，第二特征信息与各个预设类别信息对应的类中心特征信息之间的相似度可通过余弦距离、欧式距离等进行计算。可选地，将最大相似度的预设类别信息作为目标物品的类别信息。

在一个实施例中，当最大概率值小于预设阈值时，说明检测模型对目标物品的类别信息识别不准确，因此可通过检索模型对目标物品的类别信息进行识别。

首先，获取第二目标行为图像，根据检索模型获取第二目标行为图像的第二特征信息，为了减少不同类别的图像因为特征范数带来的差异，先对第二特征信息做归一化处理，可选地，可应用l2范数对第二特征信息做归一化处理：

其中，j为预设类别信息，k为预设类别信息中的第k张图像，f_j,k为第二特征信息。

接着，计算第二特征信息与各个预设类别信息对应的类中心特征信息之间的相似度，以余弦距离为例：

其中，c_i为预设类别信息的类中心特征信息，x为第二特征信息。

可选地，将余弦距离最小的预设类别信息作为目标物品的类别信息。

本实施例中，当最大概率值小于预设阈值时，根据第一目标行为图像获取第二目标行为图像，根据检索模型获取第二目标行为图像的第二特征信息，获取各个预设类别信息对应的类中心特征信息，并计算第二特征信息与各个预设类别信息对应的类中心特征信息之间的相似度，将满足预设条件的相似度对应的预设类别信息作为目标物品的类别信息，这样，实现对新增物品的快速、准确识别。

在一个实施例中，根据第一目标行为图像获取第二目标行为图像的方式，包括：根据第一目标行为图像以及位置信息，获取第二目标行为图像。

具体地，当将不同尺度的特征图输入训练好的目标检测网络进行目标物品的检测时，还得到目标物品在第一目标行为图像中的位置信息，位置信息通过包围框进行显示。因此可按照包围框以及第一目标行为图像确定第二目标行为图像，从而避免背景、第一目标行为图像中其它目标物品的干扰。

在一个实施例中，根据第一目标行为图像的包围框以及第一目标行为图像，截取得到包围框中的目标图像块，将目标图像块重新缩放到固定尺寸，得到第二目标行为图像。

本实施例中，根据第一目标行为图像以及位置信息，获取第二目标行为图像，这样，避免了背景、第一目标行为图像中其它目标物品的干扰，提高了检索模型对新增物品识别的准确性。

在一个实施例中，各个预设类别信息对应的类中心特征信息的获取方式，包括：获取样本行为图像以及样本行为图像对应的标记信息，样本行为图像对应的标记信息包括类别信息标签；根据样本行为图像以及检索模型，确定样本行为图像的第三特征信息；根据样本行为图像对应的标记信息，对样本行为图像的第三特征信息进行融合处理，得到各个预设类别信息对应的类中心特征信息。

其中，样本行为图像是用于对检索模型进行训练的样本数据。可选地，样本行为图像可为训练样本图像，训练样本图像是用于对检测模型进行训练的样本数据，即直接利用第二样本图像对检索模型进行训练。可选地，可根据训练样本图像的标记框以及训练样本图像确定样本行为图像。根据训练样本图像的标记框以及训练样本图像，截取得到标记框中的目标图像块，将目标图像块重新缩放到固定尺寸，得到样本行为图像。

其中，样本行为图像对应的标记信息是对样本行为图像进行标记的信息，样本行为图像对应的标记信息包括类别信息标签，类别信息标签用于标记样本行为图像中目标物品的类别信息。

在一个实施例中，检索模型的训练方式为：将样本行为图像输入待训练的检索模型，得到检索模型输出的预测分类信息，根据预测分类信息与样本行为图像对应的标记信息之间的差异，调整检索模型的参数并继续训练，直至满足训练停止条件时结束训练。

其中，第三特征信息为：将样本行为图像输入检索模型，该检索模型的预定层的特征信息。可选地，预定层可为检索模型的检索特征提取网络的最后一层卷积网络层。

在一个实施例中，根据样本行为图像对应的标记信息，对样本行为图像的第三特征信息进行融合处理，得到各个预设类别信息对应的类中心特征信息，包括：根据样本行为图像对应的标记信息，得到各个预设类别信息对应的样本行为图像；对属于同一预设类别信息的样本行为图像的第三特征信息进行融合处理，得到各个预设类别信息对应的类中心特征信息。

在一个实施例中，为了减少不同类别的图像因为特征范数带来的差异，先对第三特征信息做归一化处理，可选地，可应用l2范数对特征做归一化处理：

其中，j为预设类别信息，k为预设类别信息中的第k张图像，f_j,k为第三特征信息。

接着，对属于同一预设类别信息的样本行为图像的第三特征信息进行平均融合处理，得到各个预设类别信息对应的类中心特征信息：

其中，c_i为预设类别信息的类中心特征信息。

接着，得到所有预设类别信息的类中心特征信息构成的类中心特征信息集合：{c₁,c₂,…c_c+1}

这样，每一个预设类别信息均对应有类中心特征信息。

本实施例中，获取样本行为图像以及样本行为图像对应的标记信息，样本行为图像对应的标记信息包括类别信息标签，根据样本行为图像以及检索模型，确定样本行为图像的第三特征信息，根据样本行为图像对应的标记信息，对样本行为图像的第三特征信息进行融合处理，得到各个预设类别信息对应的类中心特征信息，这样，预先建立各个预设类别信息与类中心特征信息之间的映射关系，以实现对新增物品的准确识别。

在一个实施例中，方法还包括：获取目标物品的重量信息；当目标物品的重量信息与目标物品的类别信息不匹配时，重新执行获取第一目标行为图像的步骤。

其中，重量信息用于表征目标物品的重量。目标物品的重量信息可通过重力传感器检测得到。

具体地，预先设置每一个物品的重量信息，并将每一个物品的重量信息与类别信息关联存储。当通过检测模型识别得到目标物品的类别信息，并通过重力传感器检测得到目标物品的重量信息，但该目标物品的类别信息与重量信息不匹配时，说明检测模型可能对该目标物品的类别信息识别有误，因此可重新通过检测模型识别目标物品的类别信息。

在一个实施例中，当通过检测模型识别目标物品的类别信息的次数达到预设次数，但是目标物品的类别信息与重量信息仍旧不匹配时，可通过检索模型检测目标物品的类别信息。其中，预设次数可为2次。

本实施例中，获取目标物品的重量信息，当目标物品的重量信息与目标物品的类别信息不匹配时，重新通过检测模型识别目标物品的类别信息，这样，结合重力信息，增强了对目标物品识别的准确性。

在一个实施例中，提供一种检测模型训练方法，方法包括：获取训练样本图像以及训练样本图像对应的标记信息，训练样本图像对应的标记信息包括标记框以及类别信息标签；将训练样本图像输入检测模型的特征提取网络进行处理，得到特征提取网络中至少两个卷积网络层的特征提取结果，将至少两个卷积网络层的特征提取结果进行融合处理，得到第一特征信息；将第一特征信息输入检测模型的多尺度特征提取网络进行处理，得到不同尺度的特征图；将不同尺度的特征图输入检测模型的目标检测网络进行目标物品的检测，得到目标物品的第一预测信息，第一预测信息包括：目标物品在训练样本图像中的位置信息以及目标物品的类别信息；按照第一预测信息与训练样本图像的标记信息之间的差异，调整检测模型的参数并继续训练，直至满足训练停止条件时结束训练。

其中，训练样本图像是用于对检测模型进行训练的样本数据。训练样本图像对应的标记信息是对训练样本图像进行标记的信息，训练样本图像对应的标记信息包括标记框以及类别信息标签，标记框用于标记样本行为图像中目标物品的位置信息，类别信息标签用于标记样本行为图像中目标物品的类别信息。第一预测信息是检测模型对训练样本图像中目标物品的预测信息，第一预测信息包括目标物品在训练样本图像中的位置信息以及其类别信息。

在一个实施例中，获取第一预测信息与训练样本图像对应的标记信息之间的差异的方式，包括：将第一预测信息中的包围框与训练样本图像对应的标记信息中的标记框进行比对，并将第一预测信息中的类别信息与训练样本图像对应的标记信息中的类别信息标签进行比对，得到第一预测信息与训练样本图像对应的标记信息之间的差异。

具体地，获取训练样本图像以及训练样本图像对应的标记信息，将训练样本图像输入特征提取网络进行处理，得到特征提取网络中至少两个卷积网络层的特征提取结果，将至少两个卷积网络层的特征提取结果进行融合处理，得到第一特征信息；将第一特征信息输入多尺度特征提取网络进行处理，得到不同尺度的特征图；将不同尺度的特征图输入目标检测网络进行目标物品的检测，得到第一预测信息。按照第一预测信息与训练样本图像对应的标记信息之间的差异，通过反向传播的方式调整检测模型的参数并继续训练，直至满足训练停止条件时结束训练。

本实施例中，获取训练样本图像以及训练样本图像对应的标记信息，将训练样本图像输入检测模型，得到目标物品的第一预测信息，按照第一预测信息与训练样本图像对应的标记信息之间的差异，调整检测模型的参数并继续训练，直至满足训练停止条件时结束训练，这样，提升检测模型对目标物品识别的准确性。

在一个实施例中，训练样本图像的获取方式，包括：根据物品的摆放信息以及拿取信息，获取训练样本图像，其中，拿取信息包括单次拿取物品的数量、拿取物品的角度以及拿取物品的速度中的至少一个。

其中，摆放信息包括：同一位置摆放的物品不同、物品的摆放方式(比如并排、并列、堆放、叠加等)不同、物品的摆放次序(比如将同一层、不同层的物品调换位置重新摆放)不同。这样，实现物品在无人货柜内摆放的多样性，覆盖了从货柜的不同位置、以不同的物品组合拿取物品的情况。

拿取信息包括：单次拿取物品的数量、拿取物品的角度以及拿取物品的速度。针对单次拿取物品的数量，单次拿取物品的数量可包括以下几种情况：如图4(a)所示，单手拿取单个商品，如图4(b)所示，单手拿取至少两个商品，如图4(c)所示，双手拿取至少两个商品。针对拿取物品的角度，物品的外观信息一般分布在前、后、左、右、上、下六个面，不同的面的外观信息往往是不同的，可变换拿取物品的角度，使得同一物品的不同的面的外观信息均有被摄像头捕捉到。针对拿取物品的速度，拿取物品的过程是一个动态的过程，摄像头抓拍到的是离散的多帧图像，拿取物品的速度会影响摄像头捕捉到的外观信息，可变换拿取物品的速度。

在一个实施例中，还可增加环境干扰信息，比如更改无人货柜所在环境的亮度等。在一个实施例中，考虑到相邻视频帧的图像信息比较接近，可随机跳帧选取图像。在一个实施例中，防止将空手误认为某个物品，可采集空手的图像作为训练样本图像。

本实施例中，根据物品的摆放信息以及拿取信息，获取训练样本图像，这样，建立丰富的样本数据，提升对检测模型训练的全面性。

在一个实施例中，方法还包括：将训练样本图像输入已训练的检测模型，得到目标物品的第二预测信息，目标物品的第二预测信息包括：目标物品在训练样本图像中的位置信息以及目标物品的类别信息；获取输入的修改信息，根据输入的修改信息更新第二预测信息；将更新后的第二预测信息作为训练样本图像对应的标记信息。

其中，已训练的检测模型为通过训练样本图像以及训练样本图像对应的标记信息训练过的检测模型，其可为满足训练停止条件的检测模型，也可为未满足训练停止条件的检测模型。第二预测信息是已训练的检测模型对训练样本图像识别得到的位置信息以及类别信息。修改信息可由人工输入，以纠正已训练的检测模型识别错误的第二预测信息。

在一个实施例中，训练样本图像对应的标记信息可由人工标记得到，即人工绘制包围框以及标注类别信息标签。可选地，当对检测模型首次进行训练时，可采用该种方式得到的训练样本图像对应的标记信息。

在另一个实施例中，训练样本图像对应的标记信息可由人工纠正和检测模型相结合的方式得到，即通过已训练的检测模型输出第二预测信息，人工检查第二预测信息是否正确，若不正确，则通过人工纠正后，将纠正后的第二预测信息作为训练样本图像对应的标记信息。可选地，当对检测模型后期进行训练时，可采用该种方式得到的训练样本图像对应的标记信息。

在一个实施例中，在检测模型的训练过程中，需要对已训练的检测模型进行测试，目的是检测该已训练的检测模型是否满足训练停止条件。当该已训练的检测模型满足训练停止条件时，该已训练的检测模型即可作为上线。在对已训练的检测模型进行测试的过程中，可采集检测模型识别错误的训练样本图像，对该训练样本图像进行标记后重新对检测模型进行训练。

本实施例中，将训练样本图像输入已训练的检测模型，得到目标物品的第二预测信息，获取输入的修改信息，根据输入的修改信息更新第二预测信息，将更新后的第二预测信息作为训练样本图像对应的标记信息，这样，提高对样本数据的标记效率。

在一个具体的实施例中，如图5所示，提供了一种物品识别方法，包括：

获取第一目标行为图像。

接着，将第一目标行为图像输入特征提取网络进行处理，得到特征提取网络中至少两个卷积网络层的特征提取结果，将至少两个卷积网络层的特征提取结果进行融合处理，得到第一特征信息。

进一步地，将第一特征信息输入多尺度特征提取网络进行处理，得到不同尺度的特征图。

接着，将不同尺度的特征图输入目标检测网络进行目标物品的检测，得到目标物品在第一目标行为图像中的位置信息。

并且，根据修正后的分类函数获取目标物品属于各个预设类别信息的概率值，并获取目标物品属于各个预设类别信息的概率值中的最大概率值，当最大概率值大于或者等于预设阈值时，将最大概率值对应的预设类别信息作为目标物品的类别信息。

当最大概率值小于预设阈值时，根据第一目标行为图像获取第二目标行为图像，根据检索模型获取第二目标行为图像的第二特征信息，获取各个预设类别信息对应的类中心特征信息，并计算第二特征信息与各个预设类别信息对应的类中心特征信息之间的相似度，将满足预设条件的相似度对应的预设类别信息作为目标物品的类别信息。

本实施例中，首先，将特征提取网络中至少两个卷积网络层的特征进行融合，丰富了特征提取网络提取的特征，接着，通过多尺度特征提取网络提取不同尺度的特征图，使得检测模型可对不同大小的目标物品进行检测，并且，当检测模型对目标物品的类别信息识别不准确时，判定为新增物品，通过检索模型对新增物品的类别信息进行识别，这样，提高了对目标物品识别的准确率。

在一个具体的实施例中，提供了一种物品识别方法，该方法通过检测模型来实现，该检测模型包括特征提取网络、多尺度特征提取网络和目标检测网络，该特征提取网络采用MobileNet-V2网络结构，该多尺度特征提取网络和目标检测网络采用SSD目标检测框架，包括：

获取第一目标行为图像。

具体地，SSD目标检测框架的基础网络是VGG16卷积神经网络，本实施例将SSD目标检测框架的基础网络VGG16替换成MobileNet-V2网络。在MobileNet t-V2网络的最后一层卷积网络层后添加n个卷积网络层，在n个卷积网络层中抽取六层做检测，该六层卷积网络层的尺度不同，从而可提取得到不同尺度的特征图。该六层卷积网络层提取到的特征图同时进行目标物品的分类和包围框的回归。

本实施例中，首先，采用轻量级模型，提高了对目标物品的检测速度，接着，将特征提取网络中至少两个卷积网络层的特征进行融合，丰富了特征提取网络提取的特征，接着，通过多尺度特征提取网络提取不同尺度的特征图，使得检测模型可对不同大小的目标物品进行检测，并且，当检测模型对目标物品的类别信息识别不准确时，通过检索模型对目标物品的类别信息进行识别，这样，有效改善对小目标物品的检测，提高了对目标物品识别的准确率。

在一个具体的实施例中，如图6所示，提供一种无人货柜管理系统，该无人货柜管理系统包括：数据采集单元、数据标注单元、检测模型单元、快速上新单元以及模型测试单元，这些单元共同构成了对物品识别的迭代优化的闭环方案。

其中，检数据采集单元用于采集模型训练所需的样本数据。具体地，根据无人货柜中物品的摆放信息以及拿取信息，获取样本数据。其中，摆放信息包括：同一位置摆放的物品不同、物品的摆放方式(比如并排、并列、堆放、叠加等)不同、物品的摆放次序(比如将同一层、不同层的物品调换位置重新摆放)不同。这样，实现物品在无人货柜内摆放的多样性，覆盖了从货柜的不同位置、以不同的物品组合拿取物品的情况。拿取信息包括：单次拿取物品的数量、拿取物品的角度以及拿取物品的速度。针对单次拿取物品的数量，单次拿取物品的数量可包括以下几种情况：单手拿取单个商品、单手拿取至少两个商品、双手拿取至少两个商品。针对拿取物品的角度，物品的外观信息一般分布在前、后、左、右、上、下六个面，不同的面的外观信息往往是不同的，可变换拿取物品的角度，使得同一物品的不同的面的外观信息均有被摄像头捕捉到。针对拿取物品的速度，拿取物品的过程是一个动态的过程，摄像头抓拍到的是离散的多帧图像，拿取物品的速度会影响摄像头捕捉到的外观信息，可变换拿取物品的速度。

其中，数据标注单元用于对样本数据进行标注。在一个实施例中，标记信息可由人工标记得到，即人工绘制标记框以及标注类别信息标签。可选地，当对检测模型首次进行训练时，可采用该种方式得到的标记信息。在一个实施例中，标记信息可由人工纠正和检测模型相结合的方式得到，即通过已训练的检测模型输出预测信息，人工检查该预测信息是否正确，若正确，则将该预测信息作为标记信息，若不正确，则通过人工纠正后，将纠正后的预测信息作为标记信息。可选地，当对检测模型后期进行训练时，可采用该种方式得到的标记信息。

其中，检测模型单元用于对目标物品进行检测。具体地，获取第一目标行为图像，将第一目标行为图像输入特征提取网络进行处理，并将特征提取网络中最后三个卷积网络层的特征提取结果缩放至相同的尺度，将缩放后的特征提取结果的通道进行串联，得到第一特征信息。将第一特征信息输入多尺度特征提取网络进行处理，得到不同尺度的特征图，将不同尺度的特征图输入目标检测网络，根据回归函数确定目标物品在第一目标行为图像中的位置信息，根据修正后的分类函数获取目标物品属于各个预设类别信息的概率值，获取目标物品属于各个预设类别信息的概率值中的最大概率值，当最大概率值大于或者等于预设阈值时，将最大概率值对应的预设类别信息作为目标物品的类别信息。

其中，快速上新单元用于对新增物品进行检测。具体地，将不同尺度的特征图输入目标检测网络，当最大概率值小于预设阈值时，根据位置信息以及第一目标行为图像确定得到第二目标行为图像，根据检索模型获取第二目标行为图像的第二特征信息，获取各个预设类别信息对应的类中心特征信息，并计算第二特征信息与各个预设类别信息对应的类中心特征信息之间的相似度，将最大相似度对应的预设类别信息作为目标物品的类别信息。

其中，模型测试单元用于检测模型是否满足训练停止条件。具体地，在对已训练的检测模型进行测试的过程中，可采集检测模型识别错误的样本数据，对该样本数据进行标记后，根据该样本数据以及样本数据对应的标记信息训练该已训练的检测模型。

本实施例提供的无人货柜管理系统，检数据采集单元建立丰富的样本数据，提升对检测模型训练的全面性；数据标注单元采用人工纠正和检测模型相结合的方式，提高对样本行为图像的标记效率；检测模型单元采用轻量级模型，提高了对目标物品的检测速度，且该轻量级模型可支持传统算力小、显存小的GPU(Graphics Processing Unit，图形处理器)显卡以及边缘计算设备(比如英特尔Movidius神经计算棒等)，并且，将特征提取网络中至少两个卷积网络层的特征进行融合，丰富了特征提取网络提取的特征，并且，通过多尺度特征提取网络提取不同尺度的特征图，使得检测模型可对不同大小的目标物品进行检测，提高了对目标物品识别的准确率；当检测模型单元对目标物品的类别信息识别不准确时，快速上新单元通过检索模型对目标物品的类别信息进行识别，提高了对新增物品识别的准确率；模型测试单元采集困难样本对模型迭代训练，提升检测模型的性能。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种物品识别装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块702、处理模块704和检测模块706，其中：

获取模块702，用于获取第一目标行为图像；

处理模块704，用于将第一目标行为图像输入特征提取网络进行处理，得到特征提取网络中至少两个卷积网络层的特征提取结果，将至少两个卷积网络层的特征提取结果进行融合处理，得到第一特征信息；

处理模块704，还用于将第一特征信息输入多尺度特征提取网络进行处理，得到不同尺度的特征图；

检测模块706，用于将不同尺度的特征图输入目标检测网络进行目标物品的检测，得到目标物品的类别信息以及目标物品在第一目标行为图像中的位置信息。

上述物品识别装置，获取第一目标行为图像，将第一目标行为图像输入特征提取网络进行处理，得到特征提取网络中至少两个卷积网络层的特征提取结果，将至少两个卷积网络层的特征提取结果进行融合处理，得到第一特征信息，接着，将第一特征信息输入多尺度特征提取网络进行处理，得到不同尺度的特征图，接着，将不同尺度的特征图输入目标检测网络进行目标物品的检测，得到目标物品的类别信息以及目标物品在第一目标行为图像中的位置信息。首先，将特征提取网络中至少两个卷积网络层的特征进行融合，丰富了特征提取网络提取的特征，接着，通过多尺度特征提取网络提取不同尺度的特征图，使得检测模型可对不同大小的目标物品进行检测，这样，提高了对目标物品识别的准确率。

在一个实施例中，处理模块704，还用于：将至少两个卷积网络层的特征提取结果缩放至相同的尺度；将缩放后的特征提取结果的通道进行串联，得到第一特征信息。

在一个实施例中，检测模块706，还用于：根据修正后的分类函数获取目标物品属于各个预设类别信息的概率值；获取目标物品属于各个预设类别信息的概率值中的最大概率值；当最大概率值大于或者等于预设阈值时，将最大概率值对应的预设类别信息作为目标物品的类别信息，目标检测网络包括修正后的分类函数，修正后的分类函数是通过预设常数修正得到的。

在一个实施例中，检测模块706，还用于：当最大概率值小于预设阈值时，根据第一目标行为图像获取第二目标行为图像；根据检索模型获取第二目标行为图像的第二特征信息；获取各个预设类别信息对应的类中心特征信息，并计算第二特征信息与各个预设类别信息对应的类中心特征信息之间的相似度；将满足预设条件的相似度对应的预设类别信息作为目标物品的类别信息。

在一个实施例中，检测模块706，还用于：根据第一目标行为图像以及位置信息，获取第二目标行为图像。

在一个实施例中，检测模块706，还用于：获取样本行为图像以及样本行为图像对应的标记信息，样本行为图像对应的标记信息包括类别信息标签；根据样本行为图像以及检索模型，确定样本行为图像的第三特征信息；根据样本行为图像对应的标记信息，对样本行为图像的第三特征信息进行融合处理，得到各个预设类别信息对应的类中心特征信息。

在一个实施例中，物品识别装置还包括执行模块，执行模块，用于：获取目标物品的重量信息；当目标物品的重量信息与目标物品的类别信息不匹配时，重新执行获取第一目标行为图像的步骤。

在一个实施例中，提供了一种检测模型训练装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块、处理模块、检测模块和调整模块，其中：

在一个实施例中，获取模块，还用于：根据物品的摆放信息以及拿取信息，获取训练样本图像，其中，拿取信息包括单次拿取物品的数量、拿取物品的角度以及拿取物品的速度中的至少一个。

在一个实施例中，检测模型训练装置还包括输入模块，输入模块，用于：将训练样本图像输入已训练的检测模型，得到目标物品的第二预测信息，目标物品的第二预测信息包括：目标物品在训练样本图像中的位置信息以及目标物品的类别信息；获取模块，还用于：获取输入的修改信息，根据输入的修改信息更新第二预测信息，将更新后的第二预测信息作为训练样本图像对应的标记信息。

关于物品识别装置以及检测模型训练装置的具体限定可以参见上文中对于物品识别方法以及检测模型训练方法的限定，在此不再赘述。上述物品识别装置以及检测模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种物品识别方法或者检测模型训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种物品识别方法，其特征在于，所述方法包括：

获取第一目标行为图像；

将所述第一目标行为图像输入特征提取网络进行处理，得到所述特征提取网络中至少两个卷积网络层的特征提取结果，将所述至少两个卷积网络层的特征提取结果进行融合处理，得到第一特征信息；

将所述第一特征信息输入多尺度特征提取网络进行处理，得到不同尺度的特征图；

将所述不同尺度的特征图输入目标检测网络进行目标物品的检测，得到所述目标物品的类别信息以及所述目标物品在所述第一目标行为图像中的位置信息。

2.根据权利要求1所述的方法，其特征在于，所述将所述至少两个卷积网络层的特征提取结果进行融合处理，得到第一特征信息的方式，包括：

将所述至少两个卷积网络层的特征提取结果缩放至相同的尺度；

将缩放后的所述特征提取结果的通道进行串联，得到所述第一特征信息。

3.根据权利要求1所述的方法，其特征在于，所述目标检测网络包括修正后的分类函数，所述修正后的分类函数是通过预设常数修正得到的；

所述将所述不同尺度的特征图输入目标检测网络进行目标物品的检测，得到所述目标物品的类别信息的方式，包括：

根据所述修正后的分类函数获取所述目标物品属于各个预设类别信息的概率值；

获取所述目标物品属于所述各个预设类别信息的概率值中的最大概率值；

当所述最大概率值大于或者等于预设阈值时，将所述最大概率值对应的预设类别信息作为所述目标物品的类别信息。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

当所述最大概率值小于所述预设阈值时，根据所述第一目标行为图像获取第二目标行为图像；

根据检索模型获取所述第二目标行为图像的第二特征信息；

获取所述各个预设类别信息对应的类中心特征信息，并计算所述第二特征信息与所述各个预设类别信息对应的类中心特征信息之间的相似度；

将满足预设条件的相似度对应的预设类别信息作为所述目标物品的类别信息。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一目标行为图像获取第二目标行为图像的方式，包括：

根据所述第一目标行为图像以及所述位置信息，获取所述第二目标行为图像。

6.根据权利要求4所述的方法，其特征在于，所述各个预设类别信息对应的类中心特征信息的获取方式，包括：

获取样本行为图像以及所述样本行为图像对应的标记信息，所述样本行为图像对应的标记信息包括类别信息标签；

根据所述样本行为图像以及所述检索模型，确定所述样本行为图像的第三特征信息；

根据所述样本行为图像对应的标记信息，对所述样本行为图像的第三特征信息进行融合处理，得到所述各个预设类别信息对应的类中心特征信息。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述目标物品的重量信息；

当所述目标物品的重量信息与所述目标物品的类别信息不匹配时，重新执行所述获取第一目标行为图像的步骤。

8.一种检测模型训练方法，其特征在于，所述方法包括：

获取训练样本图像以及所述训练样本图像对应的标记信息，所述训练样本图像对应的标记信息包括标记框以及类别信息标签；

将所述训练样本图像输入检测模型的特征提取网络进行处理，得到所述特征提取网络中至少两个卷积网络层的特征提取结果，将所述至少两个卷积网络层的特征提取结果进行融合处理，得到第一特征信息；

将所述第一特征信息输入所述检测模型的多尺度特征提取网络进行处理，得到不同尺度的特征图；

将所述不同尺度的特征图输入所述检测模型的目标检测网络进行目标物品的检测，得到所述目标物品的第一预测信息，所述第一预测信息包括：所述目标物品在所述训练样本图像中的位置信息以及所述目标物品的类别信息；

按照所述第一预测信息与所述训练样本图像的标记信息之间的差异，调整所述检测模型的参数并继续训练，直至满足训练停止条件时结束训练。

9.根据权利要求8所述的方法，其特征在于，所述训练样本图像的获取方式，包括：

根据物品的摆放信息以及拿取信息，获取所述训练样本图像，其中，所述拿取信息包括单次拿取物品的数量、拿取物品的角度以及拿取物品的速度中的至少一个。

10.根据权利要求8所述的方法，其特征在于，所述方法还包括：

将所述训练样本图像输入已训练的检测模型，得到所述目标物品的第二预测信息，所述目标物品的第二预测信息包括：所述目标物品在所述训练样本图像中的位置信息以及所述目标物品的类别信息；

获取输入的修改信息，根据所述输入的修改信息更新所述第二预测信息；

将更新后的所述第二预测信息作为所述训练样本图像对应的标记信息。

11.一种物品识别装置，其特征在于，所述装置包括：

获取模块，用于获取第一目标行为图像；

处理模块，用于将所述第一目标行为图像输入特征提取网络进行处理，得到所述特征提取网络中至少两个卷积网络层的特征提取结果，将所述至少两个卷积网络层的特征提取结果进行融合处理，得到第一特征信息；

所述处理模块，还用于将所述第一特征信息输入多尺度特征提取网络进行处理，得到不同尺度的特征图；

检测模块，用于将所述不同尺度的特征图输入目标检测网络进行目标物品的检测，得到所述目标物品的类别信息以及所述目标物品在所述第一目标行为图像中的位置信息。

12.一种检测模型训练装置，其特征在于，所述装置包括：

获取模块，用于获取训练样本图像以及所述训练样本图像对应的标记信息，所述训练样本图像对应的标记信息包括标记框以及类别信息标签；

处理模块，用于将所述训练样本图像输入检测模型的特征提取网络进行处理，得到所述特征提取网络中至少两个卷积网络层的特征提取结果，将所述至少两个卷积网络层的特征提取结果进行融合处理，得到第一特征信息；

所述处理模块，还用于将所述第一特征信息输入所述检测模型的多尺度特征提取网络进行处理，得到不同尺度的特征图；

检测模块，用于将所述不同尺度的特征图输入所述检测模型的目标检测网络进行目标物品的检测，得到所述目标物品的第一预测信息，所述第一预测信息包括：所述目标物品在所述训练样本图像中的位置信息以及所述目标物品的类别信息；

调整模块，用于按照所述第一预测信息与所述训练样本图像的标记信息之间的差异，调整所述检测模型的参数并继续训练，直至满足训练停止条件时结束训练。

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述方法的步骤。

14.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。