CN116030295A

CN116030295A - 物品识别方法、装置、电子设备及存储介质

Info

Publication number: CN116030295A
Application number: CN202211255556.6A
Authority: CN
Inventors: 杨恒; 郑影; 高华; 王杨俊杰; 王湾湾; 尤江华
Original assignee: Clp Jinxin Software Shanghai Co ltd
Current assignee: Clp Jinxin Software Shanghai Co ltd
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2023-04-28

Abstract

本申请关于一种物品识别方法、装置、电子设备及存储介质，其中，方法包括：获取待识别物品的目标图像与至少一个描述字段；对目标图像进行特征提取，以得到待识别物品的图像特征；根据至少一个描述字段，确定待识别物品的文本特征；根据图像特征与文本特征，生成待识别物品对应的多个局部图文融合特征，进而生成待识别物品对应的目标图文融合特征，根据目标图文融合特征，确定待识别物品对应的海关编码，由此，根据物品的图像特征和文本特征融合得到的多个局部图文融合特征确定待识别物品对应的目标图文融合特征，并根据目标图文融合特征对物品进行识别，这种通过多模态数据融合的方式对物品进行识别，有效地提高了物品的海关编码的识别准确率。

Description

物品识别方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种物品识别方法、装置、电子设备及存储介质。

背景技术

目前，在物品出入境时，需要工作人员人工识别物品的海关编码，但是，随着互联网国际电商的崛起，每日通关的物品(如，商品)数据量非常巨大，识别物品的物品信息难度也越来越大。

相关技术中，在识别物品的海关编码时，采用物品的单一模态的数据进行识别，例如物品的图像数据，但由于物品页面的制作质量存在问题，仅依赖单一模态数据进行物品的海关编码识别，存在准确率低的问题。

发明内容

本申请提供一种物品识别方法、装置、电子设备及存储介质，以至少在一定程度上解决相关技术中的技术问题之一。本申请的技术方案如下：

根据本申请实施例的第一方面，提供一种物品识别方法，包括：获取待识别物品的目标图像与所述待识别物品的至少一个描述字段；对所述目标图像进行特征提取，以得到所述待识别物品的图像特征；根据所述至少一个描述字段，确定所述待识别物品的文本特征；根据所述图像特征与所述文本特征，生成所述待识别物品对应的多个局部图文融合特征，并根据所述多个局部图文融合特征，生成所述待识别物品对应的目标图文融合特征；根据所述目标图文融合特征对所述待识别物品进行类别预测，以确定所述待识别物品的预测类别，并根据所述待识别物品的预测类别，确定所述待识别物品对应的海关编码。

可选地，所述根据所述图像特征与所述文本特征，生成所述待识别物品对应的多个局部图文融合特征，并根据所述多个局部图文融合特征，生成所述待识别物品对应的目标图文融合特征：基于多个设定的投影矩阵，对所述图像特征与所述文本特征进行相乘，以得到多个局部图文融合特征；对所述多个局部图文融合特征进行求和池化，以得到全局图文融合特征；对所述全局图文融合特征进行矢量展开，以得到目标图文融合特征。

可选地，所述根据所述目标图文融合特征对所述待识别物品进行类别预测，以确定所述待识别物品的预测类别，并根据所述待识别物品的预测类别，确定所述待识别物品对应的海关编码，包括：采用经过训练的目标识别模型中的第一预测层对所述目标图文融合特征进行类别预测，以得到所述待识别物品所属的目标类别；采用所述目标识别模型中的第二预测层根据所述待识别物品所属的目标类别进行海关编码预测，以得到所述待识别物品的海关编码；其中，所述目标识别模型已学习到目标图文融合特征与海关编码之间的对应关系。

可选地，所述目标识别模型经过以下步骤训练得到：获取样本物品的样本图像以及至少一个样本描述字段，对所述样本物品进行类别标注，以得到所述样本物品的标注类别，并根据所述标注类别确定所述样本物品的标注海关编码；对所述样本图像进行特征提取，以得到所述样本物品的样本图像特征；根据所述至少一个样本描述字段，确定所述样本物品的样本文本特征；根据所述样本图像特征以及所述样本文本特征进行融合，以得到样本图文融合特征；采用初始的目标识别模型中的第一预测层对所述样本图文融合特征进行类别预测，以得到所述样本物品的预测类别；采用所述初始的目标识别模型中的第二预测层根据所述预测类别进行海关编码预测，以得到所述样本物品的预测海关编码；根据所述样本商品的预测类别和标注类别，以及标注海关编码和预测海关编码，对所述初始的目标识别模型进行训练。

可选地，所述根据所述样本商品的预测类别和标注类别，以及标注海关编码和预测海关编码，对所述初始的目标识别模型进行训练，包括：根据所述样本物品的预测类别和标注类别之间的差异，生成第一子损失函数值；根据所述样本物品的标注海关编码和预测海关编码之间的差异，生成第二子损失函数值；根据所述第一子损失函数值和所述第二子损失函数值，对所述初始的目标识别模型进行训练。

可选地，所述根据所述至少一个描述字段，确定所述待识别物品的文本特征，包括：对所述至少一个描述字段进行拼接，以得到描述文本；根据所述描述文本，确定所述待识别物品的文本特征。

可选地，所述根据所述描述文本，确定所述待识别物品的文本特征，包括：对所述描述文本进行分词处理，以得到所述描述文本中的多个分词；确定所述多个分词中是否存在处于设定的停用词列表中的目标分词；在所述多个分词中存在所述目标分词的情况下，将所述描述文本中的目标分词删除，以得到目标描述文本；对所述目标描述文本进行特征提取，以得到所述待识别物品的文本特征。

根据本申请实施例的第二方面，提供了另一种物品识别装置，包括：第一获取模块，用于获取待识别物品的目标图像与所述待识别物品的至少一个描述字段；第一提取模块，用于对所述目标图像进行特征提取，以得到所述待识别物品的图像特征；第一确定模块，用于根据所述至少一个描述字段，确定所述待识别物品的文本特征；第一融合模块，用于根据所述图像特征与所述文本特征，生成所述待识别物品对应的多个局部图文融合特征，并根据所述多个局部图文融合特征，生成所述待识别物品对应的目标图文融合特征；识别模块，用于根据所述目标图文融合特征对所述待识别物品进行类别预测，以确定所述待识别物品的预测类别，并根据所述待识别物品的预测类别，确定所述待识别物品对应的海关编码。

可选地，所述第一融合模块，用于：基于多个设定的投影矩阵，对所述图像特征与所述文本特征进行相乘，以得到多个局部图文融合特征；对所述多个局部图文融合特征进行求和池化，以得到全局图文融合特征；对所述全局图文融合特征进行矢量展开，以得到目标图文融合特征。

可选地，所述识别模块，用于：采用经过训练的目标识别模型中的第一预测层对所述目标图文融合特征进行类别预测，以得到所述待识别物品所属的目标类别；采用所述目标识别模型中的第二预测层根据所述待识别物品所属的目标类别进行海关编码预测，以得到所述待识别物品的海关编码；其中，所述目标识别模型已学习到目标图文融合特征与海关编码之间的对应关系。

可选地，所述目标识别模型经过以下模块训练得到：第二获取模块，用于：获取样本物品的样本图像以及至少一个样本描述字段，对所述样本物品进行类别标注，以得到所述样本物品的标注类别，并根据所述标注类别确定所述样本物品的标注海关编码；第二提取模块，用于对所述样本图像进行特征提取，以得到所述样本物品的样本图像特征；第二确定模块，用于根据所述至少一个样本描述字段，确定所述样本物品的样本文本特征；第二融合模块，用于根据所述样本图像特征以及所述样本文本特征进行融合，以得到样本图文融合特征；第一预测模块，用于采用初始的目标识别模型中的第一预测层对所述样本图文融合特征进行类别预测，以得到所述样本物品的预测类别；第二预测模块，用于采用所述初始的目标识别模型中的第二预测层根据所述预测类别进行海关编码预测，以得到所述样本物品的预测海关编码；训练模块，用于根据所述样本商品的预测类别和标注类别，以及标注海关编码和预测海关编码，对所述初始的目标识别模型进行训练。

可选地，所述训练模块，用于：根据所述样本物品的预测类别和标注类别之间的差异，生成第一子损失函数值；根据所述样本物品的标注海关编码和预测海关编码之间的差异，生成第二子损失函数值；根据所述第一子损失函数值和所述第二子损失函数值，对所述初始的目标识别模型进行训练。

可选地，第一确定模块，用于：对所述至少一个描述字段进行拼接，以得到描述文本；根据所述描述文本，确定所述待识别物品的文本特征。

可选地，第一确定模块，还用于：对所述描述文本进行分词处理，以得到所述描述文本中的多个分词；确定所述多个分词中是否存在处于设定的停用词列表中的目标分词；在所述多个分词中存在所述目标分词的情况下，将所述描述文本中的目标分词删除，以得到目标描述文本；对所述目标描述文本进行特征提取，以得到所述待识别物品的文本特征。

根据本申请实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如本申请第一方面实施例所述的物品识别方法。

根据本申请实施例的第六方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本申请第一方面实施例所述的物品识别方法。

根据本申请实施例的第七方面，提供一种计算机程序产品，包括：计算机程序，所述计算机程序被处理器执行时实现如本申请第一方面实施例所述的物品识别方法。

本申请的实施例提供的技术方案至少带来以下有益效果：

通过获取待识别物品的目标图像与待识别物品的至少一个描述字段；对所述目标图像进行特征提取，以得到所述待识别物品的图像特征；根据所述至少一个描述字段，确定所述待识别物品的文本特征；根据图像特征与文本特征，生成待识别物品对应的多个局部图文融合特征，并根据多个局部图文融合特征，生成待识别物品对应的目标图文融合特征；根据目标图文融合特征对待识别物品进行类别预测，以确定待识别物品的预测类别，并根据待识别物品的预测类别，确定待识别物品对应的海关编码，由此，根据物品的图像特征和文本特征融合得到的多个局部图文融合特征确定待识别物品对应的目标图文融合特征，并根据目标图文融合特征对物品的海关编码进行识别，这种通过多模态数据融合的方式对物品的海关编码进行识别，可有效地提高物品的海关编码的识别准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理，并不构成对本申请的不当限定。

图1是本申请第一实施例所示出的物品识别方法的流程示意图。

图2是本申请第二实施例所示出的物品识别方法的流程示意图。

图3是本申请第三实施例所示出的物品识别方法的流程示意图。

图4是本申请第四实施例所示出的物品识别方法的流程示意图。

图5为本申请实施例的物品识别方法的流程示意图。

图6是本申请实施例的多模态拆分双线性池化进行文本特征和图像特征融合的流程示意图。

图7是本申请实施例中目标识别模型预测阶段中待识别物品的图像特征与文本特征融合的示意图。

图8是本申请第五实施例所示出的物品识别装置的结构示意图。

图9是本申请一示例性实施例所示出的电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本申请的技术方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

各国海关、物品出入境管理机构确认物品的类别、进行物品分类管理、审核关税标准、检验物品品质指标的基本要素，就是进出口物品通用的身份证明——海关编码(HSCODE)。随着互联网国际电商的崛起，每日通关物品(如，商品)数据量非常巨大，对于海关工作人员来说，对物品的HSCODE识别并判断定税的难度越来越大，相关技术在识别商品的HSCODE时，一般仅采用物品的单一模态的数据进行识别，例如物品的图像数据，但由于物品页面的制作质量存在问题，仅依赖单一模态数据进行物品的HSCODE识别，存在准确率低的问题。

目前的多模态自回归模型，仍然是采用与自然语言处理的自回归模型类似的方法，重点在于如何将图像转换为类似于文本的特征。目前的主流方法是使用变分自编码器的特征提取部分，对图像进行卷积、池化等操作，最终得到向量矩阵，其目的是为了将原图转换为类似于文本的特征进行表示，然后将图像的各个特征进行逐行拼接起来，这样就取得了与文本特征类似的表示，进而，可以将图像特征如同文本特征一样输入到变换器结构中，根据图像特征输出原图对应的文字。虽然经过编码器(encoder)得到了图像的特征向量，但是上述方法将图像特征向量逐行拼接起来，单纯适用文本(一维特征)的自回归方法，因此，会使得图像在生成的过程中局部感受野发生破坏。

因此，针对上述问题，本申请提出一种物品识别方法、装置、电子设备及存储介质。

下面参考附图描述本申请实施例的物品识别方法、装置、电子设备及存储介质。图1是本申请第一实施例所示出的物品识别方法的流程示意图。需要说明的是，本申请实施的物品识别方法被配置于物品识别装置中来举例说明，物品识别装置可以应用于任一电子设备中，以使该电子设备可以执行物品识别功能。

其中，电子设备可以为任一具有计算能力的设备，例如可以为个人电脑(PersonalComputer，简称PC)、移动终端等，移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

如图1所示，该物品识别方法可以包括以下步骤：

步骤101，获取待识别物品的目标图像与待识别物品的至少一个描述字段。

作为本申请实施例的一种可能的实现方式，待识别物品的目标图像与至少一个描述字段可为用户预先发送的，比如，待识别物品的目标图像可为用户通过拍摄设备对待识别物品进行图像拍摄得到图像，至少一个描述字段可为用户根据物品的属性信息(如，尺寸、材料、重量、名称等)对物品进行描述的字段。

作为本申请实施例的另一种可能的实现方式，待识别物品的目标图像与至少一个描述字段可通过相关接口从目标平台(如，电商平台)中获取，用户可将待识别物品的目标图像和至少一个描述字段预先上传至目标平台。

步骤102，对目标图像进行特征提取，以得到待识别物品的图像特征。

在本申请实施例中，可通过特征提取算法或特征提取网络对目标图像进行特征提取，以得到该待识别物品的图像特征。其中，特征提取算法可为方向梯度直方图特征提取算法、尺度不变特征变换提取算法等，特征提取模型可为transformer特征提取网络。其中，需要说明的是，该特征提取网络可以包括文本特征提取网络以及图像特征提取网络。

举例而言，为了提高特征提取的准确性，以图像特征提取网络为transformer(如，基于bert预训练得到的transformer模型)网络中最具代表性的图像分类(VisionTransformer，简称VIT)网络为例，将待识别图像输入到VIT网络中，由于VIT网络的最后一层输出一般都是归一化后的结果，可能会有部分维度方向信息的损失，因此，为了降低维度方向信息的损失，可获取VIT网络中倒数第二个层输出的图像特征，其中，图像特征可为立体的特征图，图像特征的宽、高和通道维度可分别为W、H、C。

步骤103，根据至少一个描述字段，确定待识别物品的文本特征。

在本申请实施例中，可根据至少一个描述字段，确定对应的描述文本，可通过文本特征提取算法或文本特征提取模型对描述文件进行特征提取，得到待识别物品的文本特征。其中，文本特征提取算法可包括TF-IDF(词频-逆向文件频率)算法，词频算法等。文本特征提取网络可为transformer文本特征提取网络。

步骤104，根据图像特征与文本特征，生成待识别物品对应的多个局部图文融合特征，并根据多个局部图文融合特征，生成待识别物品对应的目标图文融合特征。

需要了解的是，由于相关技术中，将图像转换为类似于文本的特征，然后将图像特征向量逐行进行拼接，仅适用文本(一维特征)的自回归方法，可导致图像在转换为文本的过程中局部感受野发生破坏。

因此，为了避免图像在转换为文本的过程中局部感受野发生破坏，同时为了增强特征表达能力，在获取到图像特征和文本特征之后，可将图像特征与文本特征进行相乘，生成待识别物品对应的多个局部图文融合特征，并根据多个局部图文融合特征生成全局图文融合特征，并根据全局图文融合特征，生成用于识别物品的海关编码的目标图文融合特征。从而，目标图文融合特征不仅保留了图像特征中全部特征信息，而且增加了描述文本的文本特征的信息，可达到增强特征表达能力的作用，同时避免了图像的局部感受野发生破坏的问题。

还需要说明的是，上述局部图文融合特征的数量也可以是一个，即生成一个局部图文融合特征。

步骤105，根据目标图文融合特征对待识别物品进行类别预测，以确定待识别物品的预测类别，并根据待识别物品的预测类别，确定待识别物品对应的海关编码。

为了准确地获取待识别物品对应的海关编码，在获取到目标图文融合特征之后，可根据目标图文融合特征，对待识别物品的海关编码进行识别。作为一种示例，可根据目标图文融合特征对待识别物品进行类别预测，确定待识别物品的预测类别，进而，可根据待识别物品的预测类别，确定待识别物品对应的海关编码。

综上，通过获取待识别物品的目标图像与待识别物品的至少一个描述字段；对目标图像进行特征提取，以得到待识别物品的图像特征；根据至少一个描述字段，确定待识别物品的文本特征；根据图像特征与文本特征，生成待识别物品对应的多个局部图文融合特征，并根据多个局部图文融合特征，生成待识别物品对应的目标图文融合特征；根据目标图文融合特征对待识别物品进行类别预测，以确定待识别物品的预测类别，并根据待识别物品的预测类别，确定待识别物品对应的海关编码，由此，根据物品的图像特征和文本特征融合得到的多个局部图文融合特征确定待识别物品对应的目标图文融合特征，并根据目标图文融合特征对物品的海关编码进行识别，这种通过多模态数据融合的方式对物品的海关编码进行识别，可有效地提高物品的海关编码的识别准确率。

为了清楚地说明上述实施例中是如何根据图像特征与文本特征，生成待识别物品对应的多个局部图文融合特征，并根据多个局部图文融合特征，生成所述待识别物品对应的目标图文融合特征的，本申请提出另一种物品识别方法。

如图2所示，该物品识别方法可包括如下步骤：

步骤201，获取待识别物品的目标图像与待识别物品的至少一个描述字段。

步骤202，对目标图像进行特征提取，以得到待识别物品的图像特征。

步骤203，根据至少一个描述字段，确定待识别物品的文本特征。

步骤204，基于多个设定的投影矩阵，对图像特征与文本特征进行相乘，以得到多个局部图文融合特征。

为了避免图像特征的局部感受野发生破坏，同时为了达到增强特征表达能力的作用，作为一种示例，在得到图像特征和文本特征后，可基于多个设定的投影矩阵，对图像特征与文本特征进行相乘，以得到多个局部图文融合特征，并根据多个局部图文融合特征，生成全局图文融合特征，为了降低数据计算量，提高识别效率，可将全局图文融合特张矢量展开，生成一维的目标融合特征。

其中，基于多个设定的投影矩阵，对图像特征与文本特征进行相乘得到多个局部图文融合特征，具体可表现为如下公式：

z_i＝x^TW_iy；

其中，W表示设定的投影矩阵，x表示图像特征，y可表示文本特征，此外，为了避免过拟合，可对设定的投影矩阵分解为两个低秩的U和V矩阵，则z_i可表示为：

其中，k表示分解矩阵的维度，T表示矩阵转置，U和V可表示设定的三维的张量。

此外，根据前文可知，如果局部图文融合特征的数量为一个，则可以根据上述实施方式可知，设定一个对应的投影矩阵来确定对应的一个局部图文融合特征。其它实施方式就不再赘述了。

步骤205，对多个局部图文融合特征进行求和池化，以得到全局图文融合特征。

为了提高海关编码的识别准确性，可根据多个局部图文融合特征，生成全局图文融合特征，以提高图文融合特征的丰富性，作为一种示例，可对多个局部图文融合特征进行求和池化，以得到全局图文融合特征，即可采用维度变换操作对多个局部图文融合特征进行操作，即在点积的结果上使用求和池化操作，池化窗口大小为k，具体可表现为如下公式：

步骤206，对全局图文融合特征进行矢量展开，以得到目标图文融合特征。

为了降低数据计算量，以提高物品的海关编码的识别效率，可将全局图文融合特征进行矢量展开，得到目标图文融合特征，即将二维的全局图文融合特征进行展开，可得到一维的目标图文融合特征。

步骤207，根据目标图文融合特征对待识别物品进行类别预测，以确定待识别物品的预测类别，并根据待识别物品的预测类别，确定待识别物品对应的海关编码。

需要说明的是，步骤201至203、步骤207的执行过程可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

综上，通过基于多个设定的投影矩阵，对图像特征与文本特征进行相乘，以得到多个局部图文融合特征；对多个局部图文融合特征进行求和池化，以得到全局图文融合特征；对全局图文融合特征进行矢量展开，以得到目标图文融合特征；由此，对图像特征与文本特征进行相乘，得到多个局部图文融合特征，可避免图像特征的局部感受野发生破坏，根据多个局部图文融合特征生成全局图文融合特征，可提高了图文融合特征的丰富性，从而根据全局图文融合特征对应的一维的目标图文融合特征进行海关编码识别，可提高物品海关编码识别的准确性和效率。

为了清楚地说明上述实施例是如何目标图文融合特征对待识别物品进行类别预测，以确定待识别物品的预测类别，并根据待识别物品的预测类别，确定待识别物品对应的海关编码的，本申请提出另一种物品识别方法。

如图3所示，该物品识别方法可包括如下步骤：

步骤301，获取待识别物品的目标图像与待识别物品的至少一个描述字段。

步骤302，对目标图像进行特征提取，以得到待识别物品的图像特征。

步骤303，根据至少一个描述字段，确定待识别物品的文本特征。

步骤304，根据图像特征与文本特征，生成待识别物品对应的多个局部图文融合特征，并根据多个局部图文融合特征，生成待识别物品对应的目标图文融合特征。

步骤305，采用经过训练的目标识别模型中的第一预测层对目标图文融合特征进行类别预测，以得到待识别物品所属的目标类别。

为了提高物品的海关编码的识别准确性，在本申请实施例中，在得到目标图文融合特征后，可采用经过训练的目标识别模型对目标图文融合特征进行物品的海关编码的识别。

作为本申请实施例的一种可能的实现方式，在物品信息包括海关编码时，需要了解的是，一个物品可对应一个海关编码，一个海关编码可对应多个物品，该多个物品可为对应同一类别。比如，“口红A”和“口红B”对应的物品的类别为“口红”，“口红A”和“口红B”可对应同一个海关编码。

在本申请实施例中，可采用经过训练的目标识别模型中的第一预测层对目标图文融合特征进行类别预测，以得到待识别物品所属的目标类别。

步骤306，采用目标识别模型中的第二预测层根据待识别物品所属的目标类别进行海关编码预测，以得到待识别物品的海关编码。

接着，可采用目标识别模型中的第二预测层根据待识别物品所属的目标类别进行海关编码预测，从而可得到待识别物品的海关编码，其中，需要说明的是，经过训练的目标识别模型已学习到图文融合特征与海关编码之间的对应关系。

为了提高目标识别模型识别待识别物品对应的物品信息的准确性，可对目标识别模型进行训练，以使经过训练的目标识别模型已学习到图文融合特征与海关编码之间的对应关系，作为一种示例，获取样本物品的样本图像以及至少一个样本描述字段，对样本物品进行类别标注，以得到样本物品的标注类别，并根据标注类别确定样本物品的标注海关编码；对样本图像进行特征提取，以得到样本物品的样本图像特征；根据至少一个样本描述字段，确定样本物品的样本文本特征；根据样本图像特征以及样本文本特征进行融合，以得到样本图文融合特征；采用初始的目标识别模型中的第一预测层对样本图文融合特征进行类别预测，以得到样本物品的预测类别；采用初始的目标识别模型中的第二预测层根据预测类别进行海关编码预测，以得到样本物品的预测海关编码；根据样本商品的预测类别和标注类别，以及标注海关编码和预测海关编码，对初始的目标识别模型进行训练。

也就是说，作为一种示例，可从样本物品库中获取样本物品的样本图像以及该样本图像的至少一个样本描述字段，并对该样本进行类别标注，得到该样本物品的标注类别，根据该样本物品的标注类别确定该样本物品的标注海关编码，或者，将历史人工标注的类别以及海关编码的物品作为样本物品，进而，分别对样本图像以及至少一个样本描述字段对应的样本描述文本进行特征提取，以得到样本图像特征和样本文本特征，接着，将样本图像特征和样本文本特征进行融合，得到样本图文融合特征，并采用初始的目标识别模型中的第一预测层对该样本图文融合特征进行类别预测，以得到该样本物品的预测类别，接着采用初始的目标识别模型中的第二预测层根据预测类别进行海关编码预测，可得到样本物品的预测海关编码，最后，可根据样本商品的预测类别和标注类别，以及标注海关编码和预测海关编码，对初始的目标识别模型进行训练。

作为一种示例，根据样本物品的预测类别和标注类别之间的差异，生成第一子损失函数值；根据样本物品的标注海关编码和预测海关编码之间的差异，生成第二子损失函数值；根据第一子损失函数值和第二子损失函数值，对初始的目标识别模型进行训练。

也就是说，根据样本物品的预测类别和标注类别之间的差异，生成第一子损失函数值；根据样本物品的标注海关编码和预测海关编码之间的差异，生成第二子损失函数值，进而，根据设定的第一权重和第二权重，对第一子损失函数值和第二子损失函数值进行加权求和，得到损失函数值，从而根据损失函数值，对初始的目标识别模型进行系数调整，以使损失函数值最小化。

需要说明的是，上述仅以模型训练的终止条件为第一子损失值和第二子损失值的取值最小化进行示例，实际应用时，也可以设置其他的终止条件，比如，终止条件可以为训练次数达到设定次数，或者，终止条件可以训练时长达到设定时长，等等，本申请对此并不做限制。

需要说明的是，步骤301至304的执行过程可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

综上，通过采用经过训练的目标识别模型中的第一预测层对图文融合特征进行类别预测，以得到待识别物品所属的目标类别；采用目标识别模型中的第二预测层根据待识别物品所属的目标类别进行海关编码预测，以得到待识别物品的海关编码，由此，采用经过训练的目标识别模型对待识别物品进行识别，可提高待识别物品的海关编码的准确度。

为了清楚地说明上述实施例是如何根据至少一个描述字段，确定待识别物品的文本特征的，本申请提出另一种物品识别方法。

如图4所示，该物品识别方法可包括如下步骤：

步骤401，获取待识别物品的目标图像与待识别物品的至少一个描述字段。

步骤402，对目标图像进行特征提取，以得到待识别物品的图像特征。

步骤403，对至少一个描述字段进行拼接，以得到描述文本。

为了与图像特征进行融合的文本特征中包含待识别物品对应的全部的文本特征，在本申请实施例中，可对待识别物品的至少一个描述字段进行拼接，将拼接后的至少一个描述字段对应的文本，作为描述文本，对描述文本进行特征提取，得到文本特征，从而，与图像特征进行融合的文本特征可包含待识别物品的全部文本特征，提高了待识别物品的海关编码的识别准确性。

步骤404，根据描述文本，确定待识别物品的文本特征。

为了提高文本特征的准确性，作为一种示例，对描述文本进行分词处理，以得到描述文本中的多个分词；确定多个分词中是否存在处于设定的停用词列表中的目标分词；在多个分词中存在目标分词的情况下，将描述文本中的目标分词删除，以得到目标描述文本；对目标描述文本进行特征提取，以得到待识别物品的文本特征。

也就是说，可采用自然语言处理技术对描述文本进行分词处理，得到描述文本中的多个分词，进而，将多个分词分别查询设定的停用词列表，以确定多个分词中是否存在处于设定的停用词列表中的目标分词，在多个分词中存在目标分词的情况下，将描述文本中的目标分词进行删除，并将删除目标分词后的描述文本作为目标描述文本，接着，可采用文本特征提取算法或者采用文本特征提取模型对目标描述文本进行特征提取，以得到待识别物品的文本特征。

步骤405，根据图像特征与文本特征，生成待识别物品对应的多个局部图文融合特征，并根据多个局部图文融合特征，生成待识别物品对应的目标图文融合特征。

步骤406，根据目标图文融合特征对待识别物品进行类别预测，以确定待识别物品的预测类别，并根据待识别物品的预测类别，确定待识别物品对应的海关编码。

需要说明的是，步骤401至402、步骤405至406的执行过程可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

综上，通过对至少一个描述字段进行拼接，以得到描述文本；根据描述文本，确定待识别物品的文本特征，由此，可准确地获取待识别物品的文本特征。

在本申请的任一实施例中，以物品为电商商品为例，如图5所示，图5为本申请实施例的物品识别方法的流程示意图，在图5中，以待识别物品为待识别电商商品为例，可基于如下步骤实现本申请实施例的物品识别方法：

步骤1、将待识别电商商品图像输入到一个transformer特征提取网络中，得到输出的原始图像特征向量(图像特征)：以transformer网络中最具代表性的VIT网络为例，将待识别商品的图像输入到VIT网络中，由于考虑到最后一层输出一般都是归一化后的结果，会有部分维度方向信息的损失，因此，可得到倒数第二层输出的原始特征向量，其中，W、H、C可分别为原始图像特征向量的宽、高和通道维度；

步骤2、将商品图像描述文本输入到一个transformer文本特征学习模块中，得到输出的原始文本特征向量；可选地，可包括以下子步骤：

步骤21、将描述文本进行拼接并去停用词，将文本处理后结果输入到基于bert预训练的transformer模型中，训练文本分类识别模型，得到倒数第二层输出的向量作为原始文本特征向量；

步骤3、为了避免图像在转换为文本的过程中局部感受野发生破坏，同时为了增强特征表达能力，可基于原始图像特征向量和原始文本特征向量，计算得到融合文本和图像特征的向量；如图6所示，以原始图像特征向量为x(x可为多维的特征图，x∈R^m)，原始文本特征向量为y(y可为多维的特征图，y∈R^m)为例，在得到原始图像特征向量x和原始文本特征向量y后，可采用多模态拆分双线性池化(Multi-modal Factorized Bilinear，简称MFB)方式计算得到融合文本和图像特征的向量。

在图6中，MFB矩阵分解双线性池化方法公式推导具体如下，双线性融合生成多个局部图文融合特征z_i，可以表示为：z_i＝x^TW_iy；

其中，W表示设定的投影矩阵，x表示图像特征，y可表示文本特征，此外，为了避免过拟合，可对设定的投影矩阵分解为两个低秩的U和V矩阵，则zⁱ可表示为：

其中，k表示分解矩阵的维度，U和V为设定的三维的张量。

为了提高物品识别的准确性，可采用维度变换操作对多个局部图文融合特征进行操作，得到全局图文融合特征z，即在点积的结果上使用求和池化操作，池化窗口大小为k，具体可表现为如下公式：

为了降低数据计算量，提高识别效率，可将全局图文融合特征矢量展开为一维的融合特征向量(目标图文融合特征)。

由此，采用多模态拆分双线性池化对文本和图像特征的向量进行融合，不仅保留了原始图像特征的信息，而且增加了描述文本模态的特征信息，从而达到增强特征表达能力的作用，可提高待识别物品的海关编码的识别精度，同时还可避免了图像的局部感受野发生破坏的问题。

步骤4、将融合特征向量输入到目标识别模型中，输出最终的属性识别结果：以目标识别模型为全连接神经网络为例，将融合特征向量输入到全连接神经网络中，输出最终的海关编码识别结果。

本申请实施例中，可采用的目标识别模型可包括训练阶段和预测阶段，最终得到待识别电商商品图像的海关编码识别结果。

目标识别模型的训练阶段和预测阶段分别为：

其中训练阶段可包括：

通过获取样本商品的图像及对应文本字符串，并人工标注样本物品的类别和海关编码，将样本商品的图像输入到图像特征提取网络中，得到输出的样本图像特征向量，将文本字符串处理后输入到文本特征提取网络中，得到输出的样本文本特征向量，同时采用的损失函数来指导全连接网络。

预测阶段包括：如图7所示，将待识别图像输入到图像特征提取网络transformer中，将文本信息输入到文本特征提取网络transformer中，将图像与文本的提取结果进行向量融合，得到图文融合特征，将图文融合特征输入全连接网络中，输出最终的海关编码的识别结果。

为了更加直观地说明本申请实施例的物品识别方法的准确性，如表1所示，表1为多种复杂场景下采用单模态进行物品识别与本申请实施例中的多模态物品识别方法的准确率对比表，本申请可取得约8％的精度提升，本申请实施例的物品识别方法有效地提高了物品的海关编码识别的准确性。

表1单模态物品识别方法与多模态物品识别方法的准确率对比表

输入	训练数据量	评测数据量	准确率
				商品图像	900w+	40w+	78％
商品描述	900w+	40w+	86％
				商品图像+描述	900w+	40w+	94.5％

本申请实施例的物品识别方法，通过获取待识别物品的目标图像与待识别物品的至少一个描述字段；对目标图像进行特征提取，以得到待识别物品的图像特征；根据至少一个描述字段，确定待识别物品的文本特征；根据图像特征与文本特征，生成待识别物品对应的多个局部图文融合特征，并根据多个局部图文融合特征，生成待识别物品对应的目标图文融合特征；根据目标图文融合特征对待识别物品进行类别预测，以确定待识别物品的预测类别，并根据待识别物品的预测类别，确定待识别物品对应的海关编码；由此，根据物品的图像特征和文本特征融合得到的多个局部图文融合特征确定待识别物品对应的目标图文融合特征，并根据目标图文融合特征对物品的海关编码进行识别，这种通过多模态数据融合的方式对物品的海关编码进行识别，可有效地提高物品的海关编码的识别准确率。

与上述图1至图7实施例提供的物品识别方法相对应，本申请还提供一种物品识别装置，由于本申请实施例提供的物品识别装置与上述图1至图7实施例提供的物品识别方法相对应，因此在物品识别方法的实施方式也适用于本申请实施例提供的物品识别装置，在本申请实施例中不再详细描述。

图8是本申请第五实施例所示出的物品识别装置的结构示意图。如图8所示，该物品识别装置800可包括：第一获取模块810、第一提取模块820、第一确定模块830、第一融合模块840和识别模块850。

其中，第一获取模块810，用于获取待识别物品的目标图像与待识别物品的至少一个描述字段；第一提取模块820，用于对目标图像进行特征提取，以得到待识别物品的图像特征；第一确定模块830，用于根据至少一个描述字段，确定待识别物品的文本特征；第一融合模块840，用于根据图像特征与文本特征，生成待识别物品对应的多个局部图文融合特征，并根据多个局部图文融合特征，生成待识别物品对应的目标图文融合特征；识别模块850，用于根据目标图文融合特征对待识别物品进行类别预测，以确定待识别物品的预测类别，并根据待识别物品的预测类别，确定待识别物品对应的海关编码。

作为本申请实施例的一种可能的实现方式，第一融合模块840，用于：基于多个设定的投影矩阵，对图像特征与文本特征进行相乘，以得到多个局部图文融合特征；对多个局部图文融合特征进行求和池化，以得到全局图文融合特征；对全局图文融合特征进行矢量展开，以得到目标图文融合特征。

作为本申请实施例的一种可能的实现方式，识别模块850，用于：采用经过训练的目标识别模型中的第一预测层对目标图文融合特征进行类别预测，以得到待识别物品所属的目标类别；采用目标识别模型中的第二预测层根据待识别物品所属的目标类别进行海关编码预测，以得到待识别物品的海关编码；其中，目标识别模型已学习到目标图文融合特征与海关编码之间的对应关系。

作为本申请实施例的一种可能的实现方式，目标识别模型经过以下模块训练得到：第二获取模块、第二提取模块、第二确定模块、第二融合模块、第一预测模块和训练模块。

其中，第二获取模块，用于：获取样本物品的样本图像以及至少一个样本描述字段，对所述样本物品进行类别标注，以得到所述样本物品的标注类别，并根据标注类别确定样本物品的标注海关编码；第二提取模块，用于对样本图像进行特征提取，以得到样本物品的样本图像特征；第二确定模块，用于根据至少一个样本描述字段，确定样本物品的样本文本特征；第二融合模块，用于根据样本图像特征以及样本文本特征进行融合，以得到样本图文融合特征；第一预测模块，用于采用初始的目标识别模型中的第一预测层对样本图文融合特征进行类别预测，以得到样本物品的预测类别；第二预测模块，用于采用初始的目标识别模型中的第二预测层根据预测类别进行海关编码预测，以得到样本物品的预测海关编码；训练模块，用于根据样本商品的预测类别和标注类别，以及标注海关编码和预测海关编码，对初始的目标识别模型进行训练。

作为本申请实施例的一种可能的实现方式，训练模块，用于：根据样本物品的预测类别和标注类别之间的差异，生成第一子损失函数值；根据样本物品的标注海关编码和预测海关编码之间的差异，生成第二子损失函数值；根据第一子损失函数值和第二子损失函数值，对初始的目标识别模型进行训练。

作为本申请实施例的一种可能的实现方式，第一确定模块830，用于：对至少一个描述字段进行拼接，以得到描述文本；根据描述文本，确定待识别物品的文本特征。

作为本申请实施例的一种可能的实现方式，第一确定模块830，还用于：对描述文本进行分词处理，以得到描述文本中的多个分词；确定多个分词中是否存在处于设定的停用词列表中的目标分词；在多个分词中存在目标分词的情况下，将描述文本中的目标分词删除，以得到目标描述文本；对目标描述文本进行特征提取，以得到待识别物品的文本特征。

本申请实施例的物品识别方法，通过获取待识别物品的目标图像与待识别物品的至少一个描述字段；对目标图像进行特征提取，以得到待识别物品的图像特征；根据至少一个描述字段，确定待识别物品的文本特征；根据图像特征与文本特征，生成待识别物品对应的多个局部图文融合特征，并根据多个局部图文融合特征，生成待识别物品对应的目标图文融合特征；根据目标图文融合特征对待识别物品进行类别预测，以确定待识别物品的预测类别，并根据待识别物品的预测类别，确定待识别物品对应的海关编码，由此，根据物品的图像特征和文本特征融合得到的多个局部图文融合特征确定待识别物品对应的目标图文融合特征，并根据目标图文融合特征对物品的海关编码进行识别，这种通过多模态数据融合的方式对物品的海关编码进行识别，有效地提高了物品的海关编码的识别准确率。

在示例性实施例中，还提出了一种电子设备。

其中，电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行指令，以实现如前述任一实施例提出的物品识别方法。

作为一种示例，图9是本申请一示例性实施例所示出的电子设备900的结构示意图，如图9所示，上述电子设备900，还可以包括：

存储器910及处理器920，连接不同组件(包括存储器910和处理器920)的总线930，存储器910存储有计算机程序，当处理器920执行所述程序时实现本申请实施例所述的物品识别方法。

总线930表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备900典型地包括多种电子设备可读介质。这些介质可以是任何能够被电子设备900访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器910还可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)940和/或高速缓存存储器950。服务器900可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统960可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线930相连。存储器910可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块970的程序/实用工具980，可以存储在例如存储器910中，这样的程序模块970包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块970通常执行本申请所描述的实施例中的功能和/或方法。

电子设备900也可以与一个或多个外部设备990(例如键盘、指向设备、显示器991等)通信，还可与一个或者多个使得用户能与该电子设备900交互的设备通信，和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口992进行。并且，电子设备900还可以通过网络适配器993与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器993通过总线930与电子设备900的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备900使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器920通过运行存储在存储器910中的程序，从而执行各种功能应用以及数据处理。

需要说明的是，本实施例的电子设备的实施过程和技术原理参见前述对本申请实施例的物品识别方法的解释说明，此处不再赘述。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器，上述指令可由电子设备的处理器执行以完成上述任一实施例提出的物品识别方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现上述任一实施例提出的物品识别方法。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种物品识别方法，其特征在于，包括：

获取待识别物品的目标图像与所述待识别物品的至少一个描述字段；

对所述目标图像进行特征提取，以得到所述待识别物品的图像特征；

根据所述至少一个描述字段，确定所述待识别物品的文本特征；

根据所述图像特征与所述文本特征，生成所述待识别物品对应的多个局部图文融合特征，并根据所述多个局部图文融合特征，生成所述待识别物品对应的目标图文融合特征；

根据所述目标图文融合特征对所述待识别物品进行类别预测，以确定所述待识别物品的预测类别，并根据所述待识别物品的预测类别，确定所述待识别物品对应的海关编码。

2.根据权利要求1所述的方法，其特征在于，所述根据所述图像特征与所述文本特征，生成所述待识别物品对应的多个局部图文融合特征，并根据所述多个局部图文融合特征，生成所述待识别物品对应的目标图文融合特征，包括：

基于多个设定的投影矩阵，对所述图像特征与所述文本特征进行相乘，以得到多个局部图文融合特征；

对所述多个局部图文融合特征进行求和池化，以得到全局图文融合特征；

对所述全局图文融合特征进行矢量展开，以得到目标图文融合特征。

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标图文融合特征对所述待识别物品进行类别预测，以确定所述待识别物品的预测类别，并根据所述待识别物品的预测类别，确定所述待识别物品对应的海关编码，包括：

采用经过训练的目标识别模型中的第一预测层对所述目标图文融合特征进行类别预测，以得到所述待识别物品所属的目标类别；

采用所述目标识别模型中的第二预测层根据所述待识别物品所属的目标类别进行海关编码预测，以得到所述待识别物品的海关编码；

其中，所述目标识别模型已学习到目标图文融合特征与海关编码之间的对应关系。

4.根据权利要求3所述的方法，其特征在于，所述目标识别模型经过以下步骤训练得到：

获取样本物品的样本图像以及至少一个样本描述字段，对所述样本物品进行类别标注，以得到所述样本物品的标注类别，并根据所述标注类别确定所述样本物品的标注海关编码；

对所述样本图像进行特征提取，以得到所述样本物品的样本图像特征；

根据所述至少一个样本描述字段，确定所述样本物品的样本文本特征；

根据所述样本图像特征以及所述样本文本特征进行融合，以得到样本图文融合特征；

采用初始的目标识别模型中的第一预测层对所述样本图文融合特征进行类别预测，以得到所述样本物品的预测类别；

采用所述初始的目标识别模型中的第二预测层根据所述预测类别进行海关编码预测，以得到所述样本物品的预测海关编码；

根据所述样本商品的预测类别和标注类别，以及标注海关编码和预测海关编码，对所述初始的目标识别模型进行训练。

5.根据权利要求4所述的方法，其特征在于，所述根据所述样本商品的预测类别和标注类别，以及标注海关编码和预测海关编码，对所述初始的目标识别模型进行训练，包括：

根据所述样本物品的预测类别和标注类别之间的差异，生成第一子损失函数值；

根据所述样本物品的标注海关编码和预测海关编码之间的差异，生成第二子损失函数值；

根据所述第一子损失函数值和所述第二子损失函数值，对所述初始的目标识别模型进行训练。

6.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个描述字段，确定所述待识别物品的文本特征，包括：

对所述至少一个描述字段进行拼接，以得到描述文本；

根据所述描述文本，确定所述待识别物品的文本特征。

7.根据权利要求6所述的方法，其特征在于，所述根据所述描述文本，确定所述待识别物品的文本特征，包括：

对所述描述文本进行分词处理，以得到所述描述文本中的多个分词；

确定所述多个分词中是否存在处于设定的停用词列表中的目标分词；

在所述多个分词中存在所述目标分词的情况下，将所述描述文本中的目标分词删除，以得到目标描述文本；

对所述目标描述文本进行特征提取，以得到所述待识别物品的文本特征。

8.一种物品识别装置，其特征在于，包括：

第一获取模块，用于获取待识别物品的目标图像与所述待识别物品的至少一个描述字段；

第一提取模块，用于对所述目标图像进行特征提取，以得到所述待识别物品的图像特征；

第一确定模块，用于根据所述至少一个描述字段，确定所述待识别物品的文本特征；

第一融合模块，用于根据所述图像特征与所述文本特征，生成所述待识别物品对应的多个局部图文融合特征，并根据所述多个局部图文融合特征，生成所述待识别物品对应的目标图文融合特征；

识别模块，用于根据所述目标图文融合特征对所述待识别物品进行类别预测，以确定所述待识别物品的预测类别，并根据所述待识别物品的预测类别，确定所述待识别物品对应的海关编码。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的物品识别方法。

10.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至7中任一项所述的物品识别方法。